Анализ работы пользователя с Интернет

advertisement
ПРОГРАММНЫЙ КОМПЛЕКС ДЛЯ АНАЛИЗА
ОБРАЩЕНИЯ К ИНТЕРНЕТ-РЕСУРСАМ
АНАЛИЗ ВРЕМЕННЫХ ХАРАКТЕРИСТИК РАБОТЫ
ПОЛЬЗОВАТЕЛЯ С ИНТЕРНЕТ-РЕСУРСОМ
Н.В. Курмышев, М.И. Кривый, С.Н. Сидорин
Докладчик:
Курмышев Николай Васильевич,
к.т.н.,
проректор по НИТ НовГУ,
Тел. +7 (8162) 62 72 18
E-mail: Nikolai.Kurmishev@novsu.ru
Новгородский государственный университет
www.novsu.ru
Состав программного комплекса
• модуль сбора статистики;
• модуль выделения групп пользователей;
• модуль частичного анализа статистики;
• модуль построения сводных отчетов.
Программный комплекс для анализа обращения к Интернет-ресурсам
2
Модуль сбора статистики
Модуль сбора статистики собирает следующую информацию:
•
•
•
•
•
•
•
IP-адрес пользователя
Дата и время обращения к ресурсу
Тип запроса
Адрес запрашиваемого объекта
Адрес ссылающейся страницы
Информация о браузере пользователя
Объем полученных данных
Программный комплекс для анализа обращения к Интернет-ресурсам
3
Модуль выделения групп пользователей
Разделение производилось по IP-адресам пользователей. Для этих целей
была разработана база данных содержащая информацию о принадлежности
определенных IP адресов к соответствующим группам.
Группы пользователи было сформированы по региональным интернетпровайдерам:
•
•
•
•
•
•
Все пользователи
Новлайн
Новгород-Дейтаком
Максима Комьюникейшнс
Новгородский Государственный Университет имени Ярослава Мудрого
Остальные пользователи
Программный комплекс для анализа обращения к Интернет-ресурсам
4
Модуль частичного анализа статистики
Для каждого из полученных журналов обращений производились краткий
анализ статистики посещаемости ресурса. Для этих целей использовался
программный комплекс Webalizer.
Webalizer позволил выделить непоказтельные временные промежутки и
исключить их из дальнейшего анализа.
Программный комплекс для анализа обращения к Интернет-ресурсам
5
Модуль построения сводных отчетов
Для окончательного анализа информации по обращениям был разработан
программный комплекс вычисляющий количество обращений по минутам,
часам и дням для каждой из групп. Полученные данные были
экспортированы в Microsoft Excel, где в полуавтоматическом режиме были
выделены моменты пиковых нагрузок и построены сводные таблицы и
графики для этих промежутков времени.
Программный комплекс для анализа обращения к Интернет-ресурсам
6
Процесс работы пользователя с ресурсом
• Пользователь запрашивает страницу;
• Источник ресурса отправляет браузеру список объектов на странице;
• Браузер пользователя, последовательно посылает источнику запросы на
получение этих объектов;
• Источник передает запрашиваемые объекты данных браузеру;
• После получения всех необходимых объектов браузер формирует страницу.
События
Получение
списка объектов
на странице
Время
0
Запрос
страницы
Запрос и
получение
объектов
Анализ временных характеристик работы пользователя с Интернет-ресурсом
7
Детализированная временная диаграмма работы пользователя с ресурсом
Пользователь
События
Получение
списка объектов
на странице
Запрос
страницы
0
Запрос
объекта 2
Запрос
объекта 1
∆t1
Получение
объекта 2
Запрос и
получение
объектов
Получение
объекта 1
∆t2
Получение
объекта N
∆t4
∆tp2
Следующий
запрос
страницы
Время
∆tpn
∆tp1
∆t3
События
Источник
Посылка
списка
объектов
Получение
Посылка
запроса на
объекта 2
объект 2
Получение
Посылка
запроса на
объекта 1
объект 1
Получение
запроса на
страницу
0
∆t6
∆t5
∆t7
∆ti1
∆ti2
∆tz1
∆tz2
Посылка
объекта N
Время
∆tin
∆to2
∆T
Получение
следующего
запроса на
страницу
Получение
запросов и
пересылка
объектов
∆t8
∆ton
Анализ временных характеристик работы пользователя с Интернет-ресурсом
8
Разработка анализатора протоколов
Для получения и последующего анализа временных характеристик работы
пользователя с Интернет-ресурсом был создан программный анализатор
протоколов.
Данный анализатор путем обработки логов исследуемого прокси-сервера и
(или) сервера Интернет-ресурса позволяет получать различную
статистическую информацию, такую как:
•
•
•
•
общее количество обращений к ресурсу;
количество обращений по заданному временному интервалу (неделя, день, час);
временные задержки обработки различных запросов с точностью до 1 секунды;
позволяет производить фильтрацию обращений по IP адресам (отдельным
пользователям или группам пользователей) и многое другое.
Анализ полученной информации позволяет выявлять характеристики и
свойства исследуемых объектов (пользователей и ресурсов).
Анализ временных характеристик работы пользователя с Интернет-ресурсом
9
Время между запросами отдельных пользователей
Задача 1. Определение вида распределения плотности вероятности
времени между запросами к страницам Интернет-ресурса со стороны
отдельных пользователей.
Подопытные ресурсы различной тематики:
http://fota.mota.ru
http://forum.novgorod.ru
http://codenet.ru
http://novsu.ru
С помощью анализатора произведена обработка логов протоколов
доступа к этим ресурсам за один из произвольных дней их работы.
Построены распределения плотности вероятности времени между
запросами к страницам Интернет-ресурса со стороны отдельных
активных пользователей.
Активными считались пользователи, многократно обращающиеся к
ресурсу в заданном промежутке времени (15 минут).
Анализ временных характеристик работы пользователя с Интернет-ресурсом
10
Типичные результаты эксперимента
Количество
обращений
IP адрес пользователя - 62.181.40.142
ресурс - http://fota.m ota.ru
время 23:31:02 - 23:46:02
15
10
5
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
5
6
IP адрес пользователя - 193.219.77.93
ресурс - http://fota.mota.ru
время 23:17:23 - 23:32:23
Количество
обращений
Время, с
15
10
5
0
1
2
3
4
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Время, с
10
5
0
1
2
3
4
5
6
7
IP адрес пользователя - 66.249.66.147
ресурс - http://forum.novgorod.ru
8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 время 13:02:10 - 13:17:10
Время, с
Количество
обращений
Количество
обращений
IP адрес пользователя - 213.148.165.46
ресурс - http://forum.novgorod.ru
время 12:24:36 - 12:39:36
10
8
6
4
2
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Время, с
Анализ временных характеристик работы пользователя с Интернет-ресурсом
11
Время между запросами отдельных пользователей
Анализ более чем ста результатов экспериментов (различные дни,
временные промежутки, пользователи) на нормальность вида полученных
распределений по критерию Пирсена показал, что они соответствуют
нормальному распределению случайной величины.
Таким образом, можно считать, что интервалы между пользовательскими
запросами к источнику ресурса имеют нормальное распределение с
индивидуальными для каждого пользователя и ресурса характеристиками:
математическим ожиданием и стандартным отклонением.
Анализ временных характеристик работы пользователя с Интернет-ресурсом
12
Время между запросами отдельных пользователей
Таким образом, функцию распределения времени между запросами
пользователя можно выразить через функцию Лапласа:
 Tn -  n
F Tn   Ф 
 n
Ф(x) 
1
2
x
e
z2

2



dz

n – номер пользователя;
∆Tn – случайная, нормально распределенная величина интервала времени
между пользовательскими запросами;
µn – математическое ожидание интервала времени между запросами;
σn – стандартное отклонение интервала времени между запросами.
Анализ временных характеристик работы пользователя с Интернет-ресурсом
13
Время между запросами группы пользователей
Задача 2. Определение вида распределения плотности вероятности
времени между запросами к страницам Интернет-ресурса со стороны группы
пользователей.
Если исходить из того, что плотность распределения запросов от отдельных
пользователей имеет нормальный вид, то можно предполагать, что
плотность запросов от большого числа одновременно работающих
пользователей будет иметь также нормальный вид.
Анализ временных характеристик работы пользователя с Интернет-ресурсом
14
Запросы от нескольких пользователей
Активность
Пользователь 1
Запрос 1
Запрос 3
Запрос 2
Активность
Время
Пользователь 2
Запрос 5
Запрос 4
Запрос 6
Время
Активность
Пользователь 3
Запрос 7
Запрос 8
Запрос 9
Время
Пользовательские запросы к источнику ресурса
Активность
Запрос 7
Запрос 4
Запрос 1
Запрос 8
Запрос 5
Запрос 2
Запрос 9
Запрос 6
Запрос 3
Время
Проекция пользовательских запросов на единую временную ось
Анализ временных характеристик работы пользователя с Интернет-ресурсом
15
Время между запросами группы пользователей
Применяя центральную предельную теорему Линдеберга можно показать,
что общая частота потока запросов будет иметь нормальное
распределение:
  N ( M , D)
, при
n 
, где
n
M [ ]  M   mi
i 1
n
D[ ]  D   d i2
i 1
Здесь N (M, D) – обозначение нормального распределения случайной
величины с математическим ожиданием M и дисперсией D.
Анализ временных характеристик работы пользователя с Интернет-ресурсом
16
Время между запросами группы пользователей
Для подтверждения правильности сделанных выводов была проведена
вторая серия экспериментов с теми же Интернет-ресурсами.
С помощью анализатора произведена обработка логов протоколов доступа
к этим ресурсам за один час их пиковой (максимальной) загрузки.
Обработка производилась с дискретностью в 1 минуту.
В ходе обработки подсчитывалось количество запросов за каждую минуту
этого часа, рассчитывались плотность распределения количества запросов
в этом часовом диапазоне, математическое ожидание и стандартное
отклонение количества запросов в минуту на этом часовом диапазоне.
Анализ временных характеристик работы пользователя с Интернет-ресурсом
17
Результаты эксперимента
Типичные результаты эксперимента для ресурса http://mota.ru в час пик:
2500
2000
1500
1000
500
57
54
51
48
45
42
39
36
33
30
27
24
21
18
15
9
12
6
3
0
0
Количество обращений за каждую минуту в течение часа пик
500
400
300
200
100
0
-100
-200
-300
-400
Стандартное отклонение за каждую минуту
Анализ временных характеристик работы пользователя с Интернет-ресурсом
18
Подтверждение теоретических выводов
График плотности
распределения частоты потока
запросов пользователей для
данного эксперимента:
Результаты проведенных экспериментов подтверждают, что для актуальных
(с большим числом пользователей) Интернет-ресурсов (и особенно в часы
их максимальной загрузки) распределение частоты потока запросов
пользователей имеет нормальный вид, у которого математическое
ожидание намного превышает стандартное отклонение.
Т.е. для подобных ресурсов можно считать, что поток запросов имеет
практически постоянную (мало изменяемую) частоту в пределах часового
интервала. Заметные изменения и колебания этой частоты могут
происходить при переходе к ночному времени (если ресурс имеет
ограниченную географию пользователей).
Анализ временных характеристик работы пользователя с Интернет-ресурсом
19
Спасибо за внимание!
Докладчик:
Курмышев Николай Васильевич,
к.т.н.,
проректор по НИТ НовГУ,
Тел. +7 (8162) 62 72 18
E-mail: Nikolai.Kurmishev@novsu.ru
Новгородский государственный университет
www.novsu.ru
Download