Слайд 1 - Конференции

advertisement
XII Всероссийская конференция
молодых ученых по математическому
моделированию и информационным
технологиям
АНАЛИЗ ДАННЫХ ТРАФИКА НАУЧНОГО
УЧРЕЖДЕНИЯ С ИСПОЛЬЗОВАНИЕМ
ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ
Рыговский И.А.
Научный руководитель:
д.т.н., проф. Родионов А. С.
г. Новосибирск, 04 октября 2011 г.
Анализ трафика. Гипотезы
IP трафик ИВМиМГ СО РАН, 2006-2010 г.,
Детализация – 5 мин, час, день.
• Выявление и анализ паттернов поведения пользователей
– поиск норма поведения, отклонение от нормы
– для различных интервалах времени
• Поиск кластеров пользователей
– относительно активности пользователей
– относительно количества потребляемого трафика
– для различных типов трафика
• Поиск сходств и различий между известными группами
пользователей
Подготовка данных
1) Индикаторный ряд – {0, 1}, где 0 – отсутствие активности,
1 – пользователь активен (с учётом порога активности).
2) Индивидуально для каждого пользователя - преобразование
трафика к числовой последовательности из{0..N} уровней;
с учётом «выбросов», удовлетворяющим неравенству
Маркова:
, где x – количество интервалов, K – трафик, E – мат.
ожидание
Анализ
• Sum, Avg, Sqr, Max, Min и т.д.
• Анализ последовательностей
Преобразование ряда: {1110001}
{101}
• Кластеризация, многомерный анализ
120
100
80
60
40
20
1
14
27
40
53
66
79
92
105
118
131
144
157
170
183
196
209
222
235
248
261
274
287
300
313
0
Индикаторный ряд
Отношение между уровнями
Предварительный анализ.
TCP трафик. Пользователи.
Индикаторный ряд
Многомерное шкалирование
Индикаторный ряд. Дни.
Иерархические методы
Дни (2006 - 2010). Метод Уорда.
Анализ поведения
Количество трафика:
1) Различное ПО
2) Различная частота пользования
3) Различная скорость канала
4) Различные незначимые для поведения предпочтения
5) ……….
Одинаковое поведение
- «выбросы»
- общая норма поведения
- вес наиболее отличным атрибутам
Предварительный анализ.
TCP трафик. Пользователи.
Цвет – реальный трафик.
Метрики
Между объектами:
Евклидово расстояние
Между кластерами:
• Расстояние между ближайшими/далёкими соседями
(объектами кластера)
• Среднее расстояние между кластерами
– Между центрами кластеров (среднее между центрами)
– С учётом объёмов кластеров (между центрами с учётом
размеров)
– С учётом всех объектов (используя координаты между
всеми парами точек)
• Метод Уорда (прирост суммы квадратов расстояний объектов
до центров кластера) Vk = ∑i∑j(xij - xjl)2
Параллельные вычисления
•
•
•
•
Sum, Avg, Sqr, Max, Min
Евклидово расстояние
K-means
Иерархическая кластеризация
S
Ускорение
линейное
K=20
K=5
N
Message Passing
• Single Link (метод ближайшего соседа)
A[N][(N/p] - расстояний между кластерами;
B[N] – соседний объект каждого кластера.
• Centroid, median (геометрические метрики)
С[N] - центры кластеров. Расчёт расстояний до них ,
для каждой итерации
• Ward (метод Уорда)
M[N][N] на каждой итерации
• Многомерное шкалирование
M[N][2] - точки в 2d пространство
Вычислительные ресурсы
• Центр параллельных вычислительных
технологий ГОУ ВПО “СибГУТИ”
1,44 TFLOPS
Спасибо за внимание!
Download