В данной работе - LMS - Высшая школа экономики

advertisement
ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«Национальный исследовательский университет
«Высшая школа экономики».
Факультет бизнес-информатики
Кафедра моделирования и оптимизации бизнес-процессов
ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА
На тему
Динамика кругов общения пользователей в корпоративных и социальных сетях обмена
сообщениями.
Студент группы № 243М
Шамшур Алексей______
Александрович________
(Ф.И.О.)
Научный руководитель
Доцент, Романов Дмитрий
Александрович_________
(должность, звание, Ф.И.О.)
Москва 2015
0
Оглавление
Оглавление ............................................................................................................... 1
Аннотация ................................................................................................................ 2
Abstract ..................................................................................................................... 3
Введение ................................................................................................................... 4
Обзор используемой литературы .......................................................................... 6
Основная часть ...................................................................................................... 14
Метрики............................................................................................................... 15
Исследование ......................................................................................................... 17
Исходные данные ............................................................................................... 17
Плотность сети ................................................................................................... 19
Отзывчивость сети ............................................................................................. 21
Степень распределения узла ............................................................................. 25
Коффициент кластеризации .............................................................................. 29
Сохранение связей ............................................................................................. 35
Заключение ............................................................................................................ 40
Источники .............................................................................................................. 41
1
Аннотация
В данной работе рассмотрены особенности формирования социальных
кругов в корпоративных и социальных сетях обмена сообщениями:
определены исходные доступные данные об обмене сообщениями между
пользователями, проведен их сравнительный анализ определены основные
факторы, оказывающие влияние на динамику таких кругов, выделены
функциональные зависимости, выявлены общие и уникальные черты, как для
социальных сетей, так и для корпоративных.
В первой части работы производится анализ существующих решений,
описываемых исследователями в статьях на схожие темы и выделяются
факторы, влияющие на развитие пользователей в сети, которые будут
использованы в дальнейшем исследовании.
Вторая же часть работы посвящена определению метрик, необходимых
для сравнения рассматриваемых сетей и анализу исходных данных.
Завершающая составляющая работы представляет из себя
исследование рассматриваемых сетей на основе выявленных в первой части
метрик и полученных в части 2 исходных данных, и выводы которые удалось
сделать на основе проведенных исследований.
Ключевые слова: социальные сети, корпоративные сети, социальный
круг.
2
Abstract
This work provides social circles formation peculiarities in social and
corporate e-mail networks.
Some basic send-message data from social and corporate networks will be
reflected here. This data will be analyzed and compared. The author also describes
the factors, influencing in the social circles formation, and emits the unique and
common features of networks.
The first part of the work is devoted to current solutions, portrayed by
investigators in close spheres and determination of the key factors influencing on
the user evolution in network.
In the second part of the work some metrics are defined, which will help to
compare networks with each other on the basis of the original data from the
networks, which is also determined is this part.
The last part provides investigations of social and corporate on the basis of
the metrics, defined in the first and second part, and the initial data, determined in
the second part, and the conclusions made after these investigations.
Key words: social networks, corporate e-mail networks, social circle.
3
Введение
Анализ социальных сетей занимает сегодня важное место в сфере
социальных исследований.
Исследование закономерностей образования связей между людьми в
сетях, характера изменения связей со временем позволяет по-новому
взглянуть на процессы развития сложных социальных, организационных и
экономических
систем.
Полученные
результаты
могут
найти
свое
применение во многих прикладных направлениях менеджмента, например, в
управлении бизнес-процессами.
Развитие социальных кругов – одна из реалий основных и
вспомогательных процессов в современных компаниях, однако существует
не так много способом понять, как именно это развитие происходит. На
данный момент можно начать его изучение с нуля, основываясь только на
том, как сотрудники взаимодействуют между собой внутри компании,
применяя
классические
методы,
такие
как
анализ
существующей
нормативной документаци в виде регламентов и должностных инструкций,
проведения интервью, анкетирования и т.п., однако это не всегда дает
желаемые результаты, и в таком случае можно обратиться к другим систем,
которые функционируют так же, как и компания, например, к социальным
сетям.
Почему же именно социальные сети привлекают внимание? Они
гораздо быстрее развиваются за счёт своей численности, которая зачастую
достигает миллионов человек, чем не может похвастаться почти ни одна
компания. Также нужно отметить, что данные из социальных сетей собирать
куда проще в виду их открытости и доступности. (за определенные
временные промежутки).
Целью данной работы является выявление общих черт, присущих как
корпоративным сетям обмена сообщениями, так и социальным сетям такого
типа.
4
Для того, чтобы понять, возможно ли это, потребуется:
 Проанализировать
существующую
литературу
на
тему
социальных сетей
 Проанализировать
существующие
методы
анализа
статистических данных, поступающих из соц. сетей.
 Найти и проанализировать открытые данные из социальных
сетей об обмене сообщениями между пользователями;
 Найти и проанализировать данные об обмене сообщениями
между сотрудниками из корпоративных сетей;
 Оценить сходства и различия между корпоративными и
социальными сетями
 Принять/отвергнуть основную гипотезу H0
Вся работа будет строиться вокруг основной гипотезы (H0):
Динамики кругов общения пользователей в социальных сетях и
сотрудников в корпоративных сетях обмена сообщениями схожи.
5
Обзор используемой литературы
В работе [1] рассматривалось поведение пользователей в социальных
сетях и в «офф-лайне». Было показано, что организация социальных
взаимоотношений в сетевой среде повторяет взаимоотношения в реальной
жизни.
В работе [2] рассматривалась возможность применить в обучении
сотрудников компании выявленные способы взаимодействия пользователей в
социальных сетях. Общим признаком социальных сетей является
взаимодействие между их участниками, осуществляемое в виде обмена
сообщениями. Аналогичные процессы обмена сообщениями существуют и в
организациях, где сотрудники в процессе совместной деятельности
обмениваются сообщениями по электронной почте. Известно множество
отличий между социальными сетями и сетями обмена сообщениями в
компании.
В работе [3] описаны основные понятия, общеизвестные и новые
подходы к анализу социальных сетей, некоторые интересные метрики,
которые понадобятся для анализа доступных данных.
Авторы работы [4] разрабатывают модель определения социальных
кругов, объединяющую в себе как саму эго-сеть для пользователя, так и его
сетевой «профиль». Для каждого круга определяются специфические для
него метрики, а так же меры «схожести» профилей.
Статья [5] посвящена анализу эго-сетей пользователей в социальных
сетях. Авторы проводят кластерный анализ для последующего сравнения
открытых данных из такого популярного источника, как Facebook, и
выявляют общие черты в поведении пользователей в сети и «оффлайн».
В статье [6] проводится анализ социальных сетей для нужд
социальной психологии. Авторы пытаются ответить на основные вопросы
6
этой науки при помощи данных из социальных сетей: истории
взаимодействия пользователей друг с другом.
Недавние исследования, описываемые в статье [7], на которой нужно
остановиться подробнее, так как из нее будет браться одна из метрик для
анализа, описывает строгую зависимость количества входящих
связей(Incoming Activity) от количества исходящих (Outgoing Activity),
иными словами «Отзывчивость сети». Так же данное исследование
интересно тем, что в нем проводится сравнительный анализ коммуникаций
внутри компании Enron (американская энергетическая компания) и внутри
соц. сетей FaceBook и Twitter. На рисунке 1.а приведен небольшой пример
взаимодействия между пользователями, из которого видно, что у
пользователя А есть 3 друга, каждому из которых он писал за определенный
промежуток времени.
Рис. 1.a. Пример взаимодействия между пользователями в сети
В результате исследования выясняется, что наиважнейшим актом
становления пользователя «интересным» окружающим(другим
пользователям) является его «Исходящая» активность.
Вот такой результат (таблица 1) был получен, например, для сети
Twitter за 2010 год:
7
Таблица 1.а. Twitter: процент пользователей с ответами
Авторы использовали корреляцию, как основную метрику для
сравнения, результат для сети компании Enron(рис. 1.b)
Рис. 1.b. График корреляции между количеством исходящих и входящих сообщений
Корреляция была определена, как высокая, хоть и отличалась в чуть
меньшую сторону от Facebook и Twitter.
Статья [8] также описывает различные подходы к анализу и
измерению сетей, в ней авторы предлагают сразу несколько метрик, удобных
для сравнения социальных и корпоративных сетей.
Авторы статьи исследовали большой объем данных сразу нескольких
сетей:
8
 Flickr
 YouTube
 LiveJournal
 Orkut
Данные об этих сетях представлены в таблице 1.b.
Таблица 1.b. Основные характеристика соц. сетей. Статья [8].
Как уже было отмечено, в работе рассмотрено несколько метрик,
некоторые из которых можно назвать полезными для сравнения социальных
и корпоративных сетей:
 Joint degree distribution (JDD)– «Степень совместного
распределения» – среднее по степеням узлов, с которыми связан каждый
конкретный узел – ее рост указывает на тенденцию узлов с высокой
степенью соединяться с узлами все с такой же высокой степенью. На
рисунках 1.с и 1.d изображено графическое представление такого
показателя в зависимости от количества исходящих связей:
9
Рис. 1.с. JDD для сетей Flickr и LiveJournal
Рис. 1. d. JDD для сетей Orkut и Youtube
Тенденция узлам с высокой степенью свободы находить связи с
узлами тоже с высокой степенью свободы наблюдается везде, за
исключением YouTube, но в целом, авторы заключают, что узлы с
высокой степенью стремятся образовывать связи с такими же узами,
образовывая так называемые ядра сети, а такое поведение сети YouTube
объясняют скорее природой взаимодействия между пользователями в ней.
 Clustering coefficient of the node (local clustering coefficient) –
локальный коэффициент кластеризации для узла с N связями – количество
связей между узлами, с которыми связан рассматриваемый узел в
отношении к количеству всех возможных связей между этими узлми,
иными словами – вероятность того, что данный между данным узлом и
10
образуется связь с кем-то из узлов соседей, с которыми до прямой связи
не было.
На рисунке 1.е. представлены локальные коэффициенты кластеризации
для всех рассматриваемых сетей в зависимости от количества исходящих
связей.
Рис. 1.е. Cl local для сетей Flickr, LiveJournal, Orkut и Youtube
Из такой картины становится видно, что у узлов с низкой
активностью (низким количеством исходящих связей) низкий локальный
коэффициент кластеризации, но тенденции к его изменению, в общем, схожи
у всех 4 сетей.
Работы [9 и 10] посвящены более сложным теоретическим аспектам
сравнения графов (сетей) между собой, среди них хочется выделить такие
метрики, как
 S-метрика (The S-Metric), говорящая о стремлении узлов находить связи с
такими же узлами, при схожей стеени активности
S(G) =
𝑠(𝐺)
𝑆𝑚𝑎𝑥(𝜔(𝐺))
Формула 1.а. S-метрика
Где S(G) определяется плотностью связей между узлами (рисунок 1.f):
11
Рисунок 1.f. Определение s(G) для графов.
А Smax(ω(G)) = max{s(G)|G ∈ G (ω)} иными словами максимально
возможное плотностью связей между узлами.
В итоге автор заключает S(G) ∈ [0; 1] и говорит, что, чем выше
значение данной метрики, тем сильнее стремятся узлы с большим
количеством связей образовывать связи с другом.
 Ассортативность – еще одна метрика для определения интенсивности
образования связей между узлами, схожими друг с другом.
2
1
[∑(𝑖,𝑗)∈ε 𝑑𝑖 𝑑𝑗 ] − [∑𝑖∈V 𝑑𝑖2 ] /𝑙
2
𝑟(𝑔) =
1 3
1 2 2
[∑𝑖∈V 2 𝑑𝑖 ] − [∑𝑖∈V 2 𝑑𝑖 ] /𝑙
Формала 1.b. Ассортативность
Где l – количество связей в сети,
di,dj – остаточные степени начала и конца i-го ребра
r(g) ∈ [-1; 1],
 При r<0 принято говорить о дисассортовивности сети, в которой узлы
(участники сети) стремятся образовывать связи с узлами, различными по
активности.
12
 При r> 0 принято говорить об ассортотивности сети, в которой узлы
стремятся образовывать связи с похожими узлами.
В работе автор заключает, что для сравнения сетей удобнее использовать
s-метрику, так как она принимает во внимание еще и возможные
конфигурации связей.
13
Основная часть
В данной работе будет проведен сравнительный анализ
статистических данных об обмене сообщениями между пользователями сетей
различной природы, предложен набор метрик, характеризующих ключевые
факторы, на основе которых будет проводиться сравнение. Основываясь на
результатах исследования, можно будет делать выводы о том, насколько
похоже поведение пользователей социальных сетей и поведение
обменивающихся почтой сотрудников компаний. А «схожесть» поведения
может служить основанием для рассуждений о «схожести» некоторых
процессов в социальных и корпоративных сетях.
14
Метрики
В качестве метрик для сравнения поведения пользователей были выбраны
следующие показатели:
 Плотность сети – это мера, описывающая степень связанности между
узлами(пользователями/сотрудниками) в сети или соотношение
наличествующих и возможных связей.
 Зависимость между средним количеством уникальных входящих
связей узла (Avg(K_in)) от количества его уникальных исходящих
связей (K_out) – «Отзывчивость сети», иными словами: чем большую
активность в сети вы будете проявлять, как пользователь,
обменивающийся сообщениями с другими пользователями, тем больше
других пользователей будет писать вам.
 Стремление участников сети находить подобных себе по активности
(K_out) пользователей (Joint degree distribution) «Степень
распределения узла» - этот показатель расскажет, насколько сильно
пользователи сети стремятся заводить связи с себе подобными с точки
зрения активности.
 Степень того, насколько плотно сгруппированы участники сети вокруг
других участников– глобальный коэффициент кластеризации
(«Коэффициент кластеризации для сети») . Определяется как
отношение количества замкнутых треугольников – связей к количеству
разомкнутых и замкнутых. (рис. 1.g)
 Вероятность того, что два узла(друга) корневого узла тоже будут
друзьями(иметь связь друг с другом) –(Cl local) «Коэффициент
кластеризации локальный». Когда коэффициент кластеризации
высокий, это означает, что граф чрезвычайно плотно сгруппирован
вокруг нескольких узлов; когда он низкий – это значит, что связи в
графе относительно равномерно распространены среди всех узлов.
15
Рис. 1.g. Пример нахождения Cl local(CC)
o Знакомые одного и того же человека с определенной
вероятностью тоже знакомы.
o Знакомые одного и того же человека разбиты на группы между
собой.
 Зависимость появления новых связей AVG(Nnew) и поддержания
старых AVG(Nold) от времени пребывания в сети пользователя (t).
Такую метрику можно считать новой в анализе соц. сетей, так как
прежде не проводилось исследований в таком направлении. Можно
предложить назвать такой показатель «Сохранение сязей».
В результате проведения исследования хотелось бы как-либо выделить
корпоративную сеть обмена сообщениями «IT» или же наоборот – отметить,
что она никак не выделяется среди социальных сетей, а ее участники (а
именно сотрудники компании) ведут себя подобно обычным пользователям
соц. сетей.
16
Исследование
Описанные выше метрики можно применить на исходных
данных, полученных из различных социальных сетей. Для данного
исследования будут взяты данные об известных социальных сетях, а так же
об одной из российских компаний.
Исходные данные
В своей работе я исследовал массивы данных, содержащие сведения
об обмене сообщениями между пользователями четырех сетей:

foto.ru – социальная сеть, в которой пользователи
оставляют комментарии под фотографиями друг друга.
Соответственно, можно считать оставленной пользователем
комментарий под чьей-либо фотографией исходящей связью, а
оставленный пользователю комментарий – входящей.

mamba.ru – социальная сеть для заведения знакомств.
Общение представлено входящими/исходящими сообщениями.

darydar.org – социальная сеть, реализующая сервис «отдам
в добрые руки». В данном случае пользователь размещает объявление,
а после с ним в переписку вступают другие участники.

IT – корпоративная сеть обмена сообщениями электронной
почты. Входящее сообщение – входящая связь, исходящее сообщение –
исходящая.
Каждый исследованный массив данных содержал информацию о дате
и времени отправки сообщения, уникальном идентификаторе пользователя,
отправляющего сообщение и уникальном идентификаторе пользователя,
принимающего сообщение. Первоначальное сравнение статистических
характеристик исследованных сетей представлено в таблице 1.
17
Сеть
Период
Кол-во
Кол-во
Кол-во
Кол-во
уникальны
уникальны
"писател "читателе
Всего
х узлов
х связей
ей"
связей
й"
04.06.2001foto.ru
21.02.2005
mamba.r
06.12.2003-
u
02.10.2008
16770
613780
12332
13900
1516584
332307
1748677
25190
330596
9945500
54822
4166943
53282
45951
17471766
801
78050
783
801
1496169
darydar.o
rg
IT
~2010
24.07.200615.06.2007
Таблица 1. Сводные данные о количественных характеристиках
исследуемых сетей. Здесь «писатель» - узел, отправивший хотя бы одно сообщение,
«читатель» - узел, получивший хотя бы одно сообщение.
Как видно из таблицы 1, количественные характеристики открытых
социальных сетей и корпоративной сети сильно различаются. Так,
количество узлов (людей, отправлявших и получавших сообщения) в
социальных сетях в десятки раз превышает количество узлов с сети
корпоративной электронной почты.
18
Плотность сети
Плотность сети (P) - это, как говорилось выше в главе «Метрики»
параметр, характеризующий силу связанности между объединениями
в сети или соотношение наличествующих и возможных связей. То
есть, для того, чтобы определить такой глобальный параметр,
потребуется найти количество уникальных связей(K) и разделить его
на количество всех возможных связей(Kmax).
Количество возможный связей в соц. сети (Kmax) равно
максимальному количеству связей в графе, ведь сеть и есть граф.
В таком случае будет верна формула:
𝑲𝒎𝒂𝒙 =
𝑵(𝑵 − 𝟏)
𝟐
Формула 2.а. Количество возможных связей.(Kmax)
Где N – количество узлов в графе (сети).
Для более точного определения такого показателя нужно
исключить повторяющиеся связи в сетях, то есть, если пользователь
А писал пользователю Б, а Б писал А, то это одна связь, а не две.
Применим формулу для нахождения плотности(P):
𝑷=
𝑲
𝑲𝒎𝒂𝒙
Формула 2.b – Нахождение плотности сети(P)
Сравним сети обмена сообщениями между собой по этому критерию,
исключив изначально повторяющиеся связи, потом посчитав количество
реальных связей, а затем определив по формуле количество возможных.
19
Таблица 2. Плотность сетей.
Уникальных
связей без
Сети
Плотность сети
повторений
Возможных
dar
0,0020187
3033567
mamba
0,0000273
1506680 55213804971
foto.ru
0,0039053
550958
141078003
IT
0,1564045
50112
320400
daru
1502698431
В результате такого простого исследования можно заключить, что
узлы в сети компании IT куда сильнее связаны между собой(0.15>>0.003),
чем в узлы в прочих социальных сетях, это ожидаемый результат для
компании, в которой имеется чёткая структура, по которой распределены
сотрудники и которая предполагает слаженное взаимодействие всех
структурных единиц между собой для достижения единых стратегичиских
целей компании.
20
Отзывчивость сети
Для определения отзывчивости сети требовалось рассмотреть
количество уникальны исходящих связей для каждого пользователя и
количество входящих связей, а потом усреднить количество входящих связей
по количеству исходящих.
Экспериментальные результаты приведены на рисунках 1-4. Было
обнаружено, что для всех исследованных четырех массивов данных на
интервале K_out ϵ [10;100] такая зависимость хорошо аппроксимируется
степенным законом:
(Avg(K_in))=A(K_out)α
Формула 2.с Отзывчивость сети.
Показатель α характеризует «уровень отзывчивости» пользователей
сети. Видно, что для всех четырех сетей α>0. Иными словами, чем большему
количеству уникальных контрагентов пользователь отправляет сообщений,
тем в среднем больше у него уникальных контрагентов, от которых он
получает сообщения. Поскольку α<1, не все исходящие уникальные связи
приводят к возникновению новых уникальных входящих связей. Это вполне
ожидаемый результат.
Неожиданным является тот факт, что максимального значения
уровень отзывчивости пользователей сети достигает не в коммерческой
компании (α = 0.7237), а в социальной сети “darydar.org” (α =0.8982). Таким
образом, сеть обмена сообщениями коммерческой компании не выделяется
среди прочих социальных сетей по критерию «уровень отзывчивости» сети.
21
AVG
(Kin)
Kout
Рис. 1. (Avg(K_in)) для сети foto.ru
AVG
(Kin)
Kout
Рис. 2. (Avg(K_in)) для сети mamba.ru
22
AVG
(Kin)
Kout
Рис. 3. (Avg(K_in)) для сети darydar.org
AVG
(Kin)
Kout
Рис. 4. (Avg(K_in)) для сети IT
23
Из сложившейся картины, как видно на рисунке 5, можно сделать
интересный вывод: несмотря на значительное различие количественных
характеристик, социальные и корпоративные сети обмена сообщениями
схожи с точки зрения развития социальных кругов пользователей, а это дает
почву для дальнейшего анализа их (пользователей) поведения.
AVG
(Kin)
Kout
Рис. 5. (Avg(K_in)) для всех сетей.
24
Степень распределения узла
Как видно на рисунках (Рис. 6, Рис. 7, Рис. 8, Рис. 9), каждой сети
свойственно стремление пользователей искать себе подобных, однако есть
некоторые различия. Например, для сети «Дару дар» нельзя однозначно
сказать, снижается ли это стремление с увеличением активности самих
пользователей. То есть, не смотря на то, сколькими связями обладает
пользователь, он одинаково будет стремиться найти таких же как и он сам.
Рис. 6 График степеней распределения узлов сети daru dar
Рис. 7 График степеней распределения узлов сети mamba
25
В сети «Мамба.ру» мы видим, что, чем большим числом связей
обладает пользователь, тем больше вероятность того, что искать он будет
тех, у кого связей меньше. Скорее всего это связано со спецификой ресурса.
(Например, статусность в виде количества друзй может играть свою роль при
поиске партнера(Мамба сеть для знакомств))
Рис. 8 График степеней распределения узлов сети foto.ru
Для фото.ру мы видим схожую картину, есть определенное
снижение минимальных значений функции на фоне примерного удержания
константы максимальными значениями.
26
Рис. 9 График степеней распределения узлов сети компании IT
А вот сеть компании «IT» отличается от своих «собратьев» в
первую очередь явно определенной тенденцией: чем больше связей имеет
каждый конкретный сотрудник, тем меньше связей определено для его
контрагентов. Тут можно судить о так называемых центрах принятия
решений, как о проявлениях такой зависимости, куда собираются письма из
многих отделов/департаментов компании. Определение таких узлов может
способствовать поиску «процессо-определяющих» точек внутри компании. В
пример можно привести службу «ServiceDesk» и ее работу, как один из
вспомогательных процессов компании. Туда собираются сообщения со
многих отделов/департаментов, у которых на порядок меньше связей.
27
В заключении анализа сетей на предмет стремления пользователей
образовывать связи с себе подобными можно явно выделить корпоративную
сеть обмена сообщениями среди всех прочих, как сеть, обладающую строгой
иерархией, определяемой через такой показатель, как «Степень
распределения узла».
Из рисунка видны конкретные различия между всеми сетями, на основе
которых и сделан такой вывод.
Рис. 10 График степеней распределения узлов все сетей
28
Коффициент кластеризации
Для нахождения коэффициентов кластеризации для пользователей
описанных сетей во внимание привлекались:
 Замкнутые треугольники связей (см. описание) –
количество связей между всеми друзьями узла за исключением самого
узла. Для более глубокого понимания определим локальный
коэффициент кластеризации для узла 171 сети «Дару дар»
o Их количество можно посчитать по прямым жирным
линиям(рис. 11) и равно 4
 Потенциальное и реальное количество связей между всеми
узлами-друзьями основного узла.
o Их количество можно посчитать по прямым и
пунктирным линиям (рис. 11.) и равно 10, его так же можно
вычислить и по формуле N*(N-1)/2 = 5*4/2=10, где N – это
количество друзе(связных узлов) головного узла 171.
Рассматриваемый узел 171 связан с узлами 578, 327, 280, 859, 1094.
CL local = 4/10 = 0.4, что не так уж и мало.
29
Рис. 11. Связи пользователя id = 171
Теперь определим такое число для всех остальных узлов.
Однако, из исходных данных видно, что количество контрагентов в
сети разное, поэтому, чтобы судить о сети в целом, нужно агрегировать
данные и взять среднее значение рассматриваемого показателя по какомулибо критерию, такому как, например, активность пользователей, а именно,
количество уникальных исходящих связей. То есть, у узла 171 количество
исходящих связей(Kout) = 5, значит, требуется найти все остальные такие
узлы с таким Kout и найти усредненное значение локального коэффициента
кластеризации (AVG(Cl local)) для них.
На представленных ниже графиках (рис. 12, 13, 14, 15)
представлены определения таких значений для всех доступных Kout на
промежутке [10; 1000] для 4 рассматриваемых сетей.
30
Рис. 12 Локальные коэффициента кластеризации сети daru dar (AVG(Cl local))
Рис. 13 Локальные коэффициента кластеризации сети mamba (AVG(Cl local))
31
Рис. 14 Локальные коэффициента кластеризации сети foro.ru (AVG(Cl local))
Рис. 15 Локальные коэффициента кластеризации сети компании IT (AVG(Cl local))
При рассмотрении такого показателя нужно учитывать не только
его максимальные значения, которые в своем большинстве преобладают у
компании IT, что, в принципе, неудивительно, ведь, чем больше человек
работает в компании, расширяя круг своих связей, тем больше вероятность
того, что ему придется столкнуться с контрагентами каждого знакомого узла,
такими как, например, заместители или просто такие же сотрудники,
выполняющие те же обязанности.
32
Поведение показателя в социальных сетях так же объяснимо, ведь в
социальных сетях люди объелиняются зачастую по группам, таким как
школа, ВУЗ, которые не могут быть объединены в бОльшую группу так, как
это происходит с отделами внутри одного департамента внутри одной
комании.
Однако, не смотря на различия в количественных показателях, у
сетей можно наблюдать общую тенденцию к снижениюзначений на
промежутке [100; 1000], что говорит нам о том, что, чем больше связей у вас,
как участника сети образуется, тем, все-таки, ниже вероятность того, что вам
удастся «познакомиться» со всеми остальными участниками тех или иных
групп, представителями которых являюстя ваши новые знакомые.
Рис. 16 AVG(Cl local) для всех сетей
Из общего графика (рис. 16) видно, чем именно выделяется
компания IT на фоне остальных сетей. Стоит обратить на особое внимание и
на то, что на промежутке Kout ∈ [10; 100] Cl local у сотрудников не
снижается, что говорит о том, что, вероятно, для любого нового сотрудника
возможность приобрести новые связи с расширением круга этих связей не
падает. Однако это не повод считать, что сеть компании IT в данном разрезе
отличается от социальных сетей, ведь все Cl local снижается для всех сетей,
нужно только иметь в виду, как именно такая тенденция описывается.
33
Можно заключить, что корпоративная сеть имеет бОльшие локальные
коэффициенты кластеризации почти на всем промежутке [10; 1000], что
говорит лишь о природе сети, в которой люди работают друг с другом и
вынуждены заводить знакомства, связанные с их деятельностью в компании.
Коэффициенты кластеризации для сетей в целом также
представлены в таблице 2.а, как дополнение к результатам исследования.
Таблица 2.а Коэффициенты кластеризации для сетей Daru dar, mamba, foto.ru, IT
Сеть
Daru dar
mamba
foto.ru
IT
Сl total
0,166110985
0,212898179
0,092718502
0,376445
34
Сохранение связей
Нужно помнить про то, как проявляется активность пользователей в
сети: они не только не только образуют связи с новыми узлами, но и
поддерживают их (связи) со старыми, а значит, это еще один критерий, по
которому можно оценить рассматриваемые сети.
Для того, чтобы оценить сети по такому критерию, потребуется
посчитать количество исходящих сообщений новым пользователям в
разбивке по какому-либо периоду (в данном случае – неделе) и определить
количество исходящих сообщений за эту неделю для новых пользователей
(Nnew) и старых (Nold).
Например, пользователь 171 проявлял следующую активность за 2
недели:
Таблица 2.b Активность пользователя 171 за первые 2 недели выбранного периода
1-ая Неделя
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Итог(количество):
ID_to(new)
67
89
225
275
285
327
450
503
749
837
853
854
949
1161
14
2-ая Неделя
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
ID_to(new)
32
54
135
196
238
286
318
325
410
416
664
717
747
776
875
965
1049
1070
18
ID_to(old)
67
275
285
450
503
749
837
854
949
1161
10
Как видно из таблицы 2 за первую неделю пользователь с id 171
приобрел 14 новых связей, за 2-ую – 18 и продолжил общение с 10 старыми,
35
то есть в сумме на тот момент он имел уже 28 связей, 10 из которых
являются новыми.
Однако для определения метрики для сети этого недостаточно,
нужно рассмотреть всех пользователей за все время, для которого
определены данные, поэтому за каждую неделю (dt) удобно взять среднее
количество старых (Nold) и новых(Nnew) связей. (рис. 17, 18, 19, 20)
Рис. 17 График сохранения связей сети «daru dar»
Рис. 18 График сохранения связей сети «Мамба» неполный в виду неактуальности
данных за первые недели.
36
Рис. 19 График сохранения связей сети foto ru
IT: AVG(Nold(t)); (Nnew(t))
1000
AVG(Knew, Kold)
y = 31.319x0.3841
100
IT:NEW
IT:AVG_OLD
10
Power (IT:AVG_OLD)
1
10
t(weeks)
Рис. 20 График сохранения связей компании IT
Можно рассматривать такие показатели, как Nold и Nnew для сетей
 По отдельности:
В таком случае Nold представляется, как функция, описываемая
степенным законом:
o Datu dar: y = 0,8746x1,2182
o mamba: y = 0,0097x2,0758
o foto.ru: y = 2,9628x0,8047
o IT: y = 31,319x0,3841
37
Теперь видно, что самый большой коэфициент у сети IT,
также она обладает самой низкой степень у аргумента t(время), что
выделяет ее среди прочих, как сеть с наиболее низкой скоростью
роста стремления пользователей поддерживать старые связи, однако
без общей картины (с влючением и Nnew) нельзя однозначно
судить о поведении людей.
 И вместе:
На основе представленных показателей можно выделить сеть
компании IT, как единственную, пользователи которой менее
охотно заводят новые связи, чем поддерживают старые, о чем
говорит убывающие со временем значения Nnew и возрастающие
на их фоне Nold.
Рис. 21 График сохранения связей для всех сетей.
Но такая картина не может дать полное представление о
сравниваемых сетях в виду своей безотносительности, поэтому в данном
случае разумным решением будет ввести показатель, при помощи которого
можно описать поведение пользователей в разрезе сохранения связей.
Предлагаю назвать его «Коэффициент сохранения связей» или просто
38
«Коэффициент сохранения» (Ks local), который является отношением
количества новых пользователей за каждый интервал dt(1 неделя) к
количеству сохраненных за тот же интервал (новые + старые).
Итого:
𝑲𝒔 𝒍𝒐𝒄𝒂𝒍 =
𝑵𝒏𝒆𝒘
𝑵𝒐𝒍𝒅
Формула 2.d Коэффициент сохранения связей.
Рис. 22 коэффициенты сохранения связей для всей сетей (Ks local)
С введением такого коэффициента становится видно, насколько
выделяется сеть foto.ru среди остальных (за исключением пика daru dar). В
остальном же видно, что все прочие соцеильные сети и IT весьма схожи: и
правда, тенденция к снижению данного показателя говорит нам о том, что со
временем пользователи начинают все меньше заводить новые связи,
погружаясь в операционную деятельность, будь то компания, или определяя
круг своих друзей или интересов, если речь идет о социальных сетях.
39
.
Заключение
В данной работе
 была проанализирована литература на тему анализа социальных сетей,
представленная в списке ниже,
 определены ключевые методы для их сравнения, описанные в начале
работы,
 выбраны, приведены к единому формату и проанализированы данные
из 3 социальных сетей и одной корпоративной,
 определены ключевые различия и общие черты для социальных и
корпоративных сетей.
Основываясь на проведенных исследованиях, можно заключить,
что, не смотря на свою корпоративную природу, компания IT , хоть и
выделяется чем-то среди прочих социальных сетей, как, например, более
плотным устройством связей между узлами и бОльшей вероятностью связи
между двумя незнакомыми узлами, можно сказать, что зачастую законы,
которым
подчиняются
социальные
сети,
распрастроняются
и
на
корпоративные, а значит можно принять поставленную в начале работы
гипотезу о схожести социальных и корпоративных сетей с поправками на
природу их существования, однако работа предоставляет широкий спектр
потенциальных исследований в будущем, посвященным сравнению таких
сетей, результаты которых лягут в основу новому витку в управлении
компанией.
40
Источники
1. V Arnaboldi, M Conti, A Passarella, F Pezzoni - Analysis of ego network
structure in online social networks.
2. M Škerlavaj, V Dimovski - Social network approach to organizational
learning, 2011.
3. Scott J. Social network analysis. – Sage, 2012.
4. Leskovec J., Mcauley J. J. Learning to discover social circles in ego
networks //Advances in neural information processing systems. – 2012. – С.
539-547.
5. Arnaboldi V. et al. Analysis of ego network structure in online social
networks //Privacy, Security, Risk and Trust (PASSAT), 2012 International
Conference on and 2012 International Confernece on Social Computing
(SocialCom). – IEEE, 2012. – С. 31-40.
6. Borgatti S. P. et al. Network analysis in the social sciences //science. – 2009.
– Т. 323. – №. 5916. – С. 892-895.
7. High Correlation between Incoming and Outgoing Activity: A Distinctive
Property of Online Social Networks? Diego Saez-Trumper, David Nettleton
Universitat Pompeu Fabra Barcelona, Spain
{diego.saez,david.nettleton}@upf.edu
8. Measurement and Analysis of Online Social Networks Alan Mislove MPI
for Software Systems Campus E1 4 Saarbrücken 66123, Germany
Massimiliano Marcon MPI for Software Systems Campus E1 4 Saarbrücken
66123, Germany Krishna P. Gummadi MPI for Software Systems Campus
E1 4 Saarbrücken 66123, Germany Peter Druschel MPI for Software
Systems Campus E1 4 Saarbrücken 66123, Germany Bobby Bhattacharjee
Computer Science Department University of Maryland College Park, MD
20742
9. Measuring the effectiveness of the S-metric to procedure better network
models. Isabel Beichl Brian Cloteaux Mathematical and Computational
41
Sciences Division National Institute of Standards and Technology 100
Bureau Drive, Stop 8910 Gaithersburg, MD 20899-8910, U.S.A
10.Towards a Theory of Scale-Free Graphs: Definition, Properties, and
Implications Lun Li, David Alderson, John C. Doyle, and Walter Willinger
42
Download