о возможности предсказания поведения пользователей

advertisement
6332
УДК 316.776.2
О ВОЗМОЖНОСТИ ПРЕДСКАЗАНИЯ
ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ
СОЦИАЛЬНОЙ СЕТИ FACEBOOK
Д.Н. Федянин
Институт проблем управления им. В.А. Трапезникова РАН
Россия, 117997, Москва, Профсоюзная ул., 65
E-mail: dfedyanin@inbox.ru
Ключевые слова: задачи управления, социальные сети, социально-экономические системы, мультиагентные системы, Facebook
Аннотация: В современном мире социальные сети представляют собой важную социально-экономическую систему. Важную роль в решении задач управления социальной
сетью играют модели, позволяющие прогнозировать активность пользователей. Активность может проявляться в виде размещения ими сообщений, удаление/добавление друзей, размещение постов и т.д. В данной работе проведено предварительное исследование
пяти гипотез о распределении пользователей по одному из типов их активности внутри
подмножеств, где пользователей имеют сходные показатели другого типа своей активности.
1. Введение
Активность в социальных сетях является важной частью жизни современного человека. На сегодняшний день только в социальной сети Facebook зарегистрировано в
мире более миллиарда человек [1], и их количество продолжает расти. При этом исследователи отмечают, что активность пользователей в этой сети может влиять на результат выборов [2] или деятельность коммерческих компаний. Многие крупные российские компании (в частности, банки) уже начали проводить специализированные маркетинговые акции среди пользователей социальных сетей [3]. Таким образом, социальные
сети являются интересным и важным объектом исследования (см., напр., [4-6]).
Среди задач управления, представляющих интерес для исследователей социальных
сетей, можно выделить следующие:
 Поиск правил функционирования сети, которые позволяют получить сеть с заданными параметрами;
 Поиск оптимальных алгоритмов принятия решения самими пользователями, гарантирующие получение ими максимального дохода от использования сети;
 Поиск подмножества пользователей, которые при воздействии на них смогут распространить информацию среди наибольшего количества других пользователей за
заданное время [4, 6].
Исчерпывающее решение каждой из описанных выше задач управления социальными сетями невозможно без одной или нескольких вспомогательных математических
моделей, описывающих поведение пользователей. Такие модели существуют (см.,
напр., обзор в работе [5]), однако многим из них присущи один или несколько следующих недостатков.
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г.
6333

Состояние социальной системы в модели описывается небольшим количеством агрегированных показателей. Поэтому не учитывается в полной мере все многообразие возможных типов пользователей и типов их взаимодействия.
 Изучение социальной системы ограничивается исследованием ее структуры без
учета внутреннего механизма принятия решения самими пользователями. В то время как эти пользователи могут существенно различаться и по информированности и
по ценностям, которые определят выбор ими своих действий.
 Использование модели для реальных задач требует идентификации огромного количества параметров (например, для сети Facebook их число может превышать
1012), что сложно или же даже принципиально невозможно выполнить.
Во многом эти недостатки обусловлены сложностью большим объемом данных
(миллионы пользователей) и вероятностным характером изменения параметров. Например, невозможно заранее абсолютно точно предсказать наличие или отсутствия
доступа к сети Интернет у заданного пользователя в заданный момент времени.
Сказанное выше показывает, что исследования, направленные на уточнение имеющихся моделей поведения пользователей социальных сетей играют ключевую роль для
решения задач управления.
Целью данной работы было исследование особенностей поведения пользователей,
объединенных в группы по близким значениям одного из количественных показателей
активности. Наиболее часто в исследовании было использовано объединение пользователей в группы по количеству размещенных ими за определенный промежуток времени
определенного типа сообщений в сети.
Описание постановки задачи и результатов исследования построено следующим
образом. В разделе 2.1описаны данные были использованы в исследовании, и указан их
источник. Раздел 2.2 содержит обозначения и краткие описания параметров, используемых в работе. В разделе 2.3 формулируются гипотезы о количественных показателях активности пользователей в каждой из групп. Основные результаты исследования
размещены в разделах 2.4-2.7. В заключении дается краткое описание полученных в
работе результатов.
2. Постановка и решение задачи
2.1. Описание используемых данных
В силу специфичности исследуемой области, перечислим основные понятия, используемые в исследовании при описании активности пользователей в сети Facebook.
 Личную страницу пользователя с информацией о его активностях за период пользования социальной сетью: посты, комментарии и пр. будем называть термином
«cтена».
 Под термином «пост» будем понимать отдельное сообщение, размещаемое пользователем на стене.
 «Комментарием» будем называть сообщение, следующее на стене после поста (или
другого комментария) в специальном подразделе, предназначенном для комментариев к нему. В большинстве случаев комментарий является реакцией на пост или
другой комментарий к этому посту.
Отметим, что пользователь обладает определенной свободой – он сам определяет,
размещать ли на своей стене пост, и будет ли он комментировать пост или комментарий другого пользователя. Размещенные пользователем посты и комментарии показывают его активность в социальной сети. В силу особенностей социальных сетей эти
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г.
6334
данные часто являются открытыми для чтения другими пользователями, и, в частности,
доступны для изучения исследовательскими коллективами.
Для проведения исследования использовались данные о постах и комментариях
пользователей сети Facebook за период с 1 по 14 января 2013 года. Данные были предоставлены для исследовательских целей Лабораторией Цифрового Общества
(digsolab.com).
Пользователи, не разместившие за этот период ни одного поста и ни одного комментария, игнорировались. Таким образом, общее количество доступных для исследования пользователей составило 1 650 151. Отметим, что наибольшее количество размещенных за этот период одним пользователем комментариев составило 944, хотя он
же разместил всего 98 постов. А наибольшее количество размещенных за этот же период одним пользователем постов составило 2284, но этот пользователь не разместил ни
одного комментария.
2.2. Обозначения и вспомогательные таблицы
Для описания постановки задачи и полученных результатов введем следующие
вспомогательные обозначения.
 N – множество пользователей социальной сети.
 xi – количество постов, размещенных в сети Facebook пользователем i  N
 yi –количество комментариев, размещенных в сети Facebook пользователем i  N
 yi – количество пользователей, посты которых, были прокомментированы пользователем i  N
 K i   2i 1 ; 2i  , M i   2i 1 ; 2i  , M i   2i 1 ; 2i  – подмножества возможных значений со
ответственно количества постов, комментариев и пользователей, посты которых
были прокомментированы.
N ij  {z  N : x z  K i , y z  M j } – множество пользователей, количество постов и

комментариев которых попадают в заданные подмножества
 } – множество пользователей, количество постов и
N ij  {z  N : x z  K i , y z  M
j

пользователей, посты которых были ими прокомментированы, попадают в заданные
подмножества

 } – множество пользователей, количество комментаN ij  {z  N : yz  M i , y z  M
j

риев которых и количество пользователей, посты которых были ими прокомментированы, попадают в заданные подмножества


nij  N ij , nij  N ij , nij  N ij – мощности соответствующих множеств
nix  {z  N : xz  K i } , niy  {z  N : yz  M i } – мощности агрегированных множеств

 m j  arg max nij – наиболее часто встречаемое среди пользователей значение параi

метра nij

Значения nij , nij , nij , nix , niy , m j j 1 , вычисленные на основании имеющихся данных,
приведены в Приложении.

XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г.
6335
2.3. Постановка задачи
Решаемой в работе задачей является исследование обоснованности следующих гипотез, которые были сформированы в результате предварительного изучения данных
(см. приложение).
Гипотеза 1. Большое число пользователей создали небольшое число постов, а
большое число постов создали очень мало пользователей.
Гипотеза 2. С большой вероятностью пользователь, разместивший небольшое количество постов, разместил за это же время не очень большое количество комментариев. А пользователь, разместивший большое количество постов, разместил за это же
время большое количество комментариев
Гипотеза 3. Для каждого из подмножеств пользователей, сгруппированных по количеству постов, количество таких пользователей в подмножестве не зависит от номера
подмножества.
Гипотеза 4. С большой вероятностью пользователь, разместивший небольшое количество комментариев, разместил за это же время не очень большое количество постов. А пользователь, разместивший большое количество комментариев, разместил за
это же время большое количество постов.
Гипотеза 5. Пользователь с заданным количеством постов, с наибольшей вероятностью напишет комментариев в количестве, линейно зависящем от количества его постов.
Ниже сформулированы эти гипотезы в виде, позволяющем проверить их на реальных данных простыми вычислениями, и в тоже время подготовить формулировку более
строгих. Важно отметить, что сформулированные даже в таком виде гипотезы, не интересны сами по себе и не совпадают в точности в теми, что написаны выше. Основная
задача на данном этапе исследования – создать необходимый фундамент для серьезного статистического изучения найденных зависимостей, если такие будут найдены. Таким образом, роль сформулированных ниже гипотез в построении модели поведения
пользователей в социальной сети – подготовка к более полному исследованию этой темы.
Гипотеза 1: существуют такие 1  0, c1  0 , что выполняется условие
21i  с1  nix  21i  с1 1 .
Гипотеза 2: не существует i такого, что выполняется условие
21 j  с1  nij  21 j  с1 1 .
Гипотеза 3: существуют такие  2 и 1 ,  3  0, c1 , c2  0 , что выполняется условие
 21 j  c1 , i  6
 21 j  c1 1 , i  6


nijy   2 2i , i  6, j  6 , nijy   2 2i  2 , i  6, j  6 .
23 j  c2 , i  6, j  i
23 j  c2 3 , i  6, j  i


Гипотеза 4: верно, что nij  f (i ) монотонна по i, где i – номер группы пользователей (см. раздел 2.2).
Гипотеза 5: верно, что m j j 1  mi i 1 для любых двух пользователей. Причем i и –
номера групп, в которые попадают пользователи, сгруппированные по количественных
показателям их активности (см. раздел 2.2).
2.4. Исследование гипотезы 1
Рассмотрим зависимость количества комментариев пользователей от количества их
постов. На качественном уровне можно сказать, что эта зависимость показывает, наXII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г.
6336
сколько активность пользователя в обсуждениях зависит от его активности в создании
новых тем для обсуждения.
На рис. 1 показан график зависимости логарифма количества комментариев пользователей от количества их постов.
Рис. 1. Зависимость логарифма количества комментариев пользователей от номера подмножества, в котором они размещены в соответствии с количеством их постов.
Полученная зависимость показывает обоснованность гипотезы 1 о границах возможных значений количества комментариев от количества постов, так как
1i  с1  log 2 nix  1  i  1  с1 ,и 1  0, c1  0
2.5. Исследование гипотез 2, 3
Рассмотрим зависимость количества комментариев пользователей от количества их
постов для каждого подмножества пользователей, количество постов которых принадлежит заданному множеству. На рис. 2 показаны графики логарифмов искомых зависимостей.
Рис. 2. Зависимость логарифма количества комментариев пользователей от номера подмножества, в который попадают количества их постов для каждого подмножества пользователей, количество постов которых принадлежит заданному множеству.
Полученные зависимости показывает обоснованность при i  1, j  12 гипотезы 3 о
границах возможных значений количества комментариев от количества постов
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г.
6337
 21 j  c1 , i  6
 21 j  c1 1 , i  6


nijy   2 2i , i  6, j  6 , nijy   2 2i  2 , i  6, j  6 .
23 j  c2 , i  6, j  i
23 j  c2 3 , i  6, j  i


Использование гипотезы 2 обосновано только для j<6.
2.6. Исследование гипотезы 4
Рассмотрим зависимость количества постов пользователей от количества их комментариев для каждого подмножества пользователей, количество комментариев которых принадлежит заданному множеству. На рис. 3 показаны логарифмы искомых зависимостей.
Рис. 3. Зависимость логарифма количества постов пользователей от количества их комментариев для каждого подмножества пользователей, количество постов которых принадлежит заданному множеству.
Полученные зависимости показывают необоснованность гипотезы 4.
2.7. Исследование гипотезы 5
Рассмотрим для каждого подмножества пользователей, количество постов которых
принадлежит заданному множеству зависимость количества комментариев пользователей от количества тех пользователей, посты которых были ими прокомментированы.
Данная зависимость показана на рис. 4.
Рис. 4. Зависимость количества комментариев пользователей от количества тех пользователей, посты которых были ими прокомментированы.
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г.
6338
Исследование данных показало, что среднее значение m j j 1 равно 0,84. При этом
характер зависимости показывает, что гипотеза о постоянстве отношения является
обоснованной.
3. Заключение
Проведенное исследование позволило выделить области параметров, при которых
проверяемые гипотезы могут быть верны.
 Гипотеза 1 может иметь место только при i  13
 Использование гипотезы 2 обосновано только для j<6.
 Гипотеза 3 возможно верна при i  1, j  12
 Гипотеза 4 не выполняется для i  1
 Гипотеза 5возможно верна.
Работа выполнена при поддержке Российского фонда фундаментальных исследований (13-07-00876а).
Приложение. Таблицы
Таблица 1. Значения
i
1
2
3
4
5
6
7
8
9
10
11
12
j
1
0 584694 410098 180035 164250 43171 11453 3959 1271 236 54 4 2
15005 19287 27752 23964 13859 6849 2484 910 232 70 9 3 Таблица 2. Значения
i
1
2
3
4
5
6
7
nij .
3
6288 8646 14382 15753 11254 5969 2480 936 302 79 13 1 4
5
6
7
8
9
2264
3532
6474
8687
7753
4951
2346
950
353
95
20
0
752
1190
2454
3931
4578
3660
2032
869
323
101
28
3
252
356
847
1526
2051
2133
1401
786
308
97
19
4
10
75
122
272
544
780
984
867
540
243
92
17
5
20
27
71
149
274
371
403
319
186
80
21
5
7 3 16 27 58 101 118 127 99 66 13 2 6
7
8
9
33
72
151
326
575
727
698
15
7
28
82
141
200
213
11
2 0 2 3 8 18 29 33 23 17 9 2 1
0
0
0
0
3
5
3
6
1
4
0
nij .
j
1
0 584694 410098 180035 164250 43171 11453 2
15006 19290 27753 23965 13860 6850 2484 3
8237 11660 19659 22563 17666 10652 5056 4
5
1165
1857
3854
6090
6277
4535
2331
208
277
825
1553
2075
2034
1343
1
0
0
5
20
37
36
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г.
10
1 0 0 0 1 4 4 11
0 0 0 0 0 0 0 0
0
0
0
0
0
0
6339
j
i
8
9
10
11
12
1
2
3
4
5
6
7
3959 1271 236 54 4 910 232 70 9 3 2193 766 224 42 6 988
406
126
35
4
641
272
93
23
3
487
217
91
21
5
206
140
60
13
2
6
7
0
0
1740
3056
4070
914
0
0
0
0
0
0
0
0
408
720
1555
1580
278
0
0
0
0
0
Таблица 3. Значения
8
9
41
38
32
9
2
10
7 4 2 1 0 11
0 0 0 0 0 0
0
0
0
0

nij .
j
i
1
1
2
3
4
5
6
7
8
9
10
11
12
2
3
0 0 0 110424 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4
5
0 0
0
8 0
0
66095 23757 6584
0 13668 10064
0 0 3273
0 0
0
0 0
0
0 0
0
0 0
0
0 0
0
0 0
0
0 0
0
Таблица 4. Значения
8
9
0
0
105
135
383
714
536
53
0
0
0
0
0 0 29 22 59 170 238 110 9 0 0 0 10
9
10
11
0 0 4 3 6 23 44 53 13 0 0 0 0
0
2
0
1
2
11
5
2
0
0
0
m j j 1 .
j
1
mj j
1
‐ 2
3
1 4
1 0,75 Таблица 5. Значения
5
6
7
8
11
0,8 0,833333 0,857143 0,75 0,777778 0,8 0,818182
nix .
i
1
x
i
n
2
3
4
5
6
7
8
9
10
11
24666 617857 462368 234619 204865 68210 23618 9432 3346 934 207
Таблица 6. Значения
12
29
niy .
i
1
y
i
n
2
3
4
5
1399225 110424 66103 37425 19921
6
9780
7
8
4541 1926
9
10
637 146 11
23
Список литературы
1.
http://www.forbes.ru/news/153245-kolichestvo-aktivnyh-polzovatelei-facebook-prevysilo-1-mlrd-chelovek
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г.
6340
2.
3.
4.
5.
6.
Williams, Christine B; Gulati, Girish J. The Political Impact of Facebook: Evidence From the 2006 Midterm
Elections and 2008 Nomination Contest // Politics and Technology Review. 2008. No.1. P. 11-21.
http://www.marketing.spb.ru/mr/media/smm_ru.htm
Bachrach Y., Kosinski M., Graepel Th., Kohli P., Stillwell D. Personality and Patterns of Facebook Usage //
WebSci '12 Proceedings of the 3rd Annual ACM Web Science Conference. 2012. P. 24-32.
Губанов Д.А., Новиков Д.А., Чхартишвили А.Г. Модели влияния в социальных сетях // Управление
большими системами. Вып. 27. М.: ИПУ РАН, 2009. С 205-281.
Zuev A. S., Fedyanin D. N. Models of opinion control for agents in social networks // Automation and Remote Control. 2012. Vol. 73, No. 10. P. 1753-1764
XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ
ВСПУ-2014
Москва 16-19 июня 2014 г.
Download