6332 УДК 316.776.2 О ВОЗМОЖНОСТИ ПРЕДСКАЗАНИЯ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ СОЦИАЛЬНОЙ СЕТИ FACEBOOK Д.Н. Федянин Институт проблем управления им. В.А. Трапезникова РАН Россия, 117997, Москва, Профсоюзная ул., 65 E-mail: dfedyanin@inbox.ru Ключевые слова: задачи управления, социальные сети, социально-экономические системы, мультиагентные системы, Facebook Аннотация: В современном мире социальные сети представляют собой важную социально-экономическую систему. Важную роль в решении задач управления социальной сетью играют модели, позволяющие прогнозировать активность пользователей. Активность может проявляться в виде размещения ими сообщений, удаление/добавление друзей, размещение постов и т.д. В данной работе проведено предварительное исследование пяти гипотез о распределении пользователей по одному из типов их активности внутри подмножеств, где пользователей имеют сходные показатели другого типа своей активности. 1. Введение Активность в социальных сетях является важной частью жизни современного человека. На сегодняшний день только в социальной сети Facebook зарегистрировано в мире более миллиарда человек [1], и их количество продолжает расти. При этом исследователи отмечают, что активность пользователей в этой сети может влиять на результат выборов [2] или деятельность коммерческих компаний. Многие крупные российские компании (в частности, банки) уже начали проводить специализированные маркетинговые акции среди пользователей социальных сетей [3]. Таким образом, социальные сети являются интересным и важным объектом исследования (см., напр., [4-6]). Среди задач управления, представляющих интерес для исследователей социальных сетей, можно выделить следующие: Поиск правил функционирования сети, которые позволяют получить сеть с заданными параметрами; Поиск оптимальных алгоритмов принятия решения самими пользователями, гарантирующие получение ими максимального дохода от использования сети; Поиск подмножества пользователей, которые при воздействии на них смогут распространить информацию среди наибольшего количества других пользователей за заданное время [4, 6]. Исчерпывающее решение каждой из описанных выше задач управления социальными сетями невозможно без одной или нескольких вспомогательных математических моделей, описывающих поведение пользователей. Такие модели существуют (см., напр., обзор в работе [5]), однако многим из них присущи один или несколько следующих недостатков. XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г. 6333 Состояние социальной системы в модели описывается небольшим количеством агрегированных показателей. Поэтому не учитывается в полной мере все многообразие возможных типов пользователей и типов их взаимодействия. Изучение социальной системы ограничивается исследованием ее структуры без учета внутреннего механизма принятия решения самими пользователями. В то время как эти пользователи могут существенно различаться и по информированности и по ценностям, которые определят выбор ими своих действий. Использование модели для реальных задач требует идентификации огромного количества параметров (например, для сети Facebook их число может превышать 1012), что сложно или же даже принципиально невозможно выполнить. Во многом эти недостатки обусловлены сложностью большим объемом данных (миллионы пользователей) и вероятностным характером изменения параметров. Например, невозможно заранее абсолютно точно предсказать наличие или отсутствия доступа к сети Интернет у заданного пользователя в заданный момент времени. Сказанное выше показывает, что исследования, направленные на уточнение имеющихся моделей поведения пользователей социальных сетей играют ключевую роль для решения задач управления. Целью данной работы было исследование особенностей поведения пользователей, объединенных в группы по близким значениям одного из количественных показателей активности. Наиболее часто в исследовании было использовано объединение пользователей в группы по количеству размещенных ими за определенный промежуток времени определенного типа сообщений в сети. Описание постановки задачи и результатов исследования построено следующим образом. В разделе 2.1описаны данные были использованы в исследовании, и указан их источник. Раздел 2.2 содержит обозначения и краткие описания параметров, используемых в работе. В разделе 2.3 формулируются гипотезы о количественных показателях активности пользователей в каждой из групп. Основные результаты исследования размещены в разделах 2.4-2.7. В заключении дается краткое описание полученных в работе результатов. 2. Постановка и решение задачи 2.1. Описание используемых данных В силу специфичности исследуемой области, перечислим основные понятия, используемые в исследовании при описании активности пользователей в сети Facebook. Личную страницу пользователя с информацией о его активностях за период пользования социальной сетью: посты, комментарии и пр. будем называть термином «cтена». Под термином «пост» будем понимать отдельное сообщение, размещаемое пользователем на стене. «Комментарием» будем называть сообщение, следующее на стене после поста (или другого комментария) в специальном подразделе, предназначенном для комментариев к нему. В большинстве случаев комментарий является реакцией на пост или другой комментарий к этому посту. Отметим, что пользователь обладает определенной свободой – он сам определяет, размещать ли на своей стене пост, и будет ли он комментировать пост или комментарий другого пользователя. Размещенные пользователем посты и комментарии показывают его активность в социальной сети. В силу особенностей социальных сетей эти XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г. 6334 данные часто являются открытыми для чтения другими пользователями, и, в частности, доступны для изучения исследовательскими коллективами. Для проведения исследования использовались данные о постах и комментариях пользователей сети Facebook за период с 1 по 14 января 2013 года. Данные были предоставлены для исследовательских целей Лабораторией Цифрового Общества (digsolab.com). Пользователи, не разместившие за этот период ни одного поста и ни одного комментария, игнорировались. Таким образом, общее количество доступных для исследования пользователей составило 1 650 151. Отметим, что наибольшее количество размещенных за этот период одним пользователем комментариев составило 944, хотя он же разместил всего 98 постов. А наибольшее количество размещенных за этот же период одним пользователем постов составило 2284, но этот пользователь не разместил ни одного комментария. 2.2. Обозначения и вспомогательные таблицы Для описания постановки задачи и полученных результатов введем следующие вспомогательные обозначения. N – множество пользователей социальной сети. xi – количество постов, размещенных в сети Facebook пользователем i N yi –количество комментариев, размещенных в сети Facebook пользователем i N yi – количество пользователей, посты которых, были прокомментированы пользователем i N K i 2i 1 ; 2i , M i 2i 1 ; 2i , M i 2i 1 ; 2i – подмножества возможных значений со ответственно количества постов, комментариев и пользователей, посты которых были прокомментированы. N ij {z N : x z K i , y z M j } – множество пользователей, количество постов и комментариев которых попадают в заданные подмножества } – множество пользователей, количество постов и N ij {z N : x z K i , y z M j пользователей, посты которых были ими прокомментированы, попадают в заданные подмножества } – множество пользователей, количество комментаN ij {z N : yz M i , y z M j риев которых и количество пользователей, посты которых были ими прокомментированы, попадают в заданные подмножества nij N ij , nij N ij , nij N ij – мощности соответствующих множеств nix {z N : xz K i } , niy {z N : yz M i } – мощности агрегированных множеств m j arg max nij – наиболее часто встречаемое среди пользователей значение параi метра nij Значения nij , nij , nij , nix , niy , m j j 1 , вычисленные на основании имеющихся данных, приведены в Приложении. XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г. 6335 2.3. Постановка задачи Решаемой в работе задачей является исследование обоснованности следующих гипотез, которые были сформированы в результате предварительного изучения данных (см. приложение). Гипотеза 1. Большое число пользователей создали небольшое число постов, а большое число постов создали очень мало пользователей. Гипотеза 2. С большой вероятностью пользователь, разместивший небольшое количество постов, разместил за это же время не очень большое количество комментариев. А пользователь, разместивший большое количество постов, разместил за это же время большое количество комментариев Гипотеза 3. Для каждого из подмножеств пользователей, сгруппированных по количеству постов, количество таких пользователей в подмножестве не зависит от номера подмножества. Гипотеза 4. С большой вероятностью пользователь, разместивший небольшое количество комментариев, разместил за это же время не очень большое количество постов. А пользователь, разместивший большое количество комментариев, разместил за это же время большое количество постов. Гипотеза 5. Пользователь с заданным количеством постов, с наибольшей вероятностью напишет комментариев в количестве, линейно зависящем от количества его постов. Ниже сформулированы эти гипотезы в виде, позволяющем проверить их на реальных данных простыми вычислениями, и в тоже время подготовить формулировку более строгих. Важно отметить, что сформулированные даже в таком виде гипотезы, не интересны сами по себе и не совпадают в точности в теми, что написаны выше. Основная задача на данном этапе исследования – создать необходимый фундамент для серьезного статистического изучения найденных зависимостей, если такие будут найдены. Таким образом, роль сформулированных ниже гипотез в построении модели поведения пользователей в социальной сети – подготовка к более полному исследованию этой темы. Гипотеза 1: существуют такие 1 0, c1 0 , что выполняется условие 21i с1 nix 21i с1 1 . Гипотеза 2: не существует i такого, что выполняется условие 21 j с1 nij 21 j с1 1 . Гипотеза 3: существуют такие 2 и 1 , 3 0, c1 , c2 0 , что выполняется условие 21 j c1 , i 6 21 j c1 1 , i 6 nijy 2 2i , i 6, j 6 , nijy 2 2i 2 , i 6, j 6 . 23 j c2 , i 6, j i 23 j c2 3 , i 6, j i Гипотеза 4: верно, что nij f (i ) монотонна по i, где i – номер группы пользователей (см. раздел 2.2). Гипотеза 5: верно, что m j j 1 mi i 1 для любых двух пользователей. Причем i и – номера групп, в которые попадают пользователи, сгруппированные по количественных показателям их активности (см. раздел 2.2). 2.4. Исследование гипотезы 1 Рассмотрим зависимость количества комментариев пользователей от количества их постов. На качественном уровне можно сказать, что эта зависимость показывает, наXII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г. 6336 сколько активность пользователя в обсуждениях зависит от его активности в создании новых тем для обсуждения. На рис. 1 показан график зависимости логарифма количества комментариев пользователей от количества их постов. Рис. 1. Зависимость логарифма количества комментариев пользователей от номера подмножества, в котором они размещены в соответствии с количеством их постов. Полученная зависимость показывает обоснованность гипотезы 1 о границах возможных значений количества комментариев от количества постов, так как 1i с1 log 2 nix 1 i 1 с1 ,и 1 0, c1 0 2.5. Исследование гипотез 2, 3 Рассмотрим зависимость количества комментариев пользователей от количества их постов для каждого подмножества пользователей, количество постов которых принадлежит заданному множеству. На рис. 2 показаны графики логарифмов искомых зависимостей. Рис. 2. Зависимость логарифма количества комментариев пользователей от номера подмножества, в который попадают количества их постов для каждого подмножества пользователей, количество постов которых принадлежит заданному множеству. Полученные зависимости показывает обоснованность при i 1, j 12 гипотезы 3 о границах возможных значений количества комментариев от количества постов XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г. 6337 21 j c1 , i 6 21 j c1 1 , i 6 nijy 2 2i , i 6, j 6 , nijy 2 2i 2 , i 6, j 6 . 23 j c2 , i 6, j i 23 j c2 3 , i 6, j i Использование гипотезы 2 обосновано только для j<6. 2.6. Исследование гипотезы 4 Рассмотрим зависимость количества постов пользователей от количества их комментариев для каждого подмножества пользователей, количество комментариев которых принадлежит заданному множеству. На рис. 3 показаны логарифмы искомых зависимостей. Рис. 3. Зависимость логарифма количества постов пользователей от количества их комментариев для каждого подмножества пользователей, количество постов которых принадлежит заданному множеству. Полученные зависимости показывают необоснованность гипотезы 4. 2.7. Исследование гипотезы 5 Рассмотрим для каждого подмножества пользователей, количество постов которых принадлежит заданному множеству зависимость количества комментариев пользователей от количества тех пользователей, посты которых были ими прокомментированы. Данная зависимость показана на рис. 4. Рис. 4. Зависимость количества комментариев пользователей от количества тех пользователей, посты которых были ими прокомментированы. XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г. 6338 Исследование данных показало, что среднее значение m j j 1 равно 0,84. При этом характер зависимости показывает, что гипотеза о постоянстве отношения является обоснованной. 3. Заключение Проведенное исследование позволило выделить области параметров, при которых проверяемые гипотезы могут быть верны. Гипотеза 1 может иметь место только при i 13 Использование гипотезы 2 обосновано только для j<6. Гипотеза 3 возможно верна при i 1, j 12 Гипотеза 4 не выполняется для i 1 Гипотеза 5возможно верна. Работа выполнена при поддержке Российского фонда фундаментальных исследований (13-07-00876а). Приложение. Таблицы Таблица 1. Значения i 1 2 3 4 5 6 7 8 9 10 11 12 j 1 0 584694 410098 180035 164250 43171 11453 3959 1271 236 54 4 2 15005 19287 27752 23964 13859 6849 2484 910 232 70 9 3 Таблица 2. Значения i 1 2 3 4 5 6 7 nij . 3 6288 8646 14382 15753 11254 5969 2480 936 302 79 13 1 4 5 6 7 8 9 2264 3532 6474 8687 7753 4951 2346 950 353 95 20 0 752 1190 2454 3931 4578 3660 2032 869 323 101 28 3 252 356 847 1526 2051 2133 1401 786 308 97 19 4 10 75 122 272 544 780 984 867 540 243 92 17 5 20 27 71 149 274 371 403 319 186 80 21 5 7 3 16 27 58 101 118 127 99 66 13 2 6 7 8 9 33 72 151 326 575 727 698 15 7 28 82 141 200 213 11 2 0 2 3 8 18 29 33 23 17 9 2 1 0 0 0 0 3 5 3 6 1 4 0 nij . j 1 0 584694 410098 180035 164250 43171 11453 2 15006 19290 27753 23965 13860 6850 2484 3 8237 11660 19659 22563 17666 10652 5056 4 5 1165 1857 3854 6090 6277 4535 2331 208 277 825 1553 2075 2034 1343 1 0 0 5 20 37 36 XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г. 10 1 0 0 0 1 4 4 11 0 0 0 0 0 0 0 0 0 0 0 0 0 0 6339 j i 8 9 10 11 12 1 2 3 4 5 6 7 3959 1271 236 54 4 910 232 70 9 3 2193 766 224 42 6 988 406 126 35 4 641 272 93 23 3 487 217 91 21 5 206 140 60 13 2 6 7 0 0 1740 3056 4070 914 0 0 0 0 0 0 0 0 408 720 1555 1580 278 0 0 0 0 0 Таблица 3. Значения 8 9 41 38 32 9 2 10 7 4 2 1 0 11 0 0 0 0 0 0 0 0 0 0 nij . j i 1 1 2 3 4 5 6 7 8 9 10 11 12 2 3 0 0 0 110424 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 5 0 0 0 8 0 0 66095 23757 6584 0 13668 10064 0 0 3273 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Таблица 4. Значения 8 9 0 0 105 135 383 714 536 53 0 0 0 0 0 0 29 22 59 170 238 110 9 0 0 0 10 9 10 11 0 0 4 3 6 23 44 53 13 0 0 0 0 0 2 0 1 2 11 5 2 0 0 0 m j j 1 . j 1 mj j 1 ‐ 2 3 1 4 1 0,75 Таблица 5. Значения 5 6 7 8 11 0,8 0,833333 0,857143 0,75 0,777778 0,8 0,818182 nix . i 1 x i n 2 3 4 5 6 7 8 9 10 11 24666 617857 462368 234619 204865 68210 23618 9432 3346 934 207 Таблица 6. Значения 12 29 niy . i 1 y i n 2 3 4 5 1399225 110424 66103 37425 19921 6 9780 7 8 4541 1926 9 10 637 146 11 23 Список литературы 1. http://www.forbes.ru/news/153245-kolichestvo-aktivnyh-polzovatelei-facebook-prevysilo-1-mlrd-chelovek XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г. 6340 2. 3. 4. 5. 6. Williams, Christine B; Gulati, Girish J. The Political Impact of Facebook: Evidence From the 2006 Midterm Elections and 2008 Nomination Contest // Politics and Technology Review. 2008. No.1. P. 11-21. http://www.marketing.spb.ru/mr/media/smm_ru.htm Bachrach Y., Kosinski M., Graepel Th., Kohli P., Stillwell D. Personality and Patterns of Facebook Usage // WebSci '12 Proceedings of the 3rd Annual ACM Web Science Conference. 2012. P. 24-32. Губанов Д.А., Новиков Д.А., Чхартишвили А.Г. Модели влияния в социальных сетях // Управление большими системами. Вып. 27. М.: ИПУ РАН, 2009. С 205-281. Zuev A. S., Fedyanin D. N. Models of opinion control for agents in social networks // Automation and Remote Control. 2012. Vol. 73, No. 10. P. 1753-1764 XII ВСЕРОССИЙСКОЕ СОВЕЩАНИЕ ПО ПРОБЛЕМАМ УПРАВЛЕНИЯ ВСПУ-2014 Москва 16-19 июня 2014 г.