Оценка спроса на мобильные приложения

advertisement
Правительство Российской Федерации
Федеральное государственное автономное образовательное
учреждение высшего профессионального образования
«Национальный исследовательский университет
"Высшая школа экономики"»
Санкт-Петербургский филиал федерального государственного
автономного образовательного учреждения высшего
профессионального
образования
«Национальный исследовательский университет "Высшая школа
экономики"»
Факультет экономики
Кафедра экономической теории
БАКАЛАВРСКАЯ РАБОТА
на тему: «Оценка спроса на мобильные приложения»
Направление экономика
Студент группы № 143
Срогинис Анна Романовна
(Ф.И.О.)
Научный руководитель
Старший преподаватель,
Покрышевская Елена
Борисовна
(должность, звание, Ф.И.О.)
Санкт-Петербург
2013
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ .......................................................................................................... 4
ГЛАВА 1 АНАЛИЗ РЫНКА МОБИЛЬНЫХ ПРИЛОЖЕНИЙ.
СРАВНЕНИЕ МЕТОДОВ ЭКОНОМИЧЕСКОЙ ОЦЕНКИ СПРОСА ......... 7
1.1.
Описание рынка .................................................................................... 7
1.1.1. История рынка мобильных приложений ................................. 7
1.1.2. Классификации мобильных приложений ................................ 8
1.1.3. Анализ рынка мобильных приложений ................................... 9
1.2.
Методы экономической оценки спроса ........................................... 18
ГЛАВА 2. ЭКОНОМЕТРИЧЕСКИЙ АНАЛИЗ СПРОСА НА
МОБИЛЬНЫЕ ПРИЛОЖЕНИЯ НА ПРИМЕРЕ СЕГМЕНТА РЫНКА
APPLE APP STORE В РОССИИ И США ....................................................... 26
2.1. Описание данных .................................................................................... 26
2.2. Регрессионный анализ загрузок на примере российского рынка ..... 29
2.2.1.Описательные статистики ........................................................... 29
2.2.2.Корреляционный анализ ............................................................. 36
2.2.3. Проверка на выбросы ................................................................. 39
2.2.4. Регрессионный анализ ................................................................ 40
2.2.5. Рыночные атрибуты .................................................................... 56
2.3. Регрессионный анализ для рынка Соединенных Штатов Америки .. 58
2.3.1.Описательные статистики ........................................................... 58
2.3.2.Корреляционный анализ ............................................................. 62
2.3.3. Проверка на выбросы ................................................................. 63
2.2.4. Регрессионный анализ сегмента американского рынка ......... 65
ЗАКЛЮЧЕНИЕ ................................................................................................. 72
СПИСОК ЛИТЕРАТУРЫ ................................................................................ 75
ПРИЛОЖЕНИЕ ................................................................................................. 78
Приложение 1. Распределение категориальной переменной Publisher
(Разработчик) (Россия) .................................................................................. 78
2
Приложение 2. Распределение категориальной переменной Publisher
(США) ............................................................................................................. 80
Приложение 3. Таблица коэффициентов корреляции (Россия) ................ 82
Приложение 4. Таблица коэффициентов корреляции (США) .................. 83
3
ВВЕДЕНИЕ
Благодаря развитию цифровой среды, в нашем обществе происходят
быстрые изменения практически во всех аспектах. Все чаще люди делают
покупки в интернете, пользуются поисковиками для поиска информации и
активно участвуют в «виртуальной» жизни социальных сетей. «Цифровая
жизнь»
повсеместно
захватила
развитие
страны,
распространение
интернета имеет колоссальный успех – все эти стороны жизни пользуются
большим успехом, что подталкивает различных исследователей и ученых к
изучению этих процессов.
Например, в мире с каждым годом значительно увеличивается спрос на
электронные устройства, такие как мобильные устройства, планшеты,
электронные книги, КПК и т.д. Каждый современный человек уже не
может представить свою жизнь без компьютера, мобильного телефона и
других приспособлений. В частности, изначально сотовый телефон был
создан с целью поддержания связи на дальних расстояниях без значимых
ограничений к использованию (с помощью радиоволн), то сейчас
мобильные устройства превратились в аппарат способный не только
поддерживать голосовую связь, но и выполнять широкий спектр других
задач. А с помощью мобильных приложений этот спектр задач переходит в
бесконечность. Поскольку электронные действия легче отслеживать, это
дает значительный массив данных, при этом, совершенно бесплатно.
Данным аспектом в последнее время все чаще и чаще пользуются
исследователи. Это дает возможность изучать социально-экономические и
технико-социальные системы в обществе.
Темой данной выпускной квалификационной работы является оценка
спроса на мобильные приложения.
Актуальность данной темы заключается в том, что рынок мобильных
приложений зародился лишь в 2009 году с помощью компании Apple,
которая впервые в мире запустила интернет-магазин для мобильных
4
программных продуктов. Формирование рынка происходило постепенно и
только в 2013 году эксперты говорят о том, что рынок вошел в фазу
активного роста. По прогнозам J’son &Parthers Consulting, за 2012 год
рынок мобильных приложений в мире составил 7,83 млрд долл., и к 2016му может вырасти до 65,79 млрд. Следовательно, объяснение спроса и
взаимосвязей на данном относительно новом рынке – актуальная тема для
исследования.
Таким образом, объектом данной работы является рынок мобильных
приложений, а предметом исследования – экономическая оценка спроса на
рынке мобильных приложений (на примере сегментов российского и
американского App Store магазина).
Целью
выпускной
квалификационной
работы
является
выявление
факторов, влияющих на спрос на мобильные приложения, обоснование
данных связей.
Для достижения поставленной цели необходимо выполнить ряд задач:
 Рассмотреть и провести анализ рынка мобильных приложений в
общем разрезе тенденций
 Проанализировать
используемые
методы
исследования
рынка
мобильных приложений и аналогичных рынков в научных статья
зарубежных и отечественных публикаций,
 Собрать данные по сегментам российского и американского рынка в
разрезе одной компании-магазина мобильных приложений – Apple
Store
 Провести анализ на наличие взаимосвязей между количеством
загрузок и различными факторами и дать им интерпретацию с
помощью построения различных моделей, выявить лучший метод
моделирования, описать его преимущества.
5
Для полного и всестороннего рассмотрения темы работы, будут
использованы научные методы исследования, в частности метод изучения
и анализа научной литературы.
В качестве основных источников в этой выпускной квалификационной
работе выступают следующие статьи и обзоры рынка мобильных
приложений таких крупных компаний, как App Annie, Distimo, отчеты
компании J’son &Parthers Consulting, сравнение имеющихся научных
результатов на данный момент: Anindya Ghose, Sang Pil Han. Estimating
Demand for Mobile Applications, Octavian Carare. The Impact of Bestseller
Rank on Demand: Evidence From a Software Market. International Economic
Review и других статей и источников.
6
ГЛАВА 1 АНАЛИЗ РЫНКА МОБИЛЬНЫХ ПРИЛОЖЕНИЙ.
СРАВНЕНИЕ МЕТОДОВ ЭКОНОМИЧЕСКОЙ ОЦЕНКИ СПРОСА
1.1.
Описание рынка
Основой исследования выпускной квалификационной работы является
рынок
мобильных
приложений,
поэтому
непосредственно
перед
экономическим и математическим обоснованием связей следует привести
описание самого рынка.
При анализе рынка в первую очередь следует несколько слов сказать о
самих мобильных приложений.
Мобильные приложения – это программные продукты, которые специально
разрабатываются для мобильных устройств, смартфонов, планшетных
компьютеров или других электронных устройств. Сейчас самыми
активными каналами сбыта являются рынки мобильных приложений:
Apple App Store, Google Play, Windows Phone Store, BlackBerry App World и
др. Цели и задачи созданий мобильных приложений достаточно
разнообразны: от помощи в управлении мобильным устройством до
различных развлечений в виде игр и хобби. Так же следует отметить, что
большинство современных приложений бесперебойно работают лишь на
смартфонах или мобильных устройствах с широкими параметрами памяти,
мощности и поддержки различных функций.
1.1.1. История рынка мобильных приложений
Первым рынком мобильных приложений стал Apple App Store в 2008 году.
Впоследствии на рынок вышла компания Google, создав серьезную
конкуренцию Apple. The iPhone App Store был запущен 10 июля 2008 года,
а Google’s Android Market был открыт несколькими месяцами позднее – в
октябре 2008 года. Еще годом позже, в апреле 2009 года другой магазин
мобильных приложений – BlackBerry App World, начал работу, следуя за
Apple и Google. В мае 2009 года на рынок вошел еще игрок – Nokia’s Ovi
7
Store. Последний крупный игрок – Microsoft – присоединился к рынку в
октябре 2009 года с Windows Phone Store.
1.1.2. Классификации мобильных приложений
Мобильные приложения в первую очередь делятся на категории по
предназначению, поэтому рынок приложений можно разделить на такие
виды:
 Контентные приложения, которые наиболее популярны среди
пользователей.
Данная
категория
представляет
такие
виды
деятельности как прослушивание музыки, просмотр различных
фильмов, клипов и фотографий, а так же чтение цифровых книг и
т.д.
 Бизнес-приложения – приложения, выполняющие узконаправленные
потоки работы, как упрощение бизнес-процессов, отслеживания
сделок и реализация офисных задач.
 Мобильные игры наиболее востребованный сегмент мобильных
приложений, параметры выбора грандиозны, разработчики каждый
день
как
создают
совершенно
новые
или
совершенствуют
выпущенные.
 Социальные сети. Поскольку у данной категории на сегодняшний
момент наибольшая востребованность, многим людям социальные
сети нужны для общения, бизнеса и развлечения, поэтому в
мобильных
устройствах
такая
возможность
тоже
пользуется
популярностью.
Кроме того, существует классификация приложений по типу монетизации:
1) Free – бесплатные,
2) Paid – платные,
3) Free+In-app purchase – бесплатные приложения с возможностью
приобретения виртуальных благ, связанных с данным приложением;
8
4) Paid+ In-app purchase – комбинация платного приложения (оплата
при скачивании) и возможности приобретения виртуальных благ,
связанных с данным приложением;
5) Trial – платное приложение с бесплатной пробной версией.
1.1.3. Анализ рынка мобильных приложений
Для обоснования актуальности и интереса к мобильным приложениям
приведем
общую
статистику
по
рынку
мобильных
устройств
и
приложений.
На развитие рынка мобильных приложений непосредственно влияют
продажи и популярность современных мобильных устройств – другими
словами, смартфонов. Смартфон – это мобильный телефон c расширенной
функциональностью, его можно сравнить с карманным персональным
компьютером (КПК), который может еще и звонить. Преимущество
смартфонов перед обычными мобильными телефонами – наличие
достаточно развитой операционной системы, открытой для разработки
программного обеспечения сторонними разработчиками (операционная
система
обычных
разработчиков).
мобильных
Установка
телефонов
дополнительных
закрыта
для
сторонних
приложений
позволяет
значительно улучшить функциональность смартфонов по сравнению с
обычными мобильными телефонами1.
По данным аналитической компании Garther, консалтинговая компания,
специализирующаяся на рынке информационных технологий (США),
общее проданное количество мобильных устройств в мире превышает 425
млн. шт. (Рисунок 1 ) При этом, можно так же видеть рост общих продаж
на 0,68% (в количественной оценке примерно 2,8 млн. шт.) по сравнению с
первым кварталом 2012 года.
1
Определение из свободной энциклопедии – Википедии, [сайт]. URL:
http://ru.wikipedia.org/wiki/%D0%A1%D0%BC%D0%B0%D1%80%D1%82%D1%84%D0
%BE%D0%BD
9
Источник: Gather (May 2013)
Рисунок 1 Динамика показателей продаж мобильных устройств за 1 квартал 2013
года и за 1 кв. 2012 года, шт.,%
Как видно из второй таблицы (Рисунок 2 Динамика показателей продаж
смартфонов за 1 квартал 2013 года и за 1 кв. 2012 года, шт.,%)
количественный показатель продаж смартфонов в мире составляет 210
млн. шт., при этом, в начале 2012 года данный показатель был ниже на
42,9%. А в общих продажая мобильных устройств смартфоны занимают
49,3% на 1 кв. 2013 года, а в 2012 года 34,8%, из чего следует, что продажи
смартфонов относительно общего количества проданных мобильных
устройств растут более активно.
Источник: Gather (май 2013)
Рисунок 2 Динамика показателей продаж смартфонов за 1 квартал 2013 года и за 1
кв. 2012 года, шт.,%
По
отношению
к
России
объем
рынка
смартфонов
посчитала
аналитическая компания J’son &Parthers Consulting – это консалтинговая
компания, специализирующаяся на рынках телекоммуникаций, медиа, ИТ
и инновационных технологий (Россия). На рисунке ниже видно общую
10
тенденцию роста доли смартфонов в общих продажах мобильных
телефонов в России.
Источник: J’son &Parthers Consulting (декабрь 2012)
Рисунок 3 Динамика показателей объема продаж смартфонов в общих продажах
мобильных устройств в России, 1 кв. 2011 – 3 кв. 2012 гг., млн. шт.
Следовательно, развитие рынка мобильных устройств и повышение
спроса на более качественные и многофункциональные устройства
(смартфоны) может привести к стабильному росту спроса на мобильные
приложения. Тем самым снова подтверждается актуальность и
значимость исследования именно этого сегмента.
Обратимся к рынку мобильных приложений.
В ежеквартальном рыночном отчёте сервиса App Annie.com (компания,
которая отслеживает изменений рейтинга и предоставляет широкую базу
для разработчиков) доступна действующая информация по мировому
рынку мобильных приложений.
11
Источник: App Annie Intelligence (ноябрь 2012)
Рисунок 4 Динамика количественного и денежного показателя скачиваний за
январь - октябрь 2012 года, %
Источник: App Annie Intelligence (ноябрь 2012)
Рисунок 4 Динамика количественного и денежного показателя скачиваний
за январь - октябрь 2012 года, % показана динамика на 2012 года двух
магазинов iOS и Google Play.По количеству скачиваний Google Play в
последнее время сильно ускорил темпы роста, а вот по объему прибыли
Apple Store опережает его в 4 раза.
Так же показана динамика загрузок за последние 2 квартала (4 кв. 2012 г. и
1 кв. 2013 г.) двух крупнейших платформ на сегодняшний день – Apple
App Store и Google Play (Android). Из диаграммы, расположенной слева,
видно, что общий объем скачиваний мобильных приложений растет, и в
частности, отрыв Apple App Store от Google Play уменьшается в последнее
время. Но в денежном эквиваленте iOS App store остается безусловным
лидером. Как написано в отчете, доход Apple Store превышает Google Play
примерно в 2,6 раза в 1 кв. 2013 г. За этот период квартальный доход iOS
App Store вырос примерно на одну четвертую. Между тем, доход от
приложений Google Play вырос примерно на 90%.
12
Источник: App Annie Intelligence (апрель 2013)
Рисунок 5 Динамика количественного и денежного показателя скачиваний за 2
последних квартала (4 кв.2012 -1 кв. 2013 гг.), %
Кроме того, компания публикует статистику скачиваний по странам,
которая сведена и представлена в следующей таблице:
Таблица 1 Ведущие страны по загрузкам в Apple App Store в 1 квартале 2013 года
Ведущие страны по загрузкам в Apple App Store в 1 квартале 2013 года
По количеству загрузок
По доходу
США
США
Китай
Великобритания, +1*
Япония
Великобритания
Япония, -1*
Китай, +2*
Франция
Австралия, -1*
* изменение индекса в сравнении с предыдущим кварталом
Источник: App Annie Intelligence (апрель 2013)
Китай увеличил обороты по количеству скачиваний в iOS App Store и стал
ведущим фактором роста загрузок за рассматриваемый период
Выдержки из отчета: «США и Япония остаются лидерами App Store,
являясь источником примерно половины всех доходов магазина. Хотя App
Store в США показал больший рост доходов на протяжении последнего
квартала с лидирующей категорией «игры», Китай поднял свой показатель.
Еще в прошлом году Китай едва попадал в топ 10 стран. В течение
13
прошлого квартала он поднялся на четвертую позицию с шестой, которую
он занимал в четвертом квартал 2012. Игры стали категорией, которая
обеспечила большую часть роста доходов в Китае; эта категория выросла в
Китае примерно на 90%, что является самым высоким показателем во всем
App Store».
У второго крупного рынка приложений – Google Play, ситуация по
ведущим странам немного интересней. Здесь появляется Южная Корея
(основоположник крупнейшая корейская компания Samsung работает
преимущественно с Android), Россия, в которой мобильные устройства на
Android платформе дешевле и доступней, поэтому и пользуются
повышенным спросом.
Таблица 2 Ведущие страны по загрузкам в Google Play в 1 квартале 2013 года
Ведущие страны по загрузкам в Google Play в 1 квартале 2013 года
По количеству загрузок
По доходу
США
Япония
Южная Корея
Индия
Южная Корея, +1*
США, - 1*
Россия, +2*
Великобритания
Япония, -1*
Германия
* изменение индекса в сравнении с предыдущим кварталом
Источник: App Annie Intelligence (апрель 2013)
Как пишут аналитики App Annie, ведущие страны Google Play обеспечили
примерно 40% загрузок в первом квартале 2013 года по сравнению с 50% в
App Store.
14
Источник: App Annie Intelligence (сентябрь 2012)
Рисунок 6 Динамика показателей загрузки в России в двух крупнейших
магазинах, 2012 г.,%
При этом показатели России неуклонно растут на протяжении последнего
года (Рисунок 6, Рисунок 7) и поднялись до четвертой позиции в
последнем квартале. Кроме того, именно категория «игры» стала
ключевым источником и дала примерно половину загрузок в российском
Google Play в 1 квартале 2013 года (что является более высоким
показателем по сравнению с 40% в 4 квартале 2012 г.).
Источник: App Annie Intelligence (сентябрь 2012)
Рисунок 7 Динамика показателей дохода в России в двух крупнейших магазинах,
2012 г.,%
Следует отметить, что Япония и Южная Корея продолжают свой рост в
рейтинге Google Play. «Япония продвинулась выше США в топе в 4 кв.
15
2012, в то время, как Южная Корея опередила Великобританию и заняла
второе место в первом квартале 2013. Эти три страны доминируют в
Google Play, покрывая приблизительно 70% мирового дохода магазина. Их
доходы обусловлены играми в большей степени, чем в каких либо других
странах Google Play. Южная Корея превзошла отметку 95%, в то время,
как Япония достигла 90%.» – перевод отчета App Annie.
Так же для сравнения приведем статистику по популярным категориям
мобильных приложений на 2012 год.
Источник: Distimo (январь2013)
Рисунок 8 Статистика по популярным категориям мобильных приложений, %
На Рисунок 8 Статистика по популярным категориям мобильных
приложений, % видно, что по сравнению со всеми другими категориями
«Игры» в несколько раз более популяризованные.
Таблица 3 Ведущие категории по загрузкам в Apple Store в 1 квартале 2013 года
Ведущие категории по загрузкам в Apple Store в 1 квартале 2013 года
По количеству загрузок
По доходу
Игры
Игры
Развлечения
Фото и видео,+1*
Производительность
Социальные сети
Утилиты, -1*
Образование, +1*
Стиль жизни
Развлечение, -1*
* изменение индекса в сравнении с предыдущим кварталом
16
Источник: App Annie Intelligence (апрель 2013)
В обоих магазинах лидером является категория «Игры» (см. Таблица 3,
Таблица 4). По данным App Annie, в Apple App Store
эта категория
обеспечивает около 40% загрузок и около 70% доходов в 1 кв. 2013 года, а
относительно Google Play категория игр выросла и обеспечила около 80%
доходов.
Таблица 4 Ведущие категории по загрузкам в Google Play в 1 квартале 2013 года
Ведущие категории по загрузкам в Google Play в 1 квартале 2013 года
По количеству загрузок
По доходу
Игры
Игры
Инструменты
Развлечения
Коммуникации
Социальные сети
Коммуникации
Инструменты
Социальные сети, +1*
Производительность
* изменение индекса в сравнении с предыдущим кварталом
Источник: App Annie Intelligence (апрель 2013)
Компания Canalys в своей статье на апрель 2013 утверждает, что загрузки
приложений через четыре магазина - от Apple App Store, Google Play,
магазин Windows Phone и BlackBerry World - поднялись на 11% в 1
квартале 2013 по всему миру в сравнении с 4-м кварталом 2012 года. В то
время как прямые доходы от платных приложений вырос немного меньше
– всего на 9%. В общем, денежные доходы всех компаний составили более
13,4 млрд., а выручка достигла 2,2 млрд. долл. В общем анализе рынка
компанией Canalys Apple App Store прочно удерживает первую позицию
— 74% мирового рынка мобильных утилит. Google Play занимает
уверенное 2-ое место, пытаясь догнать лидера. Windows Phone Store от
Microsoft на третьем месте, а канадская компания BlackBerry сейчас
активно развивает свой интернет-магазин и при сохранении темпов роста
вполне может рассчитывать на свержение Microsoft с третьего места.
17
По мнению аналитиков J’son &Parthers Consulting, лидерами в наибольшей
категории «Игры» в 1 кв. 2013 года стали компании Rovio и Electronic Arts:
первая пользуется популярностью Angry Birds, вторая, осуществляя
издательскую деятельность, контролирует разработку и распространение
не только мобильных, но и обычных видеоигр.
1.2.
Методы экономической оценки спроса
Рынок мобильных устройств зародился только в 2009 году, поэтому это
сравнительно молодой рынок, который показывает колоссальные темпы
роста, как в количественном, так и в денежном эквиваленте. Поэтому
только сравнительно недавно исследователи стали заинтересовываться
процессами,
происходящими
на
этом
сегменте
информационного
пространства. Помимо этого, совсем недавно появились компании,
которые занимаются непосредственным отслеживанием динамики рынка,
составлением отчетов за прошедший период.
В исследовательских целях рынок обладает сравнительной доступностью
данных в Интернете – в настоящий момент сами мобильные магазины
приложений составляют статистику по каждому скаченному приложению,
но
и
существуют
определенные
компании,
которые
располагают
информацией о приложениях, их рейтингах и характеристиках в разрезе
основных платформ с ежедневными обновлениями.
В зарубежной литературе всего несколько исследований посвящено этой
теме. Чаще встречаются различные работы, посвященные оценке спроса на
пива [Gallet, 2007], сухих завтраков [Nevo, 2001], автомобилей [Berry,
Levinsohn, Pakes, 1995] и других рынках. В данном параграфе рассмотрим
несколько иностранных статей по моделированию и анализу спроса,
которые покажут методы анализа, применяемые исследователями.
Anindya Ghose и Sang Pil Han в статье «Estimating Demand for Mobile
Applications» в своей статье оценивают потребительский спрос для
18
мобильных приложений, построив структурную модель. Исследователи
используют панель данных, состоящую из
топа 300 мобильных
приложений, имеющих ранг продаж, цены, характеристик с двух рынков:
Apple App Store и Google Play. Авторы моделируют полезность i-го
покупателя от j-го мобильного приложения на данных Apple App Store и
Google Android Market Южной Кореи (данные собраны от 6 октября до 14
декабря 2011 года).
,
где ujt – полезность i-го покупателя от j-го мобильного приложения на
рынке t, Xjt – вектор наблюдаемых характеристик (размер, время
использования, категории приложений и др.), так же эта модель включает
ненаблюдаемые характеристики (например, шоки на рынке). Потребитель i
выбирает приложение j, которое приводит к максимальной полезности. Но
здесь появляется проблема эндогенности цены (цена коррелирует с
ненаблюдаемыми характеристиками продукта, т.е. ошибкой). Авторы
решают проблему использованием так называемой random-coefficients
discrete-choice model of demand – BLP model [Berry, Levinsohn, Pakes, 1995].
В литературе описаны детали этой модели, а также то, как оценить такую
модель на основе агрегированных данных, а не на уровне отдельных
индивидов [Musalem, Bradlow, Raju, 2009; Nevo, 2000].
Так же исследователи учитывали категории возрастов потребителей,
разбив их на две группы: старшие и младшие поколения. В результате,
авторы увидели взаимосвязь размера мобильного приложения и продаж и
повышенную чувствительность к цене старшего поколения над младшим.
Кроме того, из этого исследования заключено, что спрос увеличивается с
размером файла приложения и с возрастом приложения на рынке, но
уменьшается с длиной описания приложения.
Популярные интернет-магазины, такие как Amazon.com, большинство
магазинов электроники, такие как Юлмарт, ЯндексМаркет и др.,
19
анализируют данные различных показателей покупателей, прошлые
покупки, оценки, просмотр аналогов и цены, после чего могут
предоставить
рекомендации
продукта
клиентам.
Задачей
системы
рекомендаций является включение данных о пользователях и их
предпочтениях, а так же предположение возможных будущих симпатий и
интересов. Ритейлеры тщательно анализируют продажи, поскольку исходя
из них, они смогут рекомендовать одни товары и улучшить свои продажи.
Вследствие
этого,
исследователи
ищут
способы
эффективного
моделирования систем рекомендаций. Только в последнее десятилетие
данная
тема
стала
популярна
в
заграничных
лабораториях
и
университетах. В России, однако, кране мало аналогичных исследований.
Поэтому рассмотрим несколько иностранных статей по моделированию
спроса при влиянии систем рекомендации.
Bhavik Pathak, Robert Garfinkel, Ram D. Gopal, Rajkumar Venkatesan, и Fang
Yin в своей статье «Empirical Analysis of the Impact of Recommender
Systems on Sales» поднимают достаточно актуальную тему в современном
цифровом обществе как влияние систем обратной связи (рекомендаций) на
продажи продукта. Другими словами, авторы пытаются проследить связь
между рекомендацией, продажей и ценой. Чтобы полностью понять, что
авторы понимают под рекомендациями, приведем рисунок из их статьи
(Рисунок 9 Описание основных характеристик товара от лица авторов):
20
Рисунок 9 Описание основных характеристик товара от лица авторов
На основе собранных данных исследователи разработали эмпирический
метод для оценивания воздействия и эффективности рекомендаций:
,
21
где RCMD – сила рекомендаций, которая, по мнению авторов, зависит от
количества рекомендовавших этот товар, продаж рекомендаций и типа
рекомендации.
Авторы статьи предлагают такую обобщенную модель:
где rank – рейтинг продаж, rec – переменная силы рекомендации, rating –
средняя величина рейтинга, rev – величина недавно добавившихся
отзывов, u – случайная величина.
Следует отметить, что до этой статьи исследователи принимали продажи
за зависимую переменную, чем пытались изучить эффект цифрового
сарафанного радио на продажах (ссылки), в данной же статье вводится
новое понятие силы рекомендации, которое является дополнительной
оценкой этого цифрового сарафанного радио (продаж влияний), так же
вводятся отдельные эффекты на книги и на время. Кроме того, в данной
модели существует переменная, отвечающая за эффект всех факторов в
прошлом, которые могут влиять на продажи.
Rajiv Garg, Rahul Telang в статье «Inferring app demand from publicly
available data» на примере двух интернет-сервисов Apple’s App Store и
Google Play Store выводят методологию оценки влияния ранга продаж на
сами продажи.
Авторы показали, что для оценки параметров уравнения, связывающего
продажи и ранг продаж платного программного обеспечения достаточно
знать:
 Цену каждой программы
 Ранг загрузок
 Общее количество продаж всех попавших в выборку программ.
22
Особенностью данной работы является общедоступность трех видов
рейтингов: top‐free applications (топ бесплатных приложений), top‐paid
applications (топ платных приложений), и top‐grossing applications (топ
доходных приложений). В статье рассматривается 2 рейтинга продаж: в
одном – место каждой программы в рейтинге количества скачиваний
(download_rank), в другом – место каждой программы в рейтинге выручки
от продаж (revenue_rank).
Поскольку рассматривая Apple’s App Store авторы находят разницу в
приложениях для iРad и iPhone, то все выводы они делают в отдельности
по сферам применения. Кроме того, данный метод авторы опробовали на
другом рынке - Google Play Store и на бесплатных приложения.
Judith Chevalier и Austan Goolsbee в своей статье «Measuring prices and
price competition online: Amazon and Barnes and Noble» для определение
спроса на продукт (в данном случае, книги), провели эксперимент: они
выбрали мало продаваемые книги и купили некоторое количество книг,
превышающее границу низкого спроса), поскольку это привело к
изменению ранга продаж, то исследователи вывели отношения между ним
и спросом. Однако, этот метод построен на мало продаваемых продуктах,
поэтому переносить его на полноценные товары неправильно. Кроме того,
авторы показали, как влияет на спрос различие в ценах конкурентов
(определили общий объем продаж в зависимости от распределения цен на
двух аналогичных сервисах).
В другой статье «The effect of word of mouth on sales: online book
reviews» Judith Chevalier и Dina Mayzlin исследовали эффект отзывов
потребителей на продажах разных фирм. Именно здесь они впервые
обратились к понятию «сарафанное радио». Авторы постарались дать
23
обоснование причинной связи между сарафанным радио и продажами
продукта, сравнивая продажи данной книги через эти двух продавцов книг
(опять же BarnesandNoble.com и Amazon.com).
Оценки авторов показывают, что регрессия относительно продажи
книг через два этих сайта, связанны с различиями между сайтами в числе
отзывов на книгу и в среднем рейтинге отзывов (звезд).
Octavian Carare в своей статье «The Impact of Bestseller Rank on Demand:
Evidence From a Software Market» укрепляет и дополняет результаты
последних экспериментальных наблюдений литературы по изучению
влияния ранга продаж путем на спрос.
Как отмечает автор, результаты работы не указывают на причинноследственные связи ранга продаж на спрос, а могут лишь отражением
последовательной
корреляции
между
ненаблюдаемыми
факторами,
которые влияют на спрос. Поэтому больший акцент нужно отдавать
прошлым рангам товара, что позволит контролировать возможную
эндогенность.
Инструментальная оценка переменных очень близка к методу наименьших
квадратов, предполагая, что потенциальная эндогенность прошлых рангов
продаж существенно не влияет на результаты оценки.
В недавней работе «The Impact of Bestseller Rank on Demand:
Evidence from the App Market» Octavian Carare исследует, как доля рынка
мобильных приложений зависит от различных факторов, таких как цена,
характеристики приложения, мимо ранга и так далее. Автор предполагает,
что спрос следует распределению Парето и показывает, что предыдущие
ранги вносят свой вклад в оценку будущего спроса на приложения. Не
имея данные о спросе, автор должен был полагаться на моделирование
данных, используя разницу между двумя ранговыми приложениями как
экспоненциальные случайные величины. Это исследование пытается
измерить влияние характеристик приложений и других маркетинговых
24
стратегий на спрос, в результате чего возникает упрощенная система,
которая позволяет улучшение продаж от информации.
Вспомогательная
специфические
литература
характеристики
захватывает
нашей
темы,
лишь
определенные
поэтому
подробно
рассматривать их в обзоре не имеет смысла (по большей части, данные
источники несут ознакомительный характер для общего понимания темы).
Главным отличием всех описанных ранее статей в том, что в то время,
когда они писались, большинство интернет-магазинов производили
ранжирование продаж, и ни один интернет-магазин или магазин
мобильных приложений не предоставлял фактические данные о загрузках.
Поэтому
большинство
исследователей
разрабатывали
различные
стратегии, которые позволили рассчитывать спрос из данных о ранге
загрузок.
25
ГЛАВА 2. ЭКОНОМЕТРИЧЕСКИЙ АНАЛИЗ СПРОСА НА
МОБИЛЬНЫЕ ПРИЛОЖЕНИЯ НА ПРИМЕРЕ СЕГМЕНТА РЫНКА
APPLE APP STORE В РОССИИ И США
2.1. Описание данных
Данное исследование в первую очередь направлено на изучение
взаимосвязей между количеством скачиваний (непосредственно спросом
на
приложения)
и
различными
характеристиками
приложения.
В
частности, в данном исследовании будет рассмотрен срез данных
(крупный сегмент лидирующих приложений по скачиваниям) на один
период времени, что с практической точки зрения может показать самые
основные и значимые связи между показателями.
Для анализа спроса на мобильные приложения было выделено несколько
категорий. Исходя из анализа мирового рынка мировых приложениц,
самым крупным участников является магазин приложений от Apple,
поэтому в исследовании общим сектором рассмотрения является iPod
market (iTunes market). Из данного сегмента были взяты приложения из
листа Top 150 Most Downloaded Paid Apps2 для двух стран: США и Россия.
Но поскольку этот рейтинг располагает только основными показателями
привлекательности приложения на рынке (количество загрузок, цена,
категория, тип оплаты приложения и др.), основные характеристики
самого приложения были взяты с соответствующего сервиса appannie.com.
Данный сайт располагает широкой базой мобильных приложений,
предоставляющий базу характеристик, включая рейтинг приложения среди
пользователей. Поскольку не для всех приложений из данного рейтинга
были получены все нужные в исследовании характеристики, а так же в
2
Top 150 Most Downloaded Paid Apps. [сайт]. URL: http://xyo.net/app-
downloads-reports/
26
рейтинге
присутствуют
бесплатные
приложения
с
возможностью
приобрести визуальные товары из приложения (условная монетизация),
такие наблюдения были исключены из обзора.
Полученная база исследования располагает 112 наблюдениями по каждой
стране с характеристиками приложений (изначальный рейтинг имел 150
актуальных приложений, но не на все приложения исследователи нашли
характеристики приложений, а так же не у всех приложений были
заполнены рейтинги (у новых приложений отсутствует общий рейтинг, а у
некоторых приложений, которые давно не выпускали обновления,
соответственно, отсутствует рейтинг последней версии). Данная база
актуальна на март 2013 г.
В следующей таблице представлены используемые переменные и их
определение.
Таблица 5 Обзор переменных
Название
id
apps_publis
hed
Описание
Идентификационный номер
приложения
Общее
количество
приложений, публикуемых
издателем
Гипотезы
Чем
больше
количество
приложений,
публикуемых
издателей, тем больше его
популярность,
лучше
узнаваемость
и
выше
скачивания
Тип оплаты за загрузку и
возможность приобретения
виртуальных товаров из
приложения = 1, оплата за
загрузку = 0
price_in_EU Цена в евро
Чем ниже цена, тем больше
R
скачиваний
had_Free_P Наличие ознакомительного Наличие
ознакомительного
eriod
бесплатного периода
периода положительно влияет
на скачивания
is_local
1, когда более 50% всех
скачиваний
приложений
были получены в одной
стране. Например, если
paid_in_app
27
Название
Описание
приложение было скачано
1000
раз
в
общей
сложности, но 700 раз из
немецкого App Store, оно
будет помечено как местное
немецкое приложение. В
случае
США,
устанавливается
уровень
75%. 0 – обратное условие.
downloads_t Количество загрузок за
his_month
последний месяц
compatibilit Совместимость приложения
y
с различными устройствами
(категориальная
переменная,
включает
iPhone,
iPod
touch/
Universal/iPhone only)
publisher
Издатель
time_in_mar Время с момента запуска
ket
приложения на рынок и до
последнего обновления
curr5
Текущий
рейтинг
(последней
версии
приложения) (5 баллов)
curr4
Текущий рейтинг (4 баллов)
curr3
Текущий рейтинг (3 баллов)
curr2
Текущий рейтинг (2 баллов)
curr1
Текущий рейтинг (1 баллов)
all5
Общий рейтинг приложения
(5 баллов)
Общий рейтинг приложения
(4 баллов)
Общий рейтинг приложения
all4
all3
Гипотезы
Если приложение совместимо
с большинством устройств,
тем выше его узнаваемость и
выше загрузки
Количество
скачиваний
больше у известных издателей
Чем
больше
приложение
находится на рынке, тем
больше его скачивания
Увеличение отличных оценок
положительно
влияют на
количество скачиваний
Увеличение хороших оценок
положительно
влияют на
количество скачиваний
Увеличение
удовлетворительных оценок
отрицательно
влияют
на
количество скачиваний
Увеличение
отрицательных
оценок отрицательно влияют
на количество скачиваний
Увеличение
отрицательных
оценок отрицательно влияют
на количество скачиваний
Аналогично,
текущему
рейтингу
28
Название
all2
all1
category
size_MB
number_lan
g
rated
Описание
Гипотезы
(3 баллов)
Общий рейтинг приложения
(2 баллов)
Общий рейтинг приложения
(1 баллов)
Категория приложения
В зависимости от категории
приложения
меняются
предпочтения в потреблении
Размер приложения
Количество,
Количество
языков,
поддерживаемых языков
характеризуют охват стран и
народов – чем больше языков,
тем больше потенциальные
продажи
Ограничения по возрасту
Ограничения
косвенно
указывают на объем публики,
потенциальных потребителей
– положительное влияние на
объем спроса
2.2. Регрессионный анализ загрузок на примере российского рынка
2.2.1.Описательные статистики
При описательном анализе следует проверить данные и полученные
переменные на ошибки, проверить нормальность распределения остатков,
посмотреть на распределение зависимой переменной, по необходимости
провести преобразование переменных и анализ на выбросы, которые могут
искажать дальнейшие результаты.
В первую очередь, приведем общую описательную таблицу всех
переменных. Как видно из Таблица 6 Описательные статистики
переменных в сегменте российского рынка общее количество наблюдений,
в среднем, составляет 112 (за исключением, переменной featured, которая
показывает рейтинг приложения в iTunes), поскольку не у всех
приложений были заполнены рейтинги (у новых приложений отсутствует
общий рейтинг, а у некоторых приложений, которые давно не выпускали
обновления, соответственно, отсутствует рейтинг последней версии).
29
Следует
обратить
внимание
на
зависимую
переменную
downloads_this_month, среднее которой составляет более 20 тысяч
скачиваний, примерно около той же величины составляет стандартное
отклонение
данной
количество
загрузок
величины
(20096,91),
составляет
8400,
при
а
этом
минимальное
максимальное
116500,
следовательно, размах количества скачиваний приложений будет более
100 тысяч.
Таблица 6 Описательные статистики переменных в сегменте российского рынка
. summarize apps_published - rated9
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------apps_publi~d |
112
61.94643
112.2243
1
482
monetizati~e |
112
.4285714
.4970958
0
1
price_in_eur |
112
1.674464
1.440705
.82
5.66
had_free_p~d |
112
.1785714
.3847144
0
1
is_local |
112
.125
.3322053
0
1
-------------+-------------------------------------------------------downloads_~h |
112
20263.39
20096.91
8400
116500
percent |
112
.0089286
.0088552
.0037013
.0513329
price_usd |
112
2.088214
1.734441
.99
6.99
iphoneonly |
112
.0089286
.0944911
0
1
iphoneipod~h |
112
.2946429
.457931
0
1
-------------+-------------------------------------------------------universal |
112
.6964286
.4618663
0
1
gameloft |
112
.0714286
.2586969
0
1
disney |
112
.0446429
.2074466
0
1
other_publ~r |
112
.8839286
.3217502
0
1
featured |
38
64.05263
93.1752
1
456
-------------+-------------------------------------------------------itunes_pla~s |
106
625.934
675.6434
2
3388
curr5 |
107
540.1121
967.6938
0
6706
curr4 |
107
60.18692
103.3843
0
552
curr3 |
107
22.33645
39.1369
0
249
curr2 |
107
11.99065
20.59011
0
142
-------------+-------------------------------------------------------curr1 |
107
26.83178
47.9944
0
284
allversion~n |
109
4.490826
.5181058
1
5
allversion~r |
109
2875.394
4440.936
3.902
24099
all5 |
109
2370.734
3790.669
0
21535
all4 |
109
247
325.811
0
1808
-------------+-------------------------------------------------------all3 |
109
106.0917
161.428
0
1150
all2 |
109
61.42202
94.02111
0
589
all1 |
109
125.8807
187.6442
0
1146
books |
112
.0089286
.0944911
0
1
business |
112
.0267857
.1621823
0
1
-------------+-------------------------------------------------------education |
112
.0267857
.1621823
0
1
entertainm~t |
112
.0535714
.226182
0
1
finance |
112
.0357143
.1864109
0
1
games |
112
.5446429
.5002413
0
1
healthandf~s |
112
.0178571
.1330273
0
1
-------------+-------------------------------------------------------lifestyle |
112
.0089286
.0944911
0
1
music |
112
.0446429
.2074466
0
1
photoandvi~o |
112
.0267857
.1621823
0
1
productivity |
112
.0357143
.1864109
0
1
reference |
112
.0089286
.0944911
0
1
-------------+--------------------------------------------------------
30
socialnetw~g |
112
.0089286
.0944911
0
1
utilities |
112
.1160714
.3217502
0
1
weather |
112
.0357143
.1864109
0
1
size_mb |
112
162.6659
349.0984
.4666
1600
number_lang |
112
6.946429
6.82845
1
32
-------------+-------------------------------------------------------rated12 |
112
.0982143
.2989417
0
1
rated17 |
112
.1160714
.3217502
0
1
rated4 |
112
.6428571
.481311
0
1
rated9 |
112
.1428571
.3514998
0
1
Рассмотрим описательные статистики переменной Downloads_This_Month,
которая отражает количество скачиваний приложений за последний месяц,
и при проведении регрессионного анализа данная переменная будет
являться зависимой. График распределения переменной и график
нормального распределения представлен ниже (Рисунок 10 Распределение
переменной downloads_this_month).
0
Density
.00002 .00004 .00006 .00008
Kernel density estimate
0
50000
100000
Downloads_this_month
150000
Kernel density estimate
Normal density
kernel = epanechnikov, bandwidth = 2.4e+03
Рисунок 10 Распределение переменной downloads_this_month (Россия)
Как видно из графика распределение далеко от нормального, в
доказательство приведем тест на нормальность распределения. Нулевая
гипотеза гласит, что распределение нормально. Поскольку значимость
(probability, далее prob)<0.05, то гипотеза о нормальности распределения
загрузок отвергается. Следовательно, высока вероятность, что и остатки в
регрессии не будут распределены нормально. Следует отметить, что
распределение цены сильно несимметрично (асимметрия, отличаются от
нуля, эксцесс – от трех, и медиана отлична от среднего). Подобный
разброс количества скачиваний может быть связан с различными
характеристиками приложений.
31
Таблица
7
Тест
Франция
на
нормальность
распределение
величины
downloads_this_month (Россия)
. sfrancia
downloads_this_month
Shapiro-Francia W' test for normal data
Variable |
Obs
W'
V'
z
Prob>z
-------------+-------------------------------------------------downloads_~h |
112
0.56101
43.532
7.056
0.00001
Попробуем преобразовать переменную downloads_this_month в логарифм.
Получим lndownloads. Распределение представлено ниже. Графически оно
уже ближе к нормальному, чем первоначальное.
.6
.4
.2
0
Density
.8
1
Kernel density estimate
9
10
11
12
lndownloads
Kernel density estimate
Normal density
kernel = epanechnikov, bandwidth = 0.1666
Рисунок 11 Распределение переменной lndownloads (Россия)
В результате по тесту (Таблица 8 Тест Франция на нормальность
распределение величины lndownloads (Россия)) снова следует, что
распределение данной переменной далеко от нормального (prob<0.05).
Следует отметить, что исходная величина не подразумевает наличие
отрицательных значений и представляет собой целочисленные значения,
поэтому логарифмирование не дает значимых результатов, поэтому исходя
из
графика
распределения,
можно
предположить,
что
зависимая
переменная может иметь пуассоновское распределение, однако к этому
вопросу мы обратимся в параграфе 2.2.4. Регрессионный анализ, часть 3
«Пуассоновская регрессия».
Таблица 8 Тест Франция на нормальность распределение величины lndownloads
(Россия)
. sfrancia lndownloads
32
Shapiro-Francia W' test for normal data
Variable |
Obs
W'
V'
z
Prob>z
-------------+-------------------------------------------------lndownloads |
105
0.84783
14.311
5.092
0.00001
При рассмотрении диаграммы по цене, следует отметить, что цены на
рынке
- сложившаяся категория, которая имеет несколько градаций
(Таблица 9 Категории цен на мобильные приложения, выраженные в
доллары и рубли):
Таблица 9 Категории цен на мобильные приложения, выраженные в доллары и
рубли (Россия)
Евро
Доллар
Рубль
0,82
1,09
32,8
1,63
2,17
65,2
2,45
3,27
98
3,19
4,25
127,6
4,18
5,57
167,2
4,92
6,56
196,8
5,66
7,55
226,4
Как видно из Таблица 10 более 60% - это минимальная цена, что говорит,
что большинство приложений – средняя категория, в которой могут
представлены как известные «бренды», как и малоизвестные платные
приложения. Кроме того, по 10% от выборки занимают цены второй и
третьей ступени (1,63 евро и 2,45 евро, соответственно).
Таблица 10 Распределение категориальной переменной price_in_eur (Россия)
Tabulation of PRICE_IN_EUR
Sample: 1 112
Included observations: 112
Number of categories: 7
Value
0.82
1.63
2.45
3.19
4.18
4.92
5.66
Total
Далее
Count
72
11
11
2
8
2
6
112
рассмотрим
Percent
64.29
9.82
9.82
1.79
7.14
1.79
5.36
100.00
Cumulative Cumulative
Count
Percent
72
64.29
83
74.11
94
83.93
96
85.71
104
92.86
106
94.64
112
100.00
112
100.00
категориальные
переменные.
По
категориям
приложений (Таблица 11 Распределение категориальной переменной
33
Category (Россия)) следует отметить преимущество игр (Category – Games)
более 50%, следующая по количеству – Утилиты (около 12%), далее –
Entertainment (5%) и остальные.
Таблица 11 Распределение категориальной переменной Category (Россия)
Tabulation of CATEGORY
Sample: 1 112
Included observations: 112
Number of categories: 15
Value
Count
Books
1
Business
3
Education
3
Entertainment 6
Finance
4
Games
61
Health
and
Fitness
2
Lifestyle
1
Music
5
Photo
and
Video
3
Productivity 4
Reference
1
Social
Networking
1
Utilities
13
Weather
4
Total
112
Percent
0.89
2.68
2.68
5.36
3.57
54.46
Cumulative
Count
1
4
7
13
17
78
Cumulative
Percent
0.89
3.57
6.25
11.61
15.18
69.64
1.79
0.89
4.46
80
81
86
71.43
72.32
76.79
2.68
3.57
0.89
89
93
94
79.46
83.04
83.93
0.89
11.61
3.57
100.00
95
108
112
112
84.82
96.43
100.00
100.00
Оценивая совместимость устройств и
приложений,
универсальные
приложения занимают весомую долю на рынке, т.е. большинство
приложений существует как на iPhone market, так же и на Android и других
рынках мобильных приложений.
Таблица 12 Распределение категориальной переменной Compatibility (Россия)
Tabulation of COMPATIBILITY
Sample: 1 112
Included observations: 112
Number of categories: 3
Value
Count
iPhone Only
1
iPhone,
iPod
touch
33
Universal
78
Total
112
Percent
0.89
Cumulative Cumulative
Count
Percent
1
0.89
29.46
69.64
100.00
34
112
112
30.36
100.00
100.00
По издателям приложений – большее количество выпустил крупный игрок
на рынке – Gameloft (8 приложений), Disney (5 приложений), Apalon (3
34
приложения), Rovio Entertainment Ltd (3 приложения) (ссылка на
приложение).
Ограничения на приложения распределяются таким образом: большинство
приложений подходят и для маленьких детей 4+ (64%), 9+ (14%), но 13
приложений (12%) занимают приложения для уже взрослых.
Таблица 13 Распределение категориальной переменной Rated (Россия)
Tabulation of RATED
Sample: 1 112
Included observations: 112
Number of categories: 4
Value
Rated
Rated
Rated
Rated
Total
12+:
17+:
4+:
9+:
Count
11
13
72
16
112
Percent
9.82
11.61
64.29
14.29
100.00
Cumulative
Count
11
24
96
112
112
Cumulative
Percent
9.82
21.43
85.71
100.00
100.00
Масштабное скачивание приложения в пределах одной страны (т.е.
локальные приложения) присутствуют только в 12,5% случаев из 100%.
Остальные приложения скачиваются на мировом рынке, что показывает
глобализацию рынка.
Таблица 14 Распределение категориальной переменной Is_local (Россия)
Tabulation of IS_LOCAL
Sample: 1 112
Included observations: 112
Number of categories: 2
Value
no
yes
Total
Count
98
14
112
Percent
87.50
12.50
100.00
Cumulative
Count
98
112
112
Cumulative
Percent
87.50
100.00
100.00
82% приложений не имеют ознакомительного периода (бесплатного)
действия, что может говорить, либо об устоявшей форме монетизации
некоторых приложений либо о популярности качественных платных
приложений.
Таблица 15 Распределение категориальной переменной Free_period (Россия)
Tabulation of HAD_FREE_PERIOD
Sample: 1 112
Included observations: 112
35
Number of categories: 2
Value
no
yes
Total
Count
92
20
112
Percent
82.14
17.86
100.00
Cumulative
Count
92
112
112
Cumulative
Percent
82.14
100.00
100.00
Приведенным описательным анализом уже можно сделать начальную
оценку данного сегмента. В самом популярном сегменте рынка 64% - это
дешевые приложения (0,82 евро =32,8 руб.), что показывает, мотивацию
разработчиков попасть в лидеры по скачиванию (прямая зависимость
прибыли с количеством загрузок). Так же большинство приложений
создаются для мирового потребителя, без привязки к какой-либо стране.
Кроме
того,
эти
приложения
направлены
непосредственно
на
зарабатывание, поскольку у 98 приложений из 112 нет ознакомительного
периода.
2.2.2.Корреляционный анализ
Для выявления взаимосвязей среди переменных часто используются два
способа:
 парные корреляции;
 матрица диаграмм рассеяния.
Поскольку, в данной работе слишком много объясняющих переменных,
сначала проведем анализ на частные взаимосвязи.
Одной из главных объясняющих является цена приложения.
Однако из Рисунок 12 Распределение цены и загрузок (Россия) можно
заключить, что связи между ценой и загрузками нет (регрессионная линия
параллельна линии абсцисс). Попробуем проверить другие сочетания
переменных.
На
Рисунок
13
Распределение
загрузок
и
логарифма
цены
(Россия)приведена связь при преобразовании цены в логарифм и
количества скачиваний приложения – так же как и в предыдущем
варианте, графически взаимосвязи не выявлено.
36
Рисунок 14 Распределение логарифмов цены и загрузок (Россия)
показывает взаимосвязь, когда обе переменные преобразованы через
логарифм. В этом случае, наблюдается небольшой рост процентного
отношения загрузок к увеличению на 1% цены. Данное наблюдение
противоречит первоначально поставленной гипотезе, что с увеличением
цены, количество скачиваний уменьшается. Такой же эффект можно
наблюдать
на
графике
lndownloads
c
price_in_eur
(Рисунок
14
Распределение логарифмов цены и загрузок (Россия))
0
9
10
lndownloads
11
12
150000
100000
50000
Downloads_this_month
Lowess smoother
Lowess smoother
1
2
3
4
Price_in_EUR
5
0
6
bandwidth = .8
1
lnprice_eur
1.5
2
Рисунок 12 Распределение цены и
Рисунок 14 Распределение
загрузок (Россия)
логарифмов цены и загрузок (Россия)
Lowess smoother
12
11
0
9
10
lndownloads
100000
150000
Lowess smoother
50000
Downloads_this_month
.5
bandwidth = .8
1
0
.5
1
lnprice_eur
1.5
2
2
3
4
Price_in_EUR
5
6
bandwidth = .8
bandwidth = .8
Рисунок 13 Распределение загрузок и
Рисунок 15 Распределение цены и
логарифма цены (Россия)
логарифма загрузок (Россия)
37
Тем самым можно показать, что цена не влияет на загрузки напрямую, что
показывает коэффициент корреляции между данными переменными
(Таблица 16 Коэффициенты корреляции цены и объема загрузок (Россия))
Таблица 16 Коэффициенты корреляции цены и объема загрузок (Россия)
PRICE_IN_EUR
DOWNLOADS_THIS_MONTH
LNDOWNLOADS
0.050108 (0.5998)
0.093606 (0.3263)
В следующей таблице (Таблица 17 Коэффициенты корреляции между
загрузками и другими характеристиками (Россия)) представлены основные
коэффициенты линейной корреляции количества загрузок и других
характеристик (рейтинг, цена и т.д.).
В начале таблицы приведены преобразованные переменные рейтинга:
all_average – средняя оценка общего рейтинга приложения, all5_percent –
процент отличных оценок в общем рейтинге, тоже самое сделано
относительно текущего рейтинга. Как показывают уровни значимости этих
коэффициентов – они не значимы, другими словами, между данными
переменными нет линейной связи. Так же не обнаружена линейная
взаимосвязь между загрузками и тем, сколько времени приложение
находится на рынке, а так же с ценой нет линейной связи. Остальные
коэффициенты корреляции значимы, особенно сильно влияют рейтинги,
общий и текущий.
Таблица
17
Коэффициенты
корреляции
между
загрузками
и
другими
характеристиками (Россия)
Probability
ALL_AVERAGE
ALL5_PERCENT
CURR_AVERAGE
CURR5_PERCENT
TIME_IN_MARKET
SIZE_MB
PRICE_IN_EUR
NUMBER_LANG
APPS_PUBLISHED
ALL1
DOWNLOADS_THIS_MONTH
0.114059
0.2610
0.105493
0.2987
0.124058
0.2212
0.130751
0.1971
0.092380
0.3486
0.323846
0.0008
0.042432
0.6674
0.206995
0.0341
0.205166
0.550593
38
0.0000
0.489155
0.0000
0.542517
0.0000
0.684397
0.0000
0.714840
0.0000
0.521830
0.0000
0.409883
0.0000
0.486480
0.0000
0.551106
0.0000
0.657925
0.0000
ALL2
ALL3
ALL4
ALL5
CURR1
CURR2
CURR3
CURR4
CURR5
2.2.3. Проверка на выбросы
Для проверки данных на выбросы построим регрессию, которая будет
включать большинство регрессоров (не берем curr рейтинг, поскольку он
сильно коррелирует с общим рейтингом).
Вообще
между
категориями
общего
рейтинга
тоже
существует
обоснованная сильная корреляция (поэтому можно предполагать, что в
нашей
модели
будет
мультиколлинеарность),
но
поскольку
с
экономической точки зрения нам важно оценить влияние рейтинга/оценок
приложения, то пока эти переменные оставим совместно.
.quietly reg downloads_this_month apps_published paid_in_app price_in_eur had_free_period
is_local universal iphoneipodtouch gameloft disney time_in_market all5 all4 all3 all2 all1
size_mb number_lang books business education entertainment finance games healthandfitness
lifestyle music photoandvideo productivity reference socialnetworking utilities
Проверим регрессию на выбросы. С помощью нескольких способов,
которые можно реализовать в Stata. Поскольку мы имеем несовершенство
информации, некоторые рейтинги пропущены, поэтому данные способы
выявления выбросов отмечают именно эти наблюдения. Придется их
удалить для дальнейшего полноценного анализа.
Таблица 18 Проверка на выбросы (Россия)
. list id rstud downloads_this_month price_in_eur all5 all4 all3 all2 all1 size_mb
abs(rstud)> 2.2
if
+--------------------------------------------------------------------------------------+
|
id
rstud
downlo~h
price_~r
all5
all4
all3
all2
all1
size_mb |
|--------------------------------------------------------------------------------------|
6. | ru6
3.096471
55800
.82
2650
468
139
43
136
3.8 |
39
15.
37.
44.
50.
| ru15
-4.728123
14300
.82
12188
1200
233
71
104
33.4 |
| ru40
3.463026
60000
1.63
2226
567
145
44
86
9.8 |
| ru49
2.983097
110600
4.18
12924
1255
463
265
689
1400 |
| ru55
3.31835
112000
.82
21535
1260
461
295
548
1200 |
|--------------------------------------------------------------------------------------|
61. | ru66
2.707003
59900
.82
8117
469
189
119
296
39.3 |
+--------------------------------------------------------------------------------------+
. list id cooksd dfits if dfits>2*sqrt(30/74) & (cooksd> 4/74)
6.
24.
33.
37.
44.
50.
87.
97.
+-----------------------------+
|
id
cooksd
dfits |
|-----------------------------|
|
ru6
.0943746
1.806972 |
| ru25
.0561746
1.352156 |
| ru35
.1817956
2.357861 |
| ru40
.0817566
1.706148 |
| ru49
.2757072
3.075587 |
|-----------------------------|
| ru55
.3950318
3.728638 |
| ru94
.3105452
. |
| ru104
35.33314
32.87135 |
+-----------------------------+
Удалим из регрессии те выбросы, которые выявили оба теста.
2.2.4. Регрессионный анализ
Базовая линейная модель
Для
рассмотрения
основных
возможных
взаимосвязей
построим
первоначальную линейную модель со всеми объясняющими переменными.
Таблица 19 Линейная модель со всеми объясняющими переменными (Россия)
. reg
downloads_this_month apps_published paid_in_app price_in_eur had_free_period is_local
iphoneonly iphoneipodtouch gameloft d
> isney time_in_market all5 all4 all3 all2 all1 books business education entertainment finance
games healthandfitness lif
> estyle music photoandvideo productivity reference socialnetworking utilities size_mb
number_lang
note: socialnetworking omitted because of collinearity
Source |
SS
df
MS
-------------+-----------------------------Model | 25.5647674
30 .852158912
Residual |
13.852333
74
.18719369
-------------+-----------------------------Total | 39.4171004
104 .379010581
Number of obs
F( 30,
74)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
105
4.55
0.0000
0.6486
0.5061
.43266
-----------------------------------------------------------------------------lndownloads |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------apps_publi~d | -.0005032
.0006692
-0.75
0.454
-.0018365
.0008302
paid_in_app |
.1564417
.1258895
1.24
0.218
-.0943985
.4072819
price_in_eur |
.0186998
.0480454
0.39
0.698
-.0770327
.1144322
had_free_p~d | -.1938156
.129367
-1.50
0.138
-.451585
.0639538
is_local | -.1420443
.1768781
-0.80
0.425
-.4944817
.210393
iphoneonly |
.7839484
.747565
1.05
0.298
-.7056073
2.273504
iphoneipod~h | -.1729389
.1329167
-1.30
0.197
-.4377813
.0919035
gameloft | -.5324262
.2970574
-1.79
0.077
-1.124326
.0594736
disney |
.3078366
.2727199
1.13
0.263
-.2355697
.851243
time_in_ma~t | -.0004167
.0001743
-2.39
0.019
-.000764
-.0000693
all5 |
.0000717
.0000326
2.20
0.031
6.86e-06
.0001366
all4 |
.0000686
.0006263
0.11
0.913
-.0011793
.0013165
all3 |
.0005906
.0026359
0.22
0.823
-.0046615
.0058428
all2 | -.0007563
.0047345
-0.16
0.874
-.01019
.0086774
40
all1 |
.0002648
.0009419
0.28
0.779
-.001612
.0021415
books |
-.891956
.5644681
-1.58
0.118
-2.016683
.2327712
business | -.3760276
.3658893
-1.03
0.307
-1.105078
.3530227
education | -.1262587
.3710057
-0.34
0.735
-.8655036
.6129862
entertainm~t | -.4322201
.340157
-1.27
0.208
-1.109998
.2455575
finance | -.3315601
.3520485
-0.94
0.349
-1.033032
.3699118
games | -.6527126
.2937548
-2.22
0.029
-1.238032
-.0673934
healthandf~s |
1.563592
.5209762
3.00
0.004
.5255248
2.60166
lifestyle | -.8583297
.5196405
-1.65
0.103
-1.893736
.1770766
music | -.2683263
.3311178
-0.81
0.420
-.928093
.3914403
photoandvi~o | -.2942276
.3796639
-0.77
0.441
-1.050724
.4622693
productivity | -.4521253
.3661323
-1.23
0.221
-1.18166
.2774093
reference | -.9479809
.6332243
-1.50
0.139
-2.209708
.3137459
socialnetw~g | (omitted)
utilities | -.3572987
.2989926
-1.20
0.236
-.9530544
.2384571
size_mb |
.0006881
.0002667
2.58
0.012
.0001568
.0012195
number_lang | -.0100094
.0080508
-1.24
0.218
-.026051
.0060321
_cons |
10.08759
.3172948
31.79
0.000
9.45537
10.71982
------------------------------------------------------------------------------
Как мы видим, модель получилась значимой, но помимо этого, существует
большое количество незначимых объясняющих переменных.
24
Series: RESID
Sample 1 112 IF ID<>"ru49"
AND ID<>"ru55" AND ID<
>"ru6" AND ID<>"ru40"
Observations 99
20
16
12
8
4
0
-20000
-10000
0
10000
20000
Mean
Median
Maximum
Minimum
Std. Dev.
Skewness
Kurtosis
-351.3626
-792.2509
24806.79
-19044.94
6161.065
0.527589
5.300077
Jarque-Bera
Probability
26.41548
0.000002
Рисунок 16 Распределение остатков (Россия)
Проверим на нормальность распределения остатков. Тест Харки-Бера
(prob=0.000002) показывает, что распределение не нормально. При
проведении теста на эмпирическое распределение, только у одного теста
не отвергнуть нулевую гипотезу о нормальности распределения на 1%
уровне значимости. Но в общем, остатки распределены не нормально.
Таблица 20 Эмпирическое распределение остатков
Empirical Distribution Test for RESID
Hypothesis: Normal
Sample: 1 112
Included observations: 105
Method
Lilliefors (D)
Cramer-von Mises (W2)
Watson (U2)
Value
Adj. Value
Probability
0.100483
0.250589
0.247398
NA
0.251782
0.248576
0.0109
0.0012
0.0007
41
Anderson-Darling (A2)
1.480049
1.490922
0.0008
Получаем 7 значимых переменных. Очищенная регрессия выглядит так:
Таблица 21 Базовая очищенная линейная модель (Россия)
Dependent Variable: DOWNLOADS_THIS_MONTH
Method: Least Squares
Sample: 1 112 IF ID<>"ru49" AND ID<>"ru55" AND ID<>"ru6" AND
ID<>"ru40"
Included observations: 101
White heteroskedasticity-consistent standard errors & covariance
Variable
Coefficient
Std. Error t-Statistic
Prob.
ALL5
APPS_PUBLISHED
CATEGORY3="Games"
CATEGORY3="Health and Fitness"
CATEGORY3="Social Networking"
SIZE_MB
TIME_IN_MARKET
PRICE_IN_EUR
C
2.161455
-16.67051
-1410.664
67400.13
74103.90
8.169765
-6.469221
310.0589
14444.82
0.464436
10.18700
1735.117
1998.198
8136.211
3.857275
2.981620
652.4888
1939.946
4.653931
-1.636450
-0.813008
33.73046
9.107913
2.118015
-2.169700
0.475194
7.445989
0.0000
0.1052
0.4183
0.0000
0.0000
0.0369
0.0326
0.6358
0.0000
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)
0.740908
0.718378
8288.971
6.32E+09
-1049.890
32.88575
0.000000
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat
18379.21
15619.51
20.96813
21.20116
21.06246
2.145486
Поскольку большинство категорий мобильного приложения оказались
незначимы в регрессии, преобразуем эти фиктивные переменные в вид:
Games, Health and Fitness, Social Networking и Other, причем последнюю
переменную возьмем как эталонную. Так же остальные не значимые
переменные проверим на тесте на лишние переменные (уровень
значимости F-статистики>0.05, следовательно, нулевая гипотеза верна –
это лишние переменные, которые можно удалить из регрессии):
Таблица 22 F – тест на лишние переменные в линейной модели (Россия)
Redundant Variables: ALL4 ALL3 ALL2 ALL1
F-statistic
Likelihood ratio
Value
0.437145
2.223026
df
(4, 77)
4
Redundant Variables: HAD_FREE_PERIOD IS_LOCAL
NUMBER_LANG
Probability
0.7814
0.6948
PAID_IN_APP
42
Value
0.215699
1.048953
F-statistic
Likelihood ratio
df
(4, 81)
4
Probability
0.9290
0.9023
В модели (Таблица 21 Базовая очищенная линейная модель (Россия))
коэффициент, отображающий влияние на скачивание категории «Игры», и
оценка коэффициенты цены получаются незначимыми. С точки зрения
интерпретации они необходимы.
Таблица 23 VIF(Россия)
Variance Inflation Factors
Sample: 1 112 IF ID<>"ru49" AND ID<>"ru55" AND ID<>"ru6"
AND
ID<>"ru40"
Included observations: 101
Variable
ALL5
APPS_PUBLISHED
CATEGORY3="Games"
(CATEGORY3="Health
and Fitness")
(CATEGORY3="Social
Networking")
SIZE_MB
TIME_IN_MARKET
C
Coefficient
Variance
Uncentered
VIF
Centered
VIF
0.094296
94.15744
3864664.
2.107311
2.124621
3.178419
1.451601
1.614666
1.416127
72362919
1.062741
1.052219
96644090
9.966453
8.394548
2566015.
1.419341
1.910490
2.562162
3.806204
1.405288
1.571831
1.226433
NA
В первую очередь, надо уточнить, что объясняющая переменная all5
отображает общее количество высших оценок (рейтинг), поставленных
покупателями. В целях исследования были для стандарта выведены
средний общий и текущий рейтинг, но поскольку выборка, участвующая в
анализе, образована топом скачиваемых приложений, т.е. органично
заметить, что у некоторых приложений средний рейтинг отличается на
несколько сотых (общая величина в среднем превосходит 4,5), поэтому в
регрессию она не включена. А переменная all5 показывает, как общее
увеличение
отличных
отметок
влияет
на
скачивания.
Насчет
одновременного влияния (возможно ли влияние самих загрузок на
рейтинг)
объяснение
приведено
в
части
2
«Регрессия
с
инструментальными переменными».
Исходя из предварительного анализа, из большого количества различных
категорий мобильных приложений для регрессии были созданы лишь 4
43
категории: Games (поскольку это более 50% выборки), Social Networking и
Health&Fitness (было замечено сильное влияние на объем загрузок), а за
эталон взяты все остальные категории под наименованием ‘Other’.
Оказалось, что Social Networking и Health&Fitness имеют лишь по одному
приложению в категории, WhatsApp Messenger и Smart Alarm Clock: sleep
cycles and noise recording, соответственно.
 WhatsApp Messenger — это межплатформенное приложение обмена
сообщениями
между мобильными устройствами, с помощью
которого можно обмениваться сообщениями и при этом не платить
за SMS. Приложение WhatsApp Messenger доступно для iPhone,
BlackBerry, Android, Nokia S40, Nokia Symbian и Windows Phone, и
все эти телефоны могут отправлять сообщения друг другу.
Приложением используется тот же тарифный план для Интернета
(3G или Wi-Fi), который вы используете для электронной почты и
просмотра веб-страниц, и вам не нужно платить за обмен
сообщениями и общение с друзьями. Помимо обмена сообщениями,
пользователи приложения WhatsApp могут создавать группы и
отправлять друг другу изображения, видеоклипы и звуковые
мультимедийные сообщения.
 Smart Alarm Clock: sleep cycles and noise recording – «Умный
будильник», который может как усыпить, так и разбудить, но не
только он может записать ваш сон, воспроизвести и множество
других функций, которых нет у стандартных устройств.
По количеству скачиваний данные приложения достаточно долго держатся
на лидирующем уровне, поэтому эти коэффициенты дают значимую
оценку. В результате получается, что по сравнению со всеми остальными
категориями для приложений WhatsApp Messenger и Smart Alarm Clock:
sleep cycles and noise recording увеличение в объеме скачиваний составляет
67 и 74 тыс. раз.
44
Но старые приложения никому не нужны, рынок быстро растущий,
развивающийся и успех бизнеса озадачивает все время поддерживать
новизну и обновление устаревшего, поэтому оценка коэффициента при
переменной,
выражающей
время
нахождения
на
рынке
в
днях
отрицательный. А цена на приложения возможно не значима из-за
внутренних особенностей рынка: общие устоявшиеся цены (несколько
категорий), большинство успешных приложений находятся в самой низкой
категории цены, а так же возможен порог выше которого люди не будут
заинтересованы покупать приложение, тем более в какой-то доли
приобретение каждого малоизвестного приложения – риск, поэтому
потребитель будет уменьшать свои издержки.
Поскольку
в
базовой
регрессии
объясняющая
переменная,
характеризующая цены на мобильные приложения, оказалась незначимая,
на основе линейной модели проверим значимость каждой категории цены
в отдельности, а именно преобразуем ряд цен в фиктивные переменные и
включим в регрессию.
Таблица 24 Базовая регрессия с включением каждой категории цены на
мобильное приложение (Россия)
Dependent Variable: DOWNLOADS_THIS_MONTH
Method: Least Squares
Sample (adjusted): 1 106
Included observations: 99 after adjustments
White heteroskedasticity-consistent standard errors & covariance
Variable
ALL3
ALL5
APPS_PUBLISHED
CATEGORY3="Games"
CATEGORY3="Health and Fitness"
CATEGORY3="Social Networking"
HAD_FREE_PERIOD
IS_LOCAL
SIZE_MB
TIME_IN_MARKET
PRICE_NEW(1)
PRICE_NEW(2)
PRICE_NEW(3)
PRICE_NEW(4)
PRICE_NEW(5)
Coefficient
-4.663348
2.776300
-10.01094
-4349.503
64642.06
48024.16
-765.3887
1982.631
11.73597
-11.50809
-1206.680
-855.4401
-224.9476
-1210.233
-936.7710
Std. Error t-Statistic
68.85517
1.045457
17.32878
2950.248
4775.391
24221.30
2650.830
4393.817
6.043269
3.054002
684.2144
463.6735
864.2998
479.1961
446.0089
-0.067727
2.655585
-0.577706
-1.474284
13.53650
1.982724
-0.288735
0.451232
1.941990
-3.768200
-1.763600
-1.844919
-0.260266
-2.525549
-2.100341
Prob.
0.9462
0.0096
0.5651
0.1445
0.0000
0.0510
0.7736
0.6531
0.0558
0.0003
0.0818
0.0689
0.7954
0.0136
0.0390
45
PRICE_NEW(6)
PAID_IN_APP
NUMBER_LANG
ALL4
ALL2
ALL1
C
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
809.1809
2308.106
-4.097890
17.16875
-19.55105
-0.408005
22071.92
686.7490
2138.602
192.7811
33.94820
141.9644
33.86443
4901.336
1.178277
1.079259
-0.021257
0.505734
-0.137718
-0.012048
4.503245
0.2423
0.2838
0.9831
0.6145
0.8908
0.9904
0.0000
0.774182
0.712595
11297.65
9.83E+09
-1051.937
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
21454.55
21073.70
21.69571
22.27240
21.92904
Снова для очищения регрессии от лишних переменных проведем F-тест на
лишние
переменные
(probability
F-статистики>0.05,
следовательно,
нулевая гипотеза не отклоняется – это статистически незначимые
переменные, которые можно удалить из регрессии):
Таблица 25 F – тест на лишние переменные в линейной модели c ценой как
категориальной переменной (Россия)
Redundant Variables: APPS_PUBLISHED NUMBER_LANG PAID_IN_APP
IS_LOCAL HAD_FREE_PERIOD
F-statistic
Likelihood ratio
Value
0.268289
1.626114
df
(5, 81)
5
Probability
0.9292
0.8981
Redundant Variables: PRICE_NEW(3) PRICE_NEW(4) PRICE_NEW(5)
PRICE_NEW(6)
F-statistic
Likelihood ratio
Value
1.521987
6.771281
df
(4, 86)
4
Probability
0.2029
0.1485
Получаем такую очищенную регрессию, где
Таблица 26Очищенная регрессия с категориальной ценой (Россия)
Dependent Variable: DOWNLOADS_THIS_MONTH
Method: Least Squares
Sample (adjusted): 1 110
Included observations: 103 after adjustments
White heteroskedasticity-consistent standard errors & covariance
Variable
ALL5
CATEGORY3="Games"
CATEGORY3="Health and Fitness"
CATEGORY3="Social Networking"
SIZE_MB
TIME_IN_MARKET
PRICE_NEW(1)
PRICE_NEW(2)
C
Coefficient
3.400473
-6148.669
64031.21
56419.16
12.26519
-12.14541
-1345.688
-886.3093
21304.90
Std. Error t-Statistic
0.547882
2311.314
2199.837
8703.670
5.361273
3.697275
565.4826
509.7727
3202.031
6.206578
-2.660248
29.10724
6.482226
2.287738
-3.284963
-2.379716
-1.738636
6.653557
Prob.
0.0000
0.0092
0.0000
0.0000
0.0244
0.0014
0.0193
0.0854
0.0000
46
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)
0.734536
0.711943
11151.18
1.17E+10
-1101.330
32.51212
0.000000
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat
21010.68
20776.96
21.55980
21.79002
21.65305
1.857978
Из предыдущей модели видно, что первая и вторая категория цены
значима и имеет отрицательный знак, данный факт показывает, что при
сравнении с другими категориями, наличие этих категорий уменьшает
количество загрузок на 1345 и 886 соответственно. При этом большинство
приложений состоят именно в первой категории цены, что достаточно
странно.
Возможно,
существует
какая-то
ошибка.
Проверим
на
мультиколлинеарность модель. Мультиколлинеарности не обнаружено, все
коэффициенты VIF<2.
Таблица 27 Variance Inflation Factors для модели с категориальной ценой (Россия)
Variance Inflation Factors
Sample: 1 112
Included observations: 103
Variable
ALL5
CATEGORY3="Games"
(CATEGORY3="Health
and Fitness")
(CATEGORY3="Social
Networking")
SIZE_MB
TIME_IN_MARKET
PRICE_NEW(1)
PRICE_NEW(2)
C
Coefficient
Variance
Uncentered
VIF
Centered
VIF
0.112319
6444078.
1.952306
2.953887
1.379172
1.319212
1.33E+08
1.066072
1.055722
1.65E+08
12.16745
14.73940
408106.5
405385.5
8294643.
1.326529
1.542618
2.455353
2.523818
2.461350
6.870575
1.313650
1.272910
1.190710
1.078200
1.052210
NA
Важно отметить, что проблемы гетероскедастичности сразу решались в
моделях с использованием скорректированных стандартных ошибок. А так
же исходя из распределения зависимой величины, была построена
аналогичная лог-линейная модель для сравнения показателей. По
описательным способностям она слабее. Но с математической точки
47
зрения использование ее оценок является обоснованным. Поэтому все
дальнейшие сравнения будут происходить именно с этой моделью.
Таблица 28 Лог-линейная модель
Dependent Variable: LOG(DOWNLOADS_THIS_MONTH)
Method: Least Squares
Sample: 1 112 IF ID<>"ru49" AND ID<>"ru55" AND ID<>"ru6" AND
ID<>"ru40"
Included observations: 101
White heteroskedasticity-consistent standard errors & covariance
Variable
Coefficient
Std. Error
t-Statistic
Prob.
ALL5
APPS_PUBLISHED
CATEGORY3="Games"
CATEGORY3="Health and Fitness"
CATEGORY3="Social Networking"
SIZE_MB
TIME_IN_MARKET
PRICE_IN_EUR
C
8.58E-05
-0.000478
-0.057651
1.933486
1.203614
0.000289
-0.000392
0.027314
9.518194
1.64E-05
0.000485
0.086928
0.091797
0.297765
0.000175
0.000128
0.035485
0.094453
5.233942
-0.984582
-0.663197
21.06251
4.042156
1.653017
-3.051742
0.769730
100.7713
0.0000
0.3274
0.5089
0.0000
0.0001
0.1017
0.0030
0.4434
0.0000
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)
0.509096
0.466409
0.389434
13.95260
-43.35033
11.92618
0.000000
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat
9.635890
0.533125
1.036640
1.269671
1.130978
1.885533
При этом, нулевая гипотеза о нормальности остатков не может быть
принятой.
10
Series: RESID
Sample 1 112 IF ID<>"ru49"
AND ID<>"ru55" AND ID<
>"ru6" AND ID<>"ru40"
Observations 101
8
6
4
2
0
-0.8
-0.6
-0.4
-0.2
0.0
0.2
0.4
0.6
0.8
1.0
Mean
Median
Maximum
Minimum
Std. Dev.
Skewness
Kurtosis
1.15e-15
-0.061985
1.129232
-0.847199
0.373532
0.664758
3.609346
Jarque-Bera
Probability
9.001274
0.011102
Рисунок 17 Остатки лог-линейной модели
В результате получается, что по сравнению со всеми остальными
категориями для приложений WhatsApp Messenger и Smart Alarm Clock:
48
sleep cycles and noise recording увеличение в объеме скачиваний составляет
на 591,36% и 233,21%, соответственно. Так же как и в линейной модели,
время нахождения на рынке отрицательно влияет на загрузки (с каждым
днем относительная оценка загрузок будет падать на 0,04%. А цена на
приложения возможно не значима из-за внутренних особенностей рынка:
общие устоявшиеся цены (несколько категорий), большинство успешных
приложений находятся в самой низкой категории цены, а так же возможен
порог
выше
приложение,
которого
тем
люди
более
в
не
будут
какой-то
заинтересованы
доли
приобретение
покупать
каждого
малоизвестного приложения – риск, поэтому потребитель будет уменьшать
свои издержки.
Регрессия с инструментальными переменными
Важной
предпосылкой
линейных
регрессий
является
экзогенность
заданных факторов, т.е. некоррелированность объясняющих переменных и
случайной ошибки. Обратная ситуация может привести к смещенным и
несостоятельным
оценкам
при
применении
стандартных
методов
оценивания (например, МНК). Одной из причин данной проблемы может
являться проблема пропущенных существенных переменных (в нашем
случае, пропущенной значимой объясняющей переменной может являться
продвижение приложения через мобильный магазин (первые строчки для
скачиваний и т.д.) или влияние рекламы в повседневной жизни).
Кроме того, следует отметить, что при имеющемся наборе данных можно
предположить возможность одновременности, а точнее совместного
влияния зависимой и независимых переменных друг от друга. Например,
можно предположить, что рейтинг может влиять на количество скачиваний
(если
человек
выбирает
приложение
по
рейтингу,
то
рейтинг
непосредственно влияет на желание скачать приложение), но и обратная
связь может работать (если потребитель увидит популярность приложения,
то и эта характеристика может послужить катализатором к последующей
49
оценке). Так же цена может влиять на количество скачиваний (чем
дешевле приложение, тем больше его покупают, например), но и обратная
связь тоже возможна (чем больше масштаб продаж, тем ниже цена).
Данную
проблему
в
научном
сообществе
решают
с
помощью
инструментальных переменных.
Инструментальные переменные – это переменные, которые коррелируют с
«проблемными» регрессорами, но не коррелируют с ошибкой. В данном
случае могут применяться два способа оценивания регрессионных
параметров: двухшаговый метод наименьших квадратов(2ШМНК) и метод
максимального правдоподобия с ограниченной информацией.
Как было замечено выше, одновременная связь может быть у рейтинга с
загрузками. В исследовании имеются два вида рейтинга: общий и текущий.
Но так как количество скачиваний приведено лишь за один месяц, то
можно сказать, что общий рейтинг может влиять на объем загрузок, но вот
этот объем не будет значимым фактором роста оценок в общем рейтинге,
тем
самым
опровергается
одновременная
связь
между
этими
переменными. А вот с текущим рейтингом вполне может сложиться
обратная ситуация, поэтому в модели мы учтем только общий рейтинг. Это
можно сделать в связи с тем, что общий рейтинг коррелирует с текущим, а
значит мы можем оставить только один из них.
Другой такой объясняющей переменной является цена. Нужно подобрать
такой инструмент, который коррелирует с ценой, но в тоже время не
коррелирует с ошибкой (или с возможной пропущенной объясняющей
переменной).
Такими
могут
являться:
количество
приложений,
выпущенных разработчиком (чем больше приложений, тем больше цена),
размер приложения (рыночная цена косвенно учитывает себестоимость
создания приложения, в результате, чем больше размер приложения, тем
больше разработчики потратили времени и создали улучшенное по
качеству приложение, т.е. размер коррелирует с ценой). Проверим эти
предположения.
50
Из Таблица 29 Зависимость цены от размера и публикаций разработчика
(Россия)видно, что взаимосвязь между размером приложения и ценой
существует и она значима, но в тот же момент загрузки не влияют на
размер приложения. А вот между количеством приложений, выпущенных
разработчиком и ценой, линейная связь отсутствует. Поэтому размер
приложения – скорее всего сильный инструмент, который можно
использовать в модели.
Таблица 29 Зависимость цены от размера и публикаций разработчика (Россия)
Dependent Variable: PRICE_IN_EUR
Method: Least Squares
Sample: 1 112
Included observations: 112
Variable
Coefficient
Std. Error t-Statistic
Prob.
SIZE_MB
APPS_PUBLISHED
C
0.002677
-0.000597
1.276017
0.000409
0.001271
0.124262
6.550100
-0.469596
10.26879
0.0000
0.6396
0.0000
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)
0.383626
0.372316
1.141420
142.0095
-172.2152
33.92032
0.000000
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat
1.674464
1.440705
3.128844
3.201661
3.158388
2.112308
Построим модель с полученным инструментом (Таблица 31 Проверка
инструмента (Россия)).
Таблица 30 Модель с инструментом (size_mb) (Россия)
. ivregress 2sls downloads_this_month ( price_in_eur= size_mb) all5 games healthandfitness
socialnetworking time_in_market if id!="ru49" & id!="ru55" & id!="ru6" & id!="ru40", robust
Instrumental variables (2SLS) regression
Number of obs
Wald chi2(6)
Prob > chi2
R-squared
Root MSE
=
105
= 3663.80
= 0.0000
= 0.6456
=
12205
-----------------------------------------------------------------------------|
Robust
downloads_~h |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------price_in_eur |
4690.188
1813.469
2.59
0.010
1135.854
8244.522
all5 |
3.802472
.677183
5.62
0.000
2.475218
5.129727
games | -6883.665
2572.551
-2.68
0.007
-11925.77
-1841.559
healthandf~s |
70094.25
3157.42
22.20
0.000
63905.82
76282.68
socialnetw~g |
57555.8
10083.49
5.71
0.000
37792.53
77319.08
time_in_ma~t | -14.72253
4.394472
-3.35
0.001
-23.33553
-6.109521
_cons |
10892.92
3234.53
3.37
0.001
4553.361
17232.49
-----------------------------------------------------------------------------Instrumented: price_in_eur
Instruments:
all5 games healthandfitness socialnetworking time_in_market
size_mb
51
Снова проверим, не являются ли наши инструменты слабыми.
Таблица 31 Проверка инструмента (Россия)
. estat firststage
First-stage regression summary statistics
-------------------------------------------------------------------------|
Adjusted
Partial
Robust
Variable |
R-sq.
R-sq.
R-sq.
F(1,98)
Prob > F
-------------+-----------------------------------------------------------price_in_eur | 0.4424
0.4082
0.4137
74.9552
0.0000
--------------------------------------------------------------------------
Коэффициент
детерминации
является
относительно
высоким
(описательная способность 44%), F статистики выше часто используемого
порога в 10 единиц, поэтому инструмент сильный.
Сравним IV и OLS-оценки с помощью теста Хаусмана(Таблица 32 Тест
Хаусмана (Россия)). Поскольку не отклоняется нулевая гипотеза, оценки
коэффициентов в обеих регрессиях отличаются незначимо, значит, OLS
дает состоятельные и эффективные оценки, а IV – только состоятельные.
Можно предпочесть OLS модель.
Таблица 32 Тест Хаусмана (Россия)
. hausman iv ols
---- Coefficients ---|
(b)
(B)
(b-B)
sqrt(diag(V_b-V_B))
|
iv
ols
Difference
S.E.
-------------+---------------------------------------------------------------price_in_eur |
4690.188
1730.467
2959.721
1012.042
all5 |
3.802472
3.712313
.090159
.0907816
games |
-6883.665
-5126.541
-1757.124
861.93
healthandf~s |
70094.25
67460.25
2634
3140.421
socialnetw~g |
57555.8
55575.84
1979.965
3411.753
time_in_ma~t |
-14.72253
-13.12542
-1.597112
1.137419
-----------------------------------------------------------------------------b = consistent under Ho and Ha; obtained from ivregress
B = inconsistent under Ha, efficient under Ho; obtained from regress
Test:
Ho:
difference in coefficients not systematic
chi2(5) = (b-B)'[(V_b-V_B)^(-1)](b-B)
=
8.55
Prob>chi2 =
0.1283.
Попробовав другие предположительные инструменты, тест Хаусмана
показывал
такие
же
результаты,
поэтому
приводить
данные
результаты в работе не будем.
52
Пуассоновская регрессия
Зависимая
переменная
представляет
Downloads_This_Month
число
событий (скачиваний), поэтому обычно используют три способа работы с
такими данными: пуассоновская регрессия, негативная биноминальная
регрессия, zero-inflated regression model.
Downloads_This_Month – дискретная величина (количество скачиваний
приложений за месяц), принадлежащая области натуральных чисел,
другими словами, это только положительные оценки. В таком случае,
априори, нормальное распределение не подходит, потому что оно
подразумевает как отрицательные, так и положительные величины,
распределенные вокруг математического ожидания равного нулю, для
непрерывной переменной.
В то время как Пуассоновская регрессия – это лог-линейная функция,
параметры
которой
найдены
с
помощью
метода
максимального
правдоподобия (максимизирует функция правдоподобия эмпирического
распределения пуасссоновскому распределению). Это показывает, что мы
имеем лог-линейную функцию, у которой изменение на единицу
объясняющей переменной приводит к изменению зависимой переменной
нa (eβ-1)*100%.
Таблица 33 Пуассоновская регрессия (Россия)
. poisson downloads_this_month apps_published paid_in_app price_in_eur is_local iphoneonly
iphoneipodtouch gameloft disney time_in_market all5 games healthandfitness socialnetworking
size_mb
note: socialnetworking omitted because of collinearity
Iteration
Iteration
Iteration
Iteration
Iteration
0:
1:
2:
3:
4:
log
log
log
log
log
likelihood
likelihood
likelihood
likelihood
likelihood
Poisson regression
Log likelihood =
-183282.9
= -532725.65
= -186447.07
= -183293.74
= -183282.9
= -183282.9
Number of obs
LR chi2(13)
Prob > chi2
Pseudo R2
=
=
=
=
105
990985.35
0.0000
0.7300
-----------------------------------------------------------------------------downloads_~h |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------apps_publi~d | -.0001645
8.85e-06
-18.59
0.000
-.0001818
-.0001471
paid_in_app |
.1136139
.0020313
55.93
0.000
.1096327
.1175951
price_in_eur |
.0383184
.0006595
58.11
0.000
.0370259
.0396109
is_local | -.0497754
.0025813
-19.28
0.000
-.0548346
-.0447161
53
iphoneonly |
.9504373
.0049334
192.65
0.000
.940768
.9601066
iphoneipod~h | -.1699676
.001996
-85.16
0.000
-.1738796
-.1660556
gameloft |
-.523014
.0030472 -171.64
0.000
-.5289864
-.5170415
disney |
.2091281
.0039564
52.86
0.000
.2013738
.2168824
time_in_ma~t |
-.000548
2.95e-06 -185.50
0.000
-.0005538
-.0005422
all5 |
.0000978
1.69e-07
578.39
0.000
.0000974
.0000981
games | -.3364143
.0021495 -156.51
0.000
-.3406273
-.3322014
healthandf~s |
1.934748
.004422
437.53
0.000
1.926081
1.943414
socialnetw~g | (omitted)
size_mb |
.000533
3.32e-06
160.63
0.000
.0005265
.0005395
_cons |
9.764455
.0017949 5439.99
0.000
9.760937
9.767973
------------------------------------------------------------------------------
Все коэффициенты значимы, что достаточно странно, поэтому можно
предположить, что в модели существует гетероскедастичность такой
формы, которую не учитывает модель. Так же проверим на чрезмерную
дисперсию, которая может менять модель к обобщенному виду – Negative
Binomial Model.
Negative Binomial Model – модификация пуассоновской регрессии,
которая учитывает чрезмерную дисперсию. В модели как показатель
является alpha, которая показывает степень такой дисперсии. Если alpha=0,
то модель сводится к простой пуассоновской регрессии.
Таблица 34 NB model
. nbreg downloads_this_month apps_published paid_in_app price_in_eur had_free_period is_local
gameloft disney time_in_market all5 books business education entertainment finance games
healthandfitness lifestyle music photoandvideo productivity reference socialnetworking
utilities weather size_mb number_lang
note: weather omitted because of collinearity
Negative binomial regression
Dispersion
= mean
Log likelihood = -1068.2565
Number of obs
LR chi2(25)
Prob > chi2
Pseudo R2
=
=
=
=
105
133.20
0.0000
0.0587
-----------------------------------------------------------------------------downloads_~h |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------apps_publi~d | -.0007123
.0005932
-1.20
0.230
-.001875
.0004504
paid_in_app |
.1181322
.1085006
1.09
0.276
-.0945251
.3307896
price_in_eur |
.0554841
.0383271
1.45
0.148
-.0196357
.1306039
had_free_p~d | -.2008438
.1106949
-1.81
0.070
-.4178019
.0161142
is_local | -.0664979
.1571698
-0.42
0.672
-.3745451
.2415493
gameloft | -.5478543
.2397321
-2.29
0.022
-1.017721
-.077988
disney |
.4332597
.2251464
1.92
0.054
-.0080191
.8745386
time_in_ma~t | -.0004987
.0001478
-3.37
0.001
-.0007884
-.000209
all5 |
.000101
.0000126
8.03
0.000
.0000764
.0001257
books | -.7221149
.4873905
-1.48
0.138
-1.677383
.233153
business | -.3210152
.3197195
-1.00
0.315
-.9476539
.3056236
education | -.0245485
.3185785
-0.08
0.939
-.6489508
.5998538
entertainm~t | -.1422954
.2882116
-0.49
0.622
-.7071798
.4225889
finance | -.4202961
.3074502
-1.37
0.172
-1.022887
.1822952
games | -.4954923
.243751
-2.03
0.042
-.9732355
-.017749
healthandf~s |
1.622308
.4497041
3.61
0.000
.7409039
2.503712
lifestyle | -.7466399
.4412994
-1.69
0.091
-1.611571
.1182911
music | -.0510578
.2792787
-0.18
0.855
-.5984339
.4963184
photoandvi~o | -.1473253
.3153151
-0.47
0.640
-.7653314
.4706809
productivity | -.3614845
.3132151
-1.15
0.248
-.9753749
.2524058
reference | -.8123049
.5125673
-1.58
0.113
-1.816918
.1923085
54
socialnetw~g |
.9135522
.521896
1.75
0.080
-.1093452
1.93645
utilities | -.1249298
.2482872
-0.50
0.615
-.6115637
.3617041
weather | (omitted)
size_mb |
.0006469
.0002153
3.01
0.003
.000225
.0010688
number_lang | -.0082816
.0070221
-1.18
0.238
-.0220447
.0054814
_cons |
9.932196
.2410721
41.20
0.000
9.459703
10.40469
-------------+---------------------------------------------------------------/lnalpha | -1.936543
.1348728
-2.200889
-1.672197
-------------+---------------------------------------------------------------alpha |
.1442016
.0194489
.1107047
.1878339
-----------------------------------------------------------------------------Likelihood-ratio test of alpha=0: chibar2(01) = 3.4e+05 Prob>=chibar2 = 0.000
После очищения регрессии, получились такие результаты:
Таблица 35 NB regression (final)
. nbreg downloads_this_month
apps_published
price_in_eur had_free_period gameloft disney
time_in_market all5 games healthandfitness socialnetworking size_mb
Negative binomial regression
Number of obs
LR chi2(11)
Prob > chi2
Pseudo R2
Dispersion
= mean
Log likelihood = -1073.626
=
=
=
=
105
122.47
0.0000
0.0540
-----------------------------------------------------------------------------downloads_~h |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------apps_publi~d | -.0005248
.0006173
-0.85
0.395
-.0017346
.000685
price_in_eur |
.0336976
.0361641
0.93
0.351
-.0371828
.1045781
had_free_p~d | -.1920101
.1095531
-1.75
0.080
-.4067302
.02271
gameloft |
-.531181
.2528644
-2.10
0.036
-1.026786
-.0355758
disney |
.3363287
.2328566
1.44
0.149
-.1200619
.7927192
time_in_ma~t | -.0005772
.0001379
-4.19
0.000
-.0008475
-.000307
all5 |
.0001019
.0000131
7.76
0.000
.0000762
.0001277
games | -.1979649
.0918527
-2.16
0.031
-.3779929
-.0179369
healthandf~s |
1.844504
.4121797
4.47
0.000
1.036647
2.652361
socialnetw~g |
.9590626
.4632428
2.07
0.038
.0511233
1.867002
size_mb |
.0006152
.0002158
2.85
0.004
.0001922
.0010381
_cons |
9.727586
.0892139
109.04
0.000
9.55273
9.902442
-------------+---------------------------------------------------------------/lnalpha | -1.839133
.1345577
-2.102861
-1.575405
-------------+---------------------------------------------------------------alpha |
.1589552
.0213886
.1221066
.2069238
-----------------------------------------------------------------------------Likelihood-ratio test of alpha=0: chibar2(01) = 3.7e+05 Prob>=chibar2 = 0.000
По результатам модель дает похожие результаты с лог-линейной моделью,
значимы соответствующие коэффициенты и знаки у оценок одинаковы.
Поэтому для того, чтобы решить, какая модель лучше, сравним их
информационные критерии.
Таблица 36 Информационные критерии для NB model
. estat
ic
----------------------------------------------------------------------------Model |
Obs
ll(null)
ll(model)
df
AIC
BIC
-------------+--------------------------------------------------------------. |
105
-1134.859
-1073.626
13
2173.252
2207.753
Поскольку
информационные
критерии
у
OLS
модели
ниже,
то
предпочтение стоит отдать именно ей.
55
Таблица 37 Информационные критерии для OLS
. estat
ic
----------------------------------------------------------------------------Model |
Obs
ll(null)
ll(model)
df
AIC
BIC
-------------+--------------------------------------------------------------. |
105
-97.55111
-54.26168
8
124.5234
145.755
2.2.5. Рыночные атрибуты
В эконометрике в последнее время используют такую характеристику, как
неявная цена атрибутов. Неявные цены на атрибуты (различные
характеристики товара) определяются не от регрессии цен на вектор
атрибутов, а от регрессии количества проданных величин (объема продаж)
по цене и различным атрибутам. Основной задачей этого анализа является
получение оценки, сколько потребитель готов заплатить за увеличение
атрибута на 1 единицу при условии сохранения продаж прежними,
другими словами, выявить скрытые цены атрибутов, которые отражают
предельные нормы замещения потребителей между атрибутами.
Выводятся эти неявные цены на атрибуты с помощью теоремы о неявной
функции.
Теорема о неявной функции
Пусть уравнение F(x; y) = 0 имеет решение (х0; у0), причем частные
производные непрерывны в точке (х0; у0) и вторая из них (по
переменной у) отлична от нуля в этой точке. Тогда в достаточно малой
окрестности точки х0 существует одна и только одна непрерывная
функция у(х), такая, что у(х0) = у0. При этом справедливо равенство:
причем эта производная непрерывна в указанной окрестности точки х0.
Рыночная ценность атрибутов
В нашем случае мы имеем такую гедоническую модель:
𝑄(𝑍) = 𝛽0 + 𝛽𝑖 ∗ 𝑍𝑖 + 𝛽𝑗 ∗ 𝑃 + 𝜀,
56
где Zi – набор различных характеристик, P – цены приложения.
𝜕𝑄
𝜕𝑍
𝜋=− 𝑖
𝜕𝑄
𝜕𝑃
где 𝜋 – рыночная ценность атрибутов.
Найдем рыночную стоимость атрибутов по сегменту российского рынка
приложений. Поскольку в линейной и лог-линейной модели взаимосвязь
между загрузками и ценой практически отсутствует и коэффициент оценки
цены как объясняющей переменной не значим, рыночные атрибуты будем
считать только по модели с инструментальными переменными.
Таблица 38 Рыночная ценность атрибутов
Объясняющие переменные
ALL5
Коэффициенты IV
π
3,80247
-0,00081
CATEGORY3="Games"
-6883,66500
1,46767
CATEGORY3="Health and Fitness"
70094,25000
-14,94487
CATEGORY3="Social Networking"
57555,80000
-12,27153
-14,72253
0,00314
TIME_IN_MARKET
PRICE_IN_EUR
4690,18800
Поскольку цена положительно влияет на загрузки, другими словами, чем
выше цена, тем выше загрузки (что странно, особенно если учитывать, что
большая часть выборки находится в нижнем уровне цены). Но с данной
точки зрения, у нас меняются полностью ценности рыночных атрибутов в
противоположную сторону, т.е. ценность отличных оценок в рейтинге
падает, ценность крупнейших категорий тоже. Возможной причиной
данной особенности рынка является наличие на рынке крайне популярных
приложений, которые являются одними из самых дорогих приложений на
рынке в данном сегменте. Поэтому зависимость загрузок и цены имеет
восходящую траекторию, что мешает дальнейшим интерпретациям.
57
2.3. Регрессионный анализ для рынка Соединенных Штатов Америки
2.3.1.Описательные статистики
Теперь сделаем подобный анализ для сегмента рынка мобильных
приложений относительно США. В данном случае, многие комментарии
будем опускать, если он будет аналогичен предыдущему анализу для
России.
В первую очередь приведем общую описательную таблицу всех
переменных. Как видно из таблицы (Таблица 39 Описательные статистики
переменных в сегменте американского рынка), общее количество
наблюдений, в среднем, составляет 112 (за исключением, переменной
featured, которая показывает рейтинг приложения в iTunes), поскольку не у
всех приложений были заполнены рейтинги (у новых приложений
отсутствует общий рейтинг, а у некоторых приложений, которые давно не
выпускали обновления, соответственно, отсутствует рейтинг последней
версии).
Следует
обратить
внимание
на
зависимую
переменную
downloads_this_month, среднее которой составляет 123970,5 скачиваний,
примерно около той же величины составляет дисперсия данной величины
(117944,5), при этом минимальное количество загрузок составляет 45600, а
максимальное 679500, следовательно, размах количества скачиваний
приложений будет более 630 тысяч раз.
Таблица 39 Описательные статистики переменных в сегменте американского
рынка
. summarize
apps_published -
rated9
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------apps_publi~d |
112
63.90179
113.0439
1
482
paid_in_app |
112
.5446429
.5002413
0
1
price_in_eur |
112
1.514732
1.331577
.75
7.61
had_free_p~d |
112
.0535714
.226182
0
1
is_local |
112
.125
.3322053
0
1
-------------+-------------------------------------------------------downloads_~h |
112
123970.5
117944.5
45600
679500
price_usd |
112
2.034643
1.777681
.99
9.99
iphoneonly |
112
.0089286
.0944911
0
1
iphoneipod~h |
112
.3571429
.481311
0
1
iphoneitouch |
112
.0089286
.0944911
0
1
-------------+-------------------------------------------------------universal |
112
.625
.4862988
0
1
curr5 |
112
3488.143
11216.11
17
102186
curr4 |
112
581.8571
2222.677
1
23206
58
curr3 |
112
175.6071
452.0858
0
4179
-------------+-------------------------------------------------------curr2 |
112
76
137.0002
0
716
curr1 |
112
138.8571
245.5445
1
1416
all5 |
105
39780.79
90923.25
711
639390
all4 |
105
6556.676
15146
80
97229
all3 |
105
2204.895
5052.1
26
40457
-------------+-------------------------------------------------------all2 |
105
1089.171
2370.015
10
19248
all1 |
105
2065.933
4266.379
22
26168
business |
112
.0178571
.1330273
0
1
education |
112
.0178571
.1330273
0
1
entertainm~t |
112
.0089286
.0944911
0
1
-------------+-------------------------------------------------------games |
112
.75
.4349588
0
1
healthandf~s |
112
.0267857
.1621823
0
1
music |
112
.0357143
.1864109
0
1
photoandvi~o |
112
.0357143
.1864109
0
1
productivity |
112
.0089286
.0944911
0
1
-------------+-------------------------------------------------------socialnetw~g |
112
.0089286
.0944911
0
1
utilities |
112
.0446429
.2074466
0
1
weather |
112
.0446429
.2074466
0
1
size_mb |
112
127.9429
312.319
1.1
1600
number |
112
5.053571
5.615037
0
32
-------------+-------------------------------------------------------rated12 |
112
.0892857
.2864373
0
1
rated17 |
112
.1160714
.3217502
0
1
rated4 |
112
.5982143
.4924625
0
1
rated9 |
112
.1875
.3920666
0
1
Аналогично,
рассмотрим
Downloads_This_Month,
описательные
которая
отражает
статистики
количество
переменной
скачиваний
приложений за последний месяц, она же будет являться зависимой
переменной при анализе. График распределения переменной и график
нормального распределения представлен ниже (Рисунок 18 Распределение
переменной downloads_this_month (США)).
0
2.000e-06
4.000e-06
6.000e-06
8.000e-06
Density
.00001
Kernel density estimate
0
200000
400000
Downloads_this_month
600000
800000
Kernel density estimate
Normal density
kernel = epanechnikov, bandwidth = 1.9e+04
Рисунок 18 Распределение переменной downloads_this_month (США)
Как видно из графика распределение далеко от нормального, в
доказательство приведем тест на нормальность распределения. Нулевая
59
гипотеза гласит, что распределение нормально. Поскольку значимость
(probability, далее prob)<0.05, то гипотеза о нормальности распределения
загрузок отвергается. Следовательно, высока вероятность, что и остатки в
регрессии не будут распределены нормально. Следует отметить, что
распределение цены сильно несимметрично (асимметрия, отличаются от
нуля, эксцесс – от трех, и медиана отлична от среднего). Подобный
разброс количества скачиваний может быть связан с различными
характеристиками приложений.
Таблица 40 Тест Франция на нормальность распределение величины (США)
. sfrancia
downloads_this_month
Shapiro-Francia W' test for normal data
Variable |
Obs
W'
V'
z
Prob>z
-------------+-------------------------------------------------downloads_~h |
112
0.61982
37.700
6.812
0.00001
Попробуем преобразовать переменную downloads_this_month в логарифм.
Получим lndownloads. Распределение представлено ниже. Графически оно
уже ближе к нормальному, чем первоначальное.
.4
.2
0
Density
.6
.8
Kernel density estimate
10
11
12
lndownloads
13
14
Kernel density estimate
Normal density
kernel = epanechnikov, bandwidth = 0.2053
Рисунок 19 Распределение переменной lndownloads (США)
Снова отметим, что исходная величина не подразумевает наличие
отрицательных значений и представляет собой целочисленные значения,
поэтому логарифмирование не дает значимых результатов, поэтому исходя
из
графика
распределения,
можно
предположить,
что
зависимая
переменная может иметь пуассоновское распределение, однако к этому
вопросу мы обратимся в параграфе Регрессионный анализ.
60
Как было уже отмечено на российском рынке: цены на рынке
-
сложившаяся категория, которая имеет несколько градаций.
Как видно из Таблица 41 Распределение категориальной переменной
price_in_eur (США) около 60% - это минимальная цена, что говорит о
том,что большинство приложений – средняя категория, в которой могут
представлены как известные «бренды», как и малоизвестные платные
приложения. Кроме того, по 19% и 12% от выборки занимают цены второй
и третьей ступени (1,52 евро и 2,28 евро, соответственно).
Таблица 41 Распределение категориальной переменной price_in_eur (США)
Tabulation of PRICE_IN_EUR
Sample: 1 111
Included observations: 111
Number of categories: 6
Value
0.75
1.52
2.28
3.80
5.33
7.61
Total
Так
же
Count
65
21
13
5
6
1
111
рассмотрим
Percent
58.56
18.92
11.71
4.50
5.41
0.90
100.00
Cumulative Cumulative
Count
Percent
65
58.56
86
77.48
99
89.19
104
93.69
110
99.10
111
100.00
111
100.00
категориальные
переменные.
По
категориям
приложений () следует отметить преимущество игр (Category – Games)
75% выборки, следующая по количеству – Утилиты (около 4%), далее –
Weather (4%) и остальные.
Таблица 42 Распределение категориальной переменной Category (США)
Tabulation of CATEGORY
Sample: 1 112
Included observations: 112
Number of categories: 11
Value
Business
Education
Entertainment
Games
Health and
Fitness
Music
Photo and
Video
Productivity
Social
Cumulative Cumulative
Count
Percent
2
1.79
4
3.57
5
4.46
89
79.46
Count
2
2
1
84
Percent
1.79
1.79
0.89
75.00
3
4
2.68
3.57
92
96
82.14
85.71
4
1
1
3.57
0.89
0.89
100
101
102
89.29
90.18
91.07
61
Networking
Utilities
Weather
Total
5
5
112
4.46
4.46
100.00
107
112
112
95.54
100.00
100.00
Оценивая совместимость устройств и
приложений,
универсальные
приложения занимают весомую долю на рынке, как и на российском
рынке, т.е. большинство приложений существует как на iPhone market, так
же и на Android и других рынках мобильных приложений.
Таблица 43 Распределение категориальной переменной Compatibility (США)
Tabulation of COMPATIBILITY
Sample: 1 112
Included observations: 112
Number of categories: 4
Value
iPhone Only
iPhone, iPod
touch
iPhone, iTouch
Universal
Total
Count
1
Percent
0.89
Cumulative
Count
1
Cumulative
Percent
0.89
40
1
70
112
35.71
0.89
62.50
100.00
41
42
112
112
36.61
37.50
100.00
100.00
Если говорить о других характеристиках, то ситуация похожая на
российский
рынок.
Приложений,
имеющих
бесплатный
период
пользования всего 6 из 106 (около 6%), приложений, преимущественно
распространяемых внутри страны всего 14/92=13%, а виды монетизации
распределены поровну.
2.3.2.Корреляционный анализ
Для выявления взаимосвязей среди переменных часто используются два
способа:
 парные корреляции;
 матрица диаграмм рассеяния.
Приведем коэффициенты корреляций основных объясняющих переменных
с зависимой переменной (Таблица 44 Коэффициенты корреляции между
загрузками и другими характеристиками (США)).
62
Таблица
44
Коэффициенты
корреляции
между
загрузками
и
другими
характеристиками (США)
Correlation
DOWNLOADS_
THIS_MONTH
0.168179
0.0961
ALL2
0.100541
0.3221
ALL3
0.118059
0.2445
ALL4
0.163361
0.1062
ALL5
0.161995
0.1092
CURR1
0.158796
0.1164
CURR2
0.221807
0.0273
CURR3
0.307432
0.0020
CURR4
0.405662
0.0000
CURR5
0.434273
0.0000
TIME_IN_MARKET
0.092380
0.3486
SIZE_MB
0.323846
0.0008
PRICE_IN_EUR
0.042432
0.6674
NUMBER_LANG
0.206995
0.0341
APPS_PUBLISHED
0.205166
0.0358
Probability
ALL1
Максимальный коэффициент корреляции наблюдается у переменной curr5,
которая показывает количество текущих отличных оценок в рейтинге. Так
же имеется несильная линейная связь между загрузками, размером,
количеством языков в приложении и масштаб компании разработчика.
2.3.3. Проверка на выбросы
Для проверки данных на выбросы построим регрессию, которая будет
включать большинство регрессоров (не берем curr рейтинг, поскольку он
сильно коррелирует с общим рейтингом).
Вообще
между
категориями
общего
рейтинга
тоже
существует
обоснованная сильная корреляция (поэтому можно предполагать, что в
нашей
модели
будет
мультиколлинеарность,
но
поскольку
с
63
экономической точки зрения нам важно оценить влияние рейтинга/оценок
приложения, то пока эти переменные оставим совместно.
quietly reg
lndownloads apps_published paid_in_app price_in_eur had_free_period is_local
iphoneonly iphoneipodtouch iphoneitouch universal
business
education
entertainment
games
time_in_market all5 all4 all3 all2 all1
healthandfitness
music
photoandvideo
productivity
socialnetworking utilities weather size_mb number
Проверим регрессию на выбросы. С помощью нескольких способов,
которые можно реализовать в Stata. Поскольку мы так же имеем
несовершенство информации, некоторые рейтинги пропущены, поэтому
данные способы выявления выбросов отмечают именно эти наблюдения.
Придется их удалить для дальнейшего полноценного анализа. Насчет
выбросов, в дальнейшем исследовании на основе экспертного мнению
будет выявлено, улучшаются ли модели с учетом этих выбросов или нет.
Таблица 45 Проверка на выбросы (США)
. list id rstud
lndownloads size_mb time_in_market price_in_eur all5 if abs(rstud) > 2.2
+---------------------------------------------------------------------+
|
id
rstud
lndown~s
size_mb
time_i~t
price_~r
all5 |
|---------------------------------------------------------------------|
7. | us7
.
11.62178
33.1
.
.75
. |
12. | us12
3.040048
13.08591
20.6
217
.75
14599 |
15. | us15
4.105638
13.27885
3.2
443
5.33
8649 |
17. | us17
2.465168
12.33491
20.2
1239
.75
36494 |
19. | us19
.
10.8893
5.2
.
1.52
. |
|---------------------------------------------------------------------|
33. | us33
.
10.95606
3.9
.
2.28
. |
35. | us35
.
12.2244
46.1
.
2.28
2126 |
39. | us39
.
11.00377
258.1
.
2.28
. |
42. | us42
.
10.99709
45.6
.
.75
. |
48. | us48
2.408624
13.2269
72.1
994
.75
385973 |
|---------------------------------------------------------------------|
52. | us52
2.602277
13.02497
43.7
291
.75
74683 |
56. | us56
.
12.6398
28.9
.
.75
. |
71. | us71
.
11.55503
34.1
.
.75
639390 |
99. | us99
.
10.93489
127.9
.
.75
. |
+---------------------------------------------------------------------+
. list id cooksd dfits if dfits>2*sqrt(25/102) & (cooksd>4/102)
3.
4.
7.
15.
17.
19.
23.
24.
33.
35.
37.
39.
42.
+----------------------------+
|
id
cooksd
dfits |
|----------------------------|
| us3
.0792283
1.444949 |
| us4
.1132109
. |
| us7
.
. |
| us15
.2022953
2.521315 |
| us17
.1386482
1.961038 |
|----------------------------|
| us19
.
. |
| us23
.0428728
1.048821 |
| us24
.2012638
2.272445 |
| us33
.
. |
| us35
.
. |
|----------------------------|
| us37
.0785847
1.440649 |
| us39
.
. |
| us42
.
. |
64
48. | us48
.5203698
3.792674 |
56. | us56
.
. |
|----------------------------|
71. | us71
.
. |
99. | us99
.
. |
+----------------------------+
2.2.4. Регрессионный анализ сегмента американского рынка
Базовая линейная модель
Аналогично первому анализу, для рассмотрения основных возможных
взаимосвязей построим первоначальную линейную модель со всеми
объясняющими переменными.
Таблица 46 Базовая линейная модель (США)
. reg
downloads_this_month apps_published paid_in_app price_in_eur had_free_period is_local
iphoneonly iphoneipodtouch iphoneitouch time_in_market curr5 curr4 curr3 curr2 curr1 business
education entertainment games healthandfitness music photoandvideo productivity utilities
weather size_mb number rated12 rated17 rated9
note: productivity omitted because of collinearity
Source |
SS
df
MS
-------------+-----------------------------Model | 5.0296e+11
28 1.7963e+10
Residual | 3.6547e+11
70 5.2210e+09
-------------+-----------------------------Total | 8.6842e+11
98 8.8615e+09
Number of obs
F( 28,
70)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
99
3.44
0.0000
0.5792
0.4108
72256
-----------------------------------------------------------------------------downloads_~h |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------apps_publi~d |
104.9052
90.53894
1.16
0.251
-75.66903
285.4794
paid_in_app |
32875.22
21708.44
1.51
0.134
-10420.91
76171.34
price_in_eur | -3790.547
7788.958
-0.49
0.628
-19325.13
11744.04
had_free_p~d | -15203.85
36419.57
-0.42
0.678
-87840.39
57432.69
is_local | -17289.68
24678.51
-0.70
0.486
-66509.42
31930.06
iphoneonly |
152571.6
131514.4
1.16
0.250
-109725.5
414868.7
iphoneipod~h |
11358.26
19029.01
0.60
0.553
-26593.9
49310.41
iphoneitouch | -11795.11
90422.71
-0.13
0.897
-192137.5
168547.3
time_in_ma~t | -32.04789
22.43776
-1.43
0.158
-76.79859
12.70282
curr5 |
11.20923
4.225806
2.65
0.010
2.781131
19.63734
curr4 | -57.76782
50.98474
-1.13
0.261
-159.4537
43.91803
curr3 |
227.6518
340.9689
0.67
0.507
-452.3892
907.6927
curr2 | -170.3091
694.7582
-0.25
0.807
-1555.961
1215.342
curr1 | -66.94473
159.1886
-0.42
0.675
-384.4364
250.5469
business | -6977.541
98315.38
-0.07
0.944
-203061.4
189106.3
education |
85046
105073.7
0.81
0.421
-124516.8
294608.8
entertainm~t |
16847.24
113919.1
0.15
0.883
-210357.3
244051.8
games |
9860.194
83148.15
0.12
0.906
-155973.6
175694
healthandf~s | -22050.53
96583.14
-0.23
0.820
-214679.5
170578.5
music |
70556.24
90569.52
0.78
0.439
-110079
251191.5
photoandvi~o | -2053.071
101318
-0.02
0.984
-204125.4
200019.3
productivity | (omitted)
utilities |
12597.44
87408.39
0.14
0.886
-161733.1
186928
weather |
33057.24
91533.91
0.36
0.719
-149501.4
215615.9
size_mb | -9.887434
37.57099
-0.26
0.793
-84.82042
65.04555
number | -600.9687
2057.096
-0.29
0.771
-4703.717
3501.78
rated12 |
2147.549
30731.08
0.07
0.944
-59143.67
63438.76
rated17 |
24356.92
36462.86
0.67
0.506
-48365.95
97079.8
rated9 |
24572.67
22186.92
1.11
0.272
-19677.75
68823.09
_cons |
68665.91
89272.62
0.77
0.444
-109382.7
246714.5
------------------------------------------------------------------------------
65
Все объясняющие переменные не значимы в модели, кроме отличных
оценок в текущем рейтинге. Возможно это ошибка спецификации, поэтому
проверим лог-линейную модель.
Таблица 47 Лог-линейная модель (США)
. reg lndownloads apps_published paid_in_app price_in_eur had_free_period is_local iphoneonly
iphoneipodtouch iphoneitouch time_in_market curr5 curr4 curr3 curr2 curr1 business education
entertainment games healthandfitness music photoandvideo productivity utilities weather
size_mb number rated12 rated17 rated9
note: productivity omitted because of collinearity
Source |
SS
df
MS
-------------+-----------------------------Model | 14.4659854
28 .516642337
Residual | 17.0582488
70 .243689269
-------------+-----------------------------Total | 31.5242343
98
.32167586
Number of obs
F( 28,
70)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
99
2.12
0.0060
0.4589
0.2424
.49365
-----------------------------------------------------------------------------lndownloads |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------apps_publi~d |
.0010325
.0006186
1.67
0.100
-.0002012
.0022661
paid_in_app |
.1885157
.1483104
1.27
0.208
-.1072801
.4843115
price_in_eur | -.0370278
.0532136
-0.70
0.489
-.1431589
.0691033
had_free_p~d | -.1147552
.2488157
-0.46
0.646
-.6110025
.3814921
is_local | -.1593463
.1686017
-0.95
0.348
-.4956118
.1769192
iphoneonly |
1.611662
.8984962
1.79
0.077
-.1803325
3.403656
iphoneipod~h |
.0749301
.1300047
0.58
0.566
-.1843562
.3342163
iphoneitouch | -.2386594
.6177611
-0.39
0.700
-1.470745
.9934262
time_in_ma~t | -.0002316
.0001533
-1.51
0.135
-.0005373
.0000742
curr5 |
.0000842
.0000289
2.91
0.005
.0000266
.0001417
curr4 | -.0004723
.0003483
-1.36
0.179
-.001167
.0002224
curr3 |
.0010359
.0023295
0.44
0.658
-.0036101
.0056818
curr2 |
.000952
.0047465
0.20
0.842
-.0085147
.0104186
curr1 | -.0009363
.0010876
-0.86
0.392
-.0031054
.0012328
business |
.0785652
.6716832
0.12
0.907
-1.261065
1.418195
education |
.8575749
.7178553
1.19
0.236
-.5741423
2.289292
entertainm~t |
.2816577
.7782869
0.36
0.719
-1.270587
1.833902
games |
.3119412
.5680619
0.55
0.585
-.8210225
1.444905
healthandf~s | -.1015027
.6598487
-0.15
0.878
-1.417529
1.214524
music |
.8914682
.6187641
1.44
0.154
-.3426178
2.125554
photoandvi~o |
.1513727
.6921969
0.22
0.828
-1.22917
1.531916
productivity | (omitted)
utilities |
.3575022
.5971675
0.60
0.551
-.8335108
1.548515
weather |
.4405185
.6253528
0.70
0.484
-.8067083
1.687745
size_mb | -.0000736
.0002567
-0.29
0.775
-.0005856
.0004383
number | -.0082871
.0140539
-0.59
0.557
-.0363167
.0197426
rated12 |
.0444444
.2099524
0.21
0.833
-.3742925
.4631813
rated17 |
.2975749
.2491115
1.19
0.236
-.1992623
.794412
rated9 |
.1236601
.1515794
0.82
0.417
-.1786554
.4259756
_cons |
10.95965
.6099037
17.97
0.000
9.74324
12.17607
------------------------------------------------------------------------------
Ситуация меняется незначительно.
Попробуем удалить некоторые незначимые переменные.
Таблица 48 Очищенная лог-линейная модель (США)
. reg lndownloads
size_mb
price_in_eur curr5
music photoandvideo socialnetworking
Source |
SS
df
MS
-------------+-----------------------------Model | 10.2475064
7 1.46392948
Residual | 21.2767279
91 .233810196
-------------+------------------------------
Number of obs
F( 7,
91)
Prob > F
R-squared
Adj R-squared
=
=
=
=
=
time_in_market
99
6.26
0.0000
0.3251
0.2731
66
Total |
31.5242343
98
.32167586
Root MSE
=
.48354
-----------------------------------------------------------------------------lndownloads |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------price_in_eur | -.0700712
.0434439
-1.61
0.110
-.1563672
.0162249
curr5 |
.0000227
4.63e-06
4.90
0.000
.0000135
.0000319
music |
.4915084
.2863931
1.72
0.090
-.0773763
1.060393
photoandvi~o | -.4367628
.2868629
-1.52
0.131
-1.006581
.1330552
socialnetw~g |
.9630451
.5045592
1.91
0.059
-.0391998
1.96529
time_in_ma~t | -.0002238
.0001299
-1.72
0.088
-.0004818
.0000343
size_mb |
.0002909
.0001754
1.66
0.101
-.0000576
.0006394
_cons |
11.49496
.0906454
126.81
0.000
11.31491
11.67502
Таблица 49 Информационные критерии для лог-линейной модели (США)
. estat ic
----------------------------------------------------------------------------Model |
Obs
ll(null)
ll(model)
df
AIC
BIC
-------------+--------------------------------------------------------------. |
99
-83.82893
-64.36837
8
144.7367
165.4977
-----------------------------------------------------------------------------
При замене объясняющей переменной – цены на категориальные
переменные ситуация не меняется.
На примере предыдущего анализа можно увидеть, что рынок приложений
в Америке существенно отличается от рынка приложений в России.
Среднестатистический
приложений,
готов
американец,
потратить
выходя
на
определенную
рынок
сумму
мобильных
на
покупку
приложений. Таким образом, единственным важным критерием при
выборе приложения для него остается только рекомендации/оценки других
потребителей, а так популярность разработчика. Поэтому в модели для
США значимыми оказываются лишь текущий рейтинг приложения
(количество отличных оценок) и два вида категорий приложений и как
долго приложение находится на рынке.
Следует отметить, что так же рынок мобильных приложений достаточно
конкурентный, поэтому важным фактором при выборе приложения
является
пиар-кампания
разработчика,
что
является
существенной
пропущенной переменной. Но данную переменную у нас нет возможности
оценить, а использовать инструментальные переменные для решения
данной проблемы мы не можем из-за отсутствия сильных инструментов.
67
Регрессия с инструментальными переменными
Проведем экспресс-анализ инструментальных переменных в случае
сегмента рынка США. Предпосылки остаются теми же, что на российском
рынке, а точнее, что цена может влиять на количество скачиваний (чем
дешевле приложение, тем больше его покупают, например), но и обратная
связь тоже возможна (чем больше масштаб продаж, тем ниже цена).
Построим модель с полученным инструментом (Таблица 31 Проверка
инструмента (Россия)).
Таблица 50 Модель с инструментом (size_mb) (США)
ivregress 2sls
socialnetworking
downloads_this_month ( price_in_eur= size_mb)
time_in_market
Instrumental variables (2SLS) regression
Number of obs
Wald chi2(6)
Prob > chi2
R-squared
Root MSE
curr5 music photoandvideo
=
=
=
=
=
99
98.99
0.0000
0.4909
66824
-----------------------------------------------------------------------------downloads_~h |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------price_in_eur |
6127.283
9768.047
0.63
0.530
-13017.74
25272.3
curr5 |
5.911703
.6425702
9.20
0.000
4.652289
7.171118
music |
35930.96
39495.1
0.91
0.363
-41478
113339.9
photoandvi~o | -44365.58
39746.08
-1.12
0.264
-122266.5
33535.31
socialnetw~g |
115479.4
70225.11
1.64
0.100
-22159.34
253118.1
time_in_ma~t |
-38.4401
17.91142
-2.15
0.032
-73.54584
-3.334369
_cons |
98356.74
17037.2
5.77
0.000
64964.45
131749
-----------------------------------------------------------------------------Instrumented: price_in_eur
Instruments:
curr5 music photoandvideo socialnetworking time_in_market
size_mb
Снова проверим, не являются ли наши инструменты слабыми.
Таблица 51 Проверка инструмента (США)
. estat firststage
First-stage regression summary statistics
-------------------------------------------------------------------------|
Adjusted
Partial
Variable |
R-sq.
R-sq.
R-sq.
F(1,92)
Prob > F
-------------+-----------------------------------------------------------price_in_eur | 0.2954
0.2495
0.2742
34.756
0.0000
--------------------------------------------------------------------------
Коэффициент
детерминации
является
относительно
высоким
(описательная способность 30%), F статистики выше часто используемого
порога в 10 единиц, поэтому инструмент сильный.
Сравним IV и OLS-оценки с помощью теста Хаусмана (ссылка). Поскольку
не отклоняется нулевая гипотеза, оценки коэффициентов в обеих
регрессиях отличаются незначимо, значит, OLS дает состоятельные и
68
эффективные оценки, а IV – только состоятельные. Можно предпочесть
OLS модель.
Таблица 52 Тест Хаусмана (США)
. hausman iv ols
Note: the rank of the differenced variance matrix (5) does not equal the number of
coefficients being tested (6); be sure
this is what you expect, or there may be problems computing the test.
Examine the
output of your estimators for
anything unexpected and possibly consider scaling your variables so that the
coefficients are on a similar scale.
---- Coefficients ---|
(b)
(B)
(b-B)
sqrt(diag(V_b-V_B))
|
iv
ols
Difference
S.E.
-------------+---------------------------------------------------------------price_in_eur |
6127.283
-.0700712
6127.353
9768.047
curr5 |
5.911703
.0000227
5.911681
.6425702
music |
35930.96
.4915084
35930.47
39495.1
photoandvi~o |
-44365.58
-.4367628
-44365.14
39746.08
socialnetw~g |
115479.4
.9630451
115478.4
70225.11
time_in_ma~t |
-38.4401
-.0002238
-38.43988
17.91142
-----------------------------------------------------------------------------b = consistent under Ho and Ha; obtained from ivregress
B = inconsistent under Ha, efficient under Ho; obtained from regress
Test:
Ho:
difference in coefficients not systematic
chi2(5) = (b-B)'[(V_b-V_B)^(-1)](b-B)
=
7.78
Prob>chi2 =
0.1686
Других сильных инструментов для данного случая не удалось найти.
Пуассоновская регрессия
Исходя из таких предположений, как на российском рынке, проверим
метод пуассоновского распределения на наших данных.
Пуассоновская регрессия – это лог-линейная функция, параметры
которой найдены с помощью метода максимального правдоподобия
(максимизирует функция правдоподобия эмпирического распределения
пуассоновскому распределению). Это показывает, что мы имеем логлинейную функцию, у которой изменение на единицу объясняющей
переменной приводит к изменению зависимой переменной нa (eβ-1)*100%.
Таблица 53 Пуассоновская регрессия (США)
. poisson downloads_this_month
size_mb
Iteration 0:
Iteration 1:
Iteration 2:
price_in_eur curr5
music socialnetworking
time_in_market
log likelihood = -7517784.6
log likelihood = -1604138.4
log likelihood = -1528382.2
69
Iteration 3:
Iteration 4:
log likelihood = -1528076.7
log likelihood = -1528076.7
Poisson regression
Number of obs
LR chi2(6)
Prob > chi2
Pseudo R2
Log likelihood = -1528076.7
=
99
= 2147639.38
=
0.0000
=
0.4127
-----------------------------------------------------------------------------downloads_~h |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------price_in_eur | -.0928779
.0003182 -291.92
0.000
-.0935015
-.0922543
curr5 |
.000019
1.22e-08 1557.16
0.000
.000019
.000019
music |
.406546
.0015847
256.54
0.000
.40344
.4096521
socialnetw~g |
.9579878
.0022119
433.10
0.000
.9536525
.9623232
time_in_ma~t | -.0003149
9.19e-07 -342.69
0.000
-.0003167
-.0003131
size_mb |
.0003595
1.09e-06
330.73
0.000
.0003574
.0003616
_cons |
11.689
.0005871 2.0e+04
0.000
11.68785
11.69015
-----------------------------------------------------------------------------. estat ic
----------------------------------------------------------------------------Model |
Obs
ll(null)
ll(model)
df
AIC
BIC
-------------+--------------------------------------------------------------. |
99
-2601896
-1528077
7
3056167
3056186
----------------------------------------------------------------------------Note: N=Obs used in calculating BIC; see [R] BIC note
Так же как на российском рынке все коэффициенты значимы, что
достаточно странно, поэтому проверим на чрезмерную дисперсию,
построив Negative Binomial Model.
Negative Binomial Model – модификация пуассоновской регрессии,
которая учитывает чрезмерную дисперсию. В модели как показатель
является alpha, которая показывает степень такой дисперсии. Если alpha=0,
то модель сводится к простой пуассоновской регрессии.
Таблица 54 NB model
. nbreg
size_mb
downloads_this_month
Negative binomial regression
Dispersion
= mean
Log likelihood = -1205.2372
price_in_eur curr5
music socialnetworking
Number of obs
LR chi2(6)
Prob > chi2
Pseudo R2
=
=
=
=
time_in_market
99
45.09
0.0000
0.0184
-----------------------------------------------------------------------------downloads_~h |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------price_in_eur | -.0723107
.0428266
-1.69
0.091
-.1562493
.0116279
curr5 |
.0000232
5.71e-06
4.06
0.000
.000012
.0000343
music |
.381116
.2928132
1.30
0.193
-.1927873
.9550193
socialnetw~g |
.8746314
.5176022
1.69
0.091
-.1398504
1.889113
time_in_ma~t | -.0002652
.0001267
-2.09
0.036
-.0005135
-.0000169
size_mb |
.0002922
.0001786
1.64
0.102
-.0000579
.0006423
_cons |
11.63279
.0881334
131.99
0.000
11.46005
11.80553
-------------+---------------------------------------------------------------/lnalpha | -1.403798
.1367135
-1.671752
-1.135845
-------------+---------------------------------------------------------------alpha |
.2456621
.0335853
.1879176
.3211508
70
-----------------------------------------------------------------------------Likelihood-ratio test of alpha=0: chibar2(01) = 3.1e+06 Prob>=chibar2 = 0.000
. estat ic
----------------------------------------------------------------------------Model |
Obs
ll(null)
ll(model)
df
AIC
BIC
-------------+--------------------------------------------------------------. |
99
-1227.78
-1205.237
8
2426.474
2447.235
----------------------------------------------------------------------------Note: N=Obs used in calculating BIC; see [R] BIC note
По результатам модель дает похожие результаты с лог-линейной моделью,
значимы соответствующие коэффициенты и знаки у оценок одинаковы.
Поэтому для того, чтобы решить, какая модель лучше, сравним их
информационные критерии.
Поскольку
информационные
критерии
у
OLS
модели
ниже,
то
предпочтение стоит отдать именно ей.
Таблица 55 Информационные критерии для OLS
. estat ic
----------------------------------------------------------------------------Model |
Obs
ll(null)
ll(model)
df
AIC
BIC
-------------+--------------------------------------------------------------. |
99
-83.82893
-64.36837
8
144.7367
165.4977
-----------------------------------------------------------------------------
71
ЗАКЛЮЧЕНИЕ
Мобильные приложения - быстро растущий сегмент глобального рынка
мобильной связи. Различные факторы, которые способствовали этому
росту, включают продвижения в сетевые технологии, понижение
мобильной стоимости использования данных, растущее принятие умных
телефонов во всем мире и непрерывное увеличение прикладного удобства
и простоты использования. Поскольку потребители все чаще и чаще
используют мобильные приложения, с практической точки интересно,
какие факторы влияют на данный спрос.
Результатом данной исследовательской работы служит эконометрическое
моделирование спроса на рынке мобильных приложений на примере
сегментов американского и российского магазина – Apple App Store.
В первую очередь следует отметить, что рынок достаточно специфичен. В
данной работе был использован рейтинг приложений на март 2013 года,
который
в
дальнейшем
использовался
для
моделирования.
И
распределение загрузок приложений в данном наборе данных оказалось
далеко от нормального, поэтому в работе использовались еще и методы
для характерных распределений.
В результате работы были выявлены интересные закономерности на
рынках данных стран. На российском рынке важными характеристиками,
влияющими на спрос является количество отличных оценок поставленных
пользователями данного приложения, т.е. когда покупатель заходит в
магазин и видит приложения со схожими характеристика велика
вероятность, что он выберет именно приложение, у которого общий
рейтинг отличных оценок выше. Другая особенность, что цена приложения
не является значимой величиной, следовательно, на рынке имеется низкая
эластичность загрузок по цене, что косвенно указывает на безразличие
покупателя к цене, которую он заплатит за приложение. Так же цена на
приложения возможно не значима из-за внутренних особенностей рынка:
72
общие устоявшиеся цены (несколько категорий), большинство успешных
приложений находятся в самой низкой категории цены, а так же возможен
порог
выше
приложение,
которого
тем
люди
более
в
не
будут
какой-то
заинтересованы
доли
покупать
приобретение
каждого
малоизвестного приложения – риск, поэтому потребитель будет уменьшать
свои издержки. Кроме того, в одном из методов, учитывающих
несовершенство
информации
и
рынка
(метод
инструментальных
переменных) видно, что цена влияет положительно на загрузки, т.е. чем
выше цена, тем больше количество скачиваний, в тот же момент, выборка
состоит из 60% приложений, продающихся по нижней категории цены, что
противоречит наблюдениям.
Поскольку рынок быстро растущий, развивающийся и успех бизнеса
озадачивает все время поддерживать новизну и обновление устаревшего,
поэтому оценка коэффициента при переменной, выражающей время
нахождения на рынке в днях отрицательный.
На американском рынке немного другая ситуация, большинство факторов
значимых на российском не являются таковыми на американском.
Среднестатистический
приложений,
готов
американец,
потратить
выходя
на
определенную
рынок
сумму
мобильных
на
покупку
приложений. Таким образом, единственным важным критерием при
выборе приложения для него остается только рекомендации/оценки других
потребителей, а так популярность разработчика. Поэтому в модели для
США значимыми оказываются лишь текущий рейтинг приложения
(количество отличных оценок) и два вида категорий приложений и как
долго приложение находится на рынке.
Следует отметить, что так же рынок мобильных приложений достаточно
конкурентный, поэтому важным фактором при выборе приложения
является
пиар-кампания
разработчика,
что
является
существенной
пропущенной переменной. Но данную переменную у нас нет возможности
73
оценить, а использовать инструментальные переменные для решения
данной проблемы мы не можем из-за отсутствия сильных инструментов.
В результате данного анализа были выявлены взаимосвязи на данных двух
рынках по которым можно судить о наличии различных предпочтений
потребителей. Кроме того, выводы работы могут быть использованы в
роли уточняющих факторов ведения бизнеса в данном сегменте цифрового
рынка.
74
СПИСОК ЛИТЕРАТУРЫ
1.
Akihiro Yamashita, Hidenori Kawamura, Hiroyuki Iizuka, and Azuma
Ohuchi. Effect of the Number of Users and Bias of Users’ Preference on
Recommender Systems. H. Yin et al. (Eds.): IDEAL 2007, LNCS 4881,
pp. 1112–1121, 2007.
2.
Alto Palo. 11% quarterly growth in downloads for leading app stores –
[сайт]. URL: http://www.canalys.com/newsroom/11-quarterly-growthdownloads-leading-app-stores – сайт посещён 03.04.2013.
3.
Anindya Ghose, Panagiotis G. Ipeirotis Designing Novel Review
Ranking Systems:Predicting Usefulness and Impact of Reviews.
ICEC'07, August 19-22, 2007.
4.
Anindya Ghose, Sang Pil Han. Estimating Demand for Mobile
Applications. AppWeb 2012 Workshop, April 16, 2012, pp. 1-4.
5.
Bhavik Pathak, Robert Garfinkel, Ram D. Gopal, Rajkumar Venkatesan,
and Fang Y. Empirical Analysis of the Impact of Recommender Systems
on Sales. Journal of Management Information Systems / Fall 2010, Vol.
27, No. 2, pp. 159–188.
6.
Distimo. 2013. App distribution becomes a global game: The shift of
power
and
impact
for
developers
–
[сайт].
URL:
http://www.distimo.com/blog/2011_01_distimo-releases-fullyear-2010report/ – сайт посещён 14.01.2013.
7.
Feng Zhu, Xiaoquan (Michael) Zhang. Impact of Online Consumer
Reviews on Sales: The Moderating Role of Product and Consumer
Characteristics. April 21, 2009.
8.
Gal Oestreicher-Singer, Arun Sundararajan. Recommendation networks
and the long tail of electronic commerce. MIS Quarterly Vol. 36 No.1–
Appendices/March 2012.
9.
Guiran Chang, Chunguang Tan, Guanhua Li, and Chuan Zhu.
Developing Mobile Applications on the Android Platform. X. Jiang,
75
M.Y. Ma, and C.W. Chen (Eds.): WMMP 2008, LNCS 5960, pp. 264–
286, 2010.
10.
International Data Corporation (IDC). 2010. IDC forecasts worldwide
mobile applications revenues to experience more than 60% compound
annual
growth
through
2014
–
[сайт].
URL:
http://www.idc.com/about/viewpressrelease.jsp?containerId=prUS22617
910&sectionId=null&elementId=null&pageType=SYNOPSIS
–
сайт
посещён 14.02.2013.
11.
Judith Chevalier, Austan Goolsbee. Measuring prices and price
competition online: Amazon and Barnes and Noble. Yale ICF Working
Paper No. 02-23, June 2002.
12.
Judith Chevalier, Dina Mayzlin. The effect of word of mouth on sales:
online book reviews. Journal of Marketing Research Vol. XLIII (August
2006), pp. 345–354.
13.
Jun B. Kim, Paulo Albuquerque, Bart J. Bronnenberg. Online Demand
Under Limited Consumer Search. Marketing Science,Vol. 29, No. 6,
November–December 2010, pp. 1001–102
14.
Linyuan Lu, Matus Medo et other. Recommender systems. Physics
Reports 519 (2012) 1–49.
15.
Nikos
Manouselis
&
Constantina
Costopoulou.
Analysis
and
Classification of Multi-Criteria Recommender Systems. World Wide
Web (2007) 10:415–441.
16.
Octavian Carare. The Impact of Bestseller Rank on Demand: Evidence
From a Software Market. International Economic Review, Forthcoming,
September 1, 2010.
17.
Octavian Carare. The Impact of Bestseller Rank on Demand: Evidence
from the App Market. International Economic Review, Forthcoming,
October 10, 2011.
18.
Rajiv Garg, Rahul Telang. Inferring app demand from publicly available
data. MIS Quarterly, Forthcoming, May 1, 2012, pp. 1-25.
76
19.
Алтухов Алексей. Продажи мобильных аппаратов за год выросли
всего
на
0,7%
–
[сайт].
URL:
http://www.oszone.net/20909/Android_share_in_smartphones_in_Q1_2
013_is_74_4_ – сайт посещён 01.04.2013.
20.
Воронина
Юлия.
Игра
на
миллиарды
http://www.rg.ru/2013/03/19/prilizenia.html
–
–
[сайт].
сайт
URL:
посещён
04.04.2013.
21.
Статья «App Annie Index: отчет по рынку мобильных приложений,
Q1 '13» – [сайт]. URL: http://habrahabr.ru/post/177277/ – сайт
посещён 02.04.2013.
22.
Статья «В первом квартале рынок мобильных приложений вырос на
11%» – [сайт]. URL: http://expert.ru/2013/04/15/ryinok-mobilnyihprilozhenij/ – сайт посещён 06.04.2013
23.
Статья «Разработка мобильных приложений: с чего начать» –
[сайт]. URL: http://habrahabr.ru/company/mailru/blog/179113 – сайт
посещён 05.04.2013.
77
ПРИЛОЖЕНИЕ
Приложение 1. Распределение категориальной переменной Publisher
(Разработчик) (Россия)
Tabulation of PUBLISHER
Sample: 1 112
Included observations: 112
Number of categories: 91
Value
Count
2KB LLC
1
ABBYY
1
Aeonika
1
Alan Kochev
1
Alexander
Ermolaev
1
Alfadevs
1
Andrey Moiseev 1
Apalon
3
Apps4Stars
1
Appsneon
1
ARAWELLA
CORPORATION
1
Armor
Games
Inc
1
ASPS Apps
1
Axidep LLC
1
bad monkee
1
Bamboo Group 1
Block21 AB
1
Brite Kids
1
Burlington
Trading
Limited
1
byss mobile
1
Chair
Entertainment
Group, LLC
1
Chillingo Ltd 1
codefreeze
1
Crisp App Ltd. 1
Defiant
Development
1
Dionisle
Goltiescu
1
Disney
5
Dumitru Goro 1
EEFan Inc.
1
Elecont LLC
1
Electronic
Arts
2
Elokence
1
Evolution
Games LLP
1
Fanship
1
FDG
Entertainment 2
Flight Systems
LLC
1
Frogmind
1
gameday Inc. 1
Gameloft
8
Go2Share
1
Halfbrick
Studios
1
Hang Nguyen
1
Headup
Games
GmbH & Co KG 1
Igor Jorin
1
IK Media
1
iLegendSoft
1
Percent
0.89
0.89
0.89
0.89
Cumulative
Count
1
2
3
4
Cumulative
Percent
0.89
1.79
2.68
3.57
0.89
0.89
0.89
2.68
0.89
0.89
5
6
7
10
11
12
4.46
5.36
6.25
8.93
9.82
10.71
0.89
13
11.61
0.89
0.89
0.89
0.89
0.89
0.89
0.89
14
15
16
17
18
19
20
12.50
13.39
14.29
15.18
16.07
16.96
17.86
0.89
0.89
21
22
18.75
19.64
0.89
0.89
0.89
0.89
23
24
25
26
20.54
21.43
22.32
23.21
0.89
27
24.11
0.89
4.46
0.89
0.89
0.89
28
33
34
35
36
25.00
29.46
30.36
31.25
32.14
1.79
0.89
38
39
33.93
34.82
0.89
0.89
40
41
35.71
36.61
1.79
43
38.39
0.89
0.89
0.89
7.14
0.89
44
45
46
54
55
39.29
40.18
41.07
48.21
49.11
0.89
0.89
56
57
50.00
50.89
0.89
0.89
0.89
0.89
58
59
60
61
51.79
52.68
53.57
54.46
78
IMMO GAMES
1
Infinite
Dreams Inc.
1
Jingjing Liu 1
K-Factor
Media, LLC.
1
KLICKTOCK
1
Mediocre AB
1
Melesta
1
Miniclip.com 1
Mojang
1
Ndemic
Creations
1
Nekki
1
nerByte GmbH 1
Not Doppler
1
Oleksandr
Yatsenko
1
Organizy
1
Polarbit
1
PopCap
1
Realore
1
Reliance
Big
Entertainment
UK Private Ltd 1
Robert
Paul
Neagu
1
Robocat
1
Rockstar Games 2
Rovio
Entertainment
Ltd
3
SayHi
1
SERGEY NIKITIN 1
SilverWiz
1
Skript, LLC
1
Sky Horse Apps 1
SMS
Services
O.o.o.
1
Soner Kara
1
Stupid Casual 1
Tania Sulimov 1
Tap Nation
2
Teotl Studios 1
Toca Boca AB 1
TuneIn
1
Ubisoft
1
Viet Studio
3
Vivid Games
1
Vlambeer
1
Warner Bros. 1
WhatsApp Inc. 1
Wolfgang
Schmitz
1
ZeptoLab
UK
Limited
1
Zero Cool
1
Total
112
0.89
62
55.36
0.89
0.89
63
64
56.25
57.14
0.89
0.89
0.89
0.89
0.89
0.89
65
66
67
68
69
70
58.04
58.93
59.82
60.71
61.61
62.50
0.89
0.89
0.89
0.89
71
72
73
74
63.39
64.29
65.18
66.07
0.89
0.89
0.89
0.89
0.89
75
76
77
78
79
66.96
67.86
68.75
69.64
70.54
0.89
80
71.43
0.89
0.89
1.79
81
82
84
72.32
73.21
75.00
2.68
0.89
0.89
0.89
0.89
0.89
87
88
89
90
91
92
77.68
78.57
79.46
80.36
81.25
82.14
0.89
0.89
0.89
0.89
1.79
0.89
0.89
0.89
0.89
2.68
0.89
0.89
0.89
0.89
93
94
95
96
98
99
100
101
102
105
106
107
108
109
83.04
83.93
84.82
85.71
87.50
88.39
89.29
90.18
91.07
93.75
94.64
95.54
96.43
97.32
0.89
110
98.21
0.89
0.89
100.00
111
112
112
99.11
100.00
100.00
79
Приложение 2. Распределение категориальной переменной Publisher
(США)
Tabulation of PUBLISHER
Sample: 1 112
Included observations: 112
Number of categories: 88
Value
[adult swim]
Activision
Publishing,
Inc.
Alfadevs
Andreas
Illiger
Apalon
Apps4Stars
Appsuperb
Armor Games
Inc
ASPS Apps
Auxbrain, Inc.
Azumio Inc.
Big Duck Games
LLC
Black Box
Interactive
Bolt Creative
Bright Mango
byss mobile
C-Apps
Celadon
Software Ltd.
Chair
Entertainment
Group, LLC
Chillingo Ltd
click2mobile
Consonance
Group
Crustalli
Days Of
Wonder, Inc.
Defiant
Development
Disney
Dogbyte Games
Kft.
DPFLASHES
STUDIOS
Earth
Networks, Inc.
Electronic
Arts
Elokence
Escargot
Studios, LLC
FDG
Entertainment
Flight Systems
LLC
Foursaken
Media
Gameloft
Groundspeak
Inc.
Halfbrick
Studios
Hian Zin Jong
i4software
iHandy Inc.
Innovative
Devs
Cumulative Cumulative
Count
Percent
1
0.89
Count
1
Percent
0.89
2
1
1.79
0.89
3
4
2.68
3.57
1
2
1
1
0.89
1.79
0.89
0.89
5
7
8
9
4.46
6.25
7.14
8.04
1
1
1
1
0.89
0.89
0.89
0.89
10
11
12
13
8.93
9.82
10.71
11.61
1
0.89
14
12.50
1
1
1
1
1
0.89
0.89
0.89
0.89
0.89
15
16
17
18
19
13.39
14.29
15.18
16.07
16.96
1
0.89
20
17.86
1
1
1
0.89
0.89
0.89
21
22
23
18.75
19.64
20.54
1
1
0.89
0.89
24
25
21.43
22.32
1
0.89
26
23.21
1
6
0.89
5.36
27
33
24.11
29.46
1
0.89
34
30.36
1
0.89
35
31.25
1
0.89
36
32.14
4
1
3.57
0.89
40
41
35.71
36.61
2
1.79
43
38.39
1
0.89
44
39.29
1
0.89
45
40.18
1
4
0.89
3.57
46
50
41.07
44.64
1
0.89
51
45.54
1
1
1
1
0.89
0.89
0.89
0.89
52
53
54
55
46.43
47.32
48.21
49.11
1
0.89
56
50.00
80
Jericho Games
JN Interactive
AB
Justin.tv
Kingly
Software Inc
KLICKTOCK
Maciek Drejak
Labs
Magmic Inc.
Mehrdad
Mehrain
Michael
Hegemann
Mika Mobile,
Inc.
Miniclip.com
Mojang
Ndemic
Creations
Nekki
nerByte GmbH
Ninja Kiwi
Noodlecake
Studios Inc
Not Doppler
NTT Resonant
Inc.
PopCap
Portable
Pixels
Radiantlabs,
LLC
Readdle
Reliance Big
Entertainment
UK Private Ltd
Robocat
Rockstar Games
Rovio
Entertainment
Ltd
Scopely - Top
Free Apps and
Games LLC
SEGA
Sergey Sokolov
Simon Filip
Software Line
Inc.
Sony Pictures
Television
Tania Sulimov
Terry Cavanagh
Toca Boca AB
Top Free Games
Triniti
Interactive
Limited
TuneIn
Ubisoft
Vlambeer
Warner Bros.
WeatherSphere
WhatsApp Inc.
ZeptoLab UK
Limited
Zynga Inc.
Total
1
0.89
57
50.89
1
1
0.89
0.89
58
59
51.79
52.68
1
1
0.89
0.89
60
61
53.57
54.46
1
1
0.89
0.89
62
63
55.36
56.25
1
0.89
64
57.14
1
0.89
65
58.04
1
1
1
0.89
0.89
0.89
66
67
68
58.93
59.82
60.71
1
1
1
1
0.89
0.89
0.89
0.89
69
70
71
72
61.61
62.50
63.39
64.29
1
1
0.89
0.89
73
74
65.18
66.07
1
3
0.89
2.68
75
78
66.96
69.64
1
0.89
79
70.54
1
1
0.89
0.89
80
81
71.43
72.32
1
1
1
0.89
0.89
0.89
82
83
84
73.21
74.11
75.00
5
4.46
89
79.46
1
2
1
1
0.89
1.79
0.89
0.89
90
92
93
94
80.36
82.14
83.04
83.93
1
0.89
95
84.82
1
1
1
2
1
0.89
0.89
0.89
1.79
0.89
96
97
98
100
101
85.71
86.61
87.50
89.29
90.18
1
1
1
1
1
1
1
0.89
0.89
0.89
0.89
0.89
0.89
0.89
102
103
104
105
106
107
108
91.07
91.96
92.86
93.75
94.64
95.54
96.43
1
3
112
0.89
2.68
100.00
109
112
112
97.32
100.00
100.00
81
Приложение 3. Таблица коэффициентов корреляции (Россия)
Covariance Analysis: Ordinary
Included observations: 104
Probability
DOWNLOADS_THIS_MONTH ALL1
DOWNLOADS_THIS_MONTH 1.000000
-----
ALL2
ALL3
ALL4
ALL5
CURR1
CURR2
CURR3
CURR4
ALL1
0.550593
0.0000
1.000000
-----
ALL2
0.489155
0.0000
0.920737
0.0000
1.000000
-----
ALL3
0.542517
0.0000
0.882131
0.0000
0.975417
0.0000
1.000000
-----
ALL4
0.684397
0.0000
0.813341
0.0000
0.837993
0.0000
0.903174
0.0000
1.000000
-----
ALL5
0.714840
0.0000
0.714965
0.0000
0.739700
0.0000
0.785179
0.0000
0.899538
0.0000
1.000000
-----
CURR1
0.521830
0.0000
0.583204
0.0000
0.542304
0.0000
0.581066
0.0000
0.598440
0.0000
0.487461
0.0000
1.000000
-----
CURR2
0.409883
0.0000
0.518810
0.0000
0.635661
0.0000
0.688965
0.0000
0.621746
0.0000
0.490128
0.0000
0.863507
0.0000
1.000000
-----
CURR3
0.486480
0.0000
0.517486
0.0000
0.598990
0.0000
0.679313
0.0000
0.670109
0.0000
0.505901
0.0000
0.827497
0.0000
0.946553
0.0000
1.000000
-----
CURR4
0.551106
0.0000
0.429846
0.0000
0.451210
0.0000
0.552560
0.0000
0.642620
0.0000
0.466377
0.0000
0.711584
0.0000
0.785556
0.0000
0.920344
0.0000
1.000000
-----
CURR5
0.657925
0.0000
0.522540
0.0000
0.554533
0.0000
0.657321
0.0000
0.738035
0.0000
0.696595
0.0000
0.669286
0.0000
0.741169
0.0000
0.835260
0.0000
0.845406
0.0000
CURR5
1.000000
-----
82
Приложение 4. Таблица коэффициентов корреляции (США)
Covariance Analysis: Ordinary
Sample: 1 111
Correlation
Probability
DOWNLOADS_THIS_MONTH ALL1
DOWNLOADS_THIS_MONTH 1.000000
-----
ALL2
ALL3
ALL4
ALL5
CURR1
CURR2
CURR3
CURR4
ALL1
0.143906
0.1450
1.000000
-----
ALL2
0.160780
0.1030
0.914918
0.0000
1.000000
-----
ALL3
0.261448
0.0073
0.848336
0.0000
0.965670
0.0000
1.000000
-----
ALL4
0.381440
0.0001
0.774891
0.0000
0.825205
0.0000
0.919123
0.0000
1.000000
-----
ALL5
0.377411
0.0001
0.714241
0.0000
0.822196
0.0000
0.879790
0.0000
0.911759
0.0000
1.000000
-----
CURR1
0.425967
0.0000
0.162628
0.0991
0.144273
0.1440
0.180568
0.0666
0.198838
0.0430
0.189456
0.0541
1.000000
-----
CURR2
0.595944
0.0000
0.169349
0.0857
0.182190
0.0642
0.269818
0.0056
0.337079
0.0005
0.311732
0.0013
0.939821
0.0000
1.000000
-----
CURR3
0.662109
0.0000
0.102272
0.3016
0.132181
0.1810
0.310385
0.0013
0.484030
0.0000
0.367105
0.0001
0.677642
0.0000
0.850792
0.0000
1.000000
-----
CURR4
0.564171
0.0000
0.045509
0.6464
0.079541
0.4222
0.282051
0.0037
0.503308
0.0000
0.381530
0.0001
0.423089
0.0000
0.622131
0.0000
0.925972
0.0000
1.000000
-----
CURR5
0.716697
0.0000
0.086264
0.3839
0.134996
0.1718
0.302134
0.0018
0.485422
0.0000
0.486672
0.0000
0.494376
0.0000
0.701165
0.0000
0.899338
0.0000
0.905563
0.0000
CURR5
1.000000
-----
83
84
Download