Правительство Российской Федерации Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Национальный исследовательский университет "Высшая школа экономики"» Санкт-Петербургский филиал федерального государственного автономного образовательного учреждения высшего профессионального образования «Национальный исследовательский университет "Высшая школа экономики"» Факультет экономики Кафедра экономической теории БАКАЛАВРСКАЯ РАБОТА на тему: «Оценка спроса на мобильные приложения» Направление экономика Студент группы № 143 Срогинис Анна Романовна (Ф.И.О.) Научный руководитель Старший преподаватель, Покрышевская Елена Борисовна (должность, звание, Ф.И.О.) Санкт-Петербург 2013 ОГЛАВЛЕНИЕ ВВЕДЕНИЕ .......................................................................................................... 4 ГЛАВА 1 АНАЛИЗ РЫНКА МОБИЛЬНЫХ ПРИЛОЖЕНИЙ. СРАВНЕНИЕ МЕТОДОВ ЭКОНОМИЧЕСКОЙ ОЦЕНКИ СПРОСА ......... 7 1.1. Описание рынка .................................................................................... 7 1.1.1. История рынка мобильных приложений ................................. 7 1.1.2. Классификации мобильных приложений ................................ 8 1.1.3. Анализ рынка мобильных приложений ................................... 9 1.2. Методы экономической оценки спроса ........................................... 18 ГЛАВА 2. ЭКОНОМЕТРИЧЕСКИЙ АНАЛИЗ СПРОСА НА МОБИЛЬНЫЕ ПРИЛОЖЕНИЯ НА ПРИМЕРЕ СЕГМЕНТА РЫНКА APPLE APP STORE В РОССИИ И США ....................................................... 26 2.1. Описание данных .................................................................................... 26 2.2. Регрессионный анализ загрузок на примере российского рынка ..... 29 2.2.1.Описательные статистики ........................................................... 29 2.2.2.Корреляционный анализ ............................................................. 36 2.2.3. Проверка на выбросы ................................................................. 39 2.2.4. Регрессионный анализ ................................................................ 40 2.2.5. Рыночные атрибуты .................................................................... 56 2.3. Регрессионный анализ для рынка Соединенных Штатов Америки .. 58 2.3.1.Описательные статистики ........................................................... 58 2.3.2.Корреляционный анализ ............................................................. 62 2.3.3. Проверка на выбросы ................................................................. 63 2.2.4. Регрессионный анализ сегмента американского рынка ......... 65 ЗАКЛЮЧЕНИЕ ................................................................................................. 72 СПИСОК ЛИТЕРАТУРЫ ................................................................................ 75 ПРИЛОЖЕНИЕ ................................................................................................. 78 Приложение 1. Распределение категориальной переменной Publisher (Разработчик) (Россия) .................................................................................. 78 2 Приложение 2. Распределение категориальной переменной Publisher (США) ............................................................................................................. 80 Приложение 3. Таблица коэффициентов корреляции (Россия) ................ 82 Приложение 4. Таблица коэффициентов корреляции (США) .................. 83 3 ВВЕДЕНИЕ Благодаря развитию цифровой среды, в нашем обществе происходят быстрые изменения практически во всех аспектах. Все чаще люди делают покупки в интернете, пользуются поисковиками для поиска информации и активно участвуют в «виртуальной» жизни социальных сетей. «Цифровая жизнь» повсеместно захватила развитие страны, распространение интернета имеет колоссальный успех – все эти стороны жизни пользуются большим успехом, что подталкивает различных исследователей и ученых к изучению этих процессов. Например, в мире с каждым годом значительно увеличивается спрос на электронные устройства, такие как мобильные устройства, планшеты, электронные книги, КПК и т.д. Каждый современный человек уже не может представить свою жизнь без компьютера, мобильного телефона и других приспособлений. В частности, изначально сотовый телефон был создан с целью поддержания связи на дальних расстояниях без значимых ограничений к использованию (с помощью радиоволн), то сейчас мобильные устройства превратились в аппарат способный не только поддерживать голосовую связь, но и выполнять широкий спектр других задач. А с помощью мобильных приложений этот спектр задач переходит в бесконечность. Поскольку электронные действия легче отслеживать, это дает значительный массив данных, при этом, совершенно бесплатно. Данным аспектом в последнее время все чаще и чаще пользуются исследователи. Это дает возможность изучать социально-экономические и технико-социальные системы в обществе. Темой данной выпускной квалификационной работы является оценка спроса на мобильные приложения. Актуальность данной темы заключается в том, что рынок мобильных приложений зародился лишь в 2009 году с помощью компании Apple, которая впервые в мире запустила интернет-магазин для мобильных 4 программных продуктов. Формирование рынка происходило постепенно и только в 2013 году эксперты говорят о том, что рынок вошел в фазу активного роста. По прогнозам J’son &Parthers Consulting, за 2012 год рынок мобильных приложений в мире составил 7,83 млрд долл., и к 2016му может вырасти до 65,79 млрд. Следовательно, объяснение спроса и взаимосвязей на данном относительно новом рынке – актуальная тема для исследования. Таким образом, объектом данной работы является рынок мобильных приложений, а предметом исследования – экономическая оценка спроса на рынке мобильных приложений (на примере сегментов российского и американского App Store магазина). Целью выпускной квалификационной работы является выявление факторов, влияющих на спрос на мобильные приложения, обоснование данных связей. Для достижения поставленной цели необходимо выполнить ряд задач: Рассмотреть и провести анализ рынка мобильных приложений в общем разрезе тенденций Проанализировать используемые методы исследования рынка мобильных приложений и аналогичных рынков в научных статья зарубежных и отечественных публикаций, Собрать данные по сегментам российского и американского рынка в разрезе одной компании-магазина мобильных приложений – Apple Store Провести анализ на наличие взаимосвязей между количеством загрузок и различными факторами и дать им интерпретацию с помощью построения различных моделей, выявить лучший метод моделирования, описать его преимущества. 5 Для полного и всестороннего рассмотрения темы работы, будут использованы научные методы исследования, в частности метод изучения и анализа научной литературы. В качестве основных источников в этой выпускной квалификационной работе выступают следующие статьи и обзоры рынка мобильных приложений таких крупных компаний, как App Annie, Distimo, отчеты компании J’son &Parthers Consulting, сравнение имеющихся научных результатов на данный момент: Anindya Ghose, Sang Pil Han. Estimating Demand for Mobile Applications, Octavian Carare. The Impact of Bestseller Rank on Demand: Evidence From a Software Market. International Economic Review и других статей и источников. 6 ГЛАВА 1 АНАЛИЗ РЫНКА МОБИЛЬНЫХ ПРИЛОЖЕНИЙ. СРАВНЕНИЕ МЕТОДОВ ЭКОНОМИЧЕСКОЙ ОЦЕНКИ СПРОСА 1.1. Описание рынка Основой исследования выпускной квалификационной работы является рынок мобильных приложений, поэтому непосредственно перед экономическим и математическим обоснованием связей следует привести описание самого рынка. При анализе рынка в первую очередь следует несколько слов сказать о самих мобильных приложений. Мобильные приложения – это программные продукты, которые специально разрабатываются для мобильных устройств, смартфонов, планшетных компьютеров или других электронных устройств. Сейчас самыми активными каналами сбыта являются рынки мобильных приложений: Apple App Store, Google Play, Windows Phone Store, BlackBerry App World и др. Цели и задачи созданий мобильных приложений достаточно разнообразны: от помощи в управлении мобильным устройством до различных развлечений в виде игр и хобби. Так же следует отметить, что большинство современных приложений бесперебойно работают лишь на смартфонах или мобильных устройствах с широкими параметрами памяти, мощности и поддержки различных функций. 1.1.1. История рынка мобильных приложений Первым рынком мобильных приложений стал Apple App Store в 2008 году. Впоследствии на рынок вышла компания Google, создав серьезную конкуренцию Apple. The iPhone App Store был запущен 10 июля 2008 года, а Google’s Android Market был открыт несколькими месяцами позднее – в октябре 2008 года. Еще годом позже, в апреле 2009 года другой магазин мобильных приложений – BlackBerry App World, начал работу, следуя за Apple и Google. В мае 2009 года на рынок вошел еще игрок – Nokia’s Ovi 7 Store. Последний крупный игрок – Microsoft – присоединился к рынку в октябре 2009 года с Windows Phone Store. 1.1.2. Классификации мобильных приложений Мобильные приложения в первую очередь делятся на категории по предназначению, поэтому рынок приложений можно разделить на такие виды: Контентные приложения, которые наиболее популярны среди пользователей. Данная категория представляет такие виды деятельности как прослушивание музыки, просмотр различных фильмов, клипов и фотографий, а так же чтение цифровых книг и т.д. Бизнес-приложения – приложения, выполняющие узконаправленные потоки работы, как упрощение бизнес-процессов, отслеживания сделок и реализация офисных задач. Мобильные игры наиболее востребованный сегмент мобильных приложений, параметры выбора грандиозны, разработчики каждый день как создают совершенно новые или совершенствуют выпущенные. Социальные сети. Поскольку у данной категории на сегодняшний момент наибольшая востребованность, многим людям социальные сети нужны для общения, бизнеса и развлечения, поэтому в мобильных устройствах такая возможность тоже пользуется популярностью. Кроме того, существует классификация приложений по типу монетизации: 1) Free – бесплатные, 2) Paid – платные, 3) Free+In-app purchase – бесплатные приложения с возможностью приобретения виртуальных благ, связанных с данным приложением; 8 4) Paid+ In-app purchase – комбинация платного приложения (оплата при скачивании) и возможности приобретения виртуальных благ, связанных с данным приложением; 5) Trial – платное приложение с бесплатной пробной версией. 1.1.3. Анализ рынка мобильных приложений Для обоснования актуальности и интереса к мобильным приложениям приведем общую статистику по рынку мобильных устройств и приложений. На развитие рынка мобильных приложений непосредственно влияют продажи и популярность современных мобильных устройств – другими словами, смартфонов. Смартфон – это мобильный телефон c расширенной функциональностью, его можно сравнить с карманным персональным компьютером (КПК), который может еще и звонить. Преимущество смартфонов перед обычными мобильными телефонами – наличие достаточно развитой операционной системы, открытой для разработки программного обеспечения сторонними разработчиками (операционная система обычных разработчиков). мобильных Установка телефонов дополнительных закрыта для сторонних приложений позволяет значительно улучшить функциональность смартфонов по сравнению с обычными мобильными телефонами1. По данным аналитической компании Garther, консалтинговая компания, специализирующаяся на рынке информационных технологий (США), общее проданное количество мобильных устройств в мире превышает 425 млн. шт. (Рисунок 1 ) При этом, можно так же видеть рост общих продаж на 0,68% (в количественной оценке примерно 2,8 млн. шт.) по сравнению с первым кварталом 2012 года. 1 Определение из свободной энциклопедии – Википедии, [сайт]. URL: http://ru.wikipedia.org/wiki/%D0%A1%D0%BC%D0%B0%D1%80%D1%82%D1%84%D0 %BE%D0%BD 9 Источник: Gather (May 2013) Рисунок 1 Динамика показателей продаж мобильных устройств за 1 квартал 2013 года и за 1 кв. 2012 года, шт.,% Как видно из второй таблицы (Рисунок 2 Динамика показателей продаж смартфонов за 1 квартал 2013 года и за 1 кв. 2012 года, шт.,%) количественный показатель продаж смартфонов в мире составляет 210 млн. шт., при этом, в начале 2012 года данный показатель был ниже на 42,9%. А в общих продажая мобильных устройств смартфоны занимают 49,3% на 1 кв. 2013 года, а в 2012 года 34,8%, из чего следует, что продажи смартфонов относительно общего количества проданных мобильных устройств растут более активно. Источник: Gather (май 2013) Рисунок 2 Динамика показателей продаж смартфонов за 1 квартал 2013 года и за 1 кв. 2012 года, шт.,% По отношению к России объем рынка смартфонов посчитала аналитическая компания J’son &Parthers Consulting – это консалтинговая компания, специализирующаяся на рынках телекоммуникаций, медиа, ИТ и инновационных технологий (Россия). На рисунке ниже видно общую 10 тенденцию роста доли смартфонов в общих продажах мобильных телефонов в России. Источник: J’son &Parthers Consulting (декабрь 2012) Рисунок 3 Динамика показателей объема продаж смартфонов в общих продажах мобильных устройств в России, 1 кв. 2011 – 3 кв. 2012 гг., млн. шт. Следовательно, развитие рынка мобильных устройств и повышение спроса на более качественные и многофункциональные устройства (смартфоны) может привести к стабильному росту спроса на мобильные приложения. Тем самым снова подтверждается актуальность и значимость исследования именно этого сегмента. Обратимся к рынку мобильных приложений. В ежеквартальном рыночном отчёте сервиса App Annie.com (компания, которая отслеживает изменений рейтинга и предоставляет широкую базу для разработчиков) доступна действующая информация по мировому рынку мобильных приложений. 11 Источник: App Annie Intelligence (ноябрь 2012) Рисунок 4 Динамика количественного и денежного показателя скачиваний за январь - октябрь 2012 года, % Источник: App Annie Intelligence (ноябрь 2012) Рисунок 4 Динамика количественного и денежного показателя скачиваний за январь - октябрь 2012 года, % показана динамика на 2012 года двух магазинов iOS и Google Play.По количеству скачиваний Google Play в последнее время сильно ускорил темпы роста, а вот по объему прибыли Apple Store опережает его в 4 раза. Так же показана динамика загрузок за последние 2 квартала (4 кв. 2012 г. и 1 кв. 2013 г.) двух крупнейших платформ на сегодняшний день – Apple App Store и Google Play (Android). Из диаграммы, расположенной слева, видно, что общий объем скачиваний мобильных приложений растет, и в частности, отрыв Apple App Store от Google Play уменьшается в последнее время. Но в денежном эквиваленте iOS App store остается безусловным лидером. Как написано в отчете, доход Apple Store превышает Google Play примерно в 2,6 раза в 1 кв. 2013 г. За этот период квартальный доход iOS App Store вырос примерно на одну четвертую. Между тем, доход от приложений Google Play вырос примерно на 90%. 12 Источник: App Annie Intelligence (апрель 2013) Рисунок 5 Динамика количественного и денежного показателя скачиваний за 2 последних квартала (4 кв.2012 -1 кв. 2013 гг.), % Кроме того, компания публикует статистику скачиваний по странам, которая сведена и представлена в следующей таблице: Таблица 1 Ведущие страны по загрузкам в Apple App Store в 1 квартале 2013 года Ведущие страны по загрузкам в Apple App Store в 1 квартале 2013 года По количеству загрузок По доходу США США Китай Великобритания, +1* Япония Великобритания Япония, -1* Китай, +2* Франция Австралия, -1* * изменение индекса в сравнении с предыдущим кварталом Источник: App Annie Intelligence (апрель 2013) Китай увеличил обороты по количеству скачиваний в iOS App Store и стал ведущим фактором роста загрузок за рассматриваемый период Выдержки из отчета: «США и Япония остаются лидерами App Store, являясь источником примерно половины всех доходов магазина. Хотя App Store в США показал больший рост доходов на протяжении последнего квартала с лидирующей категорией «игры», Китай поднял свой показатель. Еще в прошлом году Китай едва попадал в топ 10 стран. В течение 13 прошлого квартала он поднялся на четвертую позицию с шестой, которую он занимал в четвертом квартал 2012. Игры стали категорией, которая обеспечила большую часть роста доходов в Китае; эта категория выросла в Китае примерно на 90%, что является самым высоким показателем во всем App Store». У второго крупного рынка приложений – Google Play, ситуация по ведущим странам немного интересней. Здесь появляется Южная Корея (основоположник крупнейшая корейская компания Samsung работает преимущественно с Android), Россия, в которой мобильные устройства на Android платформе дешевле и доступней, поэтому и пользуются повышенным спросом. Таблица 2 Ведущие страны по загрузкам в Google Play в 1 квартале 2013 года Ведущие страны по загрузкам в Google Play в 1 квартале 2013 года По количеству загрузок По доходу США Япония Южная Корея Индия Южная Корея, +1* США, - 1* Россия, +2* Великобритания Япония, -1* Германия * изменение индекса в сравнении с предыдущим кварталом Источник: App Annie Intelligence (апрель 2013) Как пишут аналитики App Annie, ведущие страны Google Play обеспечили примерно 40% загрузок в первом квартале 2013 года по сравнению с 50% в App Store. 14 Источник: App Annie Intelligence (сентябрь 2012) Рисунок 6 Динамика показателей загрузки в России в двух крупнейших магазинах, 2012 г.,% При этом показатели России неуклонно растут на протяжении последнего года (Рисунок 6, Рисунок 7) и поднялись до четвертой позиции в последнем квартале. Кроме того, именно категория «игры» стала ключевым источником и дала примерно половину загрузок в российском Google Play в 1 квартале 2013 года (что является более высоким показателем по сравнению с 40% в 4 квартале 2012 г.). Источник: App Annie Intelligence (сентябрь 2012) Рисунок 7 Динамика показателей дохода в России в двух крупнейших магазинах, 2012 г.,% Следует отметить, что Япония и Южная Корея продолжают свой рост в рейтинге Google Play. «Япония продвинулась выше США в топе в 4 кв. 15 2012, в то время, как Южная Корея опередила Великобританию и заняла второе место в первом квартале 2013. Эти три страны доминируют в Google Play, покрывая приблизительно 70% мирового дохода магазина. Их доходы обусловлены играми в большей степени, чем в каких либо других странах Google Play. Южная Корея превзошла отметку 95%, в то время, как Япония достигла 90%.» – перевод отчета App Annie. Так же для сравнения приведем статистику по популярным категориям мобильных приложений на 2012 год. Источник: Distimo (январь2013) Рисунок 8 Статистика по популярным категориям мобильных приложений, % На Рисунок 8 Статистика по популярным категориям мобильных приложений, % видно, что по сравнению со всеми другими категориями «Игры» в несколько раз более популяризованные. Таблица 3 Ведущие категории по загрузкам в Apple Store в 1 квартале 2013 года Ведущие категории по загрузкам в Apple Store в 1 квартале 2013 года По количеству загрузок По доходу Игры Игры Развлечения Фото и видео,+1* Производительность Социальные сети Утилиты, -1* Образование, +1* Стиль жизни Развлечение, -1* * изменение индекса в сравнении с предыдущим кварталом 16 Источник: App Annie Intelligence (апрель 2013) В обоих магазинах лидером является категория «Игры» (см. Таблица 3, Таблица 4). По данным App Annie, в Apple App Store эта категория обеспечивает около 40% загрузок и около 70% доходов в 1 кв. 2013 года, а относительно Google Play категория игр выросла и обеспечила около 80% доходов. Таблица 4 Ведущие категории по загрузкам в Google Play в 1 квартале 2013 года Ведущие категории по загрузкам в Google Play в 1 квартале 2013 года По количеству загрузок По доходу Игры Игры Инструменты Развлечения Коммуникации Социальные сети Коммуникации Инструменты Социальные сети, +1* Производительность * изменение индекса в сравнении с предыдущим кварталом Источник: App Annie Intelligence (апрель 2013) Компания Canalys в своей статье на апрель 2013 утверждает, что загрузки приложений через четыре магазина - от Apple App Store, Google Play, магазин Windows Phone и BlackBerry World - поднялись на 11% в 1 квартале 2013 по всему миру в сравнении с 4-м кварталом 2012 года. В то время как прямые доходы от платных приложений вырос немного меньше – всего на 9%. В общем, денежные доходы всех компаний составили более 13,4 млрд., а выручка достигла 2,2 млрд. долл. В общем анализе рынка компанией Canalys Apple App Store прочно удерживает первую позицию — 74% мирового рынка мобильных утилит. Google Play занимает уверенное 2-ое место, пытаясь догнать лидера. Windows Phone Store от Microsoft на третьем месте, а канадская компания BlackBerry сейчас активно развивает свой интернет-магазин и при сохранении темпов роста вполне может рассчитывать на свержение Microsoft с третьего места. 17 По мнению аналитиков J’son &Parthers Consulting, лидерами в наибольшей категории «Игры» в 1 кв. 2013 года стали компании Rovio и Electronic Arts: первая пользуется популярностью Angry Birds, вторая, осуществляя издательскую деятельность, контролирует разработку и распространение не только мобильных, но и обычных видеоигр. 1.2. Методы экономической оценки спроса Рынок мобильных устройств зародился только в 2009 году, поэтому это сравнительно молодой рынок, который показывает колоссальные темпы роста, как в количественном, так и в денежном эквиваленте. Поэтому только сравнительно недавно исследователи стали заинтересовываться процессами, происходящими на этом сегменте информационного пространства. Помимо этого, совсем недавно появились компании, которые занимаются непосредственным отслеживанием динамики рынка, составлением отчетов за прошедший период. В исследовательских целях рынок обладает сравнительной доступностью данных в Интернете – в настоящий момент сами мобильные магазины приложений составляют статистику по каждому скаченному приложению, но и существуют определенные компании, которые располагают информацией о приложениях, их рейтингах и характеристиках в разрезе основных платформ с ежедневными обновлениями. В зарубежной литературе всего несколько исследований посвящено этой теме. Чаще встречаются различные работы, посвященные оценке спроса на пива [Gallet, 2007], сухих завтраков [Nevo, 2001], автомобилей [Berry, Levinsohn, Pakes, 1995] и других рынках. В данном параграфе рассмотрим несколько иностранных статей по моделированию и анализу спроса, которые покажут методы анализа, применяемые исследователями. Anindya Ghose и Sang Pil Han в статье «Estimating Demand for Mobile Applications» в своей статье оценивают потребительский спрос для 18 мобильных приложений, построив структурную модель. Исследователи используют панель данных, состоящую из топа 300 мобильных приложений, имеющих ранг продаж, цены, характеристик с двух рынков: Apple App Store и Google Play. Авторы моделируют полезность i-го покупателя от j-го мобильного приложения на данных Apple App Store и Google Android Market Южной Кореи (данные собраны от 6 октября до 14 декабря 2011 года). , где ujt – полезность i-го покупателя от j-го мобильного приложения на рынке t, Xjt – вектор наблюдаемых характеристик (размер, время использования, категории приложений и др.), так же эта модель включает ненаблюдаемые характеристики (например, шоки на рынке). Потребитель i выбирает приложение j, которое приводит к максимальной полезности. Но здесь появляется проблема эндогенности цены (цена коррелирует с ненаблюдаемыми характеристиками продукта, т.е. ошибкой). Авторы решают проблему использованием так называемой random-coefficients discrete-choice model of demand – BLP model [Berry, Levinsohn, Pakes, 1995]. В литературе описаны детали этой модели, а также то, как оценить такую модель на основе агрегированных данных, а не на уровне отдельных индивидов [Musalem, Bradlow, Raju, 2009; Nevo, 2000]. Так же исследователи учитывали категории возрастов потребителей, разбив их на две группы: старшие и младшие поколения. В результате, авторы увидели взаимосвязь размера мобильного приложения и продаж и повышенную чувствительность к цене старшего поколения над младшим. Кроме того, из этого исследования заключено, что спрос увеличивается с размером файла приложения и с возрастом приложения на рынке, но уменьшается с длиной описания приложения. Популярные интернет-магазины, такие как Amazon.com, большинство магазинов электроники, такие как Юлмарт, ЯндексМаркет и др., 19 анализируют данные различных показателей покупателей, прошлые покупки, оценки, просмотр аналогов и цены, после чего могут предоставить рекомендации продукта клиентам. Задачей системы рекомендаций является включение данных о пользователях и их предпочтениях, а так же предположение возможных будущих симпатий и интересов. Ритейлеры тщательно анализируют продажи, поскольку исходя из них, они смогут рекомендовать одни товары и улучшить свои продажи. Вследствие этого, исследователи ищут способы эффективного моделирования систем рекомендаций. Только в последнее десятилетие данная тема стала популярна в заграничных лабораториях и университетах. В России, однако, кране мало аналогичных исследований. Поэтому рассмотрим несколько иностранных статей по моделированию спроса при влиянии систем рекомендации. Bhavik Pathak, Robert Garfinkel, Ram D. Gopal, Rajkumar Venkatesan, и Fang Yin в своей статье «Empirical Analysis of the Impact of Recommender Systems on Sales» поднимают достаточно актуальную тему в современном цифровом обществе как влияние систем обратной связи (рекомендаций) на продажи продукта. Другими словами, авторы пытаются проследить связь между рекомендацией, продажей и ценой. Чтобы полностью понять, что авторы понимают под рекомендациями, приведем рисунок из их статьи (Рисунок 9 Описание основных характеристик товара от лица авторов): 20 Рисунок 9 Описание основных характеристик товара от лица авторов На основе собранных данных исследователи разработали эмпирический метод для оценивания воздействия и эффективности рекомендаций: , 21 где RCMD – сила рекомендаций, которая, по мнению авторов, зависит от количества рекомендовавших этот товар, продаж рекомендаций и типа рекомендации. Авторы статьи предлагают такую обобщенную модель: где rank – рейтинг продаж, rec – переменная силы рекомендации, rating – средняя величина рейтинга, rev – величина недавно добавившихся отзывов, u – случайная величина. Следует отметить, что до этой статьи исследователи принимали продажи за зависимую переменную, чем пытались изучить эффект цифрового сарафанного радио на продажах (ссылки), в данной же статье вводится новое понятие силы рекомендации, которое является дополнительной оценкой этого цифрового сарафанного радио (продаж влияний), так же вводятся отдельные эффекты на книги и на время. Кроме того, в данной модели существует переменная, отвечающая за эффект всех факторов в прошлом, которые могут влиять на продажи. Rajiv Garg, Rahul Telang в статье «Inferring app demand from publicly available data» на примере двух интернет-сервисов Apple’s App Store и Google Play Store выводят методологию оценки влияния ранга продаж на сами продажи. Авторы показали, что для оценки параметров уравнения, связывающего продажи и ранг продаж платного программного обеспечения достаточно знать: Цену каждой программы Ранг загрузок Общее количество продаж всех попавших в выборку программ. 22 Особенностью данной работы является общедоступность трех видов рейтингов: top‐free applications (топ бесплатных приложений), top‐paid applications (топ платных приложений), и top‐grossing applications (топ доходных приложений). В статье рассматривается 2 рейтинга продаж: в одном – место каждой программы в рейтинге количества скачиваний (download_rank), в другом – место каждой программы в рейтинге выручки от продаж (revenue_rank). Поскольку рассматривая Apple’s App Store авторы находят разницу в приложениях для iРad и iPhone, то все выводы они делают в отдельности по сферам применения. Кроме того, данный метод авторы опробовали на другом рынке - Google Play Store и на бесплатных приложения. Judith Chevalier и Austan Goolsbee в своей статье «Measuring prices and price competition online: Amazon and Barnes and Noble» для определение спроса на продукт (в данном случае, книги), провели эксперимент: они выбрали мало продаваемые книги и купили некоторое количество книг, превышающее границу низкого спроса), поскольку это привело к изменению ранга продаж, то исследователи вывели отношения между ним и спросом. Однако, этот метод построен на мало продаваемых продуктах, поэтому переносить его на полноценные товары неправильно. Кроме того, авторы показали, как влияет на спрос различие в ценах конкурентов (определили общий объем продаж в зависимости от распределения цен на двух аналогичных сервисах). В другой статье «The effect of word of mouth on sales: online book reviews» Judith Chevalier и Dina Mayzlin исследовали эффект отзывов потребителей на продажах разных фирм. Именно здесь они впервые обратились к понятию «сарафанное радио». Авторы постарались дать 23 обоснование причинной связи между сарафанным радио и продажами продукта, сравнивая продажи данной книги через эти двух продавцов книг (опять же BarnesandNoble.com и Amazon.com). Оценки авторов показывают, что регрессия относительно продажи книг через два этих сайта, связанны с различиями между сайтами в числе отзывов на книгу и в среднем рейтинге отзывов (звезд). Octavian Carare в своей статье «The Impact of Bestseller Rank on Demand: Evidence From a Software Market» укрепляет и дополняет результаты последних экспериментальных наблюдений литературы по изучению влияния ранга продаж путем на спрос. Как отмечает автор, результаты работы не указывают на причинноследственные связи ранга продаж на спрос, а могут лишь отражением последовательной корреляции между ненаблюдаемыми факторами, которые влияют на спрос. Поэтому больший акцент нужно отдавать прошлым рангам товара, что позволит контролировать возможную эндогенность. Инструментальная оценка переменных очень близка к методу наименьших квадратов, предполагая, что потенциальная эндогенность прошлых рангов продаж существенно не влияет на результаты оценки. В недавней работе «The Impact of Bestseller Rank on Demand: Evidence from the App Market» Octavian Carare исследует, как доля рынка мобильных приложений зависит от различных факторов, таких как цена, характеристики приложения, мимо ранга и так далее. Автор предполагает, что спрос следует распределению Парето и показывает, что предыдущие ранги вносят свой вклад в оценку будущего спроса на приложения. Не имея данные о спросе, автор должен был полагаться на моделирование данных, используя разницу между двумя ранговыми приложениями как экспоненциальные случайные величины. Это исследование пытается измерить влияние характеристик приложений и других маркетинговых 24 стратегий на спрос, в результате чего возникает упрощенная система, которая позволяет улучшение продаж от информации. Вспомогательная специфические литература характеристики захватывает нашей темы, лишь определенные поэтому подробно рассматривать их в обзоре не имеет смысла (по большей части, данные источники несут ознакомительный характер для общего понимания темы). Главным отличием всех описанных ранее статей в том, что в то время, когда они писались, большинство интернет-магазинов производили ранжирование продаж, и ни один интернет-магазин или магазин мобильных приложений не предоставлял фактические данные о загрузках. Поэтому большинство исследователей разрабатывали различные стратегии, которые позволили рассчитывать спрос из данных о ранге загрузок. 25 ГЛАВА 2. ЭКОНОМЕТРИЧЕСКИЙ АНАЛИЗ СПРОСА НА МОБИЛЬНЫЕ ПРИЛОЖЕНИЯ НА ПРИМЕРЕ СЕГМЕНТА РЫНКА APPLE APP STORE В РОССИИ И США 2.1. Описание данных Данное исследование в первую очередь направлено на изучение взаимосвязей между количеством скачиваний (непосредственно спросом на приложения) и различными характеристиками приложения. В частности, в данном исследовании будет рассмотрен срез данных (крупный сегмент лидирующих приложений по скачиваниям) на один период времени, что с практической точки зрения может показать самые основные и значимые связи между показателями. Для анализа спроса на мобильные приложения было выделено несколько категорий. Исходя из анализа мирового рынка мировых приложениц, самым крупным участников является магазин приложений от Apple, поэтому в исследовании общим сектором рассмотрения является iPod market (iTunes market). Из данного сегмента были взяты приложения из листа Top 150 Most Downloaded Paid Apps2 для двух стран: США и Россия. Но поскольку этот рейтинг располагает только основными показателями привлекательности приложения на рынке (количество загрузок, цена, категория, тип оплаты приложения и др.), основные характеристики самого приложения были взяты с соответствующего сервиса appannie.com. Данный сайт располагает широкой базой мобильных приложений, предоставляющий базу характеристик, включая рейтинг приложения среди пользователей. Поскольку не для всех приложений из данного рейтинга были получены все нужные в исследовании характеристики, а так же в 2 Top 150 Most Downloaded Paid Apps. [сайт]. URL: http://xyo.net/app- downloads-reports/ 26 рейтинге присутствуют бесплатные приложения с возможностью приобрести визуальные товары из приложения (условная монетизация), такие наблюдения были исключены из обзора. Полученная база исследования располагает 112 наблюдениями по каждой стране с характеристиками приложений (изначальный рейтинг имел 150 актуальных приложений, но не на все приложения исследователи нашли характеристики приложений, а так же не у всех приложений были заполнены рейтинги (у новых приложений отсутствует общий рейтинг, а у некоторых приложений, которые давно не выпускали обновления, соответственно, отсутствует рейтинг последней версии). Данная база актуальна на март 2013 г. В следующей таблице представлены используемые переменные и их определение. Таблица 5 Обзор переменных Название id apps_publis hed Описание Идентификационный номер приложения Общее количество приложений, публикуемых издателем Гипотезы Чем больше количество приложений, публикуемых издателей, тем больше его популярность, лучше узнаваемость и выше скачивания Тип оплаты за загрузку и возможность приобретения виртуальных товаров из приложения = 1, оплата за загрузку = 0 price_in_EU Цена в евро Чем ниже цена, тем больше R скачиваний had_Free_P Наличие ознакомительного Наличие ознакомительного eriod бесплатного периода периода положительно влияет на скачивания is_local 1, когда более 50% всех скачиваний приложений были получены в одной стране. Например, если paid_in_app 27 Название Описание приложение было скачано 1000 раз в общей сложности, но 700 раз из немецкого App Store, оно будет помечено как местное немецкое приложение. В случае США, устанавливается уровень 75%. 0 – обратное условие. downloads_t Количество загрузок за his_month последний месяц compatibilit Совместимость приложения y с различными устройствами (категориальная переменная, включает iPhone, iPod touch/ Universal/iPhone only) publisher Издатель time_in_mar Время с момента запуска ket приложения на рынок и до последнего обновления curr5 Текущий рейтинг (последней версии приложения) (5 баллов) curr4 Текущий рейтинг (4 баллов) curr3 Текущий рейтинг (3 баллов) curr2 Текущий рейтинг (2 баллов) curr1 Текущий рейтинг (1 баллов) all5 Общий рейтинг приложения (5 баллов) Общий рейтинг приложения (4 баллов) Общий рейтинг приложения all4 all3 Гипотезы Если приложение совместимо с большинством устройств, тем выше его узнаваемость и выше загрузки Количество скачиваний больше у известных издателей Чем больше приложение находится на рынке, тем больше его скачивания Увеличение отличных оценок положительно влияют на количество скачиваний Увеличение хороших оценок положительно влияют на количество скачиваний Увеличение удовлетворительных оценок отрицательно влияют на количество скачиваний Увеличение отрицательных оценок отрицательно влияют на количество скачиваний Увеличение отрицательных оценок отрицательно влияют на количество скачиваний Аналогично, текущему рейтингу 28 Название all2 all1 category size_MB number_lan g rated Описание Гипотезы (3 баллов) Общий рейтинг приложения (2 баллов) Общий рейтинг приложения (1 баллов) Категория приложения В зависимости от категории приложения меняются предпочтения в потреблении Размер приложения Количество, Количество языков, поддерживаемых языков характеризуют охват стран и народов – чем больше языков, тем больше потенциальные продажи Ограничения по возрасту Ограничения косвенно указывают на объем публики, потенциальных потребителей – положительное влияние на объем спроса 2.2. Регрессионный анализ загрузок на примере российского рынка 2.2.1.Описательные статистики При описательном анализе следует проверить данные и полученные переменные на ошибки, проверить нормальность распределения остатков, посмотреть на распределение зависимой переменной, по необходимости провести преобразование переменных и анализ на выбросы, которые могут искажать дальнейшие результаты. В первую очередь, приведем общую описательную таблицу всех переменных. Как видно из Таблица 6 Описательные статистики переменных в сегменте российского рынка общее количество наблюдений, в среднем, составляет 112 (за исключением, переменной featured, которая показывает рейтинг приложения в iTunes), поскольку не у всех приложений были заполнены рейтинги (у новых приложений отсутствует общий рейтинг, а у некоторых приложений, которые давно не выпускали обновления, соответственно, отсутствует рейтинг последней версии). 29 Следует обратить внимание на зависимую переменную downloads_this_month, среднее которой составляет более 20 тысяч скачиваний, примерно около той же величины составляет стандартное отклонение данной количество загрузок величины (20096,91), составляет 8400, при а этом минимальное максимальное 116500, следовательно, размах количества скачиваний приложений будет более 100 тысяч. Таблица 6 Описательные статистики переменных в сегменте российского рынка . summarize apps_published - rated9 Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------apps_publi~d | 112 61.94643 112.2243 1 482 monetizati~e | 112 .4285714 .4970958 0 1 price_in_eur | 112 1.674464 1.440705 .82 5.66 had_free_p~d | 112 .1785714 .3847144 0 1 is_local | 112 .125 .3322053 0 1 -------------+-------------------------------------------------------downloads_~h | 112 20263.39 20096.91 8400 116500 percent | 112 .0089286 .0088552 .0037013 .0513329 price_usd | 112 2.088214 1.734441 .99 6.99 iphoneonly | 112 .0089286 .0944911 0 1 iphoneipod~h | 112 .2946429 .457931 0 1 -------------+-------------------------------------------------------universal | 112 .6964286 .4618663 0 1 gameloft | 112 .0714286 .2586969 0 1 disney | 112 .0446429 .2074466 0 1 other_publ~r | 112 .8839286 .3217502 0 1 featured | 38 64.05263 93.1752 1 456 -------------+-------------------------------------------------------itunes_pla~s | 106 625.934 675.6434 2 3388 curr5 | 107 540.1121 967.6938 0 6706 curr4 | 107 60.18692 103.3843 0 552 curr3 | 107 22.33645 39.1369 0 249 curr2 | 107 11.99065 20.59011 0 142 -------------+-------------------------------------------------------curr1 | 107 26.83178 47.9944 0 284 allversion~n | 109 4.490826 .5181058 1 5 allversion~r | 109 2875.394 4440.936 3.902 24099 all5 | 109 2370.734 3790.669 0 21535 all4 | 109 247 325.811 0 1808 -------------+-------------------------------------------------------all3 | 109 106.0917 161.428 0 1150 all2 | 109 61.42202 94.02111 0 589 all1 | 109 125.8807 187.6442 0 1146 books | 112 .0089286 .0944911 0 1 business | 112 .0267857 .1621823 0 1 -------------+-------------------------------------------------------education | 112 .0267857 .1621823 0 1 entertainm~t | 112 .0535714 .226182 0 1 finance | 112 .0357143 .1864109 0 1 games | 112 .5446429 .5002413 0 1 healthandf~s | 112 .0178571 .1330273 0 1 -------------+-------------------------------------------------------lifestyle | 112 .0089286 .0944911 0 1 music | 112 .0446429 .2074466 0 1 photoandvi~o | 112 .0267857 .1621823 0 1 productivity | 112 .0357143 .1864109 0 1 reference | 112 .0089286 .0944911 0 1 -------------+-------------------------------------------------------- 30 socialnetw~g | 112 .0089286 .0944911 0 1 utilities | 112 .1160714 .3217502 0 1 weather | 112 .0357143 .1864109 0 1 size_mb | 112 162.6659 349.0984 .4666 1600 number_lang | 112 6.946429 6.82845 1 32 -------------+-------------------------------------------------------rated12 | 112 .0982143 .2989417 0 1 rated17 | 112 .1160714 .3217502 0 1 rated4 | 112 .6428571 .481311 0 1 rated9 | 112 .1428571 .3514998 0 1 Рассмотрим описательные статистики переменной Downloads_This_Month, которая отражает количество скачиваний приложений за последний месяц, и при проведении регрессионного анализа данная переменная будет являться зависимой. График распределения переменной и график нормального распределения представлен ниже (Рисунок 10 Распределение переменной downloads_this_month). 0 Density .00002 .00004 .00006 .00008 Kernel density estimate 0 50000 100000 Downloads_this_month 150000 Kernel density estimate Normal density kernel = epanechnikov, bandwidth = 2.4e+03 Рисунок 10 Распределение переменной downloads_this_month (Россия) Как видно из графика распределение далеко от нормального, в доказательство приведем тест на нормальность распределения. Нулевая гипотеза гласит, что распределение нормально. Поскольку значимость (probability, далее prob)<0.05, то гипотеза о нормальности распределения загрузок отвергается. Следовательно, высока вероятность, что и остатки в регрессии не будут распределены нормально. Следует отметить, что распределение цены сильно несимметрично (асимметрия, отличаются от нуля, эксцесс – от трех, и медиана отлична от среднего). Подобный разброс количества скачиваний может быть связан с различными характеристиками приложений. 31 Таблица 7 Тест Франция на нормальность распределение величины downloads_this_month (Россия) . sfrancia downloads_this_month Shapiro-Francia W' test for normal data Variable | Obs W' V' z Prob>z -------------+-------------------------------------------------downloads_~h | 112 0.56101 43.532 7.056 0.00001 Попробуем преобразовать переменную downloads_this_month в логарифм. Получим lndownloads. Распределение представлено ниже. Графически оно уже ближе к нормальному, чем первоначальное. .6 .4 .2 0 Density .8 1 Kernel density estimate 9 10 11 12 lndownloads Kernel density estimate Normal density kernel = epanechnikov, bandwidth = 0.1666 Рисунок 11 Распределение переменной lndownloads (Россия) В результате по тесту (Таблица 8 Тест Франция на нормальность распределение величины lndownloads (Россия)) снова следует, что распределение данной переменной далеко от нормального (prob<0.05). Следует отметить, что исходная величина не подразумевает наличие отрицательных значений и представляет собой целочисленные значения, поэтому логарифмирование не дает значимых результатов, поэтому исходя из графика распределения, можно предположить, что зависимая переменная может иметь пуассоновское распределение, однако к этому вопросу мы обратимся в параграфе 2.2.4. Регрессионный анализ, часть 3 «Пуассоновская регрессия». Таблица 8 Тест Франция на нормальность распределение величины lndownloads (Россия) . sfrancia lndownloads 32 Shapiro-Francia W' test for normal data Variable | Obs W' V' z Prob>z -------------+-------------------------------------------------lndownloads | 105 0.84783 14.311 5.092 0.00001 При рассмотрении диаграммы по цене, следует отметить, что цены на рынке - сложившаяся категория, которая имеет несколько градаций (Таблица 9 Категории цен на мобильные приложения, выраженные в доллары и рубли): Таблица 9 Категории цен на мобильные приложения, выраженные в доллары и рубли (Россия) Евро Доллар Рубль 0,82 1,09 32,8 1,63 2,17 65,2 2,45 3,27 98 3,19 4,25 127,6 4,18 5,57 167,2 4,92 6,56 196,8 5,66 7,55 226,4 Как видно из Таблица 10 более 60% - это минимальная цена, что говорит, что большинство приложений – средняя категория, в которой могут представлены как известные «бренды», как и малоизвестные платные приложения. Кроме того, по 10% от выборки занимают цены второй и третьей ступени (1,63 евро и 2,45 евро, соответственно). Таблица 10 Распределение категориальной переменной price_in_eur (Россия) Tabulation of PRICE_IN_EUR Sample: 1 112 Included observations: 112 Number of categories: 7 Value 0.82 1.63 2.45 3.19 4.18 4.92 5.66 Total Далее Count 72 11 11 2 8 2 6 112 рассмотрим Percent 64.29 9.82 9.82 1.79 7.14 1.79 5.36 100.00 Cumulative Cumulative Count Percent 72 64.29 83 74.11 94 83.93 96 85.71 104 92.86 106 94.64 112 100.00 112 100.00 категориальные переменные. По категориям приложений (Таблица 11 Распределение категориальной переменной 33 Category (Россия)) следует отметить преимущество игр (Category – Games) более 50%, следующая по количеству – Утилиты (около 12%), далее – Entertainment (5%) и остальные. Таблица 11 Распределение категориальной переменной Category (Россия) Tabulation of CATEGORY Sample: 1 112 Included observations: 112 Number of categories: 15 Value Count Books 1 Business 3 Education 3 Entertainment 6 Finance 4 Games 61 Health and Fitness 2 Lifestyle 1 Music 5 Photo and Video 3 Productivity 4 Reference 1 Social Networking 1 Utilities 13 Weather 4 Total 112 Percent 0.89 2.68 2.68 5.36 3.57 54.46 Cumulative Count 1 4 7 13 17 78 Cumulative Percent 0.89 3.57 6.25 11.61 15.18 69.64 1.79 0.89 4.46 80 81 86 71.43 72.32 76.79 2.68 3.57 0.89 89 93 94 79.46 83.04 83.93 0.89 11.61 3.57 100.00 95 108 112 112 84.82 96.43 100.00 100.00 Оценивая совместимость устройств и приложений, универсальные приложения занимают весомую долю на рынке, т.е. большинство приложений существует как на iPhone market, так же и на Android и других рынках мобильных приложений. Таблица 12 Распределение категориальной переменной Compatibility (Россия) Tabulation of COMPATIBILITY Sample: 1 112 Included observations: 112 Number of categories: 3 Value Count iPhone Only 1 iPhone, iPod touch 33 Universal 78 Total 112 Percent 0.89 Cumulative Cumulative Count Percent 1 0.89 29.46 69.64 100.00 34 112 112 30.36 100.00 100.00 По издателям приложений – большее количество выпустил крупный игрок на рынке – Gameloft (8 приложений), Disney (5 приложений), Apalon (3 34 приложения), Rovio Entertainment Ltd (3 приложения) (ссылка на приложение). Ограничения на приложения распределяются таким образом: большинство приложений подходят и для маленьких детей 4+ (64%), 9+ (14%), но 13 приложений (12%) занимают приложения для уже взрослых. Таблица 13 Распределение категориальной переменной Rated (Россия) Tabulation of RATED Sample: 1 112 Included observations: 112 Number of categories: 4 Value Rated Rated Rated Rated Total 12+: 17+: 4+: 9+: Count 11 13 72 16 112 Percent 9.82 11.61 64.29 14.29 100.00 Cumulative Count 11 24 96 112 112 Cumulative Percent 9.82 21.43 85.71 100.00 100.00 Масштабное скачивание приложения в пределах одной страны (т.е. локальные приложения) присутствуют только в 12,5% случаев из 100%. Остальные приложения скачиваются на мировом рынке, что показывает глобализацию рынка. Таблица 14 Распределение категориальной переменной Is_local (Россия) Tabulation of IS_LOCAL Sample: 1 112 Included observations: 112 Number of categories: 2 Value no yes Total Count 98 14 112 Percent 87.50 12.50 100.00 Cumulative Count 98 112 112 Cumulative Percent 87.50 100.00 100.00 82% приложений не имеют ознакомительного периода (бесплатного) действия, что может говорить, либо об устоявшей форме монетизации некоторых приложений либо о популярности качественных платных приложений. Таблица 15 Распределение категориальной переменной Free_period (Россия) Tabulation of HAD_FREE_PERIOD Sample: 1 112 Included observations: 112 35 Number of categories: 2 Value no yes Total Count 92 20 112 Percent 82.14 17.86 100.00 Cumulative Count 92 112 112 Cumulative Percent 82.14 100.00 100.00 Приведенным описательным анализом уже можно сделать начальную оценку данного сегмента. В самом популярном сегменте рынка 64% - это дешевые приложения (0,82 евро =32,8 руб.), что показывает, мотивацию разработчиков попасть в лидеры по скачиванию (прямая зависимость прибыли с количеством загрузок). Так же большинство приложений создаются для мирового потребителя, без привязки к какой-либо стране. Кроме того, эти приложения направлены непосредственно на зарабатывание, поскольку у 98 приложений из 112 нет ознакомительного периода. 2.2.2.Корреляционный анализ Для выявления взаимосвязей среди переменных часто используются два способа: парные корреляции; матрица диаграмм рассеяния. Поскольку, в данной работе слишком много объясняющих переменных, сначала проведем анализ на частные взаимосвязи. Одной из главных объясняющих является цена приложения. Однако из Рисунок 12 Распределение цены и загрузок (Россия) можно заключить, что связи между ценой и загрузками нет (регрессионная линия параллельна линии абсцисс). Попробуем проверить другие сочетания переменных. На Рисунок 13 Распределение загрузок и логарифма цены (Россия)приведена связь при преобразовании цены в логарифм и количества скачиваний приложения – так же как и в предыдущем варианте, графически взаимосвязи не выявлено. 36 Рисунок 14 Распределение логарифмов цены и загрузок (Россия) показывает взаимосвязь, когда обе переменные преобразованы через логарифм. В этом случае, наблюдается небольшой рост процентного отношения загрузок к увеличению на 1% цены. Данное наблюдение противоречит первоначально поставленной гипотезе, что с увеличением цены, количество скачиваний уменьшается. Такой же эффект можно наблюдать на графике lndownloads c price_in_eur (Рисунок 14 Распределение логарифмов цены и загрузок (Россия)) 0 9 10 lndownloads 11 12 150000 100000 50000 Downloads_this_month Lowess smoother Lowess smoother 1 2 3 4 Price_in_EUR 5 0 6 bandwidth = .8 1 lnprice_eur 1.5 2 Рисунок 12 Распределение цены и Рисунок 14 Распределение загрузок (Россия) логарифмов цены и загрузок (Россия) Lowess smoother 12 11 0 9 10 lndownloads 100000 150000 Lowess smoother 50000 Downloads_this_month .5 bandwidth = .8 1 0 .5 1 lnprice_eur 1.5 2 2 3 4 Price_in_EUR 5 6 bandwidth = .8 bandwidth = .8 Рисунок 13 Распределение загрузок и Рисунок 15 Распределение цены и логарифма цены (Россия) логарифма загрузок (Россия) 37 Тем самым можно показать, что цена не влияет на загрузки напрямую, что показывает коэффициент корреляции между данными переменными (Таблица 16 Коэффициенты корреляции цены и объема загрузок (Россия)) Таблица 16 Коэффициенты корреляции цены и объема загрузок (Россия) PRICE_IN_EUR DOWNLOADS_THIS_MONTH LNDOWNLOADS 0.050108 (0.5998) 0.093606 (0.3263) В следующей таблице (Таблица 17 Коэффициенты корреляции между загрузками и другими характеристиками (Россия)) представлены основные коэффициенты линейной корреляции количества загрузок и других характеристик (рейтинг, цена и т.д.). В начале таблицы приведены преобразованные переменные рейтинга: all_average – средняя оценка общего рейтинга приложения, all5_percent – процент отличных оценок в общем рейтинге, тоже самое сделано относительно текущего рейтинга. Как показывают уровни значимости этих коэффициентов – они не значимы, другими словами, между данными переменными нет линейной связи. Так же не обнаружена линейная взаимосвязь между загрузками и тем, сколько времени приложение находится на рынке, а так же с ценой нет линейной связи. Остальные коэффициенты корреляции значимы, особенно сильно влияют рейтинги, общий и текущий. Таблица 17 Коэффициенты корреляции между загрузками и другими характеристиками (Россия) Probability ALL_AVERAGE ALL5_PERCENT CURR_AVERAGE CURR5_PERCENT TIME_IN_MARKET SIZE_MB PRICE_IN_EUR NUMBER_LANG APPS_PUBLISHED ALL1 DOWNLOADS_THIS_MONTH 0.114059 0.2610 0.105493 0.2987 0.124058 0.2212 0.130751 0.1971 0.092380 0.3486 0.323846 0.0008 0.042432 0.6674 0.206995 0.0341 0.205166 0.550593 38 0.0000 0.489155 0.0000 0.542517 0.0000 0.684397 0.0000 0.714840 0.0000 0.521830 0.0000 0.409883 0.0000 0.486480 0.0000 0.551106 0.0000 0.657925 0.0000 ALL2 ALL3 ALL4 ALL5 CURR1 CURR2 CURR3 CURR4 CURR5 2.2.3. Проверка на выбросы Для проверки данных на выбросы построим регрессию, которая будет включать большинство регрессоров (не берем curr рейтинг, поскольку он сильно коррелирует с общим рейтингом). Вообще между категориями общего рейтинга тоже существует обоснованная сильная корреляция (поэтому можно предполагать, что в нашей модели будет мультиколлинеарность), но поскольку с экономической точки зрения нам важно оценить влияние рейтинга/оценок приложения, то пока эти переменные оставим совместно. .quietly reg downloads_this_month apps_published paid_in_app price_in_eur had_free_period is_local universal iphoneipodtouch gameloft disney time_in_market all5 all4 all3 all2 all1 size_mb number_lang books business education entertainment finance games healthandfitness lifestyle music photoandvideo productivity reference socialnetworking utilities Проверим регрессию на выбросы. С помощью нескольких способов, которые можно реализовать в Stata. Поскольку мы имеем несовершенство информации, некоторые рейтинги пропущены, поэтому данные способы выявления выбросов отмечают именно эти наблюдения. Придется их удалить для дальнейшего полноценного анализа. Таблица 18 Проверка на выбросы (Россия) . list id rstud downloads_this_month price_in_eur all5 all4 all3 all2 all1 size_mb abs(rstud)> 2.2 if +--------------------------------------------------------------------------------------+ | id rstud downlo~h price_~r all5 all4 all3 all2 all1 size_mb | |--------------------------------------------------------------------------------------| 6. | ru6 3.096471 55800 .82 2650 468 139 43 136 3.8 | 39 15. 37. 44. 50. | ru15 -4.728123 14300 .82 12188 1200 233 71 104 33.4 | | ru40 3.463026 60000 1.63 2226 567 145 44 86 9.8 | | ru49 2.983097 110600 4.18 12924 1255 463 265 689 1400 | | ru55 3.31835 112000 .82 21535 1260 461 295 548 1200 | |--------------------------------------------------------------------------------------| 61. | ru66 2.707003 59900 .82 8117 469 189 119 296 39.3 | +--------------------------------------------------------------------------------------+ . list id cooksd dfits if dfits>2*sqrt(30/74) & (cooksd> 4/74) 6. 24. 33. 37. 44. 50. 87. 97. +-----------------------------+ | id cooksd dfits | |-----------------------------| | ru6 .0943746 1.806972 | | ru25 .0561746 1.352156 | | ru35 .1817956 2.357861 | | ru40 .0817566 1.706148 | | ru49 .2757072 3.075587 | |-----------------------------| | ru55 .3950318 3.728638 | | ru94 .3105452 . | | ru104 35.33314 32.87135 | +-----------------------------+ Удалим из регрессии те выбросы, которые выявили оба теста. 2.2.4. Регрессионный анализ Базовая линейная модель Для рассмотрения основных возможных взаимосвязей построим первоначальную линейную модель со всеми объясняющими переменными. Таблица 19 Линейная модель со всеми объясняющими переменными (Россия) . reg downloads_this_month apps_published paid_in_app price_in_eur had_free_period is_local iphoneonly iphoneipodtouch gameloft d > isney time_in_market all5 all4 all3 all2 all1 books business education entertainment finance games healthandfitness lif > estyle music photoandvideo productivity reference socialnetworking utilities size_mb number_lang note: socialnetworking omitted because of collinearity Source | SS df MS -------------+-----------------------------Model | 25.5647674 30 .852158912 Residual | 13.852333 74 .18719369 -------------+-----------------------------Total | 39.4171004 104 .379010581 Number of obs F( 30, 74) Prob > F R-squared Adj R-squared Root MSE = = = = = = 105 4.55 0.0000 0.6486 0.5061 .43266 -----------------------------------------------------------------------------lndownloads | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------apps_publi~d | -.0005032 .0006692 -0.75 0.454 -.0018365 .0008302 paid_in_app | .1564417 .1258895 1.24 0.218 -.0943985 .4072819 price_in_eur | .0186998 .0480454 0.39 0.698 -.0770327 .1144322 had_free_p~d | -.1938156 .129367 -1.50 0.138 -.451585 .0639538 is_local | -.1420443 .1768781 -0.80 0.425 -.4944817 .210393 iphoneonly | .7839484 .747565 1.05 0.298 -.7056073 2.273504 iphoneipod~h | -.1729389 .1329167 -1.30 0.197 -.4377813 .0919035 gameloft | -.5324262 .2970574 -1.79 0.077 -1.124326 .0594736 disney | .3078366 .2727199 1.13 0.263 -.2355697 .851243 time_in_ma~t | -.0004167 .0001743 -2.39 0.019 -.000764 -.0000693 all5 | .0000717 .0000326 2.20 0.031 6.86e-06 .0001366 all4 | .0000686 .0006263 0.11 0.913 -.0011793 .0013165 all3 | .0005906 .0026359 0.22 0.823 -.0046615 .0058428 all2 | -.0007563 .0047345 -0.16 0.874 -.01019 .0086774 40 all1 | .0002648 .0009419 0.28 0.779 -.001612 .0021415 books | -.891956 .5644681 -1.58 0.118 -2.016683 .2327712 business | -.3760276 .3658893 -1.03 0.307 -1.105078 .3530227 education | -.1262587 .3710057 -0.34 0.735 -.8655036 .6129862 entertainm~t | -.4322201 .340157 -1.27 0.208 -1.109998 .2455575 finance | -.3315601 .3520485 -0.94 0.349 -1.033032 .3699118 games | -.6527126 .2937548 -2.22 0.029 -1.238032 -.0673934 healthandf~s | 1.563592 .5209762 3.00 0.004 .5255248 2.60166 lifestyle | -.8583297 .5196405 -1.65 0.103 -1.893736 .1770766 music | -.2683263 .3311178 -0.81 0.420 -.928093 .3914403 photoandvi~o | -.2942276 .3796639 -0.77 0.441 -1.050724 .4622693 productivity | -.4521253 .3661323 -1.23 0.221 -1.18166 .2774093 reference | -.9479809 .6332243 -1.50 0.139 -2.209708 .3137459 socialnetw~g | (omitted) utilities | -.3572987 .2989926 -1.20 0.236 -.9530544 .2384571 size_mb | .0006881 .0002667 2.58 0.012 .0001568 .0012195 number_lang | -.0100094 .0080508 -1.24 0.218 -.026051 .0060321 _cons | 10.08759 .3172948 31.79 0.000 9.45537 10.71982 ------------------------------------------------------------------------------ Как мы видим, модель получилась значимой, но помимо этого, существует большое количество незначимых объясняющих переменных. 24 Series: RESID Sample 1 112 IF ID<>"ru49" AND ID<>"ru55" AND ID< >"ru6" AND ID<>"ru40" Observations 99 20 16 12 8 4 0 -20000 -10000 0 10000 20000 Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis -351.3626 -792.2509 24806.79 -19044.94 6161.065 0.527589 5.300077 Jarque-Bera Probability 26.41548 0.000002 Рисунок 16 Распределение остатков (Россия) Проверим на нормальность распределения остатков. Тест Харки-Бера (prob=0.000002) показывает, что распределение не нормально. При проведении теста на эмпирическое распределение, только у одного теста не отвергнуть нулевую гипотезу о нормальности распределения на 1% уровне значимости. Но в общем, остатки распределены не нормально. Таблица 20 Эмпирическое распределение остатков Empirical Distribution Test for RESID Hypothesis: Normal Sample: 1 112 Included observations: 105 Method Lilliefors (D) Cramer-von Mises (W2) Watson (U2) Value Adj. Value Probability 0.100483 0.250589 0.247398 NA 0.251782 0.248576 0.0109 0.0012 0.0007 41 Anderson-Darling (A2) 1.480049 1.490922 0.0008 Получаем 7 значимых переменных. Очищенная регрессия выглядит так: Таблица 21 Базовая очищенная линейная модель (Россия) Dependent Variable: DOWNLOADS_THIS_MONTH Method: Least Squares Sample: 1 112 IF ID<>"ru49" AND ID<>"ru55" AND ID<>"ru6" AND ID<>"ru40" Included observations: 101 White heteroskedasticity-consistent standard errors & covariance Variable Coefficient Std. Error t-Statistic Prob. ALL5 APPS_PUBLISHED CATEGORY3="Games" CATEGORY3="Health and Fitness" CATEGORY3="Social Networking" SIZE_MB TIME_IN_MARKET PRICE_IN_EUR C 2.161455 -16.67051 -1410.664 67400.13 74103.90 8.169765 -6.469221 310.0589 14444.82 0.464436 10.18700 1735.117 1998.198 8136.211 3.857275 2.981620 652.4888 1939.946 4.653931 -1.636450 -0.813008 33.73046 9.107913 2.118015 -2.169700 0.475194 7.445989 0.0000 0.1052 0.4183 0.0000 0.0000 0.0369 0.0326 0.6358 0.0000 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic) 0.740908 0.718378 8288.971 6.32E+09 -1049.890 32.88575 0.000000 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter. Durbin-Watson stat 18379.21 15619.51 20.96813 21.20116 21.06246 2.145486 Поскольку большинство категорий мобильного приложения оказались незначимы в регрессии, преобразуем эти фиктивные переменные в вид: Games, Health and Fitness, Social Networking и Other, причем последнюю переменную возьмем как эталонную. Так же остальные не значимые переменные проверим на тесте на лишние переменные (уровень значимости F-статистики>0.05, следовательно, нулевая гипотеза верна – это лишние переменные, которые можно удалить из регрессии): Таблица 22 F – тест на лишние переменные в линейной модели (Россия) Redundant Variables: ALL4 ALL3 ALL2 ALL1 F-statistic Likelihood ratio Value 0.437145 2.223026 df (4, 77) 4 Redundant Variables: HAD_FREE_PERIOD IS_LOCAL NUMBER_LANG Probability 0.7814 0.6948 PAID_IN_APP 42 Value 0.215699 1.048953 F-statistic Likelihood ratio df (4, 81) 4 Probability 0.9290 0.9023 В модели (Таблица 21 Базовая очищенная линейная модель (Россия)) коэффициент, отображающий влияние на скачивание категории «Игры», и оценка коэффициенты цены получаются незначимыми. С точки зрения интерпретации они необходимы. Таблица 23 VIF(Россия) Variance Inflation Factors Sample: 1 112 IF ID<>"ru49" AND ID<>"ru55" AND ID<>"ru6" AND ID<>"ru40" Included observations: 101 Variable ALL5 APPS_PUBLISHED CATEGORY3="Games" (CATEGORY3="Health and Fitness") (CATEGORY3="Social Networking") SIZE_MB TIME_IN_MARKET C Coefficient Variance Uncentered VIF Centered VIF 0.094296 94.15744 3864664. 2.107311 2.124621 3.178419 1.451601 1.614666 1.416127 72362919 1.062741 1.052219 96644090 9.966453 8.394548 2566015. 1.419341 1.910490 2.562162 3.806204 1.405288 1.571831 1.226433 NA В первую очередь, надо уточнить, что объясняющая переменная all5 отображает общее количество высших оценок (рейтинг), поставленных покупателями. В целях исследования были для стандарта выведены средний общий и текущий рейтинг, но поскольку выборка, участвующая в анализе, образована топом скачиваемых приложений, т.е. органично заметить, что у некоторых приложений средний рейтинг отличается на несколько сотых (общая величина в среднем превосходит 4,5), поэтому в регрессию она не включена. А переменная all5 показывает, как общее увеличение отличных отметок влияет на скачивания. Насчет одновременного влияния (возможно ли влияние самих загрузок на рейтинг) объяснение приведено в части 2 «Регрессия с инструментальными переменными». Исходя из предварительного анализа, из большого количества различных категорий мобильных приложений для регрессии были созданы лишь 4 43 категории: Games (поскольку это более 50% выборки), Social Networking и Health&Fitness (было замечено сильное влияние на объем загрузок), а за эталон взяты все остальные категории под наименованием ‘Other’. Оказалось, что Social Networking и Health&Fitness имеют лишь по одному приложению в категории, WhatsApp Messenger и Smart Alarm Clock: sleep cycles and noise recording, соответственно. WhatsApp Messenger — это межплатформенное приложение обмена сообщениями между мобильными устройствами, с помощью которого можно обмениваться сообщениями и при этом не платить за SMS. Приложение WhatsApp Messenger доступно для iPhone, BlackBerry, Android, Nokia S40, Nokia Symbian и Windows Phone, и все эти телефоны могут отправлять сообщения друг другу. Приложением используется тот же тарифный план для Интернета (3G или Wi-Fi), который вы используете для электронной почты и просмотра веб-страниц, и вам не нужно платить за обмен сообщениями и общение с друзьями. Помимо обмена сообщениями, пользователи приложения WhatsApp могут создавать группы и отправлять друг другу изображения, видеоклипы и звуковые мультимедийные сообщения. Smart Alarm Clock: sleep cycles and noise recording – «Умный будильник», который может как усыпить, так и разбудить, но не только он может записать ваш сон, воспроизвести и множество других функций, которых нет у стандартных устройств. По количеству скачиваний данные приложения достаточно долго держатся на лидирующем уровне, поэтому эти коэффициенты дают значимую оценку. В результате получается, что по сравнению со всеми остальными категориями для приложений WhatsApp Messenger и Smart Alarm Clock: sleep cycles and noise recording увеличение в объеме скачиваний составляет 67 и 74 тыс. раз. 44 Но старые приложения никому не нужны, рынок быстро растущий, развивающийся и успех бизнеса озадачивает все время поддерживать новизну и обновление устаревшего, поэтому оценка коэффициента при переменной, выражающей время нахождения на рынке в днях отрицательный. А цена на приложения возможно не значима из-за внутренних особенностей рынка: общие устоявшиеся цены (несколько категорий), большинство успешных приложений находятся в самой низкой категории цены, а так же возможен порог выше которого люди не будут заинтересованы покупать приложение, тем более в какой-то доли приобретение каждого малоизвестного приложения – риск, поэтому потребитель будет уменьшать свои издержки. Поскольку в базовой регрессии объясняющая переменная, характеризующая цены на мобильные приложения, оказалась незначимая, на основе линейной модели проверим значимость каждой категории цены в отдельности, а именно преобразуем ряд цен в фиктивные переменные и включим в регрессию. Таблица 24 Базовая регрессия с включением каждой категории цены на мобильное приложение (Россия) Dependent Variable: DOWNLOADS_THIS_MONTH Method: Least Squares Sample (adjusted): 1 106 Included observations: 99 after adjustments White heteroskedasticity-consistent standard errors & covariance Variable ALL3 ALL5 APPS_PUBLISHED CATEGORY3="Games" CATEGORY3="Health and Fitness" CATEGORY3="Social Networking" HAD_FREE_PERIOD IS_LOCAL SIZE_MB TIME_IN_MARKET PRICE_NEW(1) PRICE_NEW(2) PRICE_NEW(3) PRICE_NEW(4) PRICE_NEW(5) Coefficient -4.663348 2.776300 -10.01094 -4349.503 64642.06 48024.16 -765.3887 1982.631 11.73597 -11.50809 -1206.680 -855.4401 -224.9476 -1210.233 -936.7710 Std. Error t-Statistic 68.85517 1.045457 17.32878 2950.248 4775.391 24221.30 2650.830 4393.817 6.043269 3.054002 684.2144 463.6735 864.2998 479.1961 446.0089 -0.067727 2.655585 -0.577706 -1.474284 13.53650 1.982724 -0.288735 0.451232 1.941990 -3.768200 -1.763600 -1.844919 -0.260266 -2.525549 -2.100341 Prob. 0.9462 0.0096 0.5651 0.1445 0.0000 0.0510 0.7736 0.6531 0.0558 0.0003 0.0818 0.0689 0.7954 0.0136 0.0390 45 PRICE_NEW(6) PAID_IN_APP NUMBER_LANG ALL4 ALL2 ALL1 C R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood 809.1809 2308.106 -4.097890 17.16875 -19.55105 -0.408005 22071.92 686.7490 2138.602 192.7811 33.94820 141.9644 33.86443 4901.336 1.178277 1.079259 -0.021257 0.505734 -0.137718 -0.012048 4.503245 0.2423 0.2838 0.9831 0.6145 0.8908 0.9904 0.0000 0.774182 0.712595 11297.65 9.83E+09 -1051.937 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter. 21454.55 21073.70 21.69571 22.27240 21.92904 Снова для очищения регрессии от лишних переменных проведем F-тест на лишние переменные (probability F-статистики>0.05, следовательно, нулевая гипотеза не отклоняется – это статистически незначимые переменные, которые можно удалить из регрессии): Таблица 25 F – тест на лишние переменные в линейной модели c ценой как категориальной переменной (Россия) Redundant Variables: APPS_PUBLISHED NUMBER_LANG PAID_IN_APP IS_LOCAL HAD_FREE_PERIOD F-statistic Likelihood ratio Value 0.268289 1.626114 df (5, 81) 5 Probability 0.9292 0.8981 Redundant Variables: PRICE_NEW(3) PRICE_NEW(4) PRICE_NEW(5) PRICE_NEW(6) F-statistic Likelihood ratio Value 1.521987 6.771281 df (4, 86) 4 Probability 0.2029 0.1485 Получаем такую очищенную регрессию, где Таблица 26Очищенная регрессия с категориальной ценой (Россия) Dependent Variable: DOWNLOADS_THIS_MONTH Method: Least Squares Sample (adjusted): 1 110 Included observations: 103 after adjustments White heteroskedasticity-consistent standard errors & covariance Variable ALL5 CATEGORY3="Games" CATEGORY3="Health and Fitness" CATEGORY3="Social Networking" SIZE_MB TIME_IN_MARKET PRICE_NEW(1) PRICE_NEW(2) C Coefficient 3.400473 -6148.669 64031.21 56419.16 12.26519 -12.14541 -1345.688 -886.3093 21304.90 Std. Error t-Statistic 0.547882 2311.314 2199.837 8703.670 5.361273 3.697275 565.4826 509.7727 3202.031 6.206578 -2.660248 29.10724 6.482226 2.287738 -3.284963 -2.379716 -1.738636 6.653557 Prob. 0.0000 0.0092 0.0000 0.0000 0.0244 0.0014 0.0193 0.0854 0.0000 46 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic) 0.734536 0.711943 11151.18 1.17E+10 -1101.330 32.51212 0.000000 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter. Durbin-Watson stat 21010.68 20776.96 21.55980 21.79002 21.65305 1.857978 Из предыдущей модели видно, что первая и вторая категория цены значима и имеет отрицательный знак, данный факт показывает, что при сравнении с другими категориями, наличие этих категорий уменьшает количество загрузок на 1345 и 886 соответственно. При этом большинство приложений состоят именно в первой категории цены, что достаточно странно. Возможно, существует какая-то ошибка. Проверим на мультиколлинеарность модель. Мультиколлинеарности не обнаружено, все коэффициенты VIF<2. Таблица 27 Variance Inflation Factors для модели с категориальной ценой (Россия) Variance Inflation Factors Sample: 1 112 Included observations: 103 Variable ALL5 CATEGORY3="Games" (CATEGORY3="Health and Fitness") (CATEGORY3="Social Networking") SIZE_MB TIME_IN_MARKET PRICE_NEW(1) PRICE_NEW(2) C Coefficient Variance Uncentered VIF Centered VIF 0.112319 6444078. 1.952306 2.953887 1.379172 1.319212 1.33E+08 1.066072 1.055722 1.65E+08 12.16745 14.73940 408106.5 405385.5 8294643. 1.326529 1.542618 2.455353 2.523818 2.461350 6.870575 1.313650 1.272910 1.190710 1.078200 1.052210 NA Важно отметить, что проблемы гетероскедастичности сразу решались в моделях с использованием скорректированных стандартных ошибок. А так же исходя из распределения зависимой величины, была построена аналогичная лог-линейная модель для сравнения показателей. По описательным способностям она слабее. Но с математической точки 47 зрения использование ее оценок является обоснованным. Поэтому все дальнейшие сравнения будут происходить именно с этой моделью. Таблица 28 Лог-линейная модель Dependent Variable: LOG(DOWNLOADS_THIS_MONTH) Method: Least Squares Sample: 1 112 IF ID<>"ru49" AND ID<>"ru55" AND ID<>"ru6" AND ID<>"ru40" Included observations: 101 White heteroskedasticity-consistent standard errors & covariance Variable Coefficient Std. Error t-Statistic Prob. ALL5 APPS_PUBLISHED CATEGORY3="Games" CATEGORY3="Health and Fitness" CATEGORY3="Social Networking" SIZE_MB TIME_IN_MARKET PRICE_IN_EUR C 8.58E-05 -0.000478 -0.057651 1.933486 1.203614 0.000289 -0.000392 0.027314 9.518194 1.64E-05 0.000485 0.086928 0.091797 0.297765 0.000175 0.000128 0.035485 0.094453 5.233942 -0.984582 -0.663197 21.06251 4.042156 1.653017 -3.051742 0.769730 100.7713 0.0000 0.3274 0.5089 0.0000 0.0001 0.1017 0.0030 0.4434 0.0000 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic) 0.509096 0.466409 0.389434 13.95260 -43.35033 11.92618 0.000000 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter. Durbin-Watson stat 9.635890 0.533125 1.036640 1.269671 1.130978 1.885533 При этом, нулевая гипотеза о нормальности остатков не может быть принятой. 10 Series: RESID Sample 1 112 IF ID<>"ru49" AND ID<>"ru55" AND ID< >"ru6" AND ID<>"ru40" Observations 101 8 6 4 2 0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0 Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis 1.15e-15 -0.061985 1.129232 -0.847199 0.373532 0.664758 3.609346 Jarque-Bera Probability 9.001274 0.011102 Рисунок 17 Остатки лог-линейной модели В результате получается, что по сравнению со всеми остальными категориями для приложений WhatsApp Messenger и Smart Alarm Clock: 48 sleep cycles and noise recording увеличение в объеме скачиваний составляет на 591,36% и 233,21%, соответственно. Так же как и в линейной модели, время нахождения на рынке отрицательно влияет на загрузки (с каждым днем относительная оценка загрузок будет падать на 0,04%. А цена на приложения возможно не значима из-за внутренних особенностей рынка: общие устоявшиеся цены (несколько категорий), большинство успешных приложений находятся в самой низкой категории цены, а так же возможен порог выше приложение, которого тем люди более в не будут какой-то заинтересованы доли приобретение покупать каждого малоизвестного приложения – риск, поэтому потребитель будет уменьшать свои издержки. Регрессия с инструментальными переменными Важной предпосылкой линейных регрессий является экзогенность заданных факторов, т.е. некоррелированность объясняющих переменных и случайной ошибки. Обратная ситуация может привести к смещенным и несостоятельным оценкам при применении стандартных методов оценивания (например, МНК). Одной из причин данной проблемы может являться проблема пропущенных существенных переменных (в нашем случае, пропущенной значимой объясняющей переменной может являться продвижение приложения через мобильный магазин (первые строчки для скачиваний и т.д.) или влияние рекламы в повседневной жизни). Кроме того, следует отметить, что при имеющемся наборе данных можно предположить возможность одновременности, а точнее совместного влияния зависимой и независимых переменных друг от друга. Например, можно предположить, что рейтинг может влиять на количество скачиваний (если человек выбирает приложение по рейтингу, то рейтинг непосредственно влияет на желание скачать приложение), но и обратная связь может работать (если потребитель увидит популярность приложения, то и эта характеристика может послужить катализатором к последующей 49 оценке). Так же цена может влиять на количество скачиваний (чем дешевле приложение, тем больше его покупают, например), но и обратная связь тоже возможна (чем больше масштаб продаж, тем ниже цена). Данную проблему в научном сообществе решают с помощью инструментальных переменных. Инструментальные переменные – это переменные, которые коррелируют с «проблемными» регрессорами, но не коррелируют с ошибкой. В данном случае могут применяться два способа оценивания регрессионных параметров: двухшаговый метод наименьших квадратов(2ШМНК) и метод максимального правдоподобия с ограниченной информацией. Как было замечено выше, одновременная связь может быть у рейтинга с загрузками. В исследовании имеются два вида рейтинга: общий и текущий. Но так как количество скачиваний приведено лишь за один месяц, то можно сказать, что общий рейтинг может влиять на объем загрузок, но вот этот объем не будет значимым фактором роста оценок в общем рейтинге, тем самым опровергается одновременная связь между этими переменными. А вот с текущим рейтингом вполне может сложиться обратная ситуация, поэтому в модели мы учтем только общий рейтинг. Это можно сделать в связи с тем, что общий рейтинг коррелирует с текущим, а значит мы можем оставить только один из них. Другой такой объясняющей переменной является цена. Нужно подобрать такой инструмент, который коррелирует с ценой, но в тоже время не коррелирует с ошибкой (или с возможной пропущенной объясняющей переменной). Такими могут являться: количество приложений, выпущенных разработчиком (чем больше приложений, тем больше цена), размер приложения (рыночная цена косвенно учитывает себестоимость создания приложения, в результате, чем больше размер приложения, тем больше разработчики потратили времени и создали улучшенное по качеству приложение, т.е. размер коррелирует с ценой). Проверим эти предположения. 50 Из Таблица 29 Зависимость цены от размера и публикаций разработчика (Россия)видно, что взаимосвязь между размером приложения и ценой существует и она значима, но в тот же момент загрузки не влияют на размер приложения. А вот между количеством приложений, выпущенных разработчиком и ценой, линейная связь отсутствует. Поэтому размер приложения – скорее всего сильный инструмент, который можно использовать в модели. Таблица 29 Зависимость цены от размера и публикаций разработчика (Россия) Dependent Variable: PRICE_IN_EUR Method: Least Squares Sample: 1 112 Included observations: 112 Variable Coefficient Std. Error t-Statistic Prob. SIZE_MB APPS_PUBLISHED C 0.002677 -0.000597 1.276017 0.000409 0.001271 0.124262 6.550100 -0.469596 10.26879 0.0000 0.6396 0.0000 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic) 0.383626 0.372316 1.141420 142.0095 -172.2152 33.92032 0.000000 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter. Durbin-Watson stat 1.674464 1.440705 3.128844 3.201661 3.158388 2.112308 Построим модель с полученным инструментом (Таблица 31 Проверка инструмента (Россия)). Таблица 30 Модель с инструментом (size_mb) (Россия) . ivregress 2sls downloads_this_month ( price_in_eur= size_mb) all5 games healthandfitness socialnetworking time_in_market if id!="ru49" & id!="ru55" & id!="ru6" & id!="ru40", robust Instrumental variables (2SLS) regression Number of obs Wald chi2(6) Prob > chi2 R-squared Root MSE = 105 = 3663.80 = 0.0000 = 0.6456 = 12205 -----------------------------------------------------------------------------| Robust downloads_~h | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------price_in_eur | 4690.188 1813.469 2.59 0.010 1135.854 8244.522 all5 | 3.802472 .677183 5.62 0.000 2.475218 5.129727 games | -6883.665 2572.551 -2.68 0.007 -11925.77 -1841.559 healthandf~s | 70094.25 3157.42 22.20 0.000 63905.82 76282.68 socialnetw~g | 57555.8 10083.49 5.71 0.000 37792.53 77319.08 time_in_ma~t | -14.72253 4.394472 -3.35 0.001 -23.33553 -6.109521 _cons | 10892.92 3234.53 3.37 0.001 4553.361 17232.49 -----------------------------------------------------------------------------Instrumented: price_in_eur Instruments: all5 games healthandfitness socialnetworking time_in_market size_mb 51 Снова проверим, не являются ли наши инструменты слабыми. Таблица 31 Проверка инструмента (Россия) . estat firststage First-stage regression summary statistics -------------------------------------------------------------------------| Adjusted Partial Robust Variable | R-sq. R-sq. R-sq. F(1,98) Prob > F -------------+-----------------------------------------------------------price_in_eur | 0.4424 0.4082 0.4137 74.9552 0.0000 -------------------------------------------------------------------------- Коэффициент детерминации является относительно высоким (описательная способность 44%), F статистики выше часто используемого порога в 10 единиц, поэтому инструмент сильный. Сравним IV и OLS-оценки с помощью теста Хаусмана(Таблица 32 Тест Хаусмана (Россия)). Поскольку не отклоняется нулевая гипотеза, оценки коэффициентов в обеих регрессиях отличаются незначимо, значит, OLS дает состоятельные и эффективные оценки, а IV – только состоятельные. Можно предпочесть OLS модель. Таблица 32 Тест Хаусмана (Россия) . hausman iv ols ---- Coefficients ---| (b) (B) (b-B) sqrt(diag(V_b-V_B)) | iv ols Difference S.E. -------------+---------------------------------------------------------------price_in_eur | 4690.188 1730.467 2959.721 1012.042 all5 | 3.802472 3.712313 .090159 .0907816 games | -6883.665 -5126.541 -1757.124 861.93 healthandf~s | 70094.25 67460.25 2634 3140.421 socialnetw~g | 57555.8 55575.84 1979.965 3411.753 time_in_ma~t | -14.72253 -13.12542 -1.597112 1.137419 -----------------------------------------------------------------------------b = consistent under Ho and Ha; obtained from ivregress B = inconsistent under Ha, efficient under Ho; obtained from regress Test: Ho: difference in coefficients not systematic chi2(5) = (b-B)'[(V_b-V_B)^(-1)](b-B) = 8.55 Prob>chi2 = 0.1283. Попробовав другие предположительные инструменты, тест Хаусмана показывал такие же результаты, поэтому приводить данные результаты в работе не будем. 52 Пуассоновская регрессия Зависимая переменная представляет Downloads_This_Month число событий (скачиваний), поэтому обычно используют три способа работы с такими данными: пуассоновская регрессия, негативная биноминальная регрессия, zero-inflated regression model. Downloads_This_Month – дискретная величина (количество скачиваний приложений за месяц), принадлежащая области натуральных чисел, другими словами, это только положительные оценки. В таком случае, априори, нормальное распределение не подходит, потому что оно подразумевает как отрицательные, так и положительные величины, распределенные вокруг математического ожидания равного нулю, для непрерывной переменной. В то время как Пуассоновская регрессия – это лог-линейная функция, параметры которой найдены с помощью метода максимального правдоподобия (максимизирует функция правдоподобия эмпирического распределения пуасссоновскому распределению). Это показывает, что мы имеем лог-линейную функцию, у которой изменение на единицу объясняющей переменной приводит к изменению зависимой переменной нa (eβ-1)*100%. Таблица 33 Пуассоновская регрессия (Россия) . poisson downloads_this_month apps_published paid_in_app price_in_eur is_local iphoneonly iphoneipodtouch gameloft disney time_in_market all5 games healthandfitness socialnetworking size_mb note: socialnetworking omitted because of collinearity Iteration Iteration Iteration Iteration Iteration 0: 1: 2: 3: 4: log log log log log likelihood likelihood likelihood likelihood likelihood Poisson regression Log likelihood = -183282.9 = -532725.65 = -186447.07 = -183293.74 = -183282.9 = -183282.9 Number of obs LR chi2(13) Prob > chi2 Pseudo R2 = = = = 105 990985.35 0.0000 0.7300 -----------------------------------------------------------------------------downloads_~h | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------apps_publi~d | -.0001645 8.85e-06 -18.59 0.000 -.0001818 -.0001471 paid_in_app | .1136139 .0020313 55.93 0.000 .1096327 .1175951 price_in_eur | .0383184 .0006595 58.11 0.000 .0370259 .0396109 is_local | -.0497754 .0025813 -19.28 0.000 -.0548346 -.0447161 53 iphoneonly | .9504373 .0049334 192.65 0.000 .940768 .9601066 iphoneipod~h | -.1699676 .001996 -85.16 0.000 -.1738796 -.1660556 gameloft | -.523014 .0030472 -171.64 0.000 -.5289864 -.5170415 disney | .2091281 .0039564 52.86 0.000 .2013738 .2168824 time_in_ma~t | -.000548 2.95e-06 -185.50 0.000 -.0005538 -.0005422 all5 | .0000978 1.69e-07 578.39 0.000 .0000974 .0000981 games | -.3364143 .0021495 -156.51 0.000 -.3406273 -.3322014 healthandf~s | 1.934748 .004422 437.53 0.000 1.926081 1.943414 socialnetw~g | (omitted) size_mb | .000533 3.32e-06 160.63 0.000 .0005265 .0005395 _cons | 9.764455 .0017949 5439.99 0.000 9.760937 9.767973 ------------------------------------------------------------------------------ Все коэффициенты значимы, что достаточно странно, поэтому можно предположить, что в модели существует гетероскедастичность такой формы, которую не учитывает модель. Так же проверим на чрезмерную дисперсию, которая может менять модель к обобщенному виду – Negative Binomial Model. Negative Binomial Model – модификация пуассоновской регрессии, которая учитывает чрезмерную дисперсию. В модели как показатель является alpha, которая показывает степень такой дисперсии. Если alpha=0, то модель сводится к простой пуассоновской регрессии. Таблица 34 NB model . nbreg downloads_this_month apps_published paid_in_app price_in_eur had_free_period is_local gameloft disney time_in_market all5 books business education entertainment finance games healthandfitness lifestyle music photoandvideo productivity reference socialnetworking utilities weather size_mb number_lang note: weather omitted because of collinearity Negative binomial regression Dispersion = mean Log likelihood = -1068.2565 Number of obs LR chi2(25) Prob > chi2 Pseudo R2 = = = = 105 133.20 0.0000 0.0587 -----------------------------------------------------------------------------downloads_~h | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------apps_publi~d | -.0007123 .0005932 -1.20 0.230 -.001875 .0004504 paid_in_app | .1181322 .1085006 1.09 0.276 -.0945251 .3307896 price_in_eur | .0554841 .0383271 1.45 0.148 -.0196357 .1306039 had_free_p~d | -.2008438 .1106949 -1.81 0.070 -.4178019 .0161142 is_local | -.0664979 .1571698 -0.42 0.672 -.3745451 .2415493 gameloft | -.5478543 .2397321 -2.29 0.022 -1.017721 -.077988 disney | .4332597 .2251464 1.92 0.054 -.0080191 .8745386 time_in_ma~t | -.0004987 .0001478 -3.37 0.001 -.0007884 -.000209 all5 | .000101 .0000126 8.03 0.000 .0000764 .0001257 books | -.7221149 .4873905 -1.48 0.138 -1.677383 .233153 business | -.3210152 .3197195 -1.00 0.315 -.9476539 .3056236 education | -.0245485 .3185785 -0.08 0.939 -.6489508 .5998538 entertainm~t | -.1422954 .2882116 -0.49 0.622 -.7071798 .4225889 finance | -.4202961 .3074502 -1.37 0.172 -1.022887 .1822952 games | -.4954923 .243751 -2.03 0.042 -.9732355 -.017749 healthandf~s | 1.622308 .4497041 3.61 0.000 .7409039 2.503712 lifestyle | -.7466399 .4412994 -1.69 0.091 -1.611571 .1182911 music | -.0510578 .2792787 -0.18 0.855 -.5984339 .4963184 photoandvi~o | -.1473253 .3153151 -0.47 0.640 -.7653314 .4706809 productivity | -.3614845 .3132151 -1.15 0.248 -.9753749 .2524058 reference | -.8123049 .5125673 -1.58 0.113 -1.816918 .1923085 54 socialnetw~g | .9135522 .521896 1.75 0.080 -.1093452 1.93645 utilities | -.1249298 .2482872 -0.50 0.615 -.6115637 .3617041 weather | (omitted) size_mb | .0006469 .0002153 3.01 0.003 .000225 .0010688 number_lang | -.0082816 .0070221 -1.18 0.238 -.0220447 .0054814 _cons | 9.932196 .2410721 41.20 0.000 9.459703 10.40469 -------------+---------------------------------------------------------------/lnalpha | -1.936543 .1348728 -2.200889 -1.672197 -------------+---------------------------------------------------------------alpha | .1442016 .0194489 .1107047 .1878339 -----------------------------------------------------------------------------Likelihood-ratio test of alpha=0: chibar2(01) = 3.4e+05 Prob>=chibar2 = 0.000 После очищения регрессии, получились такие результаты: Таблица 35 NB regression (final) . nbreg downloads_this_month apps_published price_in_eur had_free_period gameloft disney time_in_market all5 games healthandfitness socialnetworking size_mb Negative binomial regression Number of obs LR chi2(11) Prob > chi2 Pseudo R2 Dispersion = mean Log likelihood = -1073.626 = = = = 105 122.47 0.0000 0.0540 -----------------------------------------------------------------------------downloads_~h | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------apps_publi~d | -.0005248 .0006173 -0.85 0.395 -.0017346 .000685 price_in_eur | .0336976 .0361641 0.93 0.351 -.0371828 .1045781 had_free_p~d | -.1920101 .1095531 -1.75 0.080 -.4067302 .02271 gameloft | -.531181 .2528644 -2.10 0.036 -1.026786 -.0355758 disney | .3363287 .2328566 1.44 0.149 -.1200619 .7927192 time_in_ma~t | -.0005772 .0001379 -4.19 0.000 -.0008475 -.000307 all5 | .0001019 .0000131 7.76 0.000 .0000762 .0001277 games | -.1979649 .0918527 -2.16 0.031 -.3779929 -.0179369 healthandf~s | 1.844504 .4121797 4.47 0.000 1.036647 2.652361 socialnetw~g | .9590626 .4632428 2.07 0.038 .0511233 1.867002 size_mb | .0006152 .0002158 2.85 0.004 .0001922 .0010381 _cons | 9.727586 .0892139 109.04 0.000 9.55273 9.902442 -------------+---------------------------------------------------------------/lnalpha | -1.839133 .1345577 -2.102861 -1.575405 -------------+---------------------------------------------------------------alpha | .1589552 .0213886 .1221066 .2069238 -----------------------------------------------------------------------------Likelihood-ratio test of alpha=0: chibar2(01) = 3.7e+05 Prob>=chibar2 = 0.000 По результатам модель дает похожие результаты с лог-линейной моделью, значимы соответствующие коэффициенты и знаки у оценок одинаковы. Поэтому для того, чтобы решить, какая модель лучше, сравним их информационные критерии. Таблица 36 Информационные критерии для NB model . estat ic ----------------------------------------------------------------------------Model | Obs ll(null) ll(model) df AIC BIC -------------+--------------------------------------------------------------. | 105 -1134.859 -1073.626 13 2173.252 2207.753 Поскольку информационные критерии у OLS модели ниже, то предпочтение стоит отдать именно ей. 55 Таблица 37 Информационные критерии для OLS . estat ic ----------------------------------------------------------------------------Model | Obs ll(null) ll(model) df AIC BIC -------------+--------------------------------------------------------------. | 105 -97.55111 -54.26168 8 124.5234 145.755 2.2.5. Рыночные атрибуты В эконометрике в последнее время используют такую характеристику, как неявная цена атрибутов. Неявные цены на атрибуты (различные характеристики товара) определяются не от регрессии цен на вектор атрибутов, а от регрессии количества проданных величин (объема продаж) по цене и различным атрибутам. Основной задачей этого анализа является получение оценки, сколько потребитель готов заплатить за увеличение атрибута на 1 единицу при условии сохранения продаж прежними, другими словами, выявить скрытые цены атрибутов, которые отражают предельные нормы замещения потребителей между атрибутами. Выводятся эти неявные цены на атрибуты с помощью теоремы о неявной функции. Теорема о неявной функции Пусть уравнение F(x; y) = 0 имеет решение (х0; у0), причем частные производные непрерывны в точке (х0; у0) и вторая из них (по переменной у) отлична от нуля в этой точке. Тогда в достаточно малой окрестности точки х0 существует одна и только одна непрерывная функция у(х), такая, что у(х0) = у0. При этом справедливо равенство: причем эта производная непрерывна в указанной окрестности точки х0. Рыночная ценность атрибутов В нашем случае мы имеем такую гедоническую модель: 𝑄(𝑍) = 𝛽0 + 𝛽𝑖 ∗ 𝑍𝑖 + 𝛽𝑗 ∗ 𝑃 + 𝜀, 56 где Zi – набор различных характеристик, P – цены приложения. 𝜕𝑄 𝜕𝑍 𝜋=− 𝑖 𝜕𝑄 𝜕𝑃 где 𝜋 – рыночная ценность атрибутов. Найдем рыночную стоимость атрибутов по сегменту российского рынка приложений. Поскольку в линейной и лог-линейной модели взаимосвязь между загрузками и ценой практически отсутствует и коэффициент оценки цены как объясняющей переменной не значим, рыночные атрибуты будем считать только по модели с инструментальными переменными. Таблица 38 Рыночная ценность атрибутов Объясняющие переменные ALL5 Коэффициенты IV π 3,80247 -0,00081 CATEGORY3="Games" -6883,66500 1,46767 CATEGORY3="Health and Fitness" 70094,25000 -14,94487 CATEGORY3="Social Networking" 57555,80000 -12,27153 -14,72253 0,00314 TIME_IN_MARKET PRICE_IN_EUR 4690,18800 Поскольку цена положительно влияет на загрузки, другими словами, чем выше цена, тем выше загрузки (что странно, особенно если учитывать, что большая часть выборки находится в нижнем уровне цены). Но с данной точки зрения, у нас меняются полностью ценности рыночных атрибутов в противоположную сторону, т.е. ценность отличных оценок в рейтинге падает, ценность крупнейших категорий тоже. Возможной причиной данной особенности рынка является наличие на рынке крайне популярных приложений, которые являются одними из самых дорогих приложений на рынке в данном сегменте. Поэтому зависимость загрузок и цены имеет восходящую траекторию, что мешает дальнейшим интерпретациям. 57 2.3. Регрессионный анализ для рынка Соединенных Штатов Америки 2.3.1.Описательные статистики Теперь сделаем подобный анализ для сегмента рынка мобильных приложений относительно США. В данном случае, многие комментарии будем опускать, если он будет аналогичен предыдущему анализу для России. В первую очередь приведем общую описательную таблицу всех переменных. Как видно из таблицы (Таблица 39 Описательные статистики переменных в сегменте американского рынка), общее количество наблюдений, в среднем, составляет 112 (за исключением, переменной featured, которая показывает рейтинг приложения в iTunes), поскольку не у всех приложений были заполнены рейтинги (у новых приложений отсутствует общий рейтинг, а у некоторых приложений, которые давно не выпускали обновления, соответственно, отсутствует рейтинг последней версии). Следует обратить внимание на зависимую переменную downloads_this_month, среднее которой составляет 123970,5 скачиваний, примерно около той же величины составляет дисперсия данной величины (117944,5), при этом минимальное количество загрузок составляет 45600, а максимальное 679500, следовательно, размах количества скачиваний приложений будет более 630 тысяч раз. Таблица 39 Описательные статистики переменных в сегменте американского рынка . summarize apps_published - rated9 Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------apps_publi~d | 112 63.90179 113.0439 1 482 paid_in_app | 112 .5446429 .5002413 0 1 price_in_eur | 112 1.514732 1.331577 .75 7.61 had_free_p~d | 112 .0535714 .226182 0 1 is_local | 112 .125 .3322053 0 1 -------------+-------------------------------------------------------downloads_~h | 112 123970.5 117944.5 45600 679500 price_usd | 112 2.034643 1.777681 .99 9.99 iphoneonly | 112 .0089286 .0944911 0 1 iphoneipod~h | 112 .3571429 .481311 0 1 iphoneitouch | 112 .0089286 .0944911 0 1 -------------+-------------------------------------------------------universal | 112 .625 .4862988 0 1 curr5 | 112 3488.143 11216.11 17 102186 curr4 | 112 581.8571 2222.677 1 23206 58 curr3 | 112 175.6071 452.0858 0 4179 -------------+-------------------------------------------------------curr2 | 112 76 137.0002 0 716 curr1 | 112 138.8571 245.5445 1 1416 all5 | 105 39780.79 90923.25 711 639390 all4 | 105 6556.676 15146 80 97229 all3 | 105 2204.895 5052.1 26 40457 -------------+-------------------------------------------------------all2 | 105 1089.171 2370.015 10 19248 all1 | 105 2065.933 4266.379 22 26168 business | 112 .0178571 .1330273 0 1 education | 112 .0178571 .1330273 0 1 entertainm~t | 112 .0089286 .0944911 0 1 -------------+-------------------------------------------------------games | 112 .75 .4349588 0 1 healthandf~s | 112 .0267857 .1621823 0 1 music | 112 .0357143 .1864109 0 1 photoandvi~o | 112 .0357143 .1864109 0 1 productivity | 112 .0089286 .0944911 0 1 -------------+-------------------------------------------------------socialnetw~g | 112 .0089286 .0944911 0 1 utilities | 112 .0446429 .2074466 0 1 weather | 112 .0446429 .2074466 0 1 size_mb | 112 127.9429 312.319 1.1 1600 number | 112 5.053571 5.615037 0 32 -------------+-------------------------------------------------------rated12 | 112 .0892857 .2864373 0 1 rated17 | 112 .1160714 .3217502 0 1 rated4 | 112 .5982143 .4924625 0 1 rated9 | 112 .1875 .3920666 0 1 Аналогично, рассмотрим Downloads_This_Month, описательные которая отражает статистики количество переменной скачиваний приложений за последний месяц, она же будет являться зависимой переменной при анализе. График распределения переменной и график нормального распределения представлен ниже (Рисунок 18 Распределение переменной downloads_this_month (США)). 0 2.000e-06 4.000e-06 6.000e-06 8.000e-06 Density .00001 Kernel density estimate 0 200000 400000 Downloads_this_month 600000 800000 Kernel density estimate Normal density kernel = epanechnikov, bandwidth = 1.9e+04 Рисунок 18 Распределение переменной downloads_this_month (США) Как видно из графика распределение далеко от нормального, в доказательство приведем тест на нормальность распределения. Нулевая 59 гипотеза гласит, что распределение нормально. Поскольку значимость (probability, далее prob)<0.05, то гипотеза о нормальности распределения загрузок отвергается. Следовательно, высока вероятность, что и остатки в регрессии не будут распределены нормально. Следует отметить, что распределение цены сильно несимметрично (асимметрия, отличаются от нуля, эксцесс – от трех, и медиана отлична от среднего). Подобный разброс количества скачиваний может быть связан с различными характеристиками приложений. Таблица 40 Тест Франция на нормальность распределение величины (США) . sfrancia downloads_this_month Shapiro-Francia W' test for normal data Variable | Obs W' V' z Prob>z -------------+-------------------------------------------------downloads_~h | 112 0.61982 37.700 6.812 0.00001 Попробуем преобразовать переменную downloads_this_month в логарифм. Получим lndownloads. Распределение представлено ниже. Графически оно уже ближе к нормальному, чем первоначальное. .4 .2 0 Density .6 .8 Kernel density estimate 10 11 12 lndownloads 13 14 Kernel density estimate Normal density kernel = epanechnikov, bandwidth = 0.2053 Рисунок 19 Распределение переменной lndownloads (США) Снова отметим, что исходная величина не подразумевает наличие отрицательных значений и представляет собой целочисленные значения, поэтому логарифмирование не дает значимых результатов, поэтому исходя из графика распределения, можно предположить, что зависимая переменная может иметь пуассоновское распределение, однако к этому вопросу мы обратимся в параграфе Регрессионный анализ. 60 Как было уже отмечено на российском рынке: цены на рынке - сложившаяся категория, которая имеет несколько градаций. Как видно из Таблица 41 Распределение категориальной переменной price_in_eur (США) около 60% - это минимальная цена, что говорит о том,что большинство приложений – средняя категория, в которой могут представлены как известные «бренды», как и малоизвестные платные приложения. Кроме того, по 19% и 12% от выборки занимают цены второй и третьей ступени (1,52 евро и 2,28 евро, соответственно). Таблица 41 Распределение категориальной переменной price_in_eur (США) Tabulation of PRICE_IN_EUR Sample: 1 111 Included observations: 111 Number of categories: 6 Value 0.75 1.52 2.28 3.80 5.33 7.61 Total Так же Count 65 21 13 5 6 1 111 рассмотрим Percent 58.56 18.92 11.71 4.50 5.41 0.90 100.00 Cumulative Cumulative Count Percent 65 58.56 86 77.48 99 89.19 104 93.69 110 99.10 111 100.00 111 100.00 категориальные переменные. По категориям приложений () следует отметить преимущество игр (Category – Games) 75% выборки, следующая по количеству – Утилиты (около 4%), далее – Weather (4%) и остальные. Таблица 42 Распределение категориальной переменной Category (США) Tabulation of CATEGORY Sample: 1 112 Included observations: 112 Number of categories: 11 Value Business Education Entertainment Games Health and Fitness Music Photo and Video Productivity Social Cumulative Cumulative Count Percent 2 1.79 4 3.57 5 4.46 89 79.46 Count 2 2 1 84 Percent 1.79 1.79 0.89 75.00 3 4 2.68 3.57 92 96 82.14 85.71 4 1 1 3.57 0.89 0.89 100 101 102 89.29 90.18 91.07 61 Networking Utilities Weather Total 5 5 112 4.46 4.46 100.00 107 112 112 95.54 100.00 100.00 Оценивая совместимость устройств и приложений, универсальные приложения занимают весомую долю на рынке, как и на российском рынке, т.е. большинство приложений существует как на iPhone market, так же и на Android и других рынках мобильных приложений. Таблица 43 Распределение категориальной переменной Compatibility (США) Tabulation of COMPATIBILITY Sample: 1 112 Included observations: 112 Number of categories: 4 Value iPhone Only iPhone, iPod touch iPhone, iTouch Universal Total Count 1 Percent 0.89 Cumulative Count 1 Cumulative Percent 0.89 40 1 70 112 35.71 0.89 62.50 100.00 41 42 112 112 36.61 37.50 100.00 100.00 Если говорить о других характеристиках, то ситуация похожая на российский рынок. Приложений, имеющих бесплатный период пользования всего 6 из 106 (около 6%), приложений, преимущественно распространяемых внутри страны всего 14/92=13%, а виды монетизации распределены поровну. 2.3.2.Корреляционный анализ Для выявления взаимосвязей среди переменных часто используются два способа: парные корреляции; матрица диаграмм рассеяния. Приведем коэффициенты корреляций основных объясняющих переменных с зависимой переменной (Таблица 44 Коэффициенты корреляции между загрузками и другими характеристиками (США)). 62 Таблица 44 Коэффициенты корреляции между загрузками и другими характеристиками (США) Correlation DOWNLOADS_ THIS_MONTH 0.168179 0.0961 ALL2 0.100541 0.3221 ALL3 0.118059 0.2445 ALL4 0.163361 0.1062 ALL5 0.161995 0.1092 CURR1 0.158796 0.1164 CURR2 0.221807 0.0273 CURR3 0.307432 0.0020 CURR4 0.405662 0.0000 CURR5 0.434273 0.0000 TIME_IN_MARKET 0.092380 0.3486 SIZE_MB 0.323846 0.0008 PRICE_IN_EUR 0.042432 0.6674 NUMBER_LANG 0.206995 0.0341 APPS_PUBLISHED 0.205166 0.0358 Probability ALL1 Максимальный коэффициент корреляции наблюдается у переменной curr5, которая показывает количество текущих отличных оценок в рейтинге. Так же имеется несильная линейная связь между загрузками, размером, количеством языков в приложении и масштаб компании разработчика. 2.3.3. Проверка на выбросы Для проверки данных на выбросы построим регрессию, которая будет включать большинство регрессоров (не берем curr рейтинг, поскольку он сильно коррелирует с общим рейтингом). Вообще между категориями общего рейтинга тоже существует обоснованная сильная корреляция (поэтому можно предполагать, что в нашей модели будет мультиколлинеарность, но поскольку с 63 экономической точки зрения нам важно оценить влияние рейтинга/оценок приложения, то пока эти переменные оставим совместно. quietly reg lndownloads apps_published paid_in_app price_in_eur had_free_period is_local iphoneonly iphoneipodtouch iphoneitouch universal business education entertainment games time_in_market all5 all4 all3 all2 all1 healthandfitness music photoandvideo productivity socialnetworking utilities weather size_mb number Проверим регрессию на выбросы. С помощью нескольких способов, которые можно реализовать в Stata. Поскольку мы так же имеем несовершенство информации, некоторые рейтинги пропущены, поэтому данные способы выявления выбросов отмечают именно эти наблюдения. Придется их удалить для дальнейшего полноценного анализа. Насчет выбросов, в дальнейшем исследовании на основе экспертного мнению будет выявлено, улучшаются ли модели с учетом этих выбросов или нет. Таблица 45 Проверка на выбросы (США) . list id rstud lndownloads size_mb time_in_market price_in_eur all5 if abs(rstud) > 2.2 +---------------------------------------------------------------------+ | id rstud lndown~s size_mb time_i~t price_~r all5 | |---------------------------------------------------------------------| 7. | us7 . 11.62178 33.1 . .75 . | 12. | us12 3.040048 13.08591 20.6 217 .75 14599 | 15. | us15 4.105638 13.27885 3.2 443 5.33 8649 | 17. | us17 2.465168 12.33491 20.2 1239 .75 36494 | 19. | us19 . 10.8893 5.2 . 1.52 . | |---------------------------------------------------------------------| 33. | us33 . 10.95606 3.9 . 2.28 . | 35. | us35 . 12.2244 46.1 . 2.28 2126 | 39. | us39 . 11.00377 258.1 . 2.28 . | 42. | us42 . 10.99709 45.6 . .75 . | 48. | us48 2.408624 13.2269 72.1 994 .75 385973 | |---------------------------------------------------------------------| 52. | us52 2.602277 13.02497 43.7 291 .75 74683 | 56. | us56 . 12.6398 28.9 . .75 . | 71. | us71 . 11.55503 34.1 . .75 639390 | 99. | us99 . 10.93489 127.9 . .75 . | +---------------------------------------------------------------------+ . list id cooksd dfits if dfits>2*sqrt(25/102) & (cooksd>4/102) 3. 4. 7. 15. 17. 19. 23. 24. 33. 35. 37. 39. 42. +----------------------------+ | id cooksd dfits | |----------------------------| | us3 .0792283 1.444949 | | us4 .1132109 . | | us7 . . | | us15 .2022953 2.521315 | | us17 .1386482 1.961038 | |----------------------------| | us19 . . | | us23 .0428728 1.048821 | | us24 .2012638 2.272445 | | us33 . . | | us35 . . | |----------------------------| | us37 .0785847 1.440649 | | us39 . . | | us42 . . | 64 48. | us48 .5203698 3.792674 | 56. | us56 . . | |----------------------------| 71. | us71 . . | 99. | us99 . . | +----------------------------+ 2.2.4. Регрессионный анализ сегмента американского рынка Базовая линейная модель Аналогично первому анализу, для рассмотрения основных возможных взаимосвязей построим первоначальную линейную модель со всеми объясняющими переменными. Таблица 46 Базовая линейная модель (США) . reg downloads_this_month apps_published paid_in_app price_in_eur had_free_period is_local iphoneonly iphoneipodtouch iphoneitouch time_in_market curr5 curr4 curr3 curr2 curr1 business education entertainment games healthandfitness music photoandvideo productivity utilities weather size_mb number rated12 rated17 rated9 note: productivity omitted because of collinearity Source | SS df MS -------------+-----------------------------Model | 5.0296e+11 28 1.7963e+10 Residual | 3.6547e+11 70 5.2210e+09 -------------+-----------------------------Total | 8.6842e+11 98 8.8615e+09 Number of obs F( 28, 70) Prob > F R-squared Adj R-squared Root MSE = = = = = = 99 3.44 0.0000 0.5792 0.4108 72256 -----------------------------------------------------------------------------downloads_~h | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------apps_publi~d | 104.9052 90.53894 1.16 0.251 -75.66903 285.4794 paid_in_app | 32875.22 21708.44 1.51 0.134 -10420.91 76171.34 price_in_eur | -3790.547 7788.958 -0.49 0.628 -19325.13 11744.04 had_free_p~d | -15203.85 36419.57 -0.42 0.678 -87840.39 57432.69 is_local | -17289.68 24678.51 -0.70 0.486 -66509.42 31930.06 iphoneonly | 152571.6 131514.4 1.16 0.250 -109725.5 414868.7 iphoneipod~h | 11358.26 19029.01 0.60 0.553 -26593.9 49310.41 iphoneitouch | -11795.11 90422.71 -0.13 0.897 -192137.5 168547.3 time_in_ma~t | -32.04789 22.43776 -1.43 0.158 -76.79859 12.70282 curr5 | 11.20923 4.225806 2.65 0.010 2.781131 19.63734 curr4 | -57.76782 50.98474 -1.13 0.261 -159.4537 43.91803 curr3 | 227.6518 340.9689 0.67 0.507 -452.3892 907.6927 curr2 | -170.3091 694.7582 -0.25 0.807 -1555.961 1215.342 curr1 | -66.94473 159.1886 -0.42 0.675 -384.4364 250.5469 business | -6977.541 98315.38 -0.07 0.944 -203061.4 189106.3 education | 85046 105073.7 0.81 0.421 -124516.8 294608.8 entertainm~t | 16847.24 113919.1 0.15 0.883 -210357.3 244051.8 games | 9860.194 83148.15 0.12 0.906 -155973.6 175694 healthandf~s | -22050.53 96583.14 -0.23 0.820 -214679.5 170578.5 music | 70556.24 90569.52 0.78 0.439 -110079 251191.5 photoandvi~o | -2053.071 101318 -0.02 0.984 -204125.4 200019.3 productivity | (omitted) utilities | 12597.44 87408.39 0.14 0.886 -161733.1 186928 weather | 33057.24 91533.91 0.36 0.719 -149501.4 215615.9 size_mb | -9.887434 37.57099 -0.26 0.793 -84.82042 65.04555 number | -600.9687 2057.096 -0.29 0.771 -4703.717 3501.78 rated12 | 2147.549 30731.08 0.07 0.944 -59143.67 63438.76 rated17 | 24356.92 36462.86 0.67 0.506 -48365.95 97079.8 rated9 | 24572.67 22186.92 1.11 0.272 -19677.75 68823.09 _cons | 68665.91 89272.62 0.77 0.444 -109382.7 246714.5 ------------------------------------------------------------------------------ 65 Все объясняющие переменные не значимы в модели, кроме отличных оценок в текущем рейтинге. Возможно это ошибка спецификации, поэтому проверим лог-линейную модель. Таблица 47 Лог-линейная модель (США) . reg lndownloads apps_published paid_in_app price_in_eur had_free_period is_local iphoneonly iphoneipodtouch iphoneitouch time_in_market curr5 curr4 curr3 curr2 curr1 business education entertainment games healthandfitness music photoandvideo productivity utilities weather size_mb number rated12 rated17 rated9 note: productivity omitted because of collinearity Source | SS df MS -------------+-----------------------------Model | 14.4659854 28 .516642337 Residual | 17.0582488 70 .243689269 -------------+-----------------------------Total | 31.5242343 98 .32167586 Number of obs F( 28, 70) Prob > F R-squared Adj R-squared Root MSE = = = = = = 99 2.12 0.0060 0.4589 0.2424 .49365 -----------------------------------------------------------------------------lndownloads | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------apps_publi~d | .0010325 .0006186 1.67 0.100 -.0002012 .0022661 paid_in_app | .1885157 .1483104 1.27 0.208 -.1072801 .4843115 price_in_eur | -.0370278 .0532136 -0.70 0.489 -.1431589 .0691033 had_free_p~d | -.1147552 .2488157 -0.46 0.646 -.6110025 .3814921 is_local | -.1593463 .1686017 -0.95 0.348 -.4956118 .1769192 iphoneonly | 1.611662 .8984962 1.79 0.077 -.1803325 3.403656 iphoneipod~h | .0749301 .1300047 0.58 0.566 -.1843562 .3342163 iphoneitouch | -.2386594 .6177611 -0.39 0.700 -1.470745 .9934262 time_in_ma~t | -.0002316 .0001533 -1.51 0.135 -.0005373 .0000742 curr5 | .0000842 .0000289 2.91 0.005 .0000266 .0001417 curr4 | -.0004723 .0003483 -1.36 0.179 -.001167 .0002224 curr3 | .0010359 .0023295 0.44 0.658 -.0036101 .0056818 curr2 | .000952 .0047465 0.20 0.842 -.0085147 .0104186 curr1 | -.0009363 .0010876 -0.86 0.392 -.0031054 .0012328 business | .0785652 .6716832 0.12 0.907 -1.261065 1.418195 education | .8575749 .7178553 1.19 0.236 -.5741423 2.289292 entertainm~t | .2816577 .7782869 0.36 0.719 -1.270587 1.833902 games | .3119412 .5680619 0.55 0.585 -.8210225 1.444905 healthandf~s | -.1015027 .6598487 -0.15 0.878 -1.417529 1.214524 music | .8914682 .6187641 1.44 0.154 -.3426178 2.125554 photoandvi~o | .1513727 .6921969 0.22 0.828 -1.22917 1.531916 productivity | (omitted) utilities | .3575022 .5971675 0.60 0.551 -.8335108 1.548515 weather | .4405185 .6253528 0.70 0.484 -.8067083 1.687745 size_mb | -.0000736 .0002567 -0.29 0.775 -.0005856 .0004383 number | -.0082871 .0140539 -0.59 0.557 -.0363167 .0197426 rated12 | .0444444 .2099524 0.21 0.833 -.3742925 .4631813 rated17 | .2975749 .2491115 1.19 0.236 -.1992623 .794412 rated9 | .1236601 .1515794 0.82 0.417 -.1786554 .4259756 _cons | 10.95965 .6099037 17.97 0.000 9.74324 12.17607 ------------------------------------------------------------------------------ Ситуация меняется незначительно. Попробуем удалить некоторые незначимые переменные. Таблица 48 Очищенная лог-линейная модель (США) . reg lndownloads size_mb price_in_eur curr5 music photoandvideo socialnetworking Source | SS df MS -------------+-----------------------------Model | 10.2475064 7 1.46392948 Residual | 21.2767279 91 .233810196 -------------+------------------------------ Number of obs F( 7, 91) Prob > F R-squared Adj R-squared = = = = = time_in_market 99 6.26 0.0000 0.3251 0.2731 66 Total | 31.5242343 98 .32167586 Root MSE = .48354 -----------------------------------------------------------------------------lndownloads | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------price_in_eur | -.0700712 .0434439 -1.61 0.110 -.1563672 .0162249 curr5 | .0000227 4.63e-06 4.90 0.000 .0000135 .0000319 music | .4915084 .2863931 1.72 0.090 -.0773763 1.060393 photoandvi~o | -.4367628 .2868629 -1.52 0.131 -1.006581 .1330552 socialnetw~g | .9630451 .5045592 1.91 0.059 -.0391998 1.96529 time_in_ma~t | -.0002238 .0001299 -1.72 0.088 -.0004818 .0000343 size_mb | .0002909 .0001754 1.66 0.101 -.0000576 .0006394 _cons | 11.49496 .0906454 126.81 0.000 11.31491 11.67502 Таблица 49 Информационные критерии для лог-линейной модели (США) . estat ic ----------------------------------------------------------------------------Model | Obs ll(null) ll(model) df AIC BIC -------------+--------------------------------------------------------------. | 99 -83.82893 -64.36837 8 144.7367 165.4977 ----------------------------------------------------------------------------- При замене объясняющей переменной – цены на категориальные переменные ситуация не меняется. На примере предыдущего анализа можно увидеть, что рынок приложений в Америке существенно отличается от рынка приложений в России. Среднестатистический приложений, готов американец, потратить выходя на определенную рынок сумму мобильных на покупку приложений. Таким образом, единственным важным критерием при выборе приложения для него остается только рекомендации/оценки других потребителей, а так популярность разработчика. Поэтому в модели для США значимыми оказываются лишь текущий рейтинг приложения (количество отличных оценок) и два вида категорий приложений и как долго приложение находится на рынке. Следует отметить, что так же рынок мобильных приложений достаточно конкурентный, поэтому важным фактором при выборе приложения является пиар-кампания разработчика, что является существенной пропущенной переменной. Но данную переменную у нас нет возможности оценить, а использовать инструментальные переменные для решения данной проблемы мы не можем из-за отсутствия сильных инструментов. 67 Регрессия с инструментальными переменными Проведем экспресс-анализ инструментальных переменных в случае сегмента рынка США. Предпосылки остаются теми же, что на российском рынке, а точнее, что цена может влиять на количество скачиваний (чем дешевле приложение, тем больше его покупают, например), но и обратная связь тоже возможна (чем больше масштаб продаж, тем ниже цена). Построим модель с полученным инструментом (Таблица 31 Проверка инструмента (Россия)). Таблица 50 Модель с инструментом (size_mb) (США) ivregress 2sls socialnetworking downloads_this_month ( price_in_eur= size_mb) time_in_market Instrumental variables (2SLS) regression Number of obs Wald chi2(6) Prob > chi2 R-squared Root MSE curr5 music photoandvideo = = = = = 99 98.99 0.0000 0.4909 66824 -----------------------------------------------------------------------------downloads_~h | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------price_in_eur | 6127.283 9768.047 0.63 0.530 -13017.74 25272.3 curr5 | 5.911703 .6425702 9.20 0.000 4.652289 7.171118 music | 35930.96 39495.1 0.91 0.363 -41478 113339.9 photoandvi~o | -44365.58 39746.08 -1.12 0.264 -122266.5 33535.31 socialnetw~g | 115479.4 70225.11 1.64 0.100 -22159.34 253118.1 time_in_ma~t | -38.4401 17.91142 -2.15 0.032 -73.54584 -3.334369 _cons | 98356.74 17037.2 5.77 0.000 64964.45 131749 -----------------------------------------------------------------------------Instrumented: price_in_eur Instruments: curr5 music photoandvideo socialnetworking time_in_market size_mb Снова проверим, не являются ли наши инструменты слабыми. Таблица 51 Проверка инструмента (США) . estat firststage First-stage regression summary statistics -------------------------------------------------------------------------| Adjusted Partial Variable | R-sq. R-sq. R-sq. F(1,92) Prob > F -------------+-----------------------------------------------------------price_in_eur | 0.2954 0.2495 0.2742 34.756 0.0000 -------------------------------------------------------------------------- Коэффициент детерминации является относительно высоким (описательная способность 30%), F статистики выше часто используемого порога в 10 единиц, поэтому инструмент сильный. Сравним IV и OLS-оценки с помощью теста Хаусмана (ссылка). Поскольку не отклоняется нулевая гипотеза, оценки коэффициентов в обеих регрессиях отличаются незначимо, значит, OLS дает состоятельные и 68 эффективные оценки, а IV – только состоятельные. Можно предпочесть OLS модель. Таблица 52 Тест Хаусмана (США) . hausman iv ols Note: the rank of the differenced variance matrix (5) does not equal the number of coefficients being tested (6); be sure this is what you expect, or there may be problems computing the test. Examine the output of your estimators for anything unexpected and possibly consider scaling your variables so that the coefficients are on a similar scale. ---- Coefficients ---| (b) (B) (b-B) sqrt(diag(V_b-V_B)) | iv ols Difference S.E. -------------+---------------------------------------------------------------price_in_eur | 6127.283 -.0700712 6127.353 9768.047 curr5 | 5.911703 .0000227 5.911681 .6425702 music | 35930.96 .4915084 35930.47 39495.1 photoandvi~o | -44365.58 -.4367628 -44365.14 39746.08 socialnetw~g | 115479.4 .9630451 115478.4 70225.11 time_in_ma~t | -38.4401 -.0002238 -38.43988 17.91142 -----------------------------------------------------------------------------b = consistent under Ho and Ha; obtained from ivregress B = inconsistent under Ha, efficient under Ho; obtained from regress Test: Ho: difference in coefficients not systematic chi2(5) = (b-B)'[(V_b-V_B)^(-1)](b-B) = 7.78 Prob>chi2 = 0.1686 Других сильных инструментов для данного случая не удалось найти. Пуассоновская регрессия Исходя из таких предположений, как на российском рынке, проверим метод пуассоновского распределения на наших данных. Пуассоновская регрессия – это лог-линейная функция, параметры которой найдены с помощью метода максимального правдоподобия (максимизирует функция правдоподобия эмпирического распределения пуассоновскому распределению). Это показывает, что мы имеем логлинейную функцию, у которой изменение на единицу объясняющей переменной приводит к изменению зависимой переменной нa (eβ-1)*100%. Таблица 53 Пуассоновская регрессия (США) . poisson downloads_this_month size_mb Iteration 0: Iteration 1: Iteration 2: price_in_eur curr5 music socialnetworking time_in_market log likelihood = -7517784.6 log likelihood = -1604138.4 log likelihood = -1528382.2 69 Iteration 3: Iteration 4: log likelihood = -1528076.7 log likelihood = -1528076.7 Poisson regression Number of obs LR chi2(6) Prob > chi2 Pseudo R2 Log likelihood = -1528076.7 = 99 = 2147639.38 = 0.0000 = 0.4127 -----------------------------------------------------------------------------downloads_~h | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------price_in_eur | -.0928779 .0003182 -291.92 0.000 -.0935015 -.0922543 curr5 | .000019 1.22e-08 1557.16 0.000 .000019 .000019 music | .406546 .0015847 256.54 0.000 .40344 .4096521 socialnetw~g | .9579878 .0022119 433.10 0.000 .9536525 .9623232 time_in_ma~t | -.0003149 9.19e-07 -342.69 0.000 -.0003167 -.0003131 size_mb | .0003595 1.09e-06 330.73 0.000 .0003574 .0003616 _cons | 11.689 .0005871 2.0e+04 0.000 11.68785 11.69015 -----------------------------------------------------------------------------. estat ic ----------------------------------------------------------------------------Model | Obs ll(null) ll(model) df AIC BIC -------------+--------------------------------------------------------------. | 99 -2601896 -1528077 7 3056167 3056186 ----------------------------------------------------------------------------Note: N=Obs used in calculating BIC; see [R] BIC note Так же как на российском рынке все коэффициенты значимы, что достаточно странно, поэтому проверим на чрезмерную дисперсию, построив Negative Binomial Model. Negative Binomial Model – модификация пуассоновской регрессии, которая учитывает чрезмерную дисперсию. В модели как показатель является alpha, которая показывает степень такой дисперсии. Если alpha=0, то модель сводится к простой пуассоновской регрессии. Таблица 54 NB model . nbreg size_mb downloads_this_month Negative binomial regression Dispersion = mean Log likelihood = -1205.2372 price_in_eur curr5 music socialnetworking Number of obs LR chi2(6) Prob > chi2 Pseudo R2 = = = = time_in_market 99 45.09 0.0000 0.0184 -----------------------------------------------------------------------------downloads_~h | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------price_in_eur | -.0723107 .0428266 -1.69 0.091 -.1562493 .0116279 curr5 | .0000232 5.71e-06 4.06 0.000 .000012 .0000343 music | .381116 .2928132 1.30 0.193 -.1927873 .9550193 socialnetw~g | .8746314 .5176022 1.69 0.091 -.1398504 1.889113 time_in_ma~t | -.0002652 .0001267 -2.09 0.036 -.0005135 -.0000169 size_mb | .0002922 .0001786 1.64 0.102 -.0000579 .0006423 _cons | 11.63279 .0881334 131.99 0.000 11.46005 11.80553 -------------+---------------------------------------------------------------/lnalpha | -1.403798 .1367135 -1.671752 -1.135845 -------------+---------------------------------------------------------------alpha | .2456621 .0335853 .1879176 .3211508 70 -----------------------------------------------------------------------------Likelihood-ratio test of alpha=0: chibar2(01) = 3.1e+06 Prob>=chibar2 = 0.000 . estat ic ----------------------------------------------------------------------------Model | Obs ll(null) ll(model) df AIC BIC -------------+--------------------------------------------------------------. | 99 -1227.78 -1205.237 8 2426.474 2447.235 ----------------------------------------------------------------------------Note: N=Obs used in calculating BIC; see [R] BIC note По результатам модель дает похожие результаты с лог-линейной моделью, значимы соответствующие коэффициенты и знаки у оценок одинаковы. Поэтому для того, чтобы решить, какая модель лучше, сравним их информационные критерии. Поскольку информационные критерии у OLS модели ниже, то предпочтение стоит отдать именно ей. Таблица 55 Информационные критерии для OLS . estat ic ----------------------------------------------------------------------------Model | Obs ll(null) ll(model) df AIC BIC -------------+--------------------------------------------------------------. | 99 -83.82893 -64.36837 8 144.7367 165.4977 ----------------------------------------------------------------------------- 71 ЗАКЛЮЧЕНИЕ Мобильные приложения - быстро растущий сегмент глобального рынка мобильной связи. Различные факторы, которые способствовали этому росту, включают продвижения в сетевые технологии, понижение мобильной стоимости использования данных, растущее принятие умных телефонов во всем мире и непрерывное увеличение прикладного удобства и простоты использования. Поскольку потребители все чаще и чаще используют мобильные приложения, с практической точки интересно, какие факторы влияют на данный спрос. Результатом данной исследовательской работы служит эконометрическое моделирование спроса на рынке мобильных приложений на примере сегментов американского и российского магазина – Apple App Store. В первую очередь следует отметить, что рынок достаточно специфичен. В данной работе был использован рейтинг приложений на март 2013 года, который в дальнейшем использовался для моделирования. И распределение загрузок приложений в данном наборе данных оказалось далеко от нормального, поэтому в работе использовались еще и методы для характерных распределений. В результате работы были выявлены интересные закономерности на рынках данных стран. На российском рынке важными характеристиками, влияющими на спрос является количество отличных оценок поставленных пользователями данного приложения, т.е. когда покупатель заходит в магазин и видит приложения со схожими характеристика велика вероятность, что он выберет именно приложение, у которого общий рейтинг отличных оценок выше. Другая особенность, что цена приложения не является значимой величиной, следовательно, на рынке имеется низкая эластичность загрузок по цене, что косвенно указывает на безразличие покупателя к цене, которую он заплатит за приложение. Так же цена на приложения возможно не значима из-за внутренних особенностей рынка: 72 общие устоявшиеся цены (несколько категорий), большинство успешных приложений находятся в самой низкой категории цены, а так же возможен порог выше приложение, которого тем люди более в не будут какой-то заинтересованы доли покупать приобретение каждого малоизвестного приложения – риск, поэтому потребитель будет уменьшать свои издержки. Кроме того, в одном из методов, учитывающих несовершенство информации и рынка (метод инструментальных переменных) видно, что цена влияет положительно на загрузки, т.е. чем выше цена, тем больше количество скачиваний, в тот же момент, выборка состоит из 60% приложений, продающихся по нижней категории цены, что противоречит наблюдениям. Поскольку рынок быстро растущий, развивающийся и успех бизнеса озадачивает все время поддерживать новизну и обновление устаревшего, поэтому оценка коэффициента при переменной, выражающей время нахождения на рынке в днях отрицательный. На американском рынке немного другая ситуация, большинство факторов значимых на российском не являются таковыми на американском. Среднестатистический приложений, готов американец, потратить выходя на определенную рынок сумму мобильных на покупку приложений. Таким образом, единственным важным критерием при выборе приложения для него остается только рекомендации/оценки других потребителей, а так популярность разработчика. Поэтому в модели для США значимыми оказываются лишь текущий рейтинг приложения (количество отличных оценок) и два вида категорий приложений и как долго приложение находится на рынке. Следует отметить, что так же рынок мобильных приложений достаточно конкурентный, поэтому важным фактором при выборе приложения является пиар-кампания разработчика, что является существенной пропущенной переменной. Но данную переменную у нас нет возможности 73 оценить, а использовать инструментальные переменные для решения данной проблемы мы не можем из-за отсутствия сильных инструментов. В результате данного анализа были выявлены взаимосвязи на данных двух рынках по которым можно судить о наличии различных предпочтений потребителей. Кроме того, выводы работы могут быть использованы в роли уточняющих факторов ведения бизнеса в данном сегменте цифрового рынка. 74 СПИСОК ЛИТЕРАТУРЫ 1. Akihiro Yamashita, Hidenori Kawamura, Hiroyuki Iizuka, and Azuma Ohuchi. Effect of the Number of Users and Bias of Users’ Preference on Recommender Systems. H. Yin et al. (Eds.): IDEAL 2007, LNCS 4881, pp. 1112–1121, 2007. 2. Alto Palo. 11% quarterly growth in downloads for leading app stores – [сайт]. URL: http://www.canalys.com/newsroom/11-quarterly-growthdownloads-leading-app-stores – сайт посещён 03.04.2013. 3. Anindya Ghose, Panagiotis G. Ipeirotis Designing Novel Review Ranking Systems:Predicting Usefulness and Impact of Reviews. ICEC'07, August 19-22, 2007. 4. Anindya Ghose, Sang Pil Han. Estimating Demand for Mobile Applications. AppWeb 2012 Workshop, April 16, 2012, pp. 1-4. 5. Bhavik Pathak, Robert Garfinkel, Ram D. Gopal, Rajkumar Venkatesan, and Fang Y. Empirical Analysis of the Impact of Recommender Systems on Sales. Journal of Management Information Systems / Fall 2010, Vol. 27, No. 2, pp. 159–188. 6. Distimo. 2013. App distribution becomes a global game: The shift of power and impact for developers – [сайт]. URL: http://www.distimo.com/blog/2011_01_distimo-releases-fullyear-2010report/ – сайт посещён 14.01.2013. 7. Feng Zhu, Xiaoquan (Michael) Zhang. Impact of Online Consumer Reviews on Sales: The Moderating Role of Product and Consumer Characteristics. April 21, 2009. 8. Gal Oestreicher-Singer, Arun Sundararajan. Recommendation networks and the long tail of electronic commerce. MIS Quarterly Vol. 36 No.1– Appendices/March 2012. 9. Guiran Chang, Chunguang Tan, Guanhua Li, and Chuan Zhu. Developing Mobile Applications on the Android Platform. X. Jiang, 75 M.Y. Ma, and C.W. Chen (Eds.): WMMP 2008, LNCS 5960, pp. 264– 286, 2010. 10. International Data Corporation (IDC). 2010. IDC forecasts worldwide mobile applications revenues to experience more than 60% compound annual growth through 2014 – [сайт]. URL: http://www.idc.com/about/viewpressrelease.jsp?containerId=prUS22617 910&sectionId=null&elementId=null&pageType=SYNOPSIS – сайт посещён 14.02.2013. 11. Judith Chevalier, Austan Goolsbee. Measuring prices and price competition online: Amazon and Barnes and Noble. Yale ICF Working Paper No. 02-23, June 2002. 12. Judith Chevalier, Dina Mayzlin. The effect of word of mouth on sales: online book reviews. Journal of Marketing Research Vol. XLIII (August 2006), pp. 345–354. 13. Jun B. Kim, Paulo Albuquerque, Bart J. Bronnenberg. Online Demand Under Limited Consumer Search. Marketing Science,Vol. 29, No. 6, November–December 2010, pp. 1001–102 14. Linyuan Lu, Matus Medo et other. Recommender systems. Physics Reports 519 (2012) 1–49. 15. Nikos Manouselis & Constantina Costopoulou. Analysis and Classification of Multi-Criteria Recommender Systems. World Wide Web (2007) 10:415–441. 16. Octavian Carare. The Impact of Bestseller Rank on Demand: Evidence From a Software Market. International Economic Review, Forthcoming, September 1, 2010. 17. Octavian Carare. The Impact of Bestseller Rank on Demand: Evidence from the App Market. International Economic Review, Forthcoming, October 10, 2011. 18. Rajiv Garg, Rahul Telang. Inferring app demand from publicly available data. MIS Quarterly, Forthcoming, May 1, 2012, pp. 1-25. 76 19. Алтухов Алексей. Продажи мобильных аппаратов за год выросли всего на 0,7% – [сайт]. URL: http://www.oszone.net/20909/Android_share_in_smartphones_in_Q1_2 013_is_74_4_ – сайт посещён 01.04.2013. 20. Воронина Юлия. Игра на миллиарды http://www.rg.ru/2013/03/19/prilizenia.html – – [сайт]. сайт URL: посещён 04.04.2013. 21. Статья «App Annie Index: отчет по рынку мобильных приложений, Q1 '13» – [сайт]. URL: http://habrahabr.ru/post/177277/ – сайт посещён 02.04.2013. 22. Статья «В первом квартале рынок мобильных приложений вырос на 11%» – [сайт]. URL: http://expert.ru/2013/04/15/ryinok-mobilnyihprilozhenij/ – сайт посещён 06.04.2013 23. Статья «Разработка мобильных приложений: с чего начать» – [сайт]. URL: http://habrahabr.ru/company/mailru/blog/179113 – сайт посещён 05.04.2013. 77 ПРИЛОЖЕНИЕ Приложение 1. Распределение категориальной переменной Publisher (Разработчик) (Россия) Tabulation of PUBLISHER Sample: 1 112 Included observations: 112 Number of categories: 91 Value Count 2KB LLC 1 ABBYY 1 Aeonika 1 Alan Kochev 1 Alexander Ermolaev 1 Alfadevs 1 Andrey Moiseev 1 Apalon 3 Apps4Stars 1 Appsneon 1 ARAWELLA CORPORATION 1 Armor Games Inc 1 ASPS Apps 1 Axidep LLC 1 bad monkee 1 Bamboo Group 1 Block21 AB 1 Brite Kids 1 Burlington Trading Limited 1 byss mobile 1 Chair Entertainment Group, LLC 1 Chillingo Ltd 1 codefreeze 1 Crisp App Ltd. 1 Defiant Development 1 Dionisle Goltiescu 1 Disney 5 Dumitru Goro 1 EEFan Inc. 1 Elecont LLC 1 Electronic Arts 2 Elokence 1 Evolution Games LLP 1 Fanship 1 FDG Entertainment 2 Flight Systems LLC 1 Frogmind 1 gameday Inc. 1 Gameloft 8 Go2Share 1 Halfbrick Studios 1 Hang Nguyen 1 Headup Games GmbH & Co KG 1 Igor Jorin 1 IK Media 1 iLegendSoft 1 Percent 0.89 0.89 0.89 0.89 Cumulative Count 1 2 3 4 Cumulative Percent 0.89 1.79 2.68 3.57 0.89 0.89 0.89 2.68 0.89 0.89 5 6 7 10 11 12 4.46 5.36 6.25 8.93 9.82 10.71 0.89 13 11.61 0.89 0.89 0.89 0.89 0.89 0.89 0.89 14 15 16 17 18 19 20 12.50 13.39 14.29 15.18 16.07 16.96 17.86 0.89 0.89 21 22 18.75 19.64 0.89 0.89 0.89 0.89 23 24 25 26 20.54 21.43 22.32 23.21 0.89 27 24.11 0.89 4.46 0.89 0.89 0.89 28 33 34 35 36 25.00 29.46 30.36 31.25 32.14 1.79 0.89 38 39 33.93 34.82 0.89 0.89 40 41 35.71 36.61 1.79 43 38.39 0.89 0.89 0.89 7.14 0.89 44 45 46 54 55 39.29 40.18 41.07 48.21 49.11 0.89 0.89 56 57 50.00 50.89 0.89 0.89 0.89 0.89 58 59 60 61 51.79 52.68 53.57 54.46 78 IMMO GAMES 1 Infinite Dreams Inc. 1 Jingjing Liu 1 K-Factor Media, LLC. 1 KLICKTOCK 1 Mediocre AB 1 Melesta 1 Miniclip.com 1 Mojang 1 Ndemic Creations 1 Nekki 1 nerByte GmbH 1 Not Doppler 1 Oleksandr Yatsenko 1 Organizy 1 Polarbit 1 PopCap 1 Realore 1 Reliance Big Entertainment UK Private Ltd 1 Robert Paul Neagu 1 Robocat 1 Rockstar Games 2 Rovio Entertainment Ltd 3 SayHi 1 SERGEY NIKITIN 1 SilverWiz 1 Skript, LLC 1 Sky Horse Apps 1 SMS Services O.o.o. 1 Soner Kara 1 Stupid Casual 1 Tania Sulimov 1 Tap Nation 2 Teotl Studios 1 Toca Boca AB 1 TuneIn 1 Ubisoft 1 Viet Studio 3 Vivid Games 1 Vlambeer 1 Warner Bros. 1 WhatsApp Inc. 1 Wolfgang Schmitz 1 ZeptoLab UK Limited 1 Zero Cool 1 Total 112 0.89 62 55.36 0.89 0.89 63 64 56.25 57.14 0.89 0.89 0.89 0.89 0.89 0.89 65 66 67 68 69 70 58.04 58.93 59.82 60.71 61.61 62.50 0.89 0.89 0.89 0.89 71 72 73 74 63.39 64.29 65.18 66.07 0.89 0.89 0.89 0.89 0.89 75 76 77 78 79 66.96 67.86 68.75 69.64 70.54 0.89 80 71.43 0.89 0.89 1.79 81 82 84 72.32 73.21 75.00 2.68 0.89 0.89 0.89 0.89 0.89 87 88 89 90 91 92 77.68 78.57 79.46 80.36 81.25 82.14 0.89 0.89 0.89 0.89 1.79 0.89 0.89 0.89 0.89 2.68 0.89 0.89 0.89 0.89 93 94 95 96 98 99 100 101 102 105 106 107 108 109 83.04 83.93 84.82 85.71 87.50 88.39 89.29 90.18 91.07 93.75 94.64 95.54 96.43 97.32 0.89 110 98.21 0.89 0.89 100.00 111 112 112 99.11 100.00 100.00 79 Приложение 2. Распределение категориальной переменной Publisher (США) Tabulation of PUBLISHER Sample: 1 112 Included observations: 112 Number of categories: 88 Value [adult swim] Activision Publishing, Inc. Alfadevs Andreas Illiger Apalon Apps4Stars Appsuperb Armor Games Inc ASPS Apps Auxbrain, Inc. Azumio Inc. Big Duck Games LLC Black Box Interactive Bolt Creative Bright Mango byss mobile C-Apps Celadon Software Ltd. Chair Entertainment Group, LLC Chillingo Ltd click2mobile Consonance Group Crustalli Days Of Wonder, Inc. Defiant Development Disney Dogbyte Games Kft. DPFLASHES STUDIOS Earth Networks, Inc. Electronic Arts Elokence Escargot Studios, LLC FDG Entertainment Flight Systems LLC Foursaken Media Gameloft Groundspeak Inc. Halfbrick Studios Hian Zin Jong i4software iHandy Inc. Innovative Devs Cumulative Cumulative Count Percent 1 0.89 Count 1 Percent 0.89 2 1 1.79 0.89 3 4 2.68 3.57 1 2 1 1 0.89 1.79 0.89 0.89 5 7 8 9 4.46 6.25 7.14 8.04 1 1 1 1 0.89 0.89 0.89 0.89 10 11 12 13 8.93 9.82 10.71 11.61 1 0.89 14 12.50 1 1 1 1 1 0.89 0.89 0.89 0.89 0.89 15 16 17 18 19 13.39 14.29 15.18 16.07 16.96 1 0.89 20 17.86 1 1 1 0.89 0.89 0.89 21 22 23 18.75 19.64 20.54 1 1 0.89 0.89 24 25 21.43 22.32 1 0.89 26 23.21 1 6 0.89 5.36 27 33 24.11 29.46 1 0.89 34 30.36 1 0.89 35 31.25 1 0.89 36 32.14 4 1 3.57 0.89 40 41 35.71 36.61 2 1.79 43 38.39 1 0.89 44 39.29 1 0.89 45 40.18 1 4 0.89 3.57 46 50 41.07 44.64 1 0.89 51 45.54 1 1 1 1 0.89 0.89 0.89 0.89 52 53 54 55 46.43 47.32 48.21 49.11 1 0.89 56 50.00 80 Jericho Games JN Interactive AB Justin.tv Kingly Software Inc KLICKTOCK Maciek Drejak Labs Magmic Inc. Mehrdad Mehrain Michael Hegemann Mika Mobile, Inc. Miniclip.com Mojang Ndemic Creations Nekki nerByte GmbH Ninja Kiwi Noodlecake Studios Inc Not Doppler NTT Resonant Inc. PopCap Portable Pixels Radiantlabs, LLC Readdle Reliance Big Entertainment UK Private Ltd Robocat Rockstar Games Rovio Entertainment Ltd Scopely - Top Free Apps and Games LLC SEGA Sergey Sokolov Simon Filip Software Line Inc. Sony Pictures Television Tania Sulimov Terry Cavanagh Toca Boca AB Top Free Games Triniti Interactive Limited TuneIn Ubisoft Vlambeer Warner Bros. WeatherSphere WhatsApp Inc. ZeptoLab UK Limited Zynga Inc. Total 1 0.89 57 50.89 1 1 0.89 0.89 58 59 51.79 52.68 1 1 0.89 0.89 60 61 53.57 54.46 1 1 0.89 0.89 62 63 55.36 56.25 1 0.89 64 57.14 1 0.89 65 58.04 1 1 1 0.89 0.89 0.89 66 67 68 58.93 59.82 60.71 1 1 1 1 0.89 0.89 0.89 0.89 69 70 71 72 61.61 62.50 63.39 64.29 1 1 0.89 0.89 73 74 65.18 66.07 1 3 0.89 2.68 75 78 66.96 69.64 1 0.89 79 70.54 1 1 0.89 0.89 80 81 71.43 72.32 1 1 1 0.89 0.89 0.89 82 83 84 73.21 74.11 75.00 5 4.46 89 79.46 1 2 1 1 0.89 1.79 0.89 0.89 90 92 93 94 80.36 82.14 83.04 83.93 1 0.89 95 84.82 1 1 1 2 1 0.89 0.89 0.89 1.79 0.89 96 97 98 100 101 85.71 86.61 87.50 89.29 90.18 1 1 1 1 1 1 1 0.89 0.89 0.89 0.89 0.89 0.89 0.89 102 103 104 105 106 107 108 91.07 91.96 92.86 93.75 94.64 95.54 96.43 1 3 112 0.89 2.68 100.00 109 112 112 97.32 100.00 100.00 81 Приложение 3. Таблица коэффициентов корреляции (Россия) Covariance Analysis: Ordinary Included observations: 104 Probability DOWNLOADS_THIS_MONTH ALL1 DOWNLOADS_THIS_MONTH 1.000000 ----- ALL2 ALL3 ALL4 ALL5 CURR1 CURR2 CURR3 CURR4 ALL1 0.550593 0.0000 1.000000 ----- ALL2 0.489155 0.0000 0.920737 0.0000 1.000000 ----- ALL3 0.542517 0.0000 0.882131 0.0000 0.975417 0.0000 1.000000 ----- ALL4 0.684397 0.0000 0.813341 0.0000 0.837993 0.0000 0.903174 0.0000 1.000000 ----- ALL5 0.714840 0.0000 0.714965 0.0000 0.739700 0.0000 0.785179 0.0000 0.899538 0.0000 1.000000 ----- CURR1 0.521830 0.0000 0.583204 0.0000 0.542304 0.0000 0.581066 0.0000 0.598440 0.0000 0.487461 0.0000 1.000000 ----- CURR2 0.409883 0.0000 0.518810 0.0000 0.635661 0.0000 0.688965 0.0000 0.621746 0.0000 0.490128 0.0000 0.863507 0.0000 1.000000 ----- CURR3 0.486480 0.0000 0.517486 0.0000 0.598990 0.0000 0.679313 0.0000 0.670109 0.0000 0.505901 0.0000 0.827497 0.0000 0.946553 0.0000 1.000000 ----- CURR4 0.551106 0.0000 0.429846 0.0000 0.451210 0.0000 0.552560 0.0000 0.642620 0.0000 0.466377 0.0000 0.711584 0.0000 0.785556 0.0000 0.920344 0.0000 1.000000 ----- CURR5 0.657925 0.0000 0.522540 0.0000 0.554533 0.0000 0.657321 0.0000 0.738035 0.0000 0.696595 0.0000 0.669286 0.0000 0.741169 0.0000 0.835260 0.0000 0.845406 0.0000 CURR5 1.000000 ----- 82 Приложение 4. Таблица коэффициентов корреляции (США) Covariance Analysis: Ordinary Sample: 1 111 Correlation Probability DOWNLOADS_THIS_MONTH ALL1 DOWNLOADS_THIS_MONTH 1.000000 ----- ALL2 ALL3 ALL4 ALL5 CURR1 CURR2 CURR3 CURR4 ALL1 0.143906 0.1450 1.000000 ----- ALL2 0.160780 0.1030 0.914918 0.0000 1.000000 ----- ALL3 0.261448 0.0073 0.848336 0.0000 0.965670 0.0000 1.000000 ----- ALL4 0.381440 0.0001 0.774891 0.0000 0.825205 0.0000 0.919123 0.0000 1.000000 ----- ALL5 0.377411 0.0001 0.714241 0.0000 0.822196 0.0000 0.879790 0.0000 0.911759 0.0000 1.000000 ----- CURR1 0.425967 0.0000 0.162628 0.0991 0.144273 0.1440 0.180568 0.0666 0.198838 0.0430 0.189456 0.0541 1.000000 ----- CURR2 0.595944 0.0000 0.169349 0.0857 0.182190 0.0642 0.269818 0.0056 0.337079 0.0005 0.311732 0.0013 0.939821 0.0000 1.000000 ----- CURR3 0.662109 0.0000 0.102272 0.3016 0.132181 0.1810 0.310385 0.0013 0.484030 0.0000 0.367105 0.0001 0.677642 0.0000 0.850792 0.0000 1.000000 ----- CURR4 0.564171 0.0000 0.045509 0.6464 0.079541 0.4222 0.282051 0.0037 0.503308 0.0000 0.381530 0.0001 0.423089 0.0000 0.622131 0.0000 0.925972 0.0000 1.000000 ----- CURR5 0.716697 0.0000 0.086264 0.3839 0.134996 0.1718 0.302134 0.0018 0.485422 0.0000 0.486672 0.0000 0.494376 0.0000 0.701165 0.0000 0.899338 0.0000 0.905563 0.0000 CURR5 1.000000 ----- 83 84