Исследование рекламных контактов покупателей фирмы О

advertisement
УДК 519.253
Маркетинговое исследование телевизионной рекламной
кампании интернет-магазина
Цейтлин Н. А., Горбач А. Н. (фирма CuBe Matrix, Inh. A. Gorbach)
Разработаны адекватные параметрические методы измерения индикатора
быстрой реакции пользователей интернет-магазина на телерекламу. Построены
содержательно
интерпретируемые
регрессионные
модели
объекта
маркетинговых исследований.
Statistical marketing study of TV advertising campaign effectiveness
for an online store
The monograph covers statistical marketing study of a TV advertising campaign and
its effectiveness for the operation of the online stores. The indicator for the quick
response of the online store customers to TV advertising was developed by using the
adequate parametric methods. The monograph also includes development of the
regression model of the marketing study along with a wide variety of data collection
and analysis.
The authors clearly demonstrate how statistical studies provide insights into business
decisions and present solutions to contemporary business problems.
Ключевые слова
Интернет-магазин; телеканал; телереклама; визит; кумулятивная функция
частот; эф-кривая; эль-кривая; альфа-предел; шум; дифференциальная функция
частот; фоновый уровень; индикатор быстрой реакции пользователей;
непараметрический метод измерения; параметрический метод косвенного
измерения; метод аппроксимации формулой Вейбулла; метод кусочнолинейной аппроксимации; эмпирическая функция распределения; область
действия; эмпирическая функции регрессии; аналитический статистик;
прикладная статистика; программное обеспечение; объект маркетинговых
исследований; погрешности измерения; нулевая гипотеза; альтернативная
гипотеза; статистическая оценка; уровень значимости критерия; экспертная
оценка уровня ответственности; фактор.
Часть А. Измерение индикатора быстрой реакции пользователей
на телевизионную рекламу интернет-магазина
В качестве количественного показателя эффективности телевизионной
рекламной компании интернет-магазина принята автоматически фиксируемая
интенсивность визитов пользователей сайта интернет-магазина в течение суток.
1
Из этих данных составляется кумулятивная функция частот, с помощью
которой измеряют два отклика - суточное количество визитов
пользователей интернет-магазина и индикаторы быстрой реакции (ИБР)
пользователей на каждую телевизионную рекламу.
Разработаны два адекватных параметрических метода косвенного измерения
индикаторов быстрой реакции: «Метод аппроксимации формулой Вейбулла» и
«Метод кусочно-линейной аппроксимации». Методы косвенного измерения
индикаторов быстрой реакции заключаются в оценивании интерпретируемых
параметров формул, описывающих измеряемый процесс. Показатели
погрешности методов измерения индикаторов быстрой реакции оцениваются с
помощью методов имитационного моделирования и робастного оценивания.
Рассматриваются преимущества параметрических методов в сравнении с
известным непараметрическим «Методом прямого измерения».
Часть В. Регрессионный анализ зависимости характеристик
реакции пользователей на телевизионную рекламу интернетмагазина от определяющих факторов
На отклики могут оказывать влияние как управляемые факторы (выбор времени
суток, наименование телеканала, тип и качество телерекламы, качество
рекламируемого товара, степень снижения его цены и др.), зависящие от интернетмагазина, так и неуправляемые факторы (рекламная активность конкурентов,
календарное время, параметры погоды и др.).
Техническая подготовка матрицы сырых данных из электронной базы к
расчётам по программе регрессионного анализа заключается в её существенном
расширении за счёт кодовых обозначений качественных переменных,
нелинейных базисных функций (логарифмов и парных произведений
переменных, членов рядов Фурье для описания колебаний отклика в течение
суток, недели, месяца и года).
Описывается оригинальная методика построения интерпретируемых
регрессионных моделей; выявляются силы и направления влияния значимых
факторов
на
отклики.
Приводится
обоснование
обнаруженных
закономерностей.
Содержательный анализ регрессионных моделей позволяет составить
рекомендации для дальнейшего осуществления управляющих воздействий на
управляемые факторы, что приводит рациональному снижению издержек
рекламодателя.
Результат анализа является основой для принятия заказчиком маркетингового
исследования адекватных решений в области управления покупательским
поведением.
Приведены примеры построения регрессионных моделей объекта
маркетинговых исследований и их содержательная интерпретация.
Список литературы – 25 наименований, рисунков – 24, таблиц – 13, страниц –
109.
2
Оглавление
«На белую страницу строчка ляжет - и вашу мысль увидят и прочтут.
Как часто эти найденные строки для нас таят бесценные уроки».
(У. Шекспир. Сонет 77).
1. Принятые аббревиатуры, термины, определения и обозначения ............................................. 5
2. Введение ......................................................................................................................................... 9
2.1. Ограничения при анализе эффективности телевизионной рекламы ............................... 10
2.2. Формальная постановка задачи маркетингового исследования ....................................... 10
2.3. Проверка гипотез .................................................................................................................. 12
2.4. Выделение откликов ............................................................................................................. 14
3. Измерение индикатора быстрой реакции пользователей ........................................................ 14
4. Измерение откликов .................................................................................................................... 17
4.1. Методы косвенного измерения индикатора быстрой реакции пользователей ............... 18
4.1.1. Метод аппроксимации формулой Вейбулла ............................................................... 20
4.1.2. Метод аппроксимации формулой Вейбулла с постоянными коэффициентами ...... 21
4.1.3. Метод кусочно-линейной аппроксимации .................................................................. 22
4.2. Метод прямого измерения индикатора быстрой реакции пользователей ....................... 22
4.3. Качество методов измерения индикатора быстрой реакции пользователей .................. 23
4.3.1. Оценка индикатора быстрой реакции пользователей на имитированную
телевизионную рекламу на имитированном фоне ................................................................ 25
4.3.2. Оценка количества имитированных значений индикатора быстрой реакции
пользователей после имитированных реклам на реальном фоне ....................................... 28
4.4. Оценка влияния флуктуаций реального фона (шума) на погрешность методов
измерения индикатора быстрой реакции пользователей ......................................................... 32
4.5. Оценка реальных значений величины индикатора быстрой реакции пользователей
после реальной телевизионной рекламы на реальном фоне.................................................... 32
4.6. Проверка гипотез .................................................................................................................. 34
4.6.1. Проверка гипотез относительно случайных компонент погрешности ................ 34
4.6.2. Проверка гипотез относительно систематических компонент погрешности ..... 37
4.6.3. Результаты проверки гипотез ....................................................................................... 37
5. Проблема близости моментов окончания телевизионных реклам.......................................... 39
5.1. Способы сокращения областей действия методов прямого измерения и кусочнолинейной аппроксимации............................................................................................................ 39
5.2. Расщепление суммы индикаторов быстрой реакции пропорционально весовым
коэффициентам ............................................................................................................................ 41
5.3. Расщепление суммы индикаторов быстрой реакции методами аппроксимации
формулой Вейбулла с постоянными коэффициентами и кусочно-линейной
аппроксимации ............................................................................................................................. 42
Часть А. Выводы ............................................................................................................................. 43
Часть В. Регрессионный анализ реакции пользователей на телевизионную рекламу интернетмагазина ............................................................................................................................................ 44
6. Подготовка материалов для маркетинговых исследований .................................................... 44
6.1. Подбор факторов и базисных функций для построения регрессионных моделей ......... 45
6.1.1. Отклик - индикатор быстрой реакции пользователей ................................................ 47
6.1.1.1. Список факторов, управляемых менеджерами интернет-магазина ................... 48
6.1.1.2. Список факторов, не управляемых менеджерами ............................................... 49
6.1.2. Отклик - суточное количество визитов пользователей интернет-магазина ............. 50
6.1.2.1. Список факторов, управляемых менеджерами интернет-магазина ................... 51
6.1.2.2. Список факторов, не управляемых менеджерами ............................................... 52
3
7. Построение интерпретируемых регрессионных моделей объекта маркетинговых
исследований .................................................................................................................................... 53
7.1. Операторная блок-схема алгоритма построения регрессионных моделей ..................... 53
7.1.1. Проблемы оценивания параметров эмпирической функции регрессии ................... 56
7.1.1.1. Проблема проверки гипотезы об адекватности эмпирической функции
регрессии............................................................................................................................... 57
7.1.1.2. Проблема проверки нулевых гипотез против нескольких альтернатив ............ 59
7.1.1.3. Проблема наличия корреляции между остатками ............................................... 60
7.1.1.4. Проблема стационарности регрессионных моделей ........................................... 60
7.1.1.5. Проблема окаймления области действия эмпирической функции регрессии .. 61
7.1.1.6. Проблема восстановления пропущенных значений откликов ........................... 61
7.1.1.7. Проблема получения лучшей эмпирической функции регрессии ..................... 62
7.1.2. Другие процедуры в блок-схеме алгоритма построения эмпирической функции
регрессии................................................................................................................................... 63
7.1.3. Описание результатов регрессионного анализа.......................................................... 64
7.1.4. Автоматический синтез текста отчёта ......................................................................... 65
7.2. Регрессионный анализ быстрой реакции пользователей на телерекламу интернетмагазина «Партнёр» ..................................................................................................................... 66
7.2.1. Корреляция базисных функций .................................................................................... 68
7.2.2. Сравнение «силы» влияния базисных функций ......................................................... 69
7.2.3. Влияние фактора «охват аудитории, млн» .................................................................. 70
7.2.4. Влияние фактора «показ рекламы по телеканалу ТКP»............................................. 72
7.2.5. Влияние фактора «стоимость показа рекламы» .......................................................... 73
7.2.6. Влияние фактора «показ рекламы по телеканалу ТКS»............................................. 73
7.2.7. Влияние фактора «количество визитов за 3 мин до окончания рекламы»............... 74
7.2.8. Рисунки к презентации результатов исследования .................................................... 75
7.3. Маркетинговое исследование реакции пользователей на телевизионную рекламу
интернет-магазина «Рог изобилия» ............................................................................................ 77
7.3.1. Предварительное исследование .................................................................................... 78
7.3.2. Исследование быстрой реакции пользователей на телерекламу из групп близких
телереклам ................................................................................................................................ 80
7.3.3. Исследование зависимости суточного количества визитов пользователей
интернет-магазина «Рог изобилия» от характеристик телевизионной рекламы ............... 82
7.3.4. Проверка адекватности эмпирической функции регрессии ...................................... 89
7.3.6. Содержательный анализ ................................................................................................ 93
7.3.7. Задачи дальнейших исследований и разработок ........................................................ 94
7.3.7.1. Оптимизация телевизионных рекламных кампаний интернет-магазина .......... 94
7.3.7.2. Оптимальное корректирование медиаплана ......................................................... 96
7.3.7.3. Продолжим пример ................................................................................................. 97
Часть В. Выводы ............................................................................................................................. 99
8. Фрагменты дискуссий ............................................................................................................... 100
8.1. Фрагменты дискуссии с профессором С. А. Кондратовым ............................................ 100
8.2. Фрагменты дискуссии с доцентом И. В. Стеценко.......................................................... 104
8.3. Фрагменты дискуссии с доцентом В. Г. Сословским ...................................................... 106
Литература ...................................................................................................................................... 107
4
1. Принятые аббревиатуры, термины, определения и обозначения
«Легко видеть, что так называемая «теория мышления» сводиться к
выдумыванию более или менее сложных терминов для обозначения
явлений, которых человек не понимает».
(А. и Б. Стругацкие).
Визит – уникальное посещение пользователем интернет-магазина в момент хj;
хj – временной штамп визита; хj  (0, 1, …, 86400) с; j  (1, 2, …, N);
N - суточное количество визитов (пользователей интернет-магазина, СКВ);
момент окончания рекламы (МОР) - момент ti времени суток окончания i-той
телерекламы в рекламном блоке на телевизионном канале;
ti  (0, 1, …, 86400) с (86400 с = 24 ч); i  (1, 2, …, К);
К – количество моментов окончания рекламы за сутки; ряды {хj} и {ti} хранятся
на сервере интернет-магазина; N >> К; число N обычно лежит в диапазоне от
104 до 107; число К – от 10 до 100 за сутки (рис. 1);
Рис. 1. Графические способы представления быстрой реакции пользователей на
телерекламу интернет-магазина:
а - фрагмент кумулятивной функции частот; b - фрагмент дифференциальной функции
частот; FN(t) – накопленная частота; F`N(t) – первая производная величины FN(t); t - время; ti момент окончания i-той телерекламы; fi – i-тая f-кривая; Ni - i-тый индикатор быстрой
реакции пользователей; Ʌi – i-тая Ʌ-кривая; Тαi - верхний альфа-предел периода времени, в
течение которого наблюдаются fi- и Ʌi-кривые; t*i - момент окончания fi- и Ʌi-кривых
(t*i = ti + Тαi).
кумулятивная функция частот (КФЧ) визитов в течение суток (см. рис. 1.а);
5
fi-кривая (читается: «эф-кривая») – график интегральной характеристики
быстрой реакции пользователей интернет-магазина на i-тую телерекламу после
момента окончания рекламы ti; fi-кривая описывает резкое возрастание
количества визитов, начинающееся в момент окончания рекламы ti, и снижение
этого количества до фонового уровня за период времени Тαi (см. рис. 1.а.).
Ʌi-кривая
(читается:
«эль-кривая»)
–
график
дифференциальной
характеристики реакции пользователей интернет-магазина на i-тую
телерекламу, или плотности распределения частоты визитов; Ʌi-кривая
определяется как первая производная от fi-кривой (см. рис. 1.b).
Тαi - верхний альфа-предел периода времени, в течение которого наблюдаются
fi- и Ʌi-кривые; малая вероятность превышения величины Тαi меньше заданной
α1 [3, с. 73]; приняли α1 = 0,05 (см. рис. 1).
t*i - момент окончания fi- и Ʌi-кривых; t*i = ti + Тαi (см. рис. 1.).
Тα – верхний альфа-предел всех периодов времени Тαi, малая вероятность
превышения которого меньше заданной α2 [3, с. 73]; приняли α2 = 0,01 (рис. 2).
Рис. 2. График эмпирической функции
распределения периода времени Т, в
течение которого наблюдаются все fi- и
Ʌi -кривые:
F(Т) – вероятность; α - малая вероятность; Тα –
верхний альфа-предел периодов времени Тαi.
Рис. 3. График эмпирической
функции распределения
индикатора N быстрой реакции
пользователей:
F(N) – вероятность; Ме{N} –
медиана величины N.
ΔТi - расстояние между i-м моментом окончания рекламы ti и i-1-м моментом
окончания рекламы ti-1: ΔТi = ti – ti-1 (см. рис. 1.).
Одиночная i-я телереклама на телевизионном канале отделёна от
предыдущей i-1-й и последующей i+1-й телерекламы на периоды времени ΔТi и
ΔТi+1, превышающие значения Тα(i-1) + Тαi и Тαi соответственно (то есть,
ΔТi > Тα(i-1) + Тαi и ΔТi+1 > Тαi). Одиночной i-й телерекламе соответствует
одиночный момент окончания рекламы ti (см. рис. 1.).
Если значение величины Тα известно, а значения Тαi не известны, то одиночная
i-я телереклама определяется «с запасом» из условия ΔТi > 2Тα и ΔТi+1 > Тα.
Шум - спонтанные колебания плотности распределения частоты визитов.
Фоновый уровень - накапливаемое в течение суток количество визитов
пользователей по каналам связи в интернет-магазине, обусловленное постоянно
6
действующими факторами (сведениями пользователей интернет-магазина из
различных источников о рекламируемых товарах, брендом интернет-магазина,
спонтанно возникшими потребностями пользователей, их временем, свободным
от трудовой деятельности, сна и т. п.). Кумулятивную функцию частот (КФЧ)
можно условно представить в виде суммы фоновых уровней (см. пунктирные
линии на рис. 1.а.) и «наложенных» на них fi-кривых.
Индикатор быстрой реакции (ИБР) пользователей на i-тую телерекламу
интернет-магазина определяется, начиная с момента окончания рекламы ti; ИБР
вычисляется как разность Ni между наблюдаемым количеством Nнi визитов
пользователей в интернет-магазине за короткий период времени Тαi после
момента окончания рекламы ti и тем возможным количеством Nвi визитов,
которые могли бы произойти в тот же период времени Тαi после момента
окончания рекламы ti, если бы i-тая телереклама отсутствовала: Ni = Nнi – Nвi
(см. рис. 1.а.).
Индикатор быстрой реакции может принимать как положительные, так и
отрицательные значения (рис. 3). Отметим, что графики fi-кривых (см. рис. 1) и
эмпирической функции распределения F(N) индикатора быстрой реакции (см.
рис. 3) только внешне похожи, но различаются принципиально.
Метод прямого измерения (ПИ) – известный непараметрический метод
измерения значений индикатора быстрой реакции [1, 2].
Разрабатываемые в настоящей работе параметрические методы
косвенного измерения индикатора быстрой реакции:
 метод аппроксимации формулой Вейбулла (АФВ);
 метод аппроксимации формулой Вейбулла с постоянными
коэффициентами (АФВПК, как частный случай метода АФВ);
 метод кусочно-линейной аппроксимации (КЛА).
Область действия методов измерения – часть факторного пространства
t  (0, 1, …, 86400) с, точки которого хj  (0, 1, …, 86400) используются для
измерения i-того индикатора быстрой реакции Ni;
Теоретическая и эмпирическая функции регрессии (ТФРе и ЭФРе) - функции
факторов регрессионной модели;
Область действия эмпирической функции регрессии – нечётко оконтуренная
часть факторного пространства, на которой она действует, или определена;
Аналитический статистик (АС) – специалист широкого профиля, владеющий
методами математического обеспечения экспериментальных исследований,
участвующий (совместно со специалистами в предметной области) в
формализации задачи предметной области, в планировании экспериментов, в
математико-статистической обработке результатов наблюдений, в составлении
научного отчёта для лиц, принимающих решение [2, 3];
Программное обеспечение прикладной статистики (ПОПС) - известные пакеты
IBM SPSS Statistics, StatSoft Statistic, R и др.).
Объект маркетинговых исследований (ОМИ) – реальный маркетинговый
объект (или явление), подлежащий изучению и математическому
моделированию [2, с. 6];
7
Статистическое маркетинговое исследование предполагает использование
методов оптимального выбора стратегии и тактики наблюдений ОМИ, который
подвергается неуправляемым и планируемым управляемым воздействиям.
Среднеквадратичное (стандартное) отклонение (СО  или s) – мера вариации
случайной величины;  - теоретический параметр; s – точечная (однозначная)
оценка параметра; дисперсия (2 или s2) - квадрат стандартного отклонения;
Среднеквадратичное отклонение используется также в качестве меры
случайной компоненты погрешности измерения, а медиана - в качестве меры
систематической компоненты погрешности измерения;
Число степеней свободы (ЧСС оценок s или s2 и статистик критериев)
определяется как разность между количеством измерений случайной величины
и количеством дополнительных связей между элементами выборки.
Отклик (Y) - зависимымая случайная величина, параметры распределения
которой зависят от значений факторов объекта маркетинговых исследований;
Н0 и Н1 – нулевая (проверяемая) и альтернативная гипотезы;
̂ i и αki - оценка уровня значимости статистического критерия и его
критическое значение (известные синонимы для ̂ i: «р-значение» и
«достигнутый уровень значимости»); ̂ i и αki - вероятности ошибочного
отклонения гипотезы Н0, если она верна; 0 < ̂ i < 1; 0 < αki < 1; i  (0 ˅ 1), если
предпочтительна Н0 или Н1 соответственно;
Эi - экспертная оценка уровня ответственности исследователя за вывод;
(0 < Эi < 100%); i  (0 ˅ 1), если предпочтительна Н0 или Н1 соответственно;
tf,α/2 – численное значение статистики критерия Стьюдента с числом степеней
свободы f и уровня α/2;
Ffч , f з , 2l  – численное значение статистики критерия Фишера-Бонферрони с
числами степеней свободы fч – числителя, fз – знаменателя, уровня α/(2l); l –
количество двусторонних альтернатив [3, с. 98];
Базисная функция (БФ факторов); базисной функцией в эмпирической
функции регрессии может быть, например: логарифм переменной, член ряда
Тейлора или Фурье, код качественной переменной [2, 3, 9, 11, 12]).
Другие специфические определения и обозначения будут введены по ходу
изложения.
Эпиграфы, заимствованные из интернета, приведены для стимулирования
интереса тех читателей, кому наша брошюра могла бы показаться скучной :-).
8
2. Введение
Читатель сначала не понимает, а потом привыкает.
Настоящая работа состоит из двух частей. Часть А работы (разделы 1 - 5)
посвящена подготовке данных для статистической обработки, выбору
наименования откликов и разработке методики их измерения.
В качестве меры быстрой реакции пользователей на телевизионную рекламу
было предложено использовать индикатор быстрой реакции (ИБР)
пользователей интернет-магазина (ИМ).
Описан общепринятый метод прямого измерения (ПИ) индикатора быстрой
реакции на телевизионную рекламу, а также - два разработанные авторами
метода – метода аппроксимации формулой Вейбулла (АФВ) и метода
кусочно-линейной аппроксимации (КЛА).
Изложена формальная постановка задачи статистического маркетингового
исследования как построение интерпретируемых регрессионных моделей
объекта маркетинговых исследований (ОМИ), которые позволят оценить
влияние отдельных факторов на отклики и составить рекомендации для
дальнейшего осуществления воздействий на управляемые факторы.
Показано, что разработанные методы косвенного измерения индикатора
быстрой реакции пользователей на телерекламу интернет-магазина - АФВ и
КЛА (в отличие от известного метода ПИ) адекватны шумовому фону.
Часть В работы (разделы 6 - 9) посвящена построению и интерпретации
регрессионных моделей объекта маркетинговых исследований. На примерах
показано,
как
содержательный
анализ
конкретных
результатов
математического описания влияния факторов на отклики позволяет
осуществлять управляющие воздействия на факторы, приводящие к
увеличению откликов и снижению издержек на телерекламу.
Формально рассматривается некоторый поток однотипных событий,
интенсивность которого обусловлена суммарным воздействием ряда медленно
изменяющихся слабо влияющих факторов, а также - одним спонтанно
возникающим
сильно
влияющим
фактором,
вызывающим
резкое
кратковременное возрастание интенсивности потока.
Настоящая методика статистической обработки результатов наблюдений
подобных явлений разрабатывается с целью создания интерпретируемых
математических
моделей,
позволяющих
извлечь
содержательную
информацию из наблюдаемых данных и рационально управлять изучаемым
процессом, руководствуясь различными частными критериями качества. К
подобным явлениям относится быстрая реакция пользователей на
телерекламу интернет-магазина.
С развитием онлайн-маркетинга появилась возможность автоматизировать
маркетинговое исследование [2] на основании большого количества
недорогих оперативных данных - автоматически фиксируемых сигналах в
9
моменты времени хj о визитах пользователей интернет-магазина. Они могут
служить измеряемыми количественными показателями эффективности
телерекламы.
2.1. Ограничения при анализе эффективности телевизионной рекламы
Несомненно, наш опыт ограничен. Но, зато каким количеством граней!
Полноценный анализ эффективности рекламы вообще, и телевизионной, в
частности, - один из самых сложных, трудоемких, и поэтому - дорогих видов
маркетинговых исследований [4]. «Обычное» маркетинговое исследование
эффективности телерекламы интернет-магазина с использованием анкет может
быть достаточно информативным, но дорогостоящим, продолжительным,
«штучным», охватывающим лишь малую аудиторию пользователей.
Наиболее общее определение эффективности - это соотношение результата и
затрат, осуществленных для его достижения. Результатом телерекламы может
рассматриваться степень достижения цели, поставленной в рамках рекламной
деятельности интернет-магазина. Существует ряд ограничений, с которыми
приходится считаться при анализе эффективности телерекламы [4].
- Можно лишь с некоторой погрешностью выделить эффект, полученный при
реализации именно телерекламы, а не совместный эффект от всех видов рекламы
и маркетинговых мероприятий (повышение качества товара, его уценка,
проведение мероприятий sales promotion - лотерей, конкурсов, распродаж и др.).
- Эффективность телерекламы для различных субъектов рекламного рынка
проявляется по-разному. Не обязательно эффект телерекламы поддаётся стоимостной
оценке, например, в виде при́были, в форме отдачи затрат на телерекламу.
Эффективность телерекламы интернет-магазина может выражаться и ростом
имиджа интернет-магазина, повышением информированности населения о его
деятельности, созданием более благоприятного образа и т. п.
- На эффективность телерекламы влияют как управляемые факторы (тип и
качество телерекламы, медиаплан, рекламная стратегия, качество рекламируемого
товара, степень снижения его цены и др.), зависящие от интернет-магазина, так и
неуправляемые (конъюнктура на рынке, рекламная активность конкурентов,
поведение пользователей, влияние государства, календарное время, погода и др.).
2.2. Формальная постановка задачи маркетингового исследования
Задача - это когда надо попасть в цель, а проблема - это когда целятся в тебя.
Формально изучаемый объект маркетинговых исследований можно
рассматривать в виде «серого ящика» [2, 3] (рис. 4.), поскольку всегда имеется
некоторая априорная информация, позволяющая формулировать гипотезы
относительно структуры и параметров статистической модели объекта
маркетинговых исследований, а также - существенная неопределенность его
10
«поведения». Предметом статистических маркетинговых исследований
является проверка сформулированных гипотез и оценка параметров
статистической модели объекта маркетинговых исследований.
На вход в «серый ящик» воздействует ряд факторов – нерегистрируемых Zi
(i = 1, 2, …, m) и регистрируемых Xi (i = 1, 2, …, n), из которых k факторов Xi
(i = 1, 2, …, k) – управляемые и n факторов Xi (i = k + 1, k + 2, …, n) –
неуправляемые. Нерегистрируемые факторы Zi (i = 1, 2, …, m) могут быть
известными или даже неизвестными.
Рис. 4. Схематическое изображение объекта маркетинговых исследований:
Xi (i = 1, 2, …, n) – регистрируемые факторы; Xi (i = 1, 2, …, k) – управляемые; Xi
(i = k + 1, k + 2, …, n) – неуправляемые; Zi (i = 1, 2, …, m) – нерегистрируемые факторы;
W – стохастический фактор (шум); Y – отклик (зависимая переменная).
На выходе «серого ящика» регистрируется зависимая переменная – случайная
величина Y, называемая «откликом». На вариацию отклика Y кроме
перечисленных факторов, могут влиять некоторые стохастические факторы W,
природа которых неизвестна. Переменные величины Xi, Zi, W и Y являются, как
правило, параметрами физических свойств объекта маркетинговых
исследований, имеющими размерность (м, кг, часы, градусы Цельсия и т. п.),
безразмерные (штуки, доли, баллы и т. п.) или коды качественных величин
(например, код 1 - «есть воздействие»; 0 - «нет воздействия»).
Важнейшей задачей статистического маркетингового исследования
является оценка параметров количественной зависимости вариации отклика Y
от вариации факторов путём построения интерпретируемой эмпирической
функции регрессии для объекта маркетинговых исследований. Для решения
этой задачи необходимо: подготовить массивы сырых данных; выбрать
наименования откликов; разработать методики измерения значений откликов;
построить эмпирическую функцию регрессии объекта маркетинговых
исследований и её содержательно интерпретировать.
Построение интерпретируемых эмпирических функций регрессии объекта
маркетинговых исследований позволит менеджерам интернет-магазина
оценивать влияние отдельных факторов на отклики и составлять рекомендации
для дальнейшего осуществления воздействий на управляемые факторы,
приводящих к улучшению характеристик откликов и рациональному
снижению издержек интернет-магазина.
11
2.3. Проверка гипотез
Нечего опасаться быть опровергнутым; опасаться следует быть непонятым.
Важным инструментом научного исследования вообще, и маркетингового - в
частности, является метод проверки статистических гипотез. В настоящем
исследовании будет использована сравнительно недавно разработанная
модификация этого метода, подробно, с рассуждениями и примерами
изложенная в работах [2, 3, 9], в которой «последнее слово» об отклонении или
принятии проверяемой гипотезы отдаётся экспертной оценке уровня
ответственности исследователя за вывод.
Формулируя статистические гипотезы, исследователь заинтересован в том,
чтобы убедить читателя в справедливости предпочитаемой и принятой им
гипотезы. Проверяемой всегда является нулевая гипотеза H0, которой
противопоставляется альтернативная гипотеза H1. Одна из этих гипотез
является предпочтительной для исследователя. Результат проверки гипотезы
H0 против альтернативы H1 зависит от соотношения между оценкой уровня
значимости αi статистического критерия и его критическим значением кi
[i  (0 ˅ 1)], априори задаваемым исследователем. В свою очередь, критическое
значение кi определяется экспертной оценкой Экi (%) уровня
ответственности исследователя за вывод (0 < Экi < 100). Если исследователь
предпочтитает альтернативную гипотезу H1, то рекомендуется определять
к1 = (1 - 0,01Эк1)4,3 [и - обратно: Эк1 = 100(1 -  к1 )];
0 , 233
(а)
если же предпочтительна нулевая гипотеза H0, то
к0 = (0,01Эк0)4,3 [и - обратно: Эк0 = 100 к 0 ].
0 , 233
(b)
Формулы (а) и (b) являются аналитической аппроксимацией взаимосвязи
величин уровня значимости кi и экспертных оценок Экi, i  (0 ˅ 1), данных
авторитетными экспертами [3] (очевидно, что здесь 0 ≠ кi ≠ 1 и 0 ≠ Экi ≠ 100%).
Если окажется, что αi < кi, то проверяемая гипотеза H0 отклоняется в пользу
альтернативы H1, если же αi  кi, то гипотеза H0 не отклоняется. Если эксперт
оценивает уровень ответственности за вывод «средним баллом», и принимает
Эi = 50%, то к0 и к1 приблизительно равны «общепринятому» [12 – 17]
критическому значению уровня значимости: к0 ≈ к1 ≈ 0,05. Однако следует
учесть, что при низком уровне ответственности (Эi < 50%) получаем к0 < к1, а
при высоком уровне ответственности (Эi > 50%) получаем к0 > к1.
Таким образом, решение исследователя принять или отклонить гипотезу H0
зависит от того критического уровня Экi ответственности за вывод, который
принимается им в данном конкретном исследовении. Поэтому вместо того,
чтобы сравнивать уровни значимости - оценку 0 (или 1) и её критическое
12
значение к0 (или к1), проще сравнивать уровни ответственности за вывод –
оценку Эi [i  (0 ˅ 1)] и её критическое значение Экi (0% < Экi < 100%) где
значение величины Э1 вычисляется по обратной формуле (а), когда
предпочтительна альтернативная гипотеза H1, а значение величины Э0 - по
обратной формуле (b), когда предпочтительна нулевая гипотеза H0.
Теперь если окажется, что оценка Эi уровня ответственности за вывод выше
критического значения Экi, т. е., Эi  Экi, то предпочитаемая исследователем
гипотеза H0 (или H1) принимается, и – наоборот: если Эi < Экi, то
предпочитаемая исследователем гипотеза H0 (или H1) не принимается.
Замечание. «Общепринятые» [12 – 17] критическые значения уровней
значимости к0 ≈ к1 ≈ 0,05 являются анахронизмом, данью «традиции».
Критические значения уровней ответственности за вывод – оценки Экi, в
зависимости от предпочитаемой исследователем гипотезы Hi (H0 или H1),
рекомендуем задавать в диапазоне (50% < Экi < 100%), как можно ближе к
100%. Тогда, например, по формулам (а) и (b) при Экi = 80% получим
к1 ≈ 0,001, а к0 ≈ 0,4, а при Экi = 90% получим к1 ≈ 5×10-5, а к0 ≈ 0,6.
Принимая или отклоняя гипотезу H0, исследователь может вообще не
задаваться критическими значенияи кi и Экi, а просто приводить оценки
достигнутых критериев i и Эi для того, чтобы уже читатель мог сам
согласиться или не согласиться с выводом авторов. Такая аргументация
выводов нам представляется наиболее правильной.
Очевидно, что делая вывод на основании статистических данных,
исследователь должен избегать категорических формулировок («достоверно»,
«доказано» и т. п.), так как опыт не «доказывает», а лишь «не противоречит»
принятым гипотезам. Действительно, значение (1 - αi) характеризует
вероятность, с которой не отклоняют гипотезу Н0, если она верна. Меры
надежности «принять нулевую гипотезу Н0» не существует. Поэтому об
отклоненной гипотезе Н0 говорят, что она отклонена с пренебрежимо малой
вероятностью ошибиться αi (αi < iк) и с соответствующим уровнем
ответственности за вывод Эi, превышающем критический (Эi > Экi). Если же
гипотеза Н0 не отклонена, то говорят, что «данные опытов ей не противоречат
на уровне значимости αi, где αi > кi», или, иначе, что «найденный уровень
значимости αi слишком велик, больше критического значения (αi > iк), и его
недостаточно для того, чтобы отклонить проверяемую гипотезу Н0».
Отсюда также следует, что «индекс i предпочитаемой исследователем
гипотезы» Hi [i  (0 ˅ 1)] следует всегда писать как при уровнях значимости i
и кi, так и при экспертных оценках уровня ответственности исследователя
за вывод Эi и Экi.
13
2.4. Выделение откликов
«Основная ткань исследования - это фантазия, в которую вплетены нити
наблюдения, рассуждения, измерения и вычисления».
(Д. Максвелл).
В настоящем исследовании отклики определяются по количествам визитов
пользователей интернет-магазина, автоматически фиксируемым в моменты
времени хj. Из них конструируются два отклика: индикатор быстрой реакции и
суточне количество визитов пользователей.
Отметим, что количество визитов пользователей интернет-магазина является
косвенным критерием эффективности телерекламы. Наиболее существенным
критерием эффективности телерекламы является прибыль интернет-магазина.
Однако расчёт прибыли – процесс дорогой и долгий, а оперативная
информация о ней обычно труднодоступона. Тем не менее, количество визитов
пользователей положительно коррелирует с прибылью, и поэтому может
служить «быстрым» критерием эффективности телерекламы.
3. Измерение индикатора быстрой реакции пользователей
«Реклама - это средство заставить людей нуждаться в том, о чем они
раньше не слышали».
(Мартти Ларни).
Из недавно выполненного обзора 60-ти литературных источников [1]
следует, что в качестве метода измерения индикатора быстрой реакции
исследвателями принят «метод разницы в различиях» (a difference-indifferences approach), который по существу является методом прямого
измерения. Этот метод основан на вычислении разности между результатами
прямомого измерения количества визитов пользователей интернет-магазина за
одинаковые короткие периоды времени до и после момента окончания
рекламы. В статье [10] было показано, что основным недостатком известного
метода прямого измерения является его неадекватность, которая заключается
в завышенном значении оценки стандартного отклонения случайной
компоненты погрешности, значимо превышающей значение оценки
стандартного отклонения шума.
В настоящей брощюре приведены подробные результаты исследования
предложенных в работе [10] адекватных методов косвенного измерения
индикатора быстрой реакции, и их сравнение с известным методом
прямого измерения.
В интернет-магазине ведётся отслеживание визитов пользователей с
помощью методов веб-аналитики через каналы связи путём прямого
написания адреса сайта, введения ключевых слов товара и введения ключевых
слов интернет-магазина (это - около 70% всех визитов; из рассмотрения
исключаются около 30% визитов, осуществлённых из партнёрских программ,
через рассылку новостей и из неидентифицируемых источников).
14
Исходные данные для измерений индикатора быстрой реакции представляют
собой результаты наблюдения рядов {хj} и {ti} в течение многих суток. Обычно
подобные данные визуализируют с помощью гистограмм (рис. 5). Трудности
статистической обработки гистограмм связаны с отсутствием формального
Рис. 5. Гистограмма распределения частоты визитов сайта интернет-магазина:
t – время суток, минуты; f – среднее количество визитов в минуту; вертикальными
линиями отмечены моменты окончания рекламы (МОР) ti на различных ТВ-каналах.
основания для разбиения времени суток на интервалы Δt, необходимые для
построения гистограмм (см. рис. 5 и в укрупнённом масштабе - рис. 6).
Графики Ʌ-кривых, совмещённые с моментом окончания рекламы (см. рис. 5 и
6), дают наглядное представление о резком всплеске интенсивности визитов
после момента окончания рекламы. Начало каждой Ʌi-кривой практически
совпадает с моментом окончания рекламы соответствующего телеканала (см.
пунктиры на рис. 5).
Отметим, что гистограммы строятся численным методом с помощью формулы
для расчёта производной F`t(t) ≈ ΔF(t)/Δt. Однако чем меньше значение Δt (см
рис. 5 и 6), тем произвольнее скачки производной F`t(t); чем больше
приращение Δt, тем нагляднее представляются изучаемые всплески, но и тем
больше «растягиваются» Ʌi-кривые.
15
Рис. 6. Графики сглаженной дифференциальной функции плотности
распределения визитов (в укрупнённом масштабе) - первой производной
кумулятивной функции частот распределения визитов:
t – время суток, ч; F`(t) – среднее (за период времени Δt) количество визитов в секунду;
пунктиры – моменты ti окончания телерекламы на двух ТВ-каналах – А и В; производные
F`(t) ≈ ΔF(t)/Δt (с-1) построены при различных значениях приращения Δt (с) для численного
определения; номера 1, …, 5 соответствуют значениям Δt  (30, 60, 120, 180, 240) с.
Этого недостатка лишены кумулятивные функции частот, построение которых
(рис. 7) не связано с необходимостью делить время суток на интервалы Δt для
вычисления производной [4, с. 249]. Максимальное значение кумулятивной
функции частот равно количеству N визитов, накопленных за сутки. Таким
образом, Ʌi-кривые приемлемы для наглядного представления о резком
всплеске интенсивности визитов после момента окончания рекламы ti, но для
адекватного
измерения
индикатора быстрой реакции
удобнее
использовать fi-кривые на кумулятивной функции частот F(t).
Периоды времени Тαi, в течение которых наблюдаются i-тые fi-кривые о
которых можно сказать, что реакция пользователей на момент окончания
рекламы является быстрой, зависит не только от желания пользователей
немедленно обратиться на сайт интернет-магазина, но и от технических свойств
каналов связи, наличия и готовности аппаратуры связи, качества телевизионной
передачи, сопровождающей телерекламу и ряда других факторов. Возможно,
что пользователи пожелают сначала досмотреть понравившуюся им
телевизионную передачу, и только после этого осуществить визит в интернетмагазин. Поэтому названный период времени Тαi следует ограничить значением
Тα, визит после которого не относится к категории «быстрой реакции»
пользователей интернет-магазина на одну телереклама.
16
В первом приближении предельное значение Тα можно установить методом
экспертного оценивания [3, с. 730] (например, Тα = 300 с = 5 мин). Это означает,
что реакция пользователя интернет-магазина на телерекламу в период
времени, превышающий предельное значение Тα, уже не является
«быстрой». В дальнейшем значение Тα устанавливается расчётным путём как
верхний -предел Т [3, с. 73] эмпирической функции распределения величины
Т, где  – малая вероятность.
4. Измерение откликов
- Как измерить силушку богатырскую?
- Надо умножить массушку богатырскую на ускореньице богатырское!
Техническая подготовка двух временных рядов {хj} и {ti} [j = 1, 2, …, N; i = 1,
2, …, К; хj, ti  (0, 1, …, 86400), с] заключается в сведении их в одну N×2
матрицу (N строк и 2 столбца) {хj ti}, такую, что при хj ≠ ti вместо значения ti
ставится 0, а при хj ≈ ti ставится значение ti. Матрица {хj ti} используется для
построения кумулятивных функций частот, fi-кривых, измерения откликов индикатора быстрой реакции Ni и суточных визитов N.
Рис. 7. Кумулятивные функции частот распределения визитов сайта интернетмагазина:
t – время суток, мин; F – накопленное количество визитов к моменту t; семь кумулятивных
функций частот соответствуют семи суткам недели, начиная с понедельника (№ 1).
Аналитическое выражение FN(t) для кумулятивной функции частот можно
представить в виде кусочно-постоянной сплайн-функции [3, с. 215]:
FN(t) =  Nj1 I01(хj,t); I01(хj,t) = 0 при t < хj и I01(хj,t) = 1 при t ≥ хj; хj ≤ хj+1,
17
(1)
где I01(хj,t) – единичная ступенчатая функция; хj, ti  (0, 1, …, 86400) с.
Очевидно, что FN(t) = 0 при t < х1 и максимальное значение кумулятивной
функции частот F(t) (при t = 86400 с) равно количеству суточных визитов N, т.
е. FN(t) = N при t ≥ хN (N >> 1).
Рассмотрим сначала косвенные, а затем и прямой методы измерения
значений индикатора быстрой реакции для одиночных телереклам и
соответствующих моментов окончания рекламы ti (см. п. 1).
4.1. Методы косвенного измерения индикатора быстрой реакции
пользователей
Все так быстро меняется к лучшему, что радоваться не успеваешь!
Метод косвенного измерения заключается в статистическом оценивании
интерпретируемых параметров формул, описывающих наблюдаемый процесс.
В нашем случае такой метод сводится к расчёту оценки Ni индикатора
быстрой реакции как одного из параметров fi-кривой.
Оценку Ni индикатора быстрой реакции принято определять из следующих
соображений. Допустим, в короткий период времени Тα до момента ti
окончания рекламы (от ti – Тα до ti) наблюдается некоторый средний темп f1i(t)
накопления количества визитов fдi(t) = F`i(t) ≈ ΔFi(t)/Δt, где Δt и ΔFi –
приращения аргумента t, с и соответствующей функции Fi(t). Если бы в момент
окончания рекламы ti отсутствовала телереклама, то можно было бы допустить,
что темп роста визитов fiд(t) сохранился бы прежним, и количество визитов
Nдi = Тαfдi(t) за период времени Тα до момента ti окончания рекламы и тот же
период времени Тα после момента ti окончания рекламы были бы равными.
Однако в короткий период времени Тα после момента ti окончания рекламы (от
ti до ti + Тα) обычно наблюдается существенное возрастание темпа роста
визитов fнi(t) = fдi(t) + Δfi(t), а после момента ti + Тα темп роста визитов
возвращается на прежний уровень fдi(t). За период времени Тα после момента ti
окончания рекламы количество визитов Nнi = Тαfнi(t) превысит прежнее
количество визитов Nдi на величину индикатора быстрой реакции Ni = Nнi – Nдi.
Накапливаемая сумма визитов (кумулятивная функция частот) - неубывающая
эмпирическая функция FN(t) (1) (см. рис. 7), вдоль которой имеются плавные
скачки, начинающиеся от моментов ti окончания рекламы (см. в крупном
масштабе рис. 8).
Допускаем, что пока момента окончания рекламы ti нет, кумулятивная функция
частот плавно растёт (с небольшим шумом) до некоего i-го момента окончания
рекламы ti. Затем в момент ti (на рис. 8 ti = 5000 с) кумулятивная функция
частот резко «подскакивает».
Далее допускаем, что, к моменту t*i (на рис. 8 t*i = 5120 с) кумулятивная
функция частот «успокаивается» и продолжает вновь «спокойно» расти до
следующего момента ti+1, когда появляется следующий i+1-й момент окончания
рекламы ti+1.
18
Резкий «подскок» кумулятивной функции частот (1) на величину Ni от момента
ti до момента t*i похож на букву (f), и поэтому назван кратко «f-кривой», а само
значение величины Ni является индикатором быстрой реакции – одним из
параметров fi-кривой.
Другой параметр fi-кривой - период времени Тαi, в течение которого она
«существует», равен Тαi = t*i - ti.
Допускаем, что fi-кривую (см. рис. 8) на кумулятивной функции частот (см.
рис. 7) на области действия, то есть, на интервале t  (ti - Тα, ti + Тα); ti - Тα ≥ t*i-1;
ti + Тα ≤ ti+1; (Тα ≥ Тαi) можно аппроксимировать уравнением кривой,
проходящим через точку (Fi, ti). Эту кривую аппроксимируем суммой двух
слагаемых: прямой Fi + bi(t - ti) и fi-кривой S(t, ti), начинающейся в точке (ti, Fi):
FN(t, ti) = Fi + bi(t - ti) + NiS(t, ti); i  (1, 2, …, К); bi ≥ 0,
(2)
где bi, Ni – интерпретируемые эмпирические коэффициенты, причём
индикатор быстрой реакции Ni – это приращение количества визитов,
вызванных телевизионной рекламой в момент окончания рекламы ti; К – количество моментов окончания
рекламы в сутках.
Прямая
Fi + bi(t - ti)
используется
для
аппроксимации
i-того
фрагмента (2) кумулятивной
функции частот (1) в
допущении о том, что,
якобы, не было fi-кривой на
участке 2Тα в промежутке от
момента ti - Тα до момента
ti + Тα, и поэтому bi ≥ 0.
Таким образом, допускаем,
что fi-кривая NiS(t, ti) как бы
«поднимается» над прямой
Fi + bi(t - ti), начиная с
момента
ti
окончания
Рис. 8. Аппроксимация fi-кривой:
t – время суток, с; F – накопленное количество
рекламы.
визитов после момента окончания рекламы ti = 5000 с;
Заметим, что fi -кривая NiS(t,
1 – наблюдаемая fi-кривая; 2 – аппроксимация
t i)
может
также
и
Вейбулла (2) и (3); 3 – кусочно-линейная
«опускаться» под прямую
аппроксимация (7); Ni – индикатор быстрой реакции.
Fi + bi(t - ti), начиная с
момента ti окончания рекламы; в таком случае получится, что индикатор
быстрой реакции Ni < 0 (см. рис. 3).
19
4.1.1. Метод аппроксимации формулой Вейбулла
«Ключ ясных формул к жизни не подобран, но как ни бейтесь с
формулами вы, мир будет завтра праздничным и добрым, и
совершенным с ног до головы!».
(П. Антокольский).
Допускаем, что в качестве эмпирической аппроксимации S(t, ti) подойдёт
простое уравнение функции распределения [область значений S(•)  (0, 1)] с
интерпретируемыми коэффициентами. Этим условиям лучше многих
удовлетворяет формула Вейбулла [5]:
S(t, ti) = 0, если t < ti и S(t, ti) = 1 – exp{-[(t – ti)/qi]ci}, если t ≥ ti; qi > 0; ci > 0, (3)
где ti, qi и ci - параметры положения, масштаба и формы, соответственно.
Параметр положения ti известен (поэтому формуле Вейбулла и отдано
предпочтение). Параметры qi и ci входят в функцию (3) нелинейно, поэтому их,
совместно с коэффициентами bi и Ni функции (2), придётся определять методом
нелинейного оценивания [8] по значениям точек {(хj Fj)} на области действия
t  (ti - Тα, ti + Тα).
Заметим, что при ci = 1 распределение (3) становится экспоненциальным (со
сдвигом ti), и тогда fi-кривая резко возрастает в точке ti + ε (имеет
максимальную производную в точке ti + ε, где ε – малая величина). Когда же
коэффициент ci ≠ 1, fi-кривая возрастает от точки ti + ε (при t > ti) плавно, а
максимум производной S`(t, ti) смещается в область (ti ≤ t ≤ ti + Тα).
Найдём с помощью формулы (3) период времени Тαi, задав малую вероятность
α1, как это «общепринято» [12-19], α1 = 0,05. Тогда: 1 - 0,05 = 1 – exp{[(Т0,05i)/qi]ci}, откуда
Т0,05i ≈ qi31/сi = qi ci 3 , причём qi ci 3 ≤ Тα.
(4)
Для графического представления Ʌi-кривой (рис. 9) на участке t  (ti, ti + Тα)
Реализация итерационного метода нелинейного оценивания параметров
функций (2) и (3) сложна и при очень больших зачениях чисел N и К (N > 107 и
К > 103) требует заметно большого машинного времени для расчётов. Проще и
быстрее пользоваться методом линейного оценивания. Поскольку конечной
целью измерения является, всё же, значения индикатора быстрой реакции
Ni, а – не значения коэффициентов qi и ci в функции Вейбулла (3) и периода
времени Тαi продолжительности fi-кривой, то для этого, возможно, придётся
пожертвовать оцениванием параметров qi, ci и Тαi (если стандартное отклонение
случайной компоненты погрешности индикатора быстрой реакции не возрастёт
значимо).
можно воспользоваться первой производной аппроксимации i-того фрагмента
кумулятивной функции частот - (2) и (3):
[FN(t, ti)]`t = b1 + (ci/qi)[(t-ti)/qi]ci-1exp{-[(t - ti)/qi]ci}.
20
(5)
Рис. 9. График Ʌi-кривой - первой производной (5) фрагмента
кумулятивной функции частот распределения визитов (см. рис. 8):
t – время суток, с; F`(t) – интенсивность визитов (с-1).
Рассмотрим два более простых и быстрых метода аппроксимации fi-кривой.
4.1.2. Метод аппроксимации формулой Вейбулла с постоянными
коэффициентами
Следуя нашему уникальному методу, вы без
посторонней помощи за месяц изучите родной язык,
всего по полчаса в день разглядывая его в зеркале.
Метод аппроксимации формулой Вейбулла с постоянными коэффициентами
заключается в замене оценок параметров масштаба qi и формы ci в функции
S(t, ti) Вейбулла (3) их медианными значениями, «характерными» для данного
класса f-кривых. Для этого необходимо из большого массива исходных
данных {хj} и {ti} [j = 1, 2, …, N; i = 1, 2, …, К; хj, ti  (0, 1, …, 86400), с] (когда
К > 103) получить небольшую случайную выборку (30 < К < 100), методом
нелинейного оценивания вычислить значения оценок коэффициентов qi и ci,
затем посчитать их медианные значения (Ме{qi} и Ме{ci}) и подставить их в
функцию S(t, ti) Вейбулла (3). Предельную величину Тα можно оценить с
помощью эмпирической функции распределения периодов времени Тαi (см.
рис. 3).
21
4.1.3. Метод кусочно-линейной аппроксимации
Работа по методу Робинзона: ждать пятницы!
Метод кусочно-линейной аппроксимации связан с заменой функции S(t, ti)
Вейбулла (3) в формуле (2) на ступенчатую функцию
I01(t, ti + Тαi/2) = 0 при t < ti + Тαi/2 и I01(t, ti + Тαi/2) = 1 при t > ti + Тαi/2.
(6)
Заменяя в формуле (6) значения Тαi оценкой предельной величины Тα (см. п.
4.1.2.), получим линейную относительно параметров bi и Ni функцию
FN(t, ti) = Fi + bi(t - ti) + NiI01(t, ti + Тα/2); t  (ti - Тα, ti + Тα); i  (2, …, К-1). (7)
Формула (7) основана на допущении о том, что кумулятивная функция частот
может быть аппроксимирована кусочно-линейной функцией на временном
диапазоне в 3Тα: Тα секунд – до одиночного момента окончания рекламы ti и
2Тα секунд – после момента окончания рекламы. Для оценивания параметров
bi и Ni используются точки (Fj, хj) на заведомо линейных участках области
действия с двух сторон от момента окончания одиночной рекламы ti, с
абсциссами хj в пределах хj  (ti – Тα, ti) и хj  (ti + Тα, ti + 2Тα). Точки с
абсциссами хj в пределах хj  (ti, ti + Тα) в расчёт не включаются по той
причине, что нелинейный процесс на этом интервале внесёт систематическую
погрешность в расчёт коэффициентов bi и Ni.
Теперь для расчёта коэффициентов bi и Ni можно пользоваться более простым
методом линейного оценивания, а fi-кривая будет аппроксимирована кусочнолинейной функцией с разрывом непрерывности первого рода, равным
индикатору быстрой реакции Ni (см. рис. 8).
Если для расчёта коэффициента bi прямой Fi + bi(t - ti) использовать точки
(Fj, хj) с обеих сторон от момента окончания рекламы ti - слева хj  (ti – Тα, ti) и
справа хj  (ti + Тα, ti + 2Тα), то область действия формулы (7) получается
существенно растянутой. При решении проблемы близости моментов
окончания реклам (см. п. 5.) полезно сокращать область действия формулы
(7). Если использовать точки (Fj, хj) только с одной стороны (слева или справа
от момента окончания рекламы ti), то её фрагмент на области с
противоположной стороны (справа или слева от момента окончания рекламы ti)
будет
построен
с
погрешностью,
определяемой
соответствующей
экстраполяцией.
4.2. Метод прямого измерения индикатора быстрой реакции пользователей
«Мы эту проблему решили в кругу ограниченных людей». (А. Лукашенко)
В расчёте индикатора быстрой реакции по формуле Ni = Nнi – Nвi (см. п. 1)
возможное (прогнозируемое) количество Nвi визитов неизвестно. Принято
22
предполагать [1], что темп роста количества визитов при отсутствии
телерекламы в течение короткого периода времени 2Тα на любом k-том
участке кумулятивной функции частот (tk - Тα, tk + Тα) в окрестности любой
точки tk [tk  (0 + Тα, …, 86400 - Тα) с] постоянный [то есть, в уравнении
прямой Fk + bk(t - tk) в формуле (2) значение коэффициента bk = const]. Тогда
допустимо приравнять (с некоторой погрешностью) неизвестное возможное
количество Nвi визитов тому количеству Nдi визитов, которое произошло за
короткий период времени Тα до момента окончания рекламы ti: Nвi ≈ Nдi. Это
позволяет осуществлять прямое измерение индикатора быстрой реакции Ni
непосредственным расчётом разности
Ni = Nнi - Nдi.
(8)
Формула (8) лежит в основе известного метода прямого измерения [1]. К
сожалению, измерение каждого период времени Тαi производить «не
принято»; его определяют всего один раз по грубо оцененной
продолжительности Ʌ-кривых (см. рис. 6), и считают постоянным. В таких
условиях метод прямого измерения становится не адекватным [10]:
стандартное отклонение случайной компоненты погрешности индикатора
быстрой реакции значимо превышает даже стандартное отклонение
естественного «шума». Этот недостаток метода прямого измерения нельзя
исправить, даже заменив значения Тαi оценкой их предельного значения Тα,
которое можно определить по малой выборке методом аппроксимации
формулой Вейбулла (см. п. 4.1.2.).
При решении проблемы близости моментов окончания реклам (см. п. 5.)
полезно сокращать область действия формулы (8). Допускаем, что
интенсивность визитов на интервале хj  (ti – Тα, ti) - постоянная. Тогда
фрагмент (ti – Тα, ti) области действия формулы (8) можно сократить в k раз
(k ≥ 1) до величины (ti – Тα/k, ti), а количество визитов на сокращённом
интервале, при его сравнении с количеством визитов на интервале
хj  (ti, ti + Тα), умножить на k. В результате измерения значений кумулятивной
функции частот (1) F(ti - Тα/k) за время Тα/k до момента окончания рекламы ti и
F(ti + Тα) через время Тα после момента окончания рекламы, имеем
Nнi = [(F(ti + Тα) - F(ti)] и Nдi = k[F(ti) - F(ti – Тα/k)]. Теперь, по формуле (8):
Ni = F(ti + Тα) + kF(ti – Тα/k) – (1 + k)F(ti).
(9)
4.3. Качество методов измерения индикатора быстрой реакции пользователей
Все меньше глупостей мы делаем с годами, но зато качество их растёт.
Рассмотренные выше методы измерения значений индикатора быстрой реакции
пользователей различаются принятыми допущениями, принципами измерения,
сложностью вычислений, областями действия (табл. 1) и показателями
погрешности.
23
Для расчёта коэффициентов bi и Ni по формуле (7) на области «точки слева
от момента окончания рекламы ti» берутся точки с координатами (Fj, хj) на
области (ti – Тα, ti) и только одна точка (Fj, хj) со значением аргумента хj в
окрестности точки (ti + Тα); для области «точки справа от момента окончания
Таблица 1. Области действия методов измерения индикатора быстрой
реакции пользователей.
Метод измерения
Аппроксимации формулой Вейбулла (АФВ)
с обеих сторон от момента ti
Точки
слева от момента окончания рекламы ti
КЛА
справа от момента окончания рекламы ti
Прямого измерения (ПИ) по формуле (9)
Границы области действия
от
до
от
до
ti – Тα
ti + Тα
ti – Тα
ti
ti + Тα
ti + 2Тα
ti – Тα
ti
ti + Тα
ti
ti + Тα
ti + 2Тα
ti – Тα/k
ti + Тα
рекламы ti» берётся только одна точка (Fj, хj) со значением аргумента хj в
окрестности точки ti и точки с координатами (Fj, хj) на области (ti + Тα, ti + 2Тα).
В тестовых измерениях необходимо добиваться минимальных значений
частных критериев качества методов измерения индикатора быстрой реакции –
сложности и времени вычислений, размера выбираемой области действия
метода и значения стандартного отклонения случайной компоненты
погрешности при сохранении адекватности метода измерения.
Область действия метода аппроксимации формулой Вейбулла [(см. формулы
(2) и (3)] состоит из двух частей (см. табл. 1) – до момента окончания рекламы
ti: t  (ti - Тα, ti) и после момента окончания рекламы ti: t  (ti, ti + Тα).
Имитационный эксперимент показал (см. ниже п. 5), что при небходимости
сокращения области действия её фрагмент t  (ti - Тα, ti) можно сократить до
нуля.
Метод кусочно-линейной аппроксимации (КЛА) описывает поведение части
кумулятивной функции частот по формуле (7) с использованием значений
визитов {хj} на области действия: с обеих сторон от момента окончания
рекламы, t  (ti – Тα, ti)∩(ti + Тα, ti + 2Тα) или - слева от момента окончания
рекламы, t  (ti – Тα, ti)∩(ti + Тα), или - справа от момента окончания рекламы,
t  (ti)∩(ti + Тα, ti + 2Тα).
Область действия метода прямого измерения, согласно формуле (9), можно
уменьшать с помощью масштабного коэффициента k (k≥1): t  (ti–Тα/k, ti+Тα).
Будем рассматривать два компонента погрешности измерения –
систематический и случайный, мерами которых примем медиану
систематической компоненты погрешности и стандартное отклонение
случайной компоненты погрешности (см. п. 1).
24
Чтобы оценить компоненты погрешности измерения какого-то параметра
физического свойства необходимо знать его точное значение. Точное значение
реальной величины индикатора быстрой реакции получить невозможно.
Однако оценить компоненты погрешности измерения, всё же, можно методом
имитационного моделирования. Для этого необходимо имитировать точные
значения величины индикатора быстрой реакции на кумулятивной функции
частот, затем «забыть» о механизме имитации и попытаться измерить
имитированные значения описанными выше методами.
Проблем при обнаружении значимой медианы систематической компоненты
погрешности не будет, потому что при её обнаружении в тестовых
измерениях, её значение можно просто вычитать из результата измерения.
Сначала оценим компоненты погрешности в «идеальном» случае отсутствия
шума.
4.3.1. Оценка индикатора быстрой реакции пользователей на
имитированную телевизионную рекламу на имитированном фоне
Мысль приводит мозг в состояние оргазма: те, кто способен его испытать,
получают истинное наслаждение, остальным приходится имитировать.
Примем в качестве имитированного фона Fф(t, ti) стабильную (три визита в
секунду и без случайных помех) кумулятивную функцию частот,
аппроксимируемую прямой, проходящей через точку (ti, 0):
Fф(t, ti) = 3(t - ti); i = 0.
(10)
Теперь попытаемся оценить в первом приближении параметры распределения
реальных f-кривых, которые предстот имитировать. Поэтому оценим реальные
параметры эмпирической функции распределения индикатора быстрой реакции
приближённым методом (см. рис. 3). Для этого приняли максимальный период
времени Тα = 180 с, и по 1776-ти реальным f-кривым (для телерекламы
одежды) с помощью формулы (8) получили характеристики эмпирической
функции распределения значений индикатора быстрой реакции (табл. 2); всего
два выброса: минимум – (-1403) и максимум - (+2207) из эмпирической
функции распределения исключили.
Таблица 2. Эмпирическая функция распределения индикатора быстрой реакции*
Процентили и квантили (верхняя и нижняя строки, соответственно)
1
2
4
5 10 20 25 30 40 50 60 70 75 80 90 95 96 98 99
-233 -169 -111 -104 -66 -22 -7 7 32 57 84 114 131 154 227 324 347 461 581
*
Среднее - 74 визита; медиана - 57 визитов; стандартное отклонение - 155 визитов.
Распределение индикатора быстрой реакции пользователей (см. табл. 2)
аппроксимировали (рис. 10) нормальной кривой с параметрами – центром – 74
25
визита и стандартным отклонением - 155 визитов. Из табл. 2 и рис. 10 видно,
что fi-кривые
Рис. 10 Распределение индикатора быстрой реакции пользователей,
следующей за рекламой одежды в течение трёх минут после момента
окончания рекламы по результатам 1776-ти замеров:
ось абсцисс – количество визитов; ось ординат – частость, %.
не всегда характеризуют возрастание значений Ni индикатора быстрой
реакции пользователей интернет-магазина: около 27% значений Ni отрицательные, и около 73% - положительные.
Одна из причин отрицательных значений индикатора быстрой реакции Ni –
наличие флуктуации визитов, проявляющейся в том, что за короткое время
непосредственно перед моментом окончания рекламы может наблюдаться
небольшое спонтанное возрастание интенсивности визитов (спонтанная Ʌкривая). Изучение роли других факторов, вызывающих изменение значения
величины индикатора быстрой реакции как раз и является задачей
статистических маркетинговых исследований.
Наиболее точные оценки параметров компонент погрешностей могут быть
получены при имитации большого количества Ni значений индикатора быстрой
реакции. Поэтому на имитированный стабильный фон (10) после момента
окончания рекламы ti = 5000 с наложим Ni = 480 визитов, распределённых по
нормальному закону, имитируемому методом Монте-Карло.
Модули имитации нормального закона распределения имеется во многих
пакетах программного обеспечения прикладной статистики. Воспользуемся для
примера простейшим алгоритмом [4, с. 224 и 264]. Для этого сначала
генерируем равномерно распределенные на интервале (0; 1) числа р j, затем с
26
помощью аппроксимации Сливняка [4, с. 87] обратной функции нормального
распределения
zj = l,94{-lg[4рj(1- рj)]}0,5×U(рj); U(рj) = (0,5 - рj)/|0,5 - рj|;
j = 1, 2, …, Ni; рj ≠ 0,5,
(11)
где U(рj) - знаковая функция, вычисляем элементы хj, «нормальной» выборки
{хj}: хj = (tсi + ti) + σ izj, j = 1, 2, …, Ni,
(12)
где tсi + ti и σ i - параметры положения (центр) и масштаба (стандартное
отклонение) i-той fi-кривой, соответственно. Зададим tсi = 60 с и σ i = 20 с.
Складывая сгенерированные по формулам (11) и (12) значения хj с
вычисленными по формуле (10) фоновыми значениями Fф(t, хj) = 3(хj - ti),
получаем «бесшумный» имитированный фрагмент кумулятивной функции
частот (см. на рис. 8 «наблюдаемую» fi-кривую).
Теперь «забудем» о механизме имитации кумулятивной функции частот и
попытаемся измерить значения величины индикатора быстрой реакции Ni
описанными выше методами.
Метод аппроксимации формулой Вейбулла
Итерационным методом нелинейного оценивания [8]
коэффициенты формул (2) и (3):
FN(t, 5000) = 3(t - 5000) + 478(1 – exp{-[(t – 5000)/57,35]3,28}).
получили
(13)
Абсолютная погрешность расчёта отклика ΔNi = Ni - Nоi = 480 – 478 = 2 визита
(0,4%), где Ni и Nоi – имитированное и измеренное количества визитов
соответственно.
Графики этой и имитированной fi-кривых практически совпадают (см. рис. 8).
Период времени Т0,05i продолжительности fi-кривой получен по формуле (4):
Т0,05i ≈ qi31/сi = 57,35×31/3,28 = 57,35×30,3049 = 80 с.
График Ʌi-кривой (см. рис. 9) получен путём табулирования функции (5) в виде
[FN(t, 5000)]`t = 3 + (3,28/57,35)[(t-5000)/57,35] 3,28-1exp{-[(t - 5000)/57,35]3,28} с
коэффициентами, взятыми из формулы (13).
Метод кусочно-линейной аппроксимации
Методом линейного оценивания [6] получили коэффициенты формулы (7):
FN(t, 5000) = 3(t - 5000) + 478I01(t, 5000 + 120).
(14)
Относительная погрешность расчёта - 0,4%; график этой функции см. на рис. 8.
27
Метод прямого измерения
Для расчёта количества Ni по формуле (9) найдём значение кумулятивной
функции частот за Тα = 300 с до момента окончания рекламы по формуле (10):
F(ti – Тα) = -900 визитов; через Тα = 300 с после момента окончания рекламы
F(ti + Тα) = 1380 визитов. Получим по формуле (9) точно Ni = 480 визитов.
4.3.2. Оценка количества имитированных значений индикатора быстрой
реакции пользователей после имитированных реклам на реальном фоне
Иногда полезно имитировать крушение
корабля, чтобы с него сбежали крысы.
Реальные кумулятивные функции частот могут существенно различаться в
зависимости от многих факторов, и, в частности, - от вида рекламы и названия
интернет-магазина. В наше исследование приняты два вида рекламы двух
разных интернет-магазинов: рекламы одежды и рекламы электронных
приборов. Подробно будут описаны только этапы расчётов индикатора
быстрой реакции на рекламу одежды (табл. 3).
Таблица 3. Обработка результатов измерения методом аппроксимации
формулой Вейбулла значений индикатора быстрой реакции Nk пользователей
на имитированные моменты окончания рекламы tk (реклама одежды).
ТВi, k канал
МОР, ч
Реал. ti
tk/100
*
Им. tk (с) Fф(t, tk)
Параметры формул (2) и (3)
Погрешности
Tαk
Nk
qk
ck
bk
ΔNk δNk |δNk|
1
S1
08:30:47
08:45
27
14778
119
582
69,5
2,57
6,05
18
34
34
2
P7
08:32:19
09:45
63
41355
118
614
70,1
2,68
7,79
-14
2
2
3
S1
14:13:15
10:45
99
73669
118
631
70,4
2,69
9,31
-31
-15
15
4
S1
16:17:38
11:45
135
110471
115
651
73,1
3,03
10,25 -51
-36
36
5
P7
16:22:08
12:45
171
147528
118
604
72,9
2,89
10,13
-4
12
12
6
K1
17:17:24
13:45
207
186587
128
619
72,4
2,42
11,24 -19
-4
4
7
P7
17:15:30
14:45
243
228514
112
568
67,1
2,69
11,99
32
47
47
8
S1
18:27:46
15:45
279
271850
130
683
73,4
2,42
12,28 -83
-68
68
9
S1
18:56:23
16:45
315
319504
150
834
79,8
2,19
12,70 -234 -219
219
10
P7
20:55:07
17:45
351
371045
109
615
68,4
2,99
14,45 -15
0
0
11
K1
20:57:27
18:40
384
417856
119
602
73,0
2,85
13,67
-2
13
13
12
V
21:50:41
19:45
423
469467
128
636
74,0
2,53
13,29 -36
-20
20
13
S1
22:11:21
20:40
456
507995
124
725
71,9
2,52
10,79 -125 -110
110
14
K1
22:32:37
21:35
489
545573
109
531
69,3
3,04
10,46
69
84
84
15
K1
22:56:12
22:45
531
587106
112
604
68,7
2,82
8,22
-4
12
12
*
Имитированный момент окончания рекламы (МОР) tk (с) отсчитан от времени суток t = 8 ч
(например, tk = 27×100 с = 45 мин от 8-ми часов); δNk = ΔNk – M.
28
Рассмотрим реальную кумулятивную функцию частот (реклама одежды). В
качестве реального фона Fф(t) для нашей имитации выберем фрагменты этой
функции, свободные от реальных моментов окончания рекламы ti (см.,
например, рис. 11). На этом фоне будем имитировать моменты tk окончания
рекламы и параметры fk-кривых. Затем будем пытаться оценивать эти
параметры описанными выше методами, сравнивая их по величине компонент
погрешностей. Поскольку реальные fi-кривые, следующие за реальными
рекламными импульсами (см. столбец «Реал. ti» в табл. 3), продолжались не
дольше Тα = 300 с, то в промежутки времени между моментами окончания
рекламы ti + 300 с и моментом окончания рекламы ti+1 - 300 с были вставлены
имитируемые рекламные импульсы tk (см. столбец «Им. tk» в табл. 3) и
следующие за ними fk-кривые, имитируемые, как и прежде, методом МонтеКарло с помощью обратной функции нормального распределения (11).
Теперь задали Nk = 600 визитов, tсk = 60 с и σ k = 20 с. Складывая
сгенерированные по формулам (11) и (12) значения хj с наблюдаемыми
реальными фоновыми значениями Fф(t, хj) (см. рис. 11), «наложили»
имитированную fk-кривую на реальный фон (рис. 12). Далее опять «забыли»
о механизме имитации кумулятивной функции частот и попытались измерить
значения индикатора быстрой реакции Nk описанными выше методами.
Статистическая обработка
результатов
имитационного
моделирования
выполнена в следующей
последовательности.
Рис. 11. Фрагмент реального фона –
кумулятивной функции частот распределения
визитов на сайт интернет-магазина за один день:
t – время суток, с; F – накопленное (со средней
интенсивностью 13,3 с-1) количество визитов;
1 - фрагмент кумулятивной функции частот;
2 – прямолинейная аппроксимация (2) кумулятивной
функции частот при bi = 13,3 с-1 и индикатора быстрой
реакции Ni = 0 визитам.
значения погрешности расчёта каждого отклика
для расчёта устойчивых (к выбросам)
29
Метод аппроксимации
формулой Вейбулла
Значения
моментов
окончания рекламы tk были
искусственно заданы (см.
столбец «Им. tk» в табл. 3),
а коэффициенты, Nk, qk, ck
и bk формул (2) и (3)
получали
методом
нелинейного оценивания
[8]; период времени Tαk
продолжительности
fkкривых
вычисляли
по
формуле (4). Абсолютные
ΔNk = 600 - Nk использованы
статистических оценок
компонентов погрешности измерения – медианы систематической
компоненты погрешности МΔN и медианного стандартного
Рис. 12. Аппроксимация одной имитированной fk-кривой, наложенной на
реальный фон:
t – время суток, с; F – накопленное количество визитов после момента окончания рекламы
ti = 5000 с; 1 - имитируемая кумулятивная функция частот; 2 - аппроксимация (2) и (3).
отклонения SΔN случайной погрешности по формулам [6]:
МΔN = Ме{ΔNk};
(15)
SΔN = 1,482Ме{|ΔNk-МΔN}|},
(16)
где k = 1, 2, …, 15; Ме{•} – оператор «медиана». По данным табл. 3,
формулам (15) и (16) нашли оценку медианы систематической
компоненты погрешности МΔN = Ме{ΔNk} = -15 визитов; Ме{|ΔNk МΔN}|} = 20; SΔN = 1,482×20 = 30 визитов с 14-ю числами степеней свободы.
Гипотезу Н0 о равенстве нулю медианы систематической компоненты
погрешности проверили с помощью критерия Стьюдента [3, с. 96].
Приняли критическое значение Эк0 = 50% [см. п. 2.3]. Получили большой
уровень значимости α 0 = 0,1 (t α/2 = |-5×15 0.5 /30| = 1,94) [3, с. 91] и,
соответственно, по формуле (b) Э0 = 58%. Поэтому эту гипотезу не отклонили
с большим уровнем экспертной ответственности за вывод (Э0 = 58%).
Распределения случайной компоненты погрешности прямого измерения
количества Nk значений индикатора быстрой реакции (кривые 1 на рис. 13)
позволяют проверять гипотезы о незначимом отличии их количества от нуля.
Для этого построим приближённый 90-процентный довери-тельный
интервал: Р(|Nk| ≤ 1,8SΔN) = 90%.
30
Для рекламы одежды при стандартном отклонении SΔN = 30 визитов
получим, что оценка значения величины индикатора быстрой реакции Nk от
нуля отличается незначимо в пределах |Nk| ≤ 54 визита.
a
b
Рис. 13. Распределения случайной компоненты погрешности (кривые 1)
метода прямого измерения (ПИ) значений величины индикатора быстрой
реакции (ИБР) пользователей на фоне распределений (кривые 2) самих
значений ИБР после телерекламы:
a - по результатам ПИ 1776-ти замеров рекламы одежды; b - по результатам 21-го
косвенного измерения методом Вейбулла в течение одного дня для рекламы
электронных приборов; N – количество визитов; Р – частость,%.
Для рекламы электронных приборов при стандартном отклонении SΔN = 53
визита получим, что оценка значения величины индикатора быстрой реакции
Nk от нуля отличается незначимо в пределах |Nk| ≤ 95 визитов. Эти же
доверительные
интервалы могут использоваться для построения
интервальной оценки любого результата измерения величины Nk. Например,
пусть получили оценку Nk = 300±54 визита (реклама одежды). Это означает, что
с вероятностью 90% «истинное» значение этой величины лежит в пределах от
300 – 54 = 246 до 300 + 54 = 354 визита.
Метод кусочно-линейной аппроксимации
По имитированным данным методом линейного оценивания получили
коэффициенты формулы (7); стандартное отклонение случайной
компоненты погрешности SΔN = 90 визитов; медиана систематической
компоненты погрешности (Ме{ΔNk} = 4 визита) незначимо отлична от нуля.
Метод прямого измерения
По формуле (9) при значениях k = 1 и Тα = 300 с получили стандартное
отклонение случайной компоненты погрешности SΔN = 132 визита; медиана
систематической компоненты погрешности (Ме{ΔNk} = 7 визитов) незначимо
отлична от нуля.
31
4.4. Оценка влияния флуктуаций реального фона (шума) на погрешность
методов измерения индикатора быстрой реакции пользователей
«Влияние сезонных условий на процесс учета птенцов отряда куриных»
(Цыплят по осени считают).
Источниками погрешности измерения значений величины индикатора
быстрой реакции в отсутствии рекламы являются допущения самого
метода измерения и флуктуации реального фона. Если после
имитируемых моментов окончания рекламы не добавлять имитируемые
быстрые визиты, то значения величин индикатора быстрой реакции будут
равными нулю. Тестируемый метод измерения даёт, конечно, некоторые
небольшие значения, отличные от нулевых (табл. 4). Обобщение этих
значений в форме оценок систематической и случайной компонент
(см. колонки «фон» в табл. 4) допустимо считать характеристиками
влияния флуктуаций реального фона на погрешность метода
измерения значений индикатора быстрой реакции.
4.5. Оценка реальных значений величины индикатора быстрой реакции
пользователей после реальной телевизионной рекламы на реальном фоне
Достаточно поддаться иллюзии, чтобы почувствовать реальные последствия.
Исследование оценок компонент погрешности измерения значений индикатора
быстрой реакции в обстановке, приближённой к реальной, на имитированных
данных показало, что стандартные отклонения случайных компонент
погрешностей измерения значений индикатора быстрой реакции методами
Таблица 4. Характеристики погрешности методов измерения значений
индикатора быстрой реакции пользователей.
Компоненты погрешности измерений*
реклама одежды
реклама электроники
Область действия
фон
им. сигнал
фон
им. сигнал
МΔN SΔN МΔN SΔN МΔN SΔN МΔN SΔN
10
-12
21
4
87
57
111
53
t  (ti, ti + Тα)
АФВ
9
-13
20
6
85
37
109
41
t  (ti - Тα, ti + Тα)
АФВПК
10
21
-31
87
38
111
42
-27
t  (ti - Тα, ti + Тα)
4
214
91
90 -107 214 110
t  (ti - Тα, ti)∩(ti + Тα, ti + 2Тα) -1
КЛА
-11 88
13
-74
77
92
137
140
t  (ti – Тα, ti)∩(ti + Тα)
-26 230 27 237 -13
14
135
139
t  (ti)∩(ti + Тα, ti + 2Тα)
-5 123
7
132 -104 191 106
197
ПИ
t  (ti – Тα/k, ti + Тα); k = 1
*Обозначения: им. сигнал - имитированный сигнал: 600 визитов за период времени
Т α = 300 с; МΔN – медиана систематической компоненты погрешности измерения
значений индикатора быстрой реакции; SΔN - стандартное отклонение случайной
компоненты погрешности; значения медиан Ме{qi} ≈ 72 и Ме{ci} ≈ 2,7 в методе
Метод
измерения
32
аппроксимации формулой Вейбулла с постоянными коэффициентами определены по
15-ти значениям величин qi и ci из табл. 3.
аппроксимации формулой Вейбулла и аппроксимации формулой
Вейбулла с постоянными коэффициентами оказались значимо меньше
стандартных отклонений погрешностей остальных методов (см. табл. 4).
Предварительные расчёты показали, что ограничение qi ci 3 ≤ Тα (4) соблюсти «в
общем виде» невозможно: ограничения следует наложить на каждый параметр
формулы (3) - qi и ci - в отдельности. Для этого рассмотрели множество кривых
Вейбулла при различных значениях параметров: qi  (10; 50; 100; 150; 200; 250;
300) и ci  (0,1; 0,5; 1,2; 1,6; 2; 3; 4) (см., например рис. 14), и выбирали те
Рис. 14. Семейство кривых Вейбулла (3) при значениях параметра
положения ti = 0, параметра масштаба qi = 150 и параметров формы ci:
t – время, с; P – вероятность; 1, 2, ..., 8 – значения ci = 0,1; 0,5; 1; 1,2; 1,6; 2; 3; 4
соответственно.
кривые, которые были «похожи» на реально наблюдаемые f-кривые. Например,
кривые 3 - 8 (см. рис. 14), «быстро» подходящие к 1, можно использовать для
аппроксимации f-кривых, а кривые 1 и 2 использовать нельзя.
Это позволяет составить ограничения на параметры формулы (3) как снизу
(индекс минус «-»), так и сверху (индекс плюс «+»): qi- < qi < qi+; ci- ≤ ci < ci+ (в
нашем примере: 10 < qi < 170; 1,2 ≤ ci < 6). Распределение реальных значений
величины индикатора быстрой реакции пользователей после реальной рекламы
на реальном фоне (табл. 5) аппроксимированы нормальным законом.
Разброс значений приведенных характеристик - медиан МΔN и стандартных
отклонений SΔN иллюстрирует различие в погрешности измерений.
Принимать во внимание необходимо лишь характеристики МΔN и SΔN,
полученные наиболее адекватным методом аппроксимации формулой
Вейбулла.
33
Таблица 5. Характеристики распределения индикатора быстрой реакции.
Компоненты распределения индикатора
быстрой реакции*
ТР одежды
ТР электроники
МΔN
SΔN
МΔN
SΔN
АФВ
73
548
390
t  (ti - Тα, ti + Тα)
72
кусочно-ли139
153
428
636
t  (ti - Тα, ti)∩(ti + Тα, ti + 2Тα)
нейной аппро123
97
397
646
t  (ti – Тα, ti)∩(ti + Тα)
ксимации
t  (ti)∩(ti + Тα, ti + 2Тα)
172
177
497
514
ПИ
t  (ti – Тα/k, ti + Тα); k = 1
108
147
442
612
*Обозначения: АФВ – аппроксимации формулой Вейбулла; ПИ – прямых измерений; ТР
– телереклама; МΔN и SΔN – медиана и стандартное отклонение распределения
индикатора быстрой реакции пользователей.
Метод
измерения
Область действия
4.6. Проверка гипотез
Статистика – это наука, объясняющая исключения.
Априори были сформулированы нулевые гипотезы: «компоненты
погрешности измерения величины индикатора быстрой реакции после
имитированных рекламы на реальном фоне всеми методами (аппроксимации
формулой Вейбулла, аппроксимации формулой Вейбулла с постоянными
коэффициентами, кусочно-линейной аппроксимации и прямого измерения) не
различаются - как между собой, так и от компонент погрешности измерения
величины индикатора быстрой реакции реального фона». Альтернативные
гипотезы заключались в том, что «эти компоненты между собой различаются».
4.6.1. Проверка гипотез относительно случайных компонент
погрешности
«Случайности - это видимые части скрытого механизма судьбы».
(Ю. Татаркин).
Данные табл. 4 дают основание для того, чтобы попытаться выделить
гипотетически однородные группы минимальных значений стандартных
отклонений случайных компонент погрешности: для индикатора быстрой
реакции на рекламу одежды (группа 1) – (87, 85, 87, 91, 88, 57, 37, 38, 90, 92) и
для индикатора быстрой реакции на рекламу электроники (группа 2) – (111,
109, 111, 137, 135, 53, 41, 42, 140, 139).
Гипотезы об однородности выделенных групп стандартных отклонений s j
(точнее, дисперсий s 2j – квадратов стандартных отклонений) проверим с
помощью недавно предложенной (в 1984 г.) 9 статистики ФишераБонферрони [3, с. 98]. Для этого необходимо попарно сравнивать дисперсии
34
 i2 и  2j , 1  i  j  m m случайных величин. Статистики F-критерия Фишера-
Бонферрони имеют вид




Ffч , f з , 2L   max si2 , s 2j min si2 , s 2j ,
(17)
где si2 u s 2j - точечные оценки дисперсий  i2 и  2j ; fч и fз – числа степеней свободы
числителя и знаменателя F-отношения; fч = fi и fз = fj, если s i2  s 2j , или fч = fj и fз =
fi, если s i2  s 2j . Всего имеется L = cm2 = m(m – 1)/2 пар сочетаний из m дисперсий
s 2j по две и, следовательно, L гипотез о равенстве дисперсий Н0r: i2   2j (r = 1,
2, …, L) против L двустронних альтернативных гипотез о неравенстве
дисперсий Н1r: i2   2j .
Пусть 2αr - вероятность отклонить гипотезу Н0r, если она верна. Вероятность
принятия L независимых гипотез Н0r, если они верны, равна (1 - 2αr)L. Отсюда
вероятность отклонить одну из L гипотез Н0r, если все они верны, равна
α0r = 1 – (1 - 2αr)L.
(18)
Поскольку α0r - вероятность ошибочного отклонения гипотезы Н0r, если она
верна, и α0r > 0, то условие отклонения Н0r примет вид α0r < α0к, где α0к –
критический уровень значимости, задаваемый априори.
Настоящее исследование носит академический характер, и предпочтение
отдаётся нулевым гипотезам, поэтому примем критическое значение α0к с
невысоким уровнем ответственности за вывод [см. 2, с. 239 и п. 2.3] Эк0 = 30%.
Тогда α0к = 0,006.
Очевидно, что одну из статистик (17), а именно,
 
Ffч , f з , 2 L   max s 2j
 
min s 2j
(19)
логично использовать для проверки нулевой гипотезы о равенстве между собой
сразу всех дисперсий j2 (или однородности сразу всех оценок дисперсий s 2j ).
Согласно формуле (19), для группы 1 (реклама одежды) получим
F = (92/37) 2 = 6,18; fч = fз = 14; по номограмме распределения Фишера [3, с. 92]
нашли α ν = 0,002; число пар L = cm2 = (6×5)/2 = 15; по формуле (18): α0r = 1 – (1 2×0,002)15 = 0,06; по обратной формуле (b): Э0 = 52%. Поскольку
0,06 = α0r > α0к = 0,006, то гипотеза об однородности всех оценок дисперсий для
группы 1 не отклоняется с высоким уровнем ответственности за вывод:
Э0 = 52% > Эк0 = 30%. Это позволяет усреднить значения стандартных
отклонений группы 1 по формуле среднего взвешенного [3, с. 92]:
s 2  j1 f js 2j
m
35

m
f ,
j1 j
(20)
где fj – числа степеней свободы дисперсий s 2j ; s 2 - средневзвешенная дисперсия
с числом степеней свободы f   j1 f j . Получим стандартное отклонение s ≈ 80
m
визитов с числом степеней свободы 90.
Аналогично для группы 2 (реклама электроники) получим F = (140/41) 2 =
11,66; fч = fз = 20; по номограмме распределения Фишера [3, с. 92] нашли α 0ν =
10-5; число пар L = 15; по формуле (18): ̂ 0r = 1 – (1 - 2×10-5)15 = 0,0001.
Поскольку 0,0001 = ̂ 0r < α0к = 0,006, или, соответственно Э0 = 12% < Эк0 = 30%,
то гипотеза об однородности всех оценок дисперсий для группы 2 отклоняется.
Придётся выделить два малых стандартных отклонения 53 и 41 визит.
Средневзвешенное значение стандартного отклонения для подгруппы малых
стандартных отклонений s ≈ 47 визитов с числом степеней свободы 40. Тогда
оставшаяся подгруппа (111, 109, 111, 137, 135, 140, 139) группы 2 будет также
однородной: F = (140/109) 2 = 1,6; fч = fз = 20; по номограмме [3, с. 92]: α ν = 0,1;
15
̂ r = 1 – (1 - 2×0,1) = 0,96 > αк = 0,006, или, соответственно Э0 = 99% > Эк0 =
30%. Средневзвешенное значение стандартного отклонения для этой
подгруппы s ≈ 133 визита с числом степеней свободы 100.
Теперь остаётся только проверить группу гипотез о равенстве стандартных
отклонений случайных компонент погрешностей измерения значений
индикатора быстрой реакции после имитированных телереклам на реальном
фоне всеми методами (аппроксимации формулой Вейбулла, аппроксимации
формулой Вейбулла с постоянными коэффициентами, кусочно-линейной
аппроксимации и прямого измерения) и стандартного отклонения случайной
компоненты погрешности измерения величины индикатора быстрой реакции
реального фона.
Сравнивая колонки SΔN в табл. 4, видим, что большинство пар стандартных
отклонений в колонках SΔN для фона и имитированного сигнала статистически
неразличимы. Сомнения лишь вызывают две пары для метода аппроксимации
формулой Вейбулла с постоянными коэффициентами: (87, 38) (реклама
одежды) и (111, 42) (реклама электроники). Проверим незначимость этих
сомнительных разностей. Согласно формуле (19), получим F = (87/38) 2 = 5,2;
fч = fз = 14 (реклама одежды); по номограмме распределения Фишера [3, с. 92]
нашли α ν = 0,02. Поскольку 0,02 = α ν > αк = 0,006, или, соответственно,
Э0 = 40% > Эк0 = 30%, то гипотеза об однородности этих оценок дисперсий не
отклоняется.
Средневзвешенное значение стандартного отклонения для этой пары s ≈ 62
визита с числом степеней свободы 28.
Аналогично (реклама электроники): F = (111/42)2 = 7,0; fч = fз = 20; по
номограмме распределения Фишера [3, с. 92] - α ν = 0,0003. Поскольку
0,0003 = α ν < αк = 0,006, или, соответственно, Э0 = 15% < Эк0 = 30%, то гипотеза
об однородности этих оценок дисперсий отклоняется.
36
Причина такого различия стандартного отклонения фона (SΔN = 111 визитов) и
стандартного отклонения случайной компоненты погрешности имитированного
сигнала (SΔN = 42 визита) методом аппроксимации формулой Вейбулла с
постоянными коэффициентами заключалась в том, что имитированный сигнал
во всех 15-ти измерениях был один и тот же.
4.6.2. Проверка гипотез относительно систематических компонент
погрешности
- Почему ты мне изменял?
- Я должен был убедиться, что ты – лучше всех.
- Зачем же - столько раз?
- Чтобы уменьшить погрешность.
Нулевая гипотеза Н0 формулируется так: все m = 12 систематических
компонент МΔN погрешности измерения значений индикатора быстрой
реакции от имитированного сигнала (см. табл. 4) незначимо отличны от
нуля. Альтернативая гипотеза Н1: имеется хотя бы один систематический
компонент МΔN, значимо отличный от нуля.
Примем в качестве меры отклонения систематической компоненты от нуля
значение t-критерия Фишера-Бонферрони [3, с. 100]
tf,α/2m = |МΔN×n0,5/s|,
(21)
где s - стандартное отклонение случайной компоненты погрешности с
числом степеней свободы f = n – 1; n – количество измерений. Чем больше
значение критерия Стьюдента tf,α/2m, тем меньше оценка соответствующего
уровня значимости αr. Наибольшее из этих отношений tf,α/2m даст наименьше
значение αr. Найдём его по данным табл. 4 (реклама электроники):
tf,α/2m = |(-107)×210,5/214| = 2,29. По номограмме Бойда [3, с. 91] находим
αr = 0,04. По формуле (18) ̂ r = 1 – (1 - 2×0,04)12 = 0,6. Поскольку
0,6 = ̂ r > αк = 0,006, или, соответственно, Э0 = 89% > Эк0 = 30%, то гипотеза Н0
о незначимоcти всех систематических компонент МΔN погрешности
измерений не отклоняется.
4.6.3. Результаты проверки гипотез
«Мои результаты мне давно известны, я только не знаю, как я к ним приду».
(К. Гаусс).
Телереклама одежды. Методы измерения аппроксимацией формулой
Вейбулла с переманными и постоянными коэффициентами и кусочнолинейной аппроксимации (точки - с обеих сторон от момента окончания
рекламы и слева от момента окончания рекламы) приводят к незначимо
различающимися стандартным отклонениям случайной компоненты
37
погрешности, равным, в среднем, 80 визитов с числом степеней свободы
90; стандартное отклонение случайной компоненты погрешности метода
аппроксимации формулой Вейбулла можно принять равным 57 визитов с
числом степеней свободы 14.
Телереклама электроники. Методы измерения кусочно-линейной
аппроксимации (с точками справа и слева от момента окончания рекламы)
приводят к значимо большим стандартным отклонениям случайной
компоненты погрешности, равным, в среднем, 133 визита с числом
степеней свободы 100.
Значимо минимальное значение стандартного отклонения случайной
компоненты погрешности измерения значений индикатора быстрой
реакции, равное, в среднем, 47 визитов с числом степеней свободы 40
дают
только
методы
аппроксимации
формулой
Вейбулла
и
аппроксимации формулой Вейбулла с постоянными коэффициентами.
Наименьшие значения стандартного отклонения случайной компоненты
погрешности измерения значений индикатора быстрой реакции
телерекламы одежды и электроники методом кусочно-линейной
аппроксимации получен с использованием точек слева от момента
окончания рекламы.
Стандартное отклонение случайной компоненты погрешности измерения
значений индикатора быстрой реакции как после имитированных телереклам на
реальном фоне всеми методами (аппроксимации формулой Вейбулла,
аппроксимации формулой Вейбулла с постоянными коэффициентами, кусочнолинейной аппроксимации и прямого измерения), так и стандартного
отклонения случайной компоненты погрешности измерения величины
индикатора быстрой реакции реального фона различаются незначимо.
Следовательно, стандартное отклонение «шума» можно использовать для
оценки стандартного отклонения случайной компоненты погрешности
измерения индикатора быстрой реакции.
Все систематические компоненты МΔN погрешности измерения
значений индикатора быстрой реакции можно считать незначимо
отличными от нуля.
На первый взгляд кажется, что известный метод прямого измерения [1]
принципиально не отличается от методов аппроксимации формулой Вейбулла и
кусочно-линейной аппроксимации. Действительно, если исходить из общего
для всех методов предположения о том, что темп роста количества визитов [то
есть, значение коэффициента bi уравнения прямой Fi + bi(t - ti) в формуле (2)]
при отсутствии телерекламы в течение короткого периода времени 2Тα на
любом участке кумулятивной функции частот можно считать постоянным, то
вполне разумным кажется предположение, что все рассмотренные методы
измерения индикатора быстрой реакции должны давать одинаковые
результаты. Однако в реальной обстановке периоды времени Тαi после разных
моментов окончания рекламы ti - различные. Эти параметры измеряются
косвенным методом аппроксимации формулой Вейбулла и не измеряются при
38
использовании метода прямого измерения. Поэтому метод аппроксимации
формулой Вейбулла имеет значимо меньшее стандартное отклонение
случайной компоненты погрешности по сравнению с методом прямого
измерения.
5. Проблема близости моментов окончания телевизионных реклам
Чем дальше вы убежите от проблем, тем дольше вам
придётся возвращаться назад, чтобы их решить.
Выше были описаны методы измерения значений индикатора быстрой реакции
для одиночных моментов окончания рекламы ti (см. п. 1 и 4). Тем не менее, на
практике встречаются случаи близости (или, даже, совпадения) моментов
окончания рекламы различных телевизионных каналов (см., например, рис. 6
при t = 19:42:23 ч), когда «расстояния» ΔТi или ΔТi+1 не превышают
максимальные периоды времени Тα(i-1) + Тαi или Тαi. соответственно, т. е. когда
ΔТi ≤ Тα(i-1) + Тαi или ΔТi+1 ≤ Тαi. «Близкими» могут быть не только пары, но и
большее количество моментов окончания рекламы. Следующие от «слишком»
близких моментов окончания рекламы f-кривые «накладываются» друг на
друга. В этих случаях наблюдается «перекрытие» областей действия методов
измерения и, в свою очередь, - рост стандартного отклонения случайной
компоненты погрешности измерения индикатора быстрой реакции. Расщепить
эффекты влияния на погрешность измерения индикатора быстрой реакции
близких моментов окончания рекламы можно разными способами:
1} сокращением областей действия методов измерения индикатора быстрой
реакции (см. табл. 1);
2} расщепление суммы индикаторов быстрой реакции пропорционально
весовым коэффициентам;
3} расщепление
суммы индикаторов быстрой реакции методами
аппроксимации формулой Вейбулла с постоянными коэффициентами и
кусочно-линейной аппроксимации.
5.1. Способы сокращения областей действия методов прямого измерения и
кусочно-линейной аппроксимации
Сократим речь до смысла - чтоб было понятнее.
Пример 1 [см. п. 4.3. и формулу (9)]. Пусть для измерения значений
индикатора быстрой реакции используется метод прямого измерения.
Допустим, сначала по малой выборке (см. п. 4.1.2.) методом аппроксимации
формулой Вейбулла оценили предельное значение Тα = 300 с. Далее допустим,
что i-я телереклама на телевизионном канале отделена от предыдущей i-1-й и
последующей i+1-й телерекламы на периоды времени ΔТi = 500 с и ΔТi+1 = 400
с соответственно, то есть, ΔТi = 500 < 2Тα = 600, а ΔТi+1 = 400 > Тα = 300. Одно
из условий (ΔТi > 2Тα) соответствия одиночному моменту окончания рекламы ti
39
(см. п. 1) нарушено. Следовательно, i-я телереклама не является одиночной. В
этом случае фрагмент t  (ti - Тα, ti) области действия метода прямого
измерения до момента окончания рекламы ti (см. табл. 1) следует уменьшить
до величины ΔТi - Тα = 500 - 300 = 200 с, то есть, сократить в k = 300/200 = 1,5
раза до величины (ti – Тα/k, ti) = (ti – 200, ti), а значение индикатора быстрой
реакции вычислять по формуле (9).
Гипотезу о том, что сокращение фрагмента t  (ti - Тα, ti) области действия
метода аппроксимации формулой Вейбулла до момента окончания рекламы
ti возможно до нуля [при сохранении неизменным фрагмента t  (ti, ti + Тα)
области действия после момента окончания рекламы ti (см. табл. 4)]
проверили методом имитационного моделирования. Воспользовались
имитированными данными для Nk = 600 визитов, tсk = 60 с и σ k = 20 с; Тα = 300
с (см. п. 4.3.2. и табл. 3). Строили зависимость (рис. 15) доверительного
интервала [3, с. 142] для медианы систематической компоненты погрешности
от размера фрагмента t  (ti - Тα, ti) области действия до момента окончания
рекламы ti метода аппроксимации формулой Вейбулла (см. табл. 1).
Очевидно (см. рис. 15), что на всём фрагменте области действия t  (ti - Тα, ti)
величина медианы систематической компоненты погрешности от нуля
отличается незначимо.
Рис. 15. Зависимость систематической компоненты МΔN (ось ординат)
погрешности измерения индикатора быстрой реакции (реклама одежды)
методом аппроксимации формулой Вейбулла от степени сокращения области
действия метода измерения:
1 – оценка величины МΔN; 2 и 3 – границы 95-%-го доверительного интервала; ось абсцисс –
расстояние Δt до момента окончания рекламы ti: Δti = t - ti.
40
5.2. Расщепление суммы индикаторов быстрой реакции пропорционально
весовым коэффициентам
«Нули в сумме составляют огромную силу!». (С. Е. Лец)
Если с высокой вероятностью ожидаются положительные значения индикатора
быстрой реакции близких моментов окончания рекламы и расстояния ΔТi или
ΔТi+1 не существенно меньше периодов времени Тα(i-1) или Тαi соответственно
(например, не более, чем в два раза меньше), то расщепить суммы индикаторов
быстрой реакции близких моментов окончания рекламы можно
пропорционально весовым коэффициентам, в качестве которых взять:

или величины охватываемых «близкими» телевизионными каналами
аудиторий (млн телезрителей, если они известны),

или - по априори вычисленным медианным значениям индикатора
быстрой реакции на одиночные моменты окончания реклам ti этих
телевизионных каналов в следующий ряд этапов:
1)
Выделить только те следующие друг за другом одночные моменты
окончания рекламы ti, «расстояния» ΔТi и ΔТi+1 между которыми превышают
максимальные периоды времени 2Тα и Тα соответственно (то есть, когда
ΔТi > 2Тα и ΔТi+1 > Тα).
2)
Рассчитать значения индикаторов быстрой реакции Ni, соответствующие
выделенным одночным телевизионным каналам.
3)
Вычислить медианные значения индикаторов быстрой реакции, Ме{Ni},
соответствующие этим телевизионным каналам.
4)
Выделить близкие моменты ti, ti+1, ..., ti+n, «расстояния» ΔТi, ΔТi+1, ...,
ΔТi+n-1 между которыми несущественно (например, не более, чем в два раза)
превышают максимальный период времени Тα.
5)
Рассчитать суммарные количества индикаторов быстрой реакции Ni+n для
«близких» телевизионных каналов.
6)
Расщепить суммы индикаторов быстрой реакции соответственно близких
моментов окончания рекламы на различных телеканалах пропорционально
медианным значениям Ме{Ni} индикаторов быстрой реакции.
Пример 2. Два момента окончания рекламы при ti = 19:42:23 ч и ti+1 = 19:42:25
ч (см. рис. 6), соответствующие телевизионным каналам А и В, оказались
«близкими» (потому что ΔТi+1 = 2 < Тα = 380). В результате расчётов по п. 5)
(при уточнённом Тα = 382 с) получили суммарное значение индикатора быстрой
реакции Ni+1 = 100 визитов для пары этих телевизионных каналов.
Известно, что величины охватываемых «близкими» телевизионными каналами
А и В аудиторий в эти моменты времени составляют 0,6 и 0,9 млн телезрителей.
Требуется расщепить суммы индикаторов быстрой реакции соответственно
близких моментов окончания рекламы на телеканалах А и В пропорционально
величинам охватываемых телевизионными каналами аудиторий.
41
Решение. Расщеплённое значение индикатора быстрой реакции телеканала А
есть Ni = 100×0,6/(0,6 + 0,9) = 40 визитов, а значение индикатора быстрой
реакции телеканала В есть Ni+1 = 100×0,9/(0,6 + 0,9) = 60 визитов.
Пример 3. В дополнение к данным примера 2 известно только, что в результате
расчётов по п. 3) для одночных моментов окончания рекламы, получили
медианные значения индикаторов быстрой реакции МеА{Ni} = 60 визитов для
телеканала А и МеВ{Ni} = 90 визитов для телеканала В.
Требуется расщепить сумму индикаторов быстрой реакции, соответственно
близких моментов окончания рекламы на телеканалах А и В пропорционально
медианным значениям индикаторов быстрой реакции.
Решение. Согласно п. 6), расщеплённое значение индикатора быстрой реакции
телеканала А есть Ni = 100×60/(60 + 90) = 40 визитов, а значение индикатора
быстрой реакции телеканала В есть Ni+1 = 100×90/(60 + 90) = 60 визитов.
5.3. Расщепление суммы индикаторов быстрой реакции методами
аппроксимации формулой Вейбулла с постоянными коэффициентами и
кусочно-линейной аппроксимации
Ум позволяет решать сложные проблемы, хитрость их обходить, а интеллект - выбирать, что лучше:
решать, обходить, или бросить это безнадёжное дело.
В основе этих способов расщепления суммарного количества Ni+n индикаторов
быстрой реакции, измеренных по n+1 близким моментам окончания рекламы,
лежит формула (2) в виде
FN(t, ti) = Fi + bi(t - ti) +  ii  n NiS(t, ti); t  (t*i-1, ti+n+1); i  (1, 2, …, К); bi > 0, (21)
где используется функция S(t, ti) Вейбулла (3), в которой оценки параметров
масштаба qi и формы ci заменяются их медианными значениями,
«характерными» для данного класса f-кривых (метод аппроксимации формулой
Вейбулла с постоянными коэффициентами) или используется ступенчатая
функция S(t, ti) (6), приводящая к формуле (7) (метод кусочно-линейной
аппроксимации) в виде
FN(t, ti) = Fi + bi(t - ti) +  ii  n NiI01(t, ti + Тα/2); t  (t*i-1, ti+n+1); i  (1, 2, …, К). (22)
К сожалению, уверенность маркетолога в правильности расщепления суммы
индикаторов быстрой реакции от близких моментов окончания рекламы
различных телевизионных каналов пропорционально весовым коэффициентам
тем меньше, чем большее количество подряд идущих моментов окончания
рекламы являются близкими и чем меньше его уверенность в том, что все
расщеплённые индикаторы быстрой реакции имеют одни положительные
42
знаки. Если же маркетолог подозревает, что некоторые индикаторы быстрой
реакции Ni имеют отрицательные знаки, то использование методов
расщепления сумм индикаторов быстрой реакции пропорционально весовым
коэффициентам неприемлемо.
Эти недостатки в меньшей степени присущи методам аппроксимации
формулой Вейбулла с постоянными коэффициентами и кусочно-линейной
аппроксимации. Так если расстояния между соседними моментами окончания
рекламы ΔТi или ΔТi+1 всё ещё достаточно велики (например, если ΔТi > 2Тα/3 и
ΔТi+1 > Тα/3), то в правильности расщепления суммы индикаторов быстрой
реакции маркетолог может быть уверен; если же эти расстояния очень малы
(например, если ΔТi < 2Тα/3 и ΔТi+1 < Тα/3) или даже ничтожно малы (ti+1 ≈ ti), то
в правильности расщепления суммы индикаторов быстрой реакции методами
аппроксимации формулой Вейбулла с постоянными коэффициентами и
кусочно-линейной аппроксимации маркетолог уверен быть не может.
Сомнительные результаты измерений индикаторов быстрой реакции для
близких моментов окончания рекламы приходится исключить из дальнейшего
анализа. Единственное утешение для маркетолога возможно в том, что очень
малые или ничтожно малые (ti+1 ≈ ti) расстояния между соседними моментами
окончания рекламы встречаются редко.
Часть А. Выводы
Никогда не бывает так плохо, как мы опасаемся,
и так хорошо, как нам бы хотелось.
1. В качестве меры быстрой реакции пользователей на телевизионную
рекламу предложено использовать индикатор быстрой реакции (ИБР).
2. Разработанные методы косвенного измерения ИБР пользователей на
телевизионную рекламу интернет-магазина - «метод аппроксимации
формулой Вейбулла» и «метод кусочно-линейной аппроксимации»,
отличаются от известного «метода прямого измерения» их
адекватностью шумовому фону: разность значений оценок стандартных
отклонений случайной компоненты погрешности измерения и шумового
фона незначима.
3. Оценки систематических компонент погрешности всех методов
измерения значений ИБР от нуля отличаются незначимо.
43
Часть В. Регрессионный анализ реакции пользователей на
телевизионную рекламу интернет-магазина
Что такое открытие? Для учёных - это обнаружение нового вещества,
явления, закономерности; для остальных - это начало работы магазина.
6. Подготовка материалов для маркетинговых исследований
«Идеал материльного - материализовать идеальное». (Е. Шпигель).
Известно, что в практике статистического анализа результатов наблюдений
часто возникает задача определения влияния только одного важного фактора
на отклик [2, 3]. Для решения этой задачи исследователи нередко наблюдают
всего две выбранные для изучения переменные (важный фактор и отклик) и
пытаются строить регрессию отклика на фактор или даже просто
рассматривают коэффициент парной корреляции между этими переменными.
Однако при математическом моделировании объекта маркетинговых
исследований следует считаться с тем фактом, что на отклик существенно
влияют и другие факторы, а игнорирование их влияния приводит к грубым
ошибкам. Отсюда следует необходимость учёта одновременного влияния всех
существенных факторов на отклик. Только в таком случае возможно
сравнительно безошибочное определение влияния на отклик избранного
важного фактора.
В нашем исследовании важным фактором является вектор характеристик
телерекламы интернет-магазина, важными откликами - величины
индикаторов быстрой реакции и количество суточных визитов
пользователей этого интернет-магазина.
Традиционно считается [1], что основным фактором, влияющим на индикатор
быстрой реакции пользователей интернет-магазина, является вектор
характеристик телереклам, а выделить долю влияния характеристик телереклам
среди разных факторов на суточное количество визитов на фоне влияния
остальных факторов невозможно. Это «очевидно» лишь с поверхностного
взгляда. Суточное количество визитов пользователей интернет-магазина не
только легче измеряется, но и важнее индикаторов быстрой реакции.
Ниже будет показано, как можно с помощью регрессионного анализа [2, 3, 11]
выделить долю влияния характеристик телереклам среди различных факторов
на суточное количество визитов пользователей интернет-магазина.
Существенным недостатком традиционного изучения влияния телереклам
только на индикаторы быстрой реакции являются практически непреодолимые
трудности измерения индикаторов быстрой реакции при наличии значительных
шумов в данных, а также, при затруднениях в решении проблемы близости
телереклам (см. п. 5). В демонстрируемых ниже примерах будет показано, что
в практике исследования реакции пользователей на телерекламы интернетмагазина встречаются случаи, когда большинство индикаторов быстрой
44
реакции пользователей в данных не более значимы, чем шум в данных (см. п. 4
и 7.2). Кроме того, нередко бывает трудно разрешимой проблема близости
телереклам (см. п. 5 и 7.2). Например, в вечернее время суток многие
телерекламы по разным телеканалам бывают так близки, что расщепить их
влияние на индикаторы быстрой реакции бывает просто невозможно. В таких
случаях построение интерпретируемых эмпирических функций регрессии
осложняется тем, что выборка значимых индикаторов быстрой реакции
становится мало представительной. Выход из подобных затруднений также
лежит в построении интерпретируемых эмпирических функций регрессии по
легко измеряемым суточным количествам визитов пользователей интернетмагазина в качестве отклика.
Составим теперь списки факторов, предположительно влияющих на отклики.
6.1. Подбор факторов и базисных функций для построения регрессионных
моделей
Мало высказать идею, надо ещё понять её с помощью умных людей.
Конкретным видом модели регрессии может быть сумма линейного по K + 1
коэффициентам {ßk}, (k = 0, 1, …, K) полинома (•) и случайной ошибки , т. е.
Y = (•) + , или Y = ß0 + ∑Kk=1ßkХk + ,
(23)
где Y – отклик, (•) – «теоретическая» функция регрессии, а 1 и {Хk} (k = 1, 2,
…, K), вообще говоря, являются базисными функциями; ошибка  - случайная
величина, распределённая по нормальному закону с центром М{} = 0 и
стандартным отклонением Y = (D{})0,5 (здесь М{•} и D{•} – операторы
«математическое ожидание» и «дисперсия»). В результате регрессионного
анализа данных получают эмпирическую функцию регрессии, где неизвестные
коэффициенты {ßk} представлены их оценками {bk}, а стандартное отклонение
Y = (D{})0,5 – оценкой стандартного отклонения - SOY.
При подготовке к расчётам по программе регрессионного анализа исходную
матрицу из электронной базы данных необходимо расширить за счёт ряда
базисных функций [2, 3, 9, 11, 12] (см. п. 1).
Обычно в качестве базисных функций факторов, измеряемых в количественной
шкале, используются члены ряда Тейлора (сами факторы без преобразования и
их парные произведения), члены ряда Фурье (синусы и косинусы факторов
времени), логарифмы переменных (в случае, когда их максимальные значения в
матрице данных превышают минимальные значения более чем в 10 раз) и коды
качественных переменных.
Использование кодов качественных переменных в виде базисных функций
имеет некоторые особенности [2, с. 91].
45
Дело в том, что в регрессионном анализе все данные необходимо представлять
как количественные. Для преобразования качественных переменных в
количественные приходится использовать систему кодирования.
Пусть качественные данные Хi представляют собой pi = 2 наименования {аi, бi}.
В этом случае переменную Хi можно непосредственно использовать как
количественную, принимающую два значения, Хi  (0, 1). Тогда в структуру
исходной эмпирической функции регрессии (•) (23) качественная переменная
Хi войдёт в составе тривиального слагаемого iХi.
Пусть некоторые качественные данные Хi представляют собой ряд
наименований {аi, бi, вi, … }, пронумерованных соответствующими числами
ji  {1, 2, …, pi} и pi > 2. Воспользуемся следующей схемой кодирования.
Преобразуем Хi в pi «количественных» переменных – кодов Хi1, Хi2, …, Хij …,
X ip , принимающих значение 0 или 1 согласно правилу: Хij = 1, если Хi = j и Хij
= 0, если Хi  j. Это позволяет ввести в структуру исходной теоретической
функции регрессии (•) в модели (23) коды наименований Хij в виде суммы
i
p
i
 j=1
ßijХij, где ij – «обычные» коэффициенты регрессии.
p
i
Если слагаемые Хij связаны ограничением  j=1
Хij = 1, то, строго говоря, все pi
слагаемых данной суммы не могут входить в теоретическую функцию
регрессии (23) (иначе при этом нарушается предположение о независимости
этих слагаемых). Одно из них должно быть опущено. Но какое именно?
Рекомендуется [12, Кн. 2] вывести из расчётов тот код Хij, который представлен
в исходных данных меньшим количеством наблюдений. Однако опыт
показывает [2, 3], что влияние выведенной таким образом из расчётов
переменной может оказаться высоко значимым. Поэтому в качестве
«исходной» в теоретическую функцию регрессии (23) предложено ввести всю
p
i
сумму  j=1
ßijХij, а в логике программы поиска «лучшей» эмпирической
функции регрессии включить условие: «Если на некотором шаге включения в
эмпирическую функцию регрессии базисных функций Хij число введенных
слагаемых данной суммы равно pi – 1, ввод последнего слагаемого Хij
запретить». Обычно при большом количестве n «подозреваемых» факторов Хi
количество значимых коэффициентов ßi и ßij, определённых в результате поиска
«лучшей» эмпирической функции регрессии, оказывается небольшим. Причём,
чем больше число n + pi, тем меньше вероятность того, что все pi
коэффициентов ßij будут значимыми.
Пример 4. Рассмотрим переменную Х5 – наименование телевизионных каналов;
Х5 ϵ (1, …, p5). Всего телевизионных каналов может быть p5. Если p5 = 2, т. е.
используются только два телевизионных канала - А и В, то переменная Х5
кодируется так: Х5 = 0 - для телеканала А и Х5 = 1 - для телеканала В. Если
p5 > 2, т. е. используются более двух телевизионных каналов - А, В, С, …, то
переменная Х5 заменяется на p5 новых переменных Х5.k [k ϵ (1, 2, …, p5)],
46
кодируемых так: Х5.1 = 1, Х5.2 = 0, Х5.3 = 0, … - для телеканала А; Х5.1 = 0, Х5.2 = 1,
Х5.3 = 0, … - для канала В; Х5.1 = 0, Х5.2 = 0, Х5.3 = 1, … - для канала С и т. д.
И, наконец, значения некоторых плохо формализуемых факторов (общая
характеристика погоды, новости политики, экономики и т. п.) приходится
получать методом экспертного оценивания [3, с. 730]. В этом случае эксперт
условно является «измерительным прибором», дающим численную экспертную
оценку значению оцениваемого фактора. Экспертная оценка является
результатом реализации в сознании эксперта математической функции,
отображающей с помощью эмоциональных шкал [2, с. 27] количество свойства
оцениваемого фактора на множество действительных чисел.
Общими свойствами эмоциональных шкал являются их интенсивность и знак.
Отрицательные свойства можно измерять в пределах от минимального
отрицательного значения (-100) до нуля баллов, положительные – от нуля –
до максимального положительного значения (+100 баллов). Три
эмоциональные шкалы [(-100, 0), (0, +100) и (-100, +100)] накрывают все
встречающиеся на практике значения численных экспертных оценок
количества свойств объектов.
Списки подбираемых факторов и базисных функций зависят от наименования
отклика.
6.1.1. Отклик - индикатор быстрой реакции пользователей
- Вовочка, скажи-ка быстро, сколько будет 5 + 8?
- Это будет 23.
- Как тебе ни стыдно не знать? Это будет 13.
- Так вы же просили меня ответить быстро, а не точно.
Из содержательных представлений можно предположить, что на значения Ni
величины индикатора быстрой реакции могут оказывать влияние как
управляемые факторы менеджерами интернет-магазина, так и неуправляемые
факторы, непосредственно предшествующие телереклама (см. рис. 4).
Управляемым называется фактор, значение которого менеджер может
изменять по своему усмотрению. Будем различать непосредственно и
посредственно управляемые факторы [2, с. 119]. Например, непосредственно
управляемым являются факторы «наименование телеканала», «стоимость
рекламируемого продукта» и т. п. Посредственно управляемым является,
вообще говоря, неуправляемый фактор, под значения которого можно
подстраиваться в процессе рекламной кампании, например, дождавшись той
даты, времени суток, погоды и т. п., которые обеспечивают наибольшую
эффективность ТВ-кампании.
47
6.1.1.1. Список факторов, управляемых менеджерами интернет-магазина
В иерархии возможности компетентного подчиненного управлять
некомпетентным
начальником
превосходят
возможности
некомпетентного начальника управлять компетентным подчиненным.
Х1 – номер месяца; Х2 – номер дня месяца; Х3 – номер дня недели; Х4 – время
суток.
Ожидая периодические колебания отклика индикатора быстрой реакции во
времени, введём в качестве базисных функций Фурье-преобразования факторов
времени Хj [j ϵ (1, 2, 3, 4)]:

4
i 1
[Sin(2iХj/Pj) + Cos(2iХj/Pj)],
(24)
где Pj – периоды: P1 = 12 месяцев в году; P2 = 30,5 дней в месяце; P3 = 7 дней в
неделе; P4 = 86400 с в сутках (86400 с = 24 ч);
Х5 – наименование телеканала.
Пример: есть телевизионные каналы А и В. Тогда p5 = 2 (см. Пример 4) и Х5 = 0 для телеканала А и Х5 = 1 - для телеканала В.
Х6 – тип телепередачи, прерываемой рекламным блоком. Например: новости Х6.1,
шоу Х6.2, сериал Х6.3. Тогда p6 = 3 (см. Пример 4), и переменная Х6 преобразуется
в 3 новых базисных функций Х6.i.
Х7 – количество телезрителей данного телеканала (обычно - миллионы);
Х8 – класс рекламируемого продукта. Например: одежда, электроника. Тогда p5 =
2 (см. Пример 4) и Х8 = 0 - для продукта «одежда» и Х8 = 1 - для продукта
«электроника».
Х9 – стоимость рекламируемого продукта (€);
Х10 – степень обозначенной скидки на цену рекламируемого товара (%);
Х11 – код названия конкурирующего интернет-магазина, который даёт
подобную телереклама в одном блоке;
Х12 – интервал времени между предыдущей и наблюдаемой телерекламой (мин);
Х13 – показатель близости телерекламы интернет-магазина к началу рекламного
блока телерекламы (отношение порядкового номера телерекламы интернетмагазина ко всему количеству телереклам в рекламном блоке);
Х14 – продолжительность показа телерекламы (с);
Х15 – экспертная оценка (от 0 до 100 баллов) степени важности предстоящего
праздника (государственного или международного) для покупателя
рекламируемого товара. Экспертная оценка ставится за несколько суток до
даты праздника. Например, степень важности предстоящей Олимпиады для
покупателя спортинвентаря может быть оценена в 10 баллов за 90 дней до
события, в 30 баллов - за 60 дней и т. д.
Х16 – стоимость телерекламы (€); базисная функция: Lg(Х16);
Х17 – количество телереклам в окружении. Она имеет 4 вида: «количество
телереклам в прерывании» (если телереклама вставлена посреди телепередачи 48
Х17.1), «количество телереклам в сочленении» (если телереклама расположена
между парой любых телепередач - Х17.2), «количество телереклам до
телепередачи – Х20.3» и «количество телереклам после телепередачи – Х17.4.
Перечисленные базисные функции Х17.i [(i  (1, 2, 3, 4)] принимают значения,
равные 1, если соответствующая позиция имеет место и 0, если - отсутствует.
Х18 – возраст телерекламы (сутки); базисная функция: Lg(Х18).
Х19 – Дополнительные показатели маркетинговой активности интернетмагазина; базисная функция: Х19.i = 1, если фактор есть и Х19.i = 0, если фактора
нет; i  (1, 2, …). Эти показатели могут включать: интернет-маркетинг
интернет-магазина (Х19.1 – баннерная реклама, Х19.2 – продвижение в
социальных сетях, Х19.3 – создание и ведение тематического блога),
мероприятия интернет-магазина (Х19.4 – семинары, Х19.5 – конференции, Х19.6 –
круглые столы), спецпредложения интернет-магазина для клиентов (Х19.7 –
телемаркетинг, Х19.8 – рассылка, Х19.9 – медиа размещение, Х19.10 – комплексные
коммуникационные кампании, Х19.11 – реклама по радио), PR (Х19.12 – наружная
реклама, Х19.13 – печатные издания), Х19.14 – спонсорство.
Х20 - тип телерекламы. Например: брендинговая Х20.1, марки товара Х20.2,
имиджа товара Х20.3. Тогда p20 = 3 (см. Пример 4), и переменная Х20
преобразуется в 3 новых базисных функций: Х20.i, i = 1, 2, 3.
6.1.1.2. Список факторов, не управляемых менеджерами
Случайностью называется непонятая нами закономерность.
Х21 – общая характеристика погоды [экспертная оценка - в диапазоне от -100 до
0 баллов: предельно плохая - сильная облачность, обильные осадки, ураганный
ветер, экстремальные жара или мороз (-100 баллов); нормальная - тихая, ясная,
тёплая (0 баллов)];
Х22 – скорость ветра (км/ч);
Х23 – температура воздуха (0С). Предельно дискомфортные значения (в ФРГ):
мороз
-20 0С и жара +30 0С; среднее значение +5 0С. Поэтому в качестве базисной
функции предлагается принять экспертную оценку в виде |Х23 - 5| (чем дальше
значение температуры воздуха Х23 от среднего значения (5 0С), тем
дискомфортнее фактор Х23 для пользователя).
Х24 – интенсивность осадков в виде дождя (мм/час);
Х25 – интенсивность осадков в виде снега (мм/час);
Х26 и Х27 – степень важности политической и экономической новости через
несколько дней после её даты для покупателя рекламируемого товара.
Экспертная оценка (от -100 до +100 баллов) ставится после даты новости.
Например, до аннексии Крыма Россией значение фактора Х26 для покупателей
российских товаров в Европе могло быть оценено в «0 баллов», а после новости
о «санкциях Европы в отношении России за аннексию Крыма» - в «-90 баллов».
49
Х28 – цена золота или курс валют, влияющих на индикатор быстрой реакции
пользователя (экспертная оценка наименования валют, например: €/доллар или
€/юань, или €/рубль). Если, например, товар произведен в Китае, то фиксируют
только курс €/юань. Ещё пример. В 2001 г. президент В. Путин, посещая
разрушенный наводнением город Ленск, заявил, что для помощи пострадавшим
подпишет указ о продаже золота. Цена золота (фактор Х28) сразу же упала с
283,5 $ за унцию до 278,7 $.
Х29 – курс акции предприятия, производящего рекламируемый продукт (€).
Х30 – количество визитов в течение максимального периода времени Тα (КВТ)
до момента окончания рекламы;
Дополнительно вычисляются базисные функции в виде парных произведений
факторов (эксперт подобирает наименования пар факторов, произведения
которых могут быть содержательно интерпретированы [2, с. 115]).
Если предполагается, что параметры эмпирической функции регрессии с
«возрастом» телерекламы (Х18) изменяют свои значения, то наряду с базисной
функцией Lg(Х18) можно вводить в расчёт и парные произведения факторов на
Lg(Х18). Например, Х5×Lg(Х18), Х6×Lg(Х18) и т. п.
Приведенные списки базисных функций являются рекомендуемыми, а в
каждом исследовании они могут корректироваться в зависимости от
конкретных обстоятельств.
6.1.2. Отклик - суточное количество визитов пользователей интернетмагазина
Только работая по 25 часов в сутки, можно выкроить час свободного времени.
Некоторые факторы в этом случае можно рассматривать как псевдо-случайные
величины. С одной стороны, кажется, что раз значения факторов планируются
менеджерами интернет-магазина с помощью «медиаплана», то эти факторы надо
считать детерминированными величинами. Однако на практике даже в
«медиаплане» они принимают случайные значения, а при реализации
«медиаплана» - тем более, и потому их приходится считать псевдо-случайными
величинамипсевдо-случайная величина В свою очередь, распределение псевдослучайных величин проще всего описывать с помощью формул для расчёта
устойчивых медианных оценок – мер положения (15) и разброса (16), где вместо
аргументов ΔNk надо подставлять значения псевдо-случайных величинпсевдослучайная величина
Замечание. Иногда бывает удобно в качестве отклика рассматривать количество
визитов в течение части суток, например, в течение ночи, утра, дня и вечера. В
этом случае остальные переменные должны также быть отнесены к
соответствующим частям суток.
50
6.1.2.1. Список факторов, управляемых менеджерами интернет-магазина
Любaя cиcтeмa, зaвиcящaя oт чeлoвeчecкoй нaдeжнocти, нeнaдeжнa.
На количество N суточного количества визитов пользователей интернетмагазина могут оказывать влияние временные факторы:
Х1 – номер месяца; Х2 – номер дня месяца; Х3 – номер дня недели; БФ (базисная
функция) для Хj [j ϵ (1; 2; 3)] вычисляются по формуле (23);
Х4 – количество телереклам каждого наименования телеканала. Например:
количество телереклам телеканала А – 6 телереклам; телеканала В – 5
телереклам (см. рис. 2). Тогда переменная Х4 преобразуется в 2 новых БФ: Х4.1 и
Х4.2, которые принимают значения Х4.1 = 6 для телеканала А Х4.2 = 5 - для
телеканала В.
Х5 – медиана позиций телереклам в окружении. Она имеет 4 вида: «количество
телереклам в прерывании» (если телерекламы вставлены посреди телепередачи
- Х5.1), «количество телереклам в сочленении» (если телерекламы расположены
между парой телепередач - Х5.2), «количество телереклам до телепередачи –
Х5.3» и «количество телереклам после телепередачи – Х5.4. Перечисленные БФ
Х5.i [(i  (1, 2, 3, 4)] принимают значения, равные медианам количества
соответствующих позиций в течение суток.
Х6 – распределение количества телереклам по времени суток. Например (см.
рис. 5), ночью (0 – 6 ч) – 0 телереклам; утром (6 – 12 ч) – 1 телереклама; днём
(12 – 18 ч) – 3 телерекламы; и вечером (18 – 24 ч) – 7 телереклам. Тогда
переменная Х6 преобразуется в 4 новых БФ, которые принимают значения:
Х6.1 = 0 – для ночи; Х6.2 = 1 – для утра; Х6.3 = 3 – для дня и Х6.4 = 7 – для вечера.
Х7 - количество телезрителей каждого телеканала (обычно - миллионы за сутки).
Например: количество телезрителей телеканала А – 0,45 м/сут; телеканала В –
1,52 м/сут. Тогда переменная Х7 преобразуется в 2 новых БФ: Х7.1 и Х7.2,
которые принимают значения Х7.1 = 0,45 для телеканала А и Х7.2 = 1,52 - для
телеканала В.
Х8 – количество телереклам продуктов разных классов за сутки. Например,
классы: одежда – 7 телереклам; электроника – 4 телерекламы. Тогда переменная
Х8 преобразуется в 2 новых БФ: Х8.1 и Х8.2, которые принимают значения Х8.1 = 7
для одежды и Х8.2 = 4 - для электроники.
Х9 – стоимость рекламируемых продуктов разных классов (€). Например, классы:
одежда – 59 €; электроника – 309 €. Тогда переменная Х9 преобразуется в 2
новых БФ: Х9.1 и Х9.2, которые принимают значения Х9.1 = 59 - для одежды
и Х9.2 = 309 - для электроники.
Х10 – степень обозначенной скидки на цену рекламируемого товара разных
классов (%). Например, классы: одежда – 20%; электроника – 30%. Тогда
переменная Х10 преобразуется в 2 новых БФ: Х10.1 и Х10.2, которые принимают
значения Х10.1 = 20 - для одежды и Х10.2 = 30 - для электроники.
Х11 – количество конкурирующих интернет-магазинов разных названий,
которые дают подобные телерекламы в одном блоке. Например, подобные
51
телерекламы дают 2 конкурирующих интернет-магазина С и Д; С даёт 2
подобные телерекламы и Д даёт 4 подобные телерекламы. Тогда переменная
Х11 преобразуется в 2 новых БФ: Х11.1 и Х11.2, которые принимают значения
Х11.1 = 2 для интернет-магазина С и Х11.2 = 4 - для интернет-магазина Д.
Х12 – псевдо-случайная величина «интервал времени между идущими подряд
телерекламами, мин»; БФ: медиана (15) Х12.1 и стандартное отклонение (16) Х12.2;
Х13 – псевдо-случайная величина «показатель близости телереклам интернетмагазина к началу рекламного блока»; БФ: медиана (15) Х13.1 и
среднеквадратичное отклонение (16) Х13.2;
Х14 – псевдо-случайная величина «продолжительности показа телерекламы»;
БФ: медиана (15) Х14.1 и среднеквадратичное отклонение (16) Х14.2;
Х15 – возраст телерекламы (сутки); БФ: Lg(Х15); медиана от Lg(Х15) (15) Х16.1 и
среднеквадратичное отклонение (16) Х16.2;
Х16 – логарифм стоимости телерекламы; БФ: медиана (15) Х16.1 и
среднеквадратичное отклонение (16) Х16.2;
Х17 – степень важности предстоящего праздника (регионального,
государственного или международного) для покупателя рекламируемого
товара. Экспертная оценка (от 0 до 100 баллов) ставится за несколько суток до
даты праздника (см. п. 6.1.1.1.).
Х18 – дополнительные показатели маркетинговой активности интернетмагазина; БФ: Х18.i = 1, если фактор есть и Х18.i = 0, если фактора нет; i  (1, 2,
…, 14); (см. п. 6.1.1.1.).
Х19 – количество типов телереклам за сутки. Например: брендинговая
телереклама Х19.1, телереклама марки товара Х19.2, телереклама имиджа товара
Х19.3. Тогда p19 = 3 (см. Пример 4), и переменная Х19 преобразуется в 3 новых
БФ: Х19.1, Х19.2 и Х19.3.
6.1.2.2. Список факторов, не управляемых менеджерами
Heт тaкoй плoxoй cитуaции, кoтopaя нe мoглa бы cтaть eщe xужe.
Х23 – общая характеристика погоды за сутки: [экспертная оценка - в диапазоне
от -100 до 0 баллов: предельно плохая - сильная облачность, обильные осадки,
ураганный ветер, экстремальные жара или мороз (-100 баллов); нормальная тихая, ясная, тёплая (0 баллов)];
Х24 – средне-медианное значение скорости ветра за сутки (км/ч);
Х25 – средне-медианное значение показателя дискомфортности |Х25 - 5|
температуры воздуха за сутки (0С) (см. п. 6.1.1.2.);
Х26 – количество осадков в виде дождя за сутки (мм);
Х27 – количество осадков в виде снега за сутки (мм);
Х28 и Х29 – степень важности политической и экономической новости через
ряд дней после её даты для покупателя рекламируемого товара (см. п. 6.1.1.2.).
Х30 – курс валют, влияющих на суточное количество визитов рекламируемого
товара (см. п. 6.1.1.2.).
Х31 – курс акции предприятия, производящего рекламируемый продукт (€);
52
Дополнительно вычисляются базисные функции в виде парных произведений
факторов (см. п. 6.1.1.2.).
Естественно, что приведенные списки базисных функций являются
рекомендуемыми, а в каждом исследовании они могут корректироваться в
зависимости от конкретных обстоятельств.
7. Построение интерпретируемых регрессионных моделей
объекта маркетинговых исследований
«Заглядывать слишком далеко вперед — недальновидно». (У. Черчилль)
Интерпретируемая эмпирическая функция регрессии помогает исследователю
выявить влияние каждого фактора (в особенности – самого важного фактора) в
отдельности на отклик в случае, когда остальные факторы зафиксированы на
некоторых уровнях. Это позволяет лучше разобраться в сущности изучаемого
явления и использовать полученную эмпирическую функцию регрессии для
управления
откликами
объекта
маркетинговых
исследований.
Эмпирическая функция регрессии, обладающая таким свойством, являются
корректно интерпретируемой. В случае же плохой обусловленности
информационной матрицы, высоко значимая корреляция между оценками
параметров эмпирической функции регрессии не позволяет интерпретировать
эмпирическую функцию регрессии корректно.
Поставленная задача чрезвычайно сложна, и поэтому редко решается корректно
[3]. В настоящем исследовании используется сравнительно новый метод
решения этой задачи [2]. Поэтому кратко опишем этот метод.
7.1. Операторная блок-схема алгоритма построения регрессионных моделей
Чем проще идея, тем сложнее ее излагают. (Закон Малека)
Обычно
исследователь-прикладник,
работающий
с
существующим
программным обеспечением прикладной статистики (ПО ПС, например, SPSS,
STATISTICA, SAS и др.), не обладая необходимыми объёмами знаний и
опытом аналитического статистика [3], встречает серьёзные препятствия при
построении статистических математических моделей объектов маркетинговых
исследований. Поэтому, например, для наиболее часто встречающейся задачи
построения линейной по параметрам эмпирической функции регрессии для
объектов маркетинговых исследований, прикладнику зачастую приходится
привлекать профессионального аналитического статистика. В свою очередь,
аналитический статистик, работая с программным обеспечением прикладной
статистики, руководствуется сложной логикой, вытекающей из целей
построения эмпирической функции регрессии (для аппроксимации,
экстраполяции, управления и интерпретации: эмпирическая функция регрессии,
53
в отличии, например, от нейронных сетей, при определённых ниже условиях
допускает корректную интерпретацию).
Алгоритм построения линейных эмпирических функций регрессии, которым
руководствуется аналитический статистик, можно описать с помощью
операторной блок-схемы (рис. 16) и реализовать его автономно или в качестве
Рис. 16. Операторная блок-схема алгоритма построения
A

регрессионных моделей объекта маркетинговых исследований:
НД
B НД

C

 D


E

F

 G


H

 I


J

KД

LД

MД

N

O


PД

QД

R НД

 S
Н


T
НД


U НД

V НД
«» – «нет»; «» – «да»; индекс «н» – неформальный блок; индекс «д» –
дополнительный блок к стандартному ПО ПС;
Анд – ввод матрицы исходных данных, наименований переменных, выделение
факторов и откликов для различных вариантов расчёта;
Внд – задание БФ, уровня е (%) ответственности за выводы, требований к
изображению диаграмм рассеяния, области действия, линий регрессии и
доверительных интервалов, распределению остатков, написанию отчёта;
С – построение расширенной матрицы данных согласно заданию БФ;
D – есть ли в матрице данных пропуски?
Е – расчёт ковариационной матрицы базисных функций (БФ) методом парного
вычеркивания;
F – расчёт средних, среднеквадратичных отклонений и α-критериев значимости
коэффициентов корреляции базисных функций;
G – есть ли пропуски значений отклика?
H – исключение строк, содержащих пропуски значений отклика;
I – есть ли пропуски значений базисных функций?
J – расчет ковариационной матрицы базисных функций (процедура парного
вычеркивания);
Kд – процедура выбора информативных базисных функций в сочетании с
варьированием критическим уровнем значимости коэффициентов регрессии;
Lд – вывод характеристик лучшей и полезных эмпирических функций регрессии
(ЭФРе);
Mд – вывод корреляционной матрицы оценок коэффициентов ЭФРе;
N – проверка гипотезы о нормальном распределении остатков ЭФРе;
O – обнаружены ли выбросы остатков?
Pд – винсоризация (исправление остатков);
Qд – окаймление области действия эмпирической функции регрессии;
Rнд – поиск почти параллельных наблюдений, расчет смещённой оценки
дисперсии воспроизводимости отклика и критерия адекватности ЭФРе;
Sн – адекватна ли эмпирическая функция регрессии?
Tнд – независимы ли оценки коэффициентов эмпирической функции регрессии?
Uнд – автоматизированная запись интерпретации эмпирической функции
регрессии (о влиянии факторов на отклик);
Vнд – ортогонализация расширенной матрицы плана методом исключения
наблюдений, вызывающих мультиколлинеарность.
приложения к стандартному ПО прикладной статистики [20].
Наибольшие трудности в методе построения эмпирической функции регрессии
возникают при обработке результатов «пассивных» наблюдений (электронных
54
баз данных, анкет и т. п.), в лучшем случае (и реже) – активно-пассивного
эксперимента [2, 3, 11]. Это приводит к возникновению ряда проблем.
Наличие пропусков и выбросов (или грубых ошибок) в исходных данных
может привести к смещению оценок параметров эмпирической функции
регрессии; отсутствие параллельных наблюдений затрудняет проверку
адекватности моделей; мультиколлинеарность базисных функций приводит к
плохой обусловленности информационной матрицы, усложняет описание
области действия эмпирической функции регрессии, поиск наилучшей
структуры эмпирической функции регрессии и её интерпретацию.
Предлагаемая блок-схема (см. рис. 16) включает неформальные (индекс «н»)
блоки, предполагающие участие экспертов, формальные блоки, обеспеченные
стандартным программным обеспечением (ПО) прикладной статистики (ПС) и
дополнительные (индекс «д») блоки, составляемые пользователем.
Исходные данные для обработки готовят эксперты (см. рис. 16, блок А нд).
Построение базисных функций осуществляются (см. рис. 16, блок В нд) с учётом
уровня теоретических достижений в данной предметной области. Базисные
функции могут быть тривиальными факторами, логарифмами положительных
величин, членами рядов Фурье, Тейлора (часто - неполного второго порядка,
включающими парные произведения переменных), кодами номинальных
переменных и т. п. [2, 3, 11].
Для отбора информативных базисных функций лучшим является метод «всех
регрессий» [2, 3, 11 - 13]. Этот метод заключается в построении ряда
эмпирических функций регрессии со всеми возможными комбинациями
базисных функций и отбором варианта, обладающего значимыми
коэффициентами при базисных функциях, минимальной остаточной
дисперсией отклика и наилучшей интерпретирующей способностью
эмпирической функции регрессии.
Однако такое решение возможно лишь при наличии незначительного
количества базисных функций, «претендующих» на включение в
эмпирическую функцию регрессии. В случае же большого количества (n)
базисных функций этот метод приводит к большим затратам машинного
времени (иногда – несколько часов), так как количество эмпирических функций
регрессии (2n – 2), которые необходимо построить, очень велико. Например,
при n = 45 базисных функций получаем (245 – 2) ≈ 3,6×1016 комбинаций
базисных функций. Тем не менее, в пользу метода «всех регрессий»
свидетельствуют:
1) большая скорость работы процессоров в современных компьютерах;
2) использование в качестве критерия остановки расчётов максимума нижней
доверительной границы коэффициента детерминации [13, формула (2.65)];
3) небольшое количество (не более 20-ти) базисных функций, зачастую
включаемых в лучшую эмпирическую функцию регрессии;
4) важность решаемой задачи, на которую выгодно потратить больше времени.
55
При чрезмерно большом количестве базисных функций наилучшие результаты
среди известных методов [12] дают простой в реализации метод серий [3, с.
485; 2, с. 106] и ненамного более сложный метод Лбова Г. С. [14, с. 77].
Методом серий, испытанным на большом количестве задач [3, с. 470], можно
получать сразу лучшую и несколько пригодных эмпирических функций
регрессии. На первых шагах в эмпирическую функцию регрессии включается
по одной базисной функции методом «прямого отбора» с высоким
критическим уровнем значимости (большим к1). Если на некотором шаге т
какой-либо коэффициент регрессии оказался незначимым, то поиск
информативных базисных функций возвращается на n шагов (n > 1) к тому
шагу, на котором соответствующая базисная функция впервые была включена в
эмпирическую функцию регрессии. В следующей серии отбора эта базисная
функция включается в эмпирическую функцию регрессии только на шаге
(т + 1 – n) с невысоким критическим уровнем значимости (малым к1). При
n = 1 отбор базисных функций прекращается. Эта процедура в сочетании с
варьированием критического уровня значимости позволяет получить
несколько полезных и одну лучшую эмпирическую функцию регрессии (см.
рис. 16, блок J).
В основе метода Лбова [14] лежит идея последователього построения
эмпирических функций регрессии со случайно включёнными базисными
функциями. На каждом следующем шаге построения очередной эмпирической
функции регрессии вероятность попадания в расчёт отдельных базисных
функций тем больше, чем более значимыми были коэффициенты регрессии при
них в предыдущей итерации. Метод Лбова даёт кроме одной лучшей
эмпирической функции регрессии, большее, чем метод серий, количество
пригодных эмпирических функций регрессии.
Оригинальные алгоритмы расчётов с большим количеством тестовых примеров
в операторах Внд, Kд, Lд, Qд, Rнд, Sн, Uнд и Vнд описаны в монографиях [2, 3].
Популярные процедуры отбора значимых коэффициентов при базисных
функциях [12] - «прямой отбор», «обратное исключение» и др. требуют
небольших затрат времени ЭВМ (доли секунды), но позволяют получить только
одну – две эмпирических функций регрессии и, естественно, плохого качества.
7.1.1. Проблемы оценивания параметров эмпирической функции регрессии
Какие все вокруг оптимисты, когда проблема касается меня!
При оценивании параметров эмпирической функции регрессии по большому
количеству измерений на объекте маркетинговых исследований возникает ряд
проблем.
56
7.1.1.1. Проблема проверки гипотезы об адекватности эмпирической функции
регрессии
Проблема - это неверно сформулированная задача.
Строгим критерием адекватности (соответствия) эмпирической функции
регрессии результатам наблюдений является гипотеза Н0 о равенстве
2
остаточной дисперсии отклика в модели  OY
и дисперсии воспроизводимости
2
отклика  BY [2, 3, 12, 16], против альтернативной гипотезы Н1 о неадекватности
эмпирической функции регрессии, а именно:
2
2
Н0:  OY
=  2BY против Н1:  OY
>  2BY .
(25)
К сожалению, по данным пассивного регрессионного эксперимента (или
пассивных наблюдений), какими обычно являются, в частности, результаты
маркетингового исследования, получить несмещённую оценку S 2BY дисперсии
 2BY воспроизводимости отклика почти невозможно. Задача оценки дисперсии
 2BY долгое время являлась камнем преткновения статистической практики.
Паллиативным решением проблемы адекватности эмпирической функции
регрессии было требование получить в результате регрессионного анализа
такую эмпирическую функцию регрессии, которой соответствовало бы
максимальное значение коэффициента детерминации R2.
Поэтому при обработке данных всегда сохранялось сомнение в отношении
адекватности полученной эмпирической функции регрессии в соответствии со
строгим критерием (25). Для решения названной проблемы в работах [2, 3]
была предложена простая методика вычисления смещённой оценки S 2BY
дисперсии  2BY по данным пассивного регрессионного эксперимента.
Методика получения адекватной эмпирической функции регрессии [2, 3]
сводится к следующим действиям (см. рис. 16):
1)
Обычным методом регрессионного анализа строится эмпирическая
функция регрессии
Ŷ = b0 + ∑Kk=1bkХk,
(26)
где bk - точечные оценки коэффициентов ßk модели регрессии (22).
2
2
2)
Вычисляется точечная оценка S OY
остаточной дисперсии  OY
.
3)
Вычисляется размерный коэффициент масштаба М = 2,8SOYn-0,5.
4)
Строится квадратная С-матрица размерностью n×n, содержащая
2
Сn = n(n-1)/2 (Сn2 – число сочетаний из n по 2): безразмерных расстояний
L(Хi, Хj) = (∑Kk=1(DkΔХkij))/М; i, j  (1, 2, …, n)
57
(27)
между всеми парами точек Хi, Хj (Хi = (Х1i Х2i … ХKi)Т; Хj = (Х1j Х2j … ХKj)Т)
факторного пространства  (Хi, Хj  ); здесь Dk = max|Ŷ/Xk| максимальное значение абсолютной величины частной производной Ŷ/Xk;
ΔХkij = |Хki - Хkj| - размерные расстояния между соответствующими парами
Хki и Хkj координат точек Хi и Хj.
Любая пара точек Хi, Хj, расстояние L(•) между которыми удовлетворяет
условию 0 < L(Хi, Хj) ≤ 1, является результатами почти параллельных
наблюдений; при L(Хi, Хj) = 0 наблюдения с соответствующими номерами i и
j являются параллельными.
5)
На основании С-матрицы безразмерных расстояний методом
кластерного анализа [18-20] строятся П-кластеры (кластеры строго
параллельных и почти параллельных наблюдений), удовлетворяющих
условию 0 ≤ L(Хi, Хj) ≤ 1.
6)
Значения откликов Yi, i  (1, 2, …, n) в полученных П-кластерах
используются для расчёта смещённых оценок Sm 2BY дисперсий m 2BY в Пкластерах; m = 1, 2, …, М, где М – количество П-кластеров.
Замечания
a)
При малом объёме n выборки данных вероятность найти почти
параллельные, а, тем более, строго параллельные результаты наблюдений
очень мала. С ростом объёма n выборки эта вероятность растёт настолько, что
в данных возможно даже встретить П-кластеры со строго параллельными
результатами наблюдений, где все расстояния L(Хi, Хj) = 0. Оценки Sm 2BY
дисперсий m 2BY в таких П-кластерах являются несмещёнными.
b)
Каждый П-кластер включает два или более наблюдения. Оставшиеся
одиночные наблюдения, не попавшие в П-кластеры, образуют вместе с М Пкластерами, как бы, «новую» выборку данных, объём которой и число
степеней свободы fOY остаточной дисперсии S2OY становятся меньше.
7)
Проверяется гипотеза об однородности оценок Sm 2BY дисперсий в Пкластерах с помощью критерия Фишера-Бонферрони (19).
8)
Если гипотеза об однородности оценок Sm 2BY не отклоняется, то по
формуле (20) вычисляется усреднённая оценка оценка S 2BY , и эта оценка
позволяет пользоваться общепринятой гипотезой Н0 (25) об адекватности
эмпирической функции регрессии.
9)
С помощью F-критерия Фишера проверяется гипотеза Н0 (25) об
адекватности эмпирической функции регрессии, полученной в первом
приближении (см. п. 1).
[Справка. Критерий Фишера является частным случаем F-критерия ФишераБонферрони (17) при сравнении только одной пары дисперсий (при L = 1)].
10) Если гипотеза Н0 (25) об адекватности эмпирической функции регрессии
не отклоняется, то по формуле (20) вычисляется средневзвешенная дисперсия S2CY.
58
11) Если же гипотеза Н0 (25) об адекватности эмпирической функции
регрессии отклоняется, то необходимо ввести в анализ новые базисные
функции (члены ряда Тейлора второго порядка, произведения факторов и т. п.
или, даже, новые «подозреваемые» факторы) и повторить весь цикл расчётов.
К сожалению, вышеописанная методика не получила широкого
распространения.
Поэтому
ниже
на
примере
будет
показана
последовательность соответствующих расчётов.
7.1.1.2. Проблема проверки нулевых гипотез против нескольких альтернатив
Талантливый человек может решить любую проблему, если,
конечно, не будет задаваться вопросом "А зачем?".
В известных пакетах программного обеспечения прикладной статистики (SPSS,
STATISTICA, SAS и др.) обычно проверяются нулевые гипотезы о равенстве
нулю (незначимости) коэффициентов регрессии H0k: ßk = 0 (k = 1, 2, …, n+1)
против n+1 независимых двусторонних альтернативных гипотез о неравенстве
нулю (значимости) коэффициентов регрессии H1k: ßk ≠ 0 с помощью статистики
критерия Стьюдента tf,(α/2), где f – число степеней свободы, α = α1 –
«достигнутый» уровень значимости, определяемый, в свою очередь, с помощью
обратной функции αt = αt{|tf,(α/2)|} распределения Стьюдента [3, с. 87]: α1 = 2αt.
Однако ещё Дж. Себер [16, с. 124] показл, что согласно теореме Бонферрони,
следует использовать статистику Стьюдента в виде t(α/2n),f. Тогда α1 ≈ 2nαt (при
α1 < 0,3), или точнее, [3, с. 99] α1 = 1 – (1 - 2αt)n.
Пусть, например, при n = 10-ти коэффициентах регрессии окажется, что
программное обеспечение прикладной статистики выдаёт «достигнутый»
уровень значимости одного коэффициента регрессии α1м = 0,01. Эксперт может
посчитать такой коэффициент регрессии значимым, потому что значение α1м =
0,01 меньше «общепринятого» критического значения к1 = 0,05 (Эк1 = 50%).
Однако если уровень значимости коэффициента пересчитать по Себеру: α1 ≈
n1αм = 0,1, или точнее, α1 = 1 – (1 - 0,01)10 = 0,096, то этот коэффициент
регрессии окажется незначимым (так как 0,096 = α1 > к1 = 0,05).
Здесь уместно также проиллюстрировать влияние выбора исследователем
критического значения уровня ответственности за вывод Экi в регрессионном
анализе на критическое значение уровня значимости кi (см. п. 2.3.).
Оценивая коэффициент детерминации R2 и коэффициенты регрессии ßk
регрессионной модели (22), исследователь предпочитает альтернативную
гипотезу о значимости отличия этих оценок от нуля: чем выше уровень
ответственности за вывод Эк1, тем [см. формулу (а)], соответственно меньше
критическое значение уровня значимости к1 (индекс i = 1).
А оценивая значимость коэффициентов парной корреляции между базисными
функциями и проверяя гипотезу H0 (25) об адекватности регрессионной модели
(22), исследователь предпочитает нулевые гипотезы: чем выше уровень
59
ответственности за вывод Эк0, тем [см. формулу (b)] соответственно больше
уровень значимости к0 (индекс i = 0).
7.1.1.3. Проблема наличия корреляции между остатками
Ты никогда не решишь проблему, если будешь
думать так же, как те, кто её создал.
Одним из постулатов регрессионного анализа [12, 16] является предположение
о некоррелированности остатков. Однако даже малая корреляции между
остатками, наблюдаемая в природе, приводит к нарушению статистического
закона уменьшения дисперсии оценок параметров пропорционально объёму
выборки [15, с. 61]. Для решения этой проблемы предложен ряд сложных в
реализации алгоритмов [15, с. 163]. Паллиативный путь решения этой
проблемы заключается в использовании более высокого, чем «общепринято»
уровня ответственности за выводы, т. е., - не Эк1 = 50% и соответствующего
критического значения уровня значимости к1 = 0,05, а, например, Эк1  (60; 70;
80)% и соответствующего, согласно формуле (а), критического уровня
значимости к1  (0,02; 0,006; 0,001).
7.1.1.4. Проблема стационарности регрессионных моделей
Если у тебя проблема, попробуй её решить.
Не можешь её решить, тогда не делай из этого проблемы.
Предполагается [3, с. 495], что обнаруживаемые в объекте маркетинговых
исследований закономерности, описываемые с помощью ЭФPе, стабильны в
течение небольшого промежутка времени (например, в течение нескольких
недель). Поэтому с течением времени значения коэффициентов ЭФPе и её
структуру необходимо уточнять по мере поступления новых данных.
Для этого поступают следующим образом. По имеющимся «историческим»
данным строится «лучшая», в определённом, согласно п. 7), смысле,
эмпирическая функция регрессии, а по мере поступления новых данных
(допустим, за сутки), оценки параметров и структура эмпирической функции
регрессии уточняются.
Уменьшить влияние предыдущих данных на уточняющиеся оценки возможно
путём пропорционального уменьшения их весов. Кроме того, если допустить,
что коэффициенты эмпирической функции регрессии линейно изменяются во
времени, то наряду с «обычными» базисными функциями можно (см. рис. 16)
включать в состав базисных функций произведения фактора времени на
остальные факторы (см. п. 6.1.1.2.).
60
7.1.1.5. Проблема окаймления области действия эмпирической функции
регрессии
Большинство людей решает проблемы по мере их наступления на горло.
Обычно [12], независимо от значимости корреляции между факторами, область
действия эмпирической функции регрессии окаймляется плоскостями (см.
рис. 16, блок Q), проходящими через максимально удаленные значения
наблюдаемых факторов (гиперпараллелепипедом). Однако в случаях значимой
корреляции между факторами, область действия эмпирической функции
регрессии необходимо окаймлять так, чтобы она накрывала только значения
факторов, наблюдаемые в исследовании. Самый простой способ такого
окаймления –
использовать уравнения плоскостей, параллельным
диагональным регрессиям Фриша (см. алгоритмы с примерами в работах [2, 3,
11] и пример ниже в п. 7.2.).
Следует отметить, что область действия эмпирической функции регрессии
фиксируется не только на подмножестве значимых факторов, включённых в
эмпирическую функцию регрессии, а и - на всём множестве факторов,
характеризующих объект маркетинговых исследований : всех варьируемых
«подозреваемых» факторов, а также - не варьируемых и поэтому не принятых в
регрессионный анализ.
Пусть, например, варьрование такого фактора, как Х7 (количество телезрителей
данного телеканала) в диапазоне от минимума Х7- = 1 до максимума Х7+ = 1,3
миллиона (см. п. 6.1.1.1) не оказало значимого влияния на отклик индикатор
быстрой реакции (и поэтому соответствующий коэффициент b7 в эмпирической
функции регрессии (22) не отличен от 0). В этом случае член b7Х7 выпадет из
эмпирической функции регрессии (22). Однако это не означает, что отсутствие
телезрителей (Х7 = 0) допустимо в телеканале. Поэтому диапазон варьрования
фактора Х7 должен быть включён в описание области действия эмпирической
функции регрессии.
7.1.1.6. Проблема восстановления пропущенных значений откликов
Нельзя повторять одну ошибку дважды.
Во второй раз – это уже не ошибка, а - выбор.
Если гипотеза об адекватности эмпирической функции регрессии
экспериментальным данным не отклонится (см. рис. 16, блок Sн), то эту
эмпирическую функцию регрессии можно (при необходимости) использовать
как для прогнозирования значений откликов, так и для восстановления
значений откликов в строках, содержащих их пропуски и поэтому
исключённых (см. рис. 16, в блоке Н) на первом этапе расчётов. Если гипотеза
об адекватности отклонится, то эксперту следует создать новые базисные
функции (см. рис. 16, блок Внд) и повторить процедуры регрессионного
анализа.
61
7.1.1.7. Проблема получения лучшей эмпирической функции регрессии
- Вы можете дать прогноз наших перспектив?
- Могу дать три прогноза: оптимистический, пессимистический и реальный.
- А какой реальный?
- В два раза хуже пессимистического.
Представление о лучшей эмпирической функции регрессии зависит от
конкретных требований к дальнейшему её использованию.
Если эмпирическая функция регрессии предназначена для винсоризации
отклика («исправления» выбросов или ошибочных значений; см. рис. 16,
блоки О, Р), анализа остатков (см. рис. 16, блок N) и оценивания дисперсии
воспроизводимости отклика [2, 3] по параллельным и почти параллельным
наблюдениям (см. рис. 16, блок Rн), то лучшей является эмпирическая функция
регрессии, имеющая минимальное значение среднеквадратичного отклонения
остаточной ошибки.
Если эмпирическая функция регрессии предназначена для расчётов значений
отклика на области действия эмпирической функции регрессии или для
экстраполяции (прогнозирования), то лучшей является адекватная
эмпирическая функция регрессии с оконтуренной (см. рис. 16, блок Qд)
областью действия.
Если эмпирическая функция регрессии предназначена для корректной
интерпретации на её области действия, то лучшей является адекватная
эмпирическая функция регрессии с оконтуренной областью действия, имеющая
высоко значимые коэффициент детерминации R2 и коэффициенты регрессии bi,
а также – с не значимыми минимальными значениями максимального
коэффициента корреляции maxi,j(ri,j) между базисными функциями и
максимального коэффициента детерминации maxi(R2(Xi)) для регрессий
соответствующих i-тых базисных функций на остальные базисные функции,
включённыев эмпирическую функцию регрессии. Если все коэффициенты rij и
все R2(Xi) незначимы, то приводить их точечные оценки в отчёте не
обязательно. Достаточно приводить только высокозначимые коэффициенты ri,j
и R2(Xi).
Отметим также, что в случае, когда параметры эмпирической функции
регрессии являются физическими константами, то лучшей является
эмпирическая функция регрессии, оценки параметров которой коррелируют
между собой незначимо.
Процесс получения интерпретируемой эмпирической функции регрессии –
самый сложный. Высокозначимая корреляция между оценками параметров
эмпирической функции регрессии не позволяет интерпретировать
эмпирическую функцию регрессии корректно. При включении в состав
базисных функций эффектов взаимодействия факторов вообще, и парных
произведений факторов на фактор «время», в частности, часто появляются
близкие к 1 коэффициенты корреляции ri,j между базисными функциями. Это
62
существенно затрудняет интерпретацию эмпирической функции регрессии.
Поэтому при получении интерпретируемой эмпирической функции регрессии,
требования к уровню ответственности за выводы при проверке гипотезы об
адекватности ошибке воспроизводимости отклика можно снизить с
«общепринятого» Эк0 = 50% и соответствующего критического значения
уровня значимости к0 = 0,05 (см. п. 2.3) до меньшего значения: Эк0  (40; 30;
20)% и соответствующего критического уровня значимости к0  (0,02; 0,006;
0,001). Например, согласно формуле (b), при Эк0 = 100к00,233 = 20%; к0 = 0,001
и при объёме выборки 20 < n < 100 соответствующие критические значения
коэффициентов |r0кij| ≈ 0,3 и R0к2(Xi) ≈ 10%.
При обработке результатов пассивных наблюдений незначимые коэффициенты
корреляции между базисными функциями rij и R2(Xi) встречаются редко.
Поэтому для построения корректно интерпретируемых моделей (см. рис. 16,
блок Vн) рекомендуется [3, с. 456] использовать алгоритм исключения
«лишних» строк матрицы данных. Исключение ведётся таким образом,
чтобы уменьшить максимальный по модулю коэффициент корреляции оценок
параметров эмпирической функции регрессии |maxi,j(ri,j)|. Алгоритм позволяет
отбросить «далёкие» точки, наличие которых заведомо приводит к
существованию значимо отличающихся от нуля коэффициентов корреляции, до
тех пор, пока не будет достигнута незначимость всех коэффициентов
корреляции ri,j, либо пока максимальное значение коэффициента корреляции
между факторами не станет меньше заданного «пренебрежимо малого
значения» (например, 0,3), либо пока оставшееся число строк наблюдений не
совпадёт с числом оцениваемых параметров (что при большом объёме n
выборки данных маловероятно). Интерпретируемую эмпирическую функцию
регрессии можно найти и среди некоторых в разной степени адекватных
«пригодных» эмпирических функций регрессии.
7.1.2. Другие процедуры в блок-схеме алгоритма построения эмпирической
функции регрессии
Уже поздно возвращаться назад, чтобы все правильно начать,
но ещё не поздно устремиться вперёд, чтобы все правильно закончить.
Использование описанных процедур в блок-схеме алгоритма построения
эмпирической функции регрессии (см. рис. 16) - не догма. Некоторые из них
могут быть заменены традиционными или более современными процедурами:

вместо процедур в блоках N, O и Pд можно сразу использовать метод
устойчивого оценивания [6] (если в этом случае не будет потеряна важная
информация о наличии выбросов в остатках);

вместо параметрических методов проверки гипотез использовать
непараметрические методы [6, 7] (в этом случае будет снижена мощность
статистических критериев);
63

вместо метода окаймления области действия регрессионной модели,
учитывающего тесную корреляцию некоторых факторов (см. рис. 16, блок Qд),
использовать «традиционное» построение гиперпараллелепипеда в факторном
пространстве (в этом случае эмпирическая функция регрессии будет давать
грубые ошибки на «пустых» участках области действия);

вместо ортогонализации расширенной матрицы плана методом
исключения наблюдений, вызывающих мультиколлинеарность (см. рис. 16,
блок Vнд), использовать метод рижд-регрессии (в этом случае не удастся
уменьшить значимость корреляции между оценками параметров, что ухудшит
корректность интерпретации эмпирической функции регрессии);

можно исключить автоматизированную запись текста отчёта об
интерпретации эмпирической функции регрессии (см. рис. 16, блок Uнд), и
поручить эту работу эксперту (в этом случае время написания отчёта
существенно увеличится, а результат - зависить от компетентности эксперта);

вместо поиска почти параллельных наблюдений, расчета смещённой
оценки дисперсии воспроизводимости отклика по ним и критерия адекватности
эмпирической функции регрессии (см. рис. 16, блок Rнд) использовать
«традиционное» требование получить максимально большее значение
коэффициента детерминации R2 [12 - 14] (в этом случае гипотеза о равенстве
дисперсий остаточной и воспроизводимости останется непроверенной, а
корректрность использования эмпирической функции регрессии для целей
аппроксимации, экстраполяции, управления и интерпретации - сомнительной);

можно не округлять численные значения точечных оценок параметров
эмпирической функции регрессии (в этом случае полученные оценки на 60-80%
будут «замусорены» большим количеством незначащих цифр).
7.1.3. Описание результатов регрессионного анализа
«Тот, кто хочет видеть результаты своего труда
немедленно, должен идти в сапожники». (А. Эйнштейн)
При описании результатов регрессионного анализа, как показывает наш опыт,
необходимо ориентироваться в первую очередь на уровень компетентности
заказчика, не искушённого в проблемах ПС, аргументируя, тем не менее, свои
выводы числовыми данными, убедительными для высококвалифицированных
экспертов - аналитических статистиков.
Поэтому описание результатов регрессионного анализа начинается с
представления следующих характеристик лучшей (см. п. 7.1.1) эмпирической
функции регрессии:
 называется изучаемый отклик, «подозреваемые» факторы, базисные
функции и предполагаемая структура эмпирической функции регрессии;
 приводится вид лучшей эмпирической функции регрессии (обычно - в
виде суммы произведений коэффициентов регрессии на базисные
функции или (и) то же – в стандартизированном виде);
64
 коэффициент детерминации R2;
 среднеквадратичное отклонение остаточной ошибки отклика с её числом
степеней свободы (ЧСС);
 смещённая
оценка
среднеквадратичного
отклонения
ошибки
воспроизводимости отклика (найденная по «почти параллельным»
опытам) с её числом степеней свободы;
 уровень значимости ̂ 0 критерия адекватности эмпирической функции
регрессии и экспертная оценка Э0 уровня ответственности исследователя
за вывод об адекватности;
 уровни значимости α1j коэффициентов регрессии [j  (0, 1, …, n)] и
экспертные оценки Э1j уровней ответственности исследователя за выводы
об их значимости;
 фрагмент из значимых элементов корреляционной матрицы базисных
функций и коэффициенты детерминации для регрессии каждой базисной
функции на остальные базисные функции, включённые в эмпирическую
функцию регрессии;
 окаймляется область действия эмпирической функции регрессии в
факторном пространстве;
 численные оценки всех параметров эмпирической функции регрессии
приводятся с округлением до необходимого количества значащих цифр.
7.1.4. Автоматический синтез текста отчёта
Компьютер позволяет решать все те проблемы,
которые до изобретения компьютера не существовали.
Текст отчёта автоматически синтезируется модулем в следующем виде:
1) делается вывод о степени корректности интерпретации влияния
факторов: однозначная, приближённая, грубая или невозможная
интерпретация;
2) сравниваются «силы» влияния базисных функций на отклик (по
абсолютным
величинам
стандартизированных
коэффициентов
эмпирической функции регрессии или - по значениям соответствующих
уровней значимости оценок коэффициентов регрессии);
3) анализируются направления влияния факторов на отклик (они
определяются знаками перед коэффициентами регрессии и эффектами
взаимодействия факторов);
4) область действия эмпирической функции регрессии и количественные
соотношения между откликом и значимыми базисными функциями
иллюстрируются
соответственно
диаграммами
рассеяния
«подозреваемых» факторов и графиками сечений поверхности отклика с
доверительными интервалами.
В дополнение к вышеперечисленным «формальным» пунктам эксперты
приводят в отчёте содержательный анализ эмпирической функции регрессии.
65
Поскольку эмпирическая функция регрессии описывает маркетинговые ОЭИ,
то обоснование описываемых закономерностей должны быть основанными на
логике содержательных маркетинговых принципов.
При наличии необходимого ПО исследователю будет достаточно ввести в
компьютер таблицу данных, названия факторов и откликов, настроить
параметры регрессионного анализа, а модуль (см. рис. 16) выведет на экран
дисплея статистические характеристики лучшей и ряда полезных эмпирических
функций регрессии, создаст обстоятельный отчёт с описанием на языке
пользователя содержательной интерпретации лучшей и пригодных
эмпирических функций регрессии.
К сожалению, по разным причинам (отсутствии необходимого ПО,
секретности, ограниченности времени, финансов, уровня компетентности, и т.
п.) использовать на практике все описанные в п. 7.1. приёмы сложно.
7.2. Регрессионный анализ быстрой реакции пользователей на телерекламу
интернет-магазина «Партнёр»
«Умные стремятся владеть информацией, мудрые результатом её обработки.
(Олег Кузнецов).
Ряд примеров построения регрессионных моделей объекта маркетинговых
исследований при исследовании покупательского поведения подробно описан
ранее [2].
Обычно отчёт о статистическом маркетинговом исследовании состоит из двух
частей – презентации (иллюстрируемой рисунками и схемами для популярного
представления заказчику) и технической части, содержащей подробное
изложение хода работ:
-матрицы «сырых» и подготовленных к математической обработке данных,
расширенную за счёт базисных функций (иногда - миллионы строк);
-промежуточные результаты расчётов – корреляционную матрицу базисных
функций, результаты винсоризации регрессионных остатков, «пригодные»
эмпирические функции регрессии и мн. др., хранящиеся в базах данных.
К сожалению, по разным причинам (временным, финансовым,
компетентностным и т. п.) использовать на практике все описанные в работе [2]
приёмы регрессионного анализа сложно. Ниже приведено лишь краткое
описание основных этапов исследования эффективности телевизионной
рекламной кампании конкретного интернет-магазина.
«Сырые» исходные данные представляют собой результаты измерения методом
прямого измерения визитов в интернет-магазин (см. п. 4.2.) и факторов в
течение 79-ти суток – с 12 марта по 27 мая 20** г. В качестве отклика Y принят
индикатор быстрой реакции пользователей на телерекламу. Данные для
статистической обработки собраны в матрицу 108×1776, включающую 1776
строк (наблюдений) и 97 базисных функций.
66
Обычно эмпирическую функцию регрессии в модели регрессии принято
записывать в виде многочлена (23) [2, 16]. Однако в пакетах программного
обеспечения прикладной статистики используется более наглядный –
табличный способ представления эмпирической функции регрессии (табл. 6).
Таблица 6. Оценки значимых параметров эмпирической функции регрессии.
Отклик Y - индикатор быстрой реакции пользователей интернет-магазина на рекламу
одежды; результатов наблюдений - 1776; коэффициент детерминации R2 = 0,40.
Наименование базисной функции (см. п. 6.1.1.)
Статистические оценки
Полное
Краткое
bi
Sbi
b0i
|ti|
αi
1 (свободный член)
-103 38,0
2,7 0,007
ПЭВ: (Охват аудитории, млн)×
×Lg(стоимости показа рекламы)
Х7×Lg(Х16)
+123 7,80 0,650 15,7 <0,001
Телевизионный канал ТКS
Х5.1
-76,7 17,5 -0,311 4,4 <0,001
ПЭВ: (Охват аудитории, млн)×(возраст
телерекламы [0...2,5 мес])
Х7×Х18
-149 13,9 -0,302 10,7 <0,001
ПЭВ: (Охват аудитории, млн)×ТКP
Х7×Х5.2
+322 32,3 0,260 9,9 <0,001
ПЭВ: КВТ×ТКS
Х30×Х5.1
+0,021 0,007 0,230 3,2 0,001
Lg(Стоимости показа рекламы)
Lg(Х16)
+57 11,7 0,203 4,9 <0,001
Телевизионный канал КВТ
Х30
-0,031 0,005 -0,190 5,9 <0,001
ПЭВ: (Охват аудитории, млн)×
×(Рекламный ролик для одежды)
Х7×Х8.1
-162 25,9 -0,128 6,2 <0,001
ПЭВ: (Охват аудитории, млн)×
×(Показ рекламы во время фильма)
Х7×Х6.1
+170 38,3 0,117 4,4 <0,001
ПЭВ: (Показ во время шоу)×
×Lg(стоимости показа рекламы)
Х6.2×Lg(Х16) +13,2 2,89 0,104 4,6 <0,001
ПЭВ: (Показ рекламы во время
фильма)×ТКS
Х6.1×Х5.1
+35,0 12,5 0,075 2,8 0,005
ПЭВ: ТКP×(возраст телерекламы)
Х5.2×Х18
-9,6 3,83 -0,062 2,5 0,012
ПЭВ: КВ3×(Близость рекламы к началу
рекламного блока [0,04…1])
Х30×Х13
-0,007 0,003 -0,050 2,4 0,016
ПЭВ: (возраст телерекламы [0...2,5
Х18×
мес])×Cos((6(время суток [0...24ч]))/24) ×(Cos(6Х4/24)) -10 2,51 -0,087 4,0 <0,001
ЧРФ Cos((2(время суток [1...24 ч]))/24) Cos(2Х4/24) -52 5,42 -0,305 9,6 <0,001
ЧРФ Cos((4(время суток [1...24 ч]))/24) Cos(4Х4/24) -34 3,98 -0,192 8,5 <0,001
ЧРФ Sin((6(день месяца [1...31]))/31)
Sin(6Х2/31)
+15 3,22 0,090 4,6 <0,001
ЧРФ Sin((8(день месяца [1...31]))/31)
Sin(8Х2/31)
+8 3,22 0,048 2,5 0,014
+7 3,22 0,043 2,2 0,029
ЧРФ Sin((2(день недели [1...7]))/7)
Sin(2Х3/7)
Обозначения: ПЭВ – парный эффект взаимодействия (произведение двух факторов); ТК –
телевизионный канал; ТКS, ТКP, КВ3 – наименования телевизионных каналов; КВТ количество визитов в течение трёх минут до момента окончания рекламы на ТК; ЧРФ – член
ряда Фурье; bi - точечная оценка коэффициента регрессии; Sbi - среднеквадратичное
отклонение ошибки коэффициента регрессии; b0i - стандартизированное значение
коэффициента регрессии; |ti| - статистика критерия Стьюдента; αi - достигнутый уровень
значимости коэффициента регрессии; фактор Х13 «близость рекламы интернет-магазина к
началу рекламного блока телерекламы» определялся как отношение порядкового номера
рекламы интернет-магазина ко всему количеству реклам в рекламном блоке.
67
Расчёты вополнялись в интерактивном режиме с помощью блок-схемы (см. рис.
16) программы линейного регрессионного анализа. На первом этапе расчётов из
97 «подозреваемых» базисных функций в эмпирической функции регрессии
были включены только высоко значимые. Затем дополнительно матрица
базисных функций была расширена путём включения парных эффектов
взаимодействия тех исходных базисных функций, которые оказались
значимыми на первом этапе расчёта. В каждой итерации расчётов
производилась «чистка» массива данных путём винсоризации выбросов (1 – 3
% строк). Эти мероприятия позволили повысить частный критерий качества
эмпирической функции регрессии – коэффициент детерминации R2 - с 21 % до
40 %.
Полученный коэффициент детерминации R2 = 0,40 означает, что доля 40 %
вариации отклика Y объясняется вариацией факторов, включенных (в виде
базисных функций) в эмпирическую функцию регрессии, а доля 100 - 40 = 60 %
вариации отклика Y объясняется вариацией факторов, не вошедших в
эмпирическую функцию регрессии. Это - факторы, включенные в список
«подозраваемых», составляющие базисные функции, при которых
коэффициенты регрессии оказались незначимыми, а также - известные и
неизвестные нерегистрируемые факторы, не включенные в список
«подозраваемых» факторов (см. факторы Zi на рис. 4 и конкретно - п. 6.1.1.).
Базисные функции, вошедшие в эмпирическую функцию регрессии,
характеризуются рядом статистических оценок (см. обозначения в табл. 6),
сама модель регрессии – коэффициентом детерминации (R2 = 40 %), а также –
F-отношением дисперсий - квадрата значения общего стандартного
отклонения SY отклика Y (SY = 245 визитов) к квадрату остаточного
стандартного
отклонения S0Y ошибки
отклика Y,
(S0Y = 94
визита):
2
F = (SY/S0Y) = 6,8, который (по Вознесенскому [17, с. 98]) характеризует
информационную способность эмпирической функции регрессии.
7.2.1. Корреляция базисных функций
Нет ни одной математической модели, которая предсказывала бы
существенно лучше, чем это можно сделать путём подбрасывания монеты.
Для удобства записи нтересующие нас переменные (факторы и базисные
функции) закодировали номерами (Табл. 7), а из расширенной корреляционной
матрицы (по Spearman) переменных выписали только высоко значимые
элементы r(v)(w), где (v) и (w) – кодовые номера переменных:
68
r(1)(9)=0,799;
r(1)(11)=0,843;
r(1)(12)=0,443;
r(1)(17)=0,501;
r(1)(21)=0,747;
r(2)(3)=0,999;
r(4)(5)=0,554;
r(4)(10)=0,986;
r(5)(10)=0,598;
r(5)(18)=0,408;
r(6)(7)=0,977;
r(6)(8)=-0,462;
r(6)(13)=0,963; r(6)(18)=-0,450; r(9)(11)=0,996;
r(9)(12)=0,628; r(9)(17)=0,422; r(9)(21)=0,651;
r(11)(12)=0,616; r(11)(17)=0,444; r(11)(21)=0,678;
r(12)(20)=0,708; r(13)(18)=-0,434; r(14)(16)=0,981;
r(15)(19)=0,887; r(17)(19)=0,409; r(21)(22)=-0,410.
Примечание.
Область
значений
фактора
«Стоимость показа рекламы» (Х16) - от 355 € до
47892 €; логарифмы этих величин: Lg(355) = 2,55
и Lg(47892) = 4,68.
Таблица 7. Область
значений (Обл. зн.) и
кодовые номера (Nr)
переменных.
Обл. зн.
Min Max
2,55 4,68
0
4,66
0
1
0
1
0
1
0
2,52
0
1
0
0,88
0
4,1
0
1,79
0
0,69
0
0,88
0,04
1
234 4542
-1
1
Переменные
Lg(Х16)
Lg(Х16)×Х6.2
Х6.1
Х6.1×Х5.1
Х5.2
Х5.2×Х18
Х5.1
Х7
Х7×Lg(Х16)
Х7×Х18
Х7×Х5.2
Х7×Х8.1
Х13
Х30
Cos(2Х4/24)
Nr
(1)
(2)
(4)
(5)
(6)
(7)
(8)
(9)
(11)
(12)
(13)
(14)
(15)
(17)
(21)
Ряд
базисных
функций
коррелируют
пренебрежимо
слабо
(поэтому
значения
коэффициентов корреляции менее 0,4 не
приведены). Допустима лишь приближённая
интерпретация влияния на отклик части слабо коррелирующих факторов
эмпирической функции регрессии (см. табл. 6).
7.2.2. Сравнение «силы» влияния базисных функций
«Новая идея появляется в результате сравнения вещей,
которые ещё не сравнивали».
(Клод Гельвеций).
В качестве критериев значимости отличия от нуля коэффициентов регрессии
используются уровни значимости αi (см. табл. 6). Уровень значимости αi
численно равен вероятности ошибочного отклонения гипотезы о равенстве
соответствующего коэффициента регрессии нулю, если эта гипотеза верна. Чем
меньше уровень значимости αi коэффициента регрессии bi (или b0i), тем
значимее соответствующая базисная функция.
Абсолютные значения стандартизированных коэффициентов b 0i эмпирической
функции регрессии (см. табл. 6) позволяют распределить базисные функции по
силе их влияния на отклик следующим образом: сильнее всего на отклик
влияют базисные функции, для которых уровни значимости менее 0,001, а
стандартизированные коэффициенты b0i больше значения 0,23. Менее значимые
влияния на отклик оказывают базисные функции, для которых уровни
значимости находятся в пределах от 0,001 до 0,03, а стандартизированн
коэффициенты b0i находятся в пределах от 0,04 до 0,23. Очевидно, что наиболее
эффективными для улучшения характеристик отклика являются управляющие
воздействия на высокозначимые управляемые факторы.
69
7.2.3. Влияние фактора «охват аудитории, млн»
Порочный круг. Смотришь телерекламу - в ней рекламируют
журнал. Покупаешь журнал - а там реклама магазина. Идешь
в магазин, а там продают телевизоры. Покупаешь телевизор,
включаешь, а там - реклама журнала. Где же выход?
Влияние фактора «Охват аудитории, млн» значимо проявилось при его
включении в состав эффектов взаимодействия с другими факторами.
Перепишем из табл. 6 фрагмент эмпирической функции регрессии так, чтобы
фактор «Охват аудитории, млн» был вынесен за скобки из тех парных
произведений,
куда
он
входит.
Получим:
(Охват
аудитории,
млн.)×[123×Lg(Стоимости показа рекламы) - 149×(Месячная временная
компонента) [от 0 до 2,522] + 322×ТКP (от 0 до 1) -162×Рекламный ролик для
одежды (от 0 до 1) + 170×Показ рекламы во время фильма (от 0 до 1)].
Теперь видно, что фактор «Охват аудитории, млн» оказывает влияние на
отклик Y во взаимодействии с факторами: «Стоимость показа рекламы»,
«Месячная временная компонента», ТКP, «Рекламный ролик для одежды» и
«Показ рекламы во время фильма» следующим образом.
1.
Если отсутствуют: передача рекламы по каналу ТКP, рекламный ролик
для одежды и показ рекламы во время фильма, то:
- при минимальной стоимости показа рекламы 355 € [Lg(355) = 2,55] и в
начале исследования (месячная временная компонента = 0 мес) получим
коэффициент при факторе «охват аудитории, млн»: (123×2,55 - 149×0 + 322×0 162×0 + 170×0) = 314.
Т. е., в этих условиях отклик Y (индикатор быстрой реакции пользователей)
возрастает при возрастании охвата аудитории на 1 млн клиентов, в среднем, на
314 визитов.
Аналогично - при максимальной стоимости показа рекламы в 47892 €
[Lg(47892) = 4,68] и начале исследования (месячная временная компонента = 0
мес) получим коэффициент при факторе «охват аудитории, млн»: 123×4,68 =
576. Т. е., в этих условиях отклик Y возрастёт при возрастании охвата
аудитории на 1 млн клиентов, в среднем, на 576 визитов.
2.
Если отсутствуют: передача рекламы по каналу ТКP, рекламный ролик
для одежды и показ рекламы во время фильма, то:
- при минимальной стоимости показа рекламы 355 € [Lg(355) = 2,55] и
окончании исследования (месячная временная компонента = 2,52 мес),
получим коэффициент при факторе «охват аудитории, млн»: (123×2,55149×2,52+322×0-162×0+170×0)=314-376 = -62. Т. е., в этих условиях отклик Y
убывает при возрастании охвата аудитории на 1 млн клиентов, в среднем, на
62 визита.
70
Аналогично - при максимальной стоимости показа рекламы 47892 €
[Lg(47892 = 4,68] и окончании исследования (месячная временная компонента
= 2,52 мес) получим коэффициент при факторе «охват аудитории, млн»:
123×4,68 - 376 = 576 - 376 = 200. Т. е., в этих условиях отклик Y возрастёт при
возрастании охвата аудитории на 1 млн клиентов, в среднем, на 200 визитов.
3.
Если присутствуют передача рекламы по каналу ТКP, рекламный ролик
для одежды и показ рекламы во время фильма, то:
- при минимальной стоимости показа рекламы 355 € [Lg(355) = 2,55] и начале
исследования (месячная временная компонента = 0 мес) получим коэффициент
при факторе «охват аудитории, млн»: (123×2,55-149×0+322×1-162×0+170×0) =
314+322 = 636. Т. е. в этих условиях отклик Y (индикатор быстрой реакции)
возрастает при возрастании охвата аудитории на 1 млн клиентов, в среднем,
на 636 визитов.
Аналогично - при максимальной стоимости показа рекламы 47892 € [Lg(47892)
= 4,68] и начале исследования (месячная временная компонента = 0 мес)
получим коэффициент при факторе «охват аудитории, млн».×(123×4,68) = 576 +
322 = 898.
Т. е., в этих условиях отклик Y возрастёт при возрастании охвата аудитории на
1 млн клиентов, в среднем, на 898 визитов.
4.
Если присутствует передача рекламы по каналу ТКP, но отсутствуют
рекламный ролик для одежды и показ рекламы во время фильма, то:
- при минимальной стоимости показа рекламы 355 € [Lg(355) = 2,55] и
окончании исследования (месячная временная компонента = 2,52 мес)
получим коэффициент при факторе «охват аудитории, млн»: (123×2,55 149×2,52 + 322×1 - 162×0 + 170×0) = 314 - 376 + 322 = -62 + 322 = 260. Т. е., в
этих условиях отклик Y возрастает при возрастании охвата аудитории на 1
млн клиентов, в среднем, на 260 визитов.
Аналогично - при максимальной стоимости показа рекламы 47892 € [Lg(47892)
= 4,68] и окончании исследования (месячная временная компонента = 2,52 мес)
получим коэффициент при факторе «охват аудитории, млн»×(123×4,68) = 576376 = 200 + 322 = 522. Т. е., в этих условиях отклик Y возрастёт при
возрастании охвата аудитории на 1 млн клиентов, в среднем, на 522 визита.
5.
Аналогичный анализ показывает, что наличие рекламного ролика для
одежды снижает эффективность влияния фактора «охват аудитории, млн», в
среднем, на 162 визита, а показ рекламы во время фильма повышает
эффективность влияния фактора «охват аудитории, млн», в среднем, на 170
визитов.
6.
Влияние фактора «охват аудитории, млн» на отклик Y достигало
максимума при условиях: максимальная стоимость показа рекламы =
47892 € [Lg(47892) = 4,68], минимальная месячная временная компонента
71
(начало исследования = 0 мес), передача рекламы по каналу ТКP = 1,
отсутствие рекламного ролика для одежды = 0 и показ рекламы во время
фильма = 1: (123×4,68 - 149×0 + 322×1 -162×0 + 170×1) = 1068.
Т. е., в этих условиях отклик Y возрастает при возрастании охвата аудитории
на 1 млн клиентов, в среднем, на 1068 визитов.
Для улучшения характеристик отклика рекомендуется воздействовать на
высокозначимые управляемые факторы.
7.2.4. Влияние фактора «показ рекламы по телеканалу ТКP»
Реклама клиники по лечению импотенции: «Более сотни наших пациентов
успешно прошли курс лечения и стали серийными насильниками!»
Влияние фактора «показ рекламы по телеканалу ТКP» значимо проявилось
при его включении в состав эффектов взаимодействия с другими факторами.
Перепишем из табл. 6 фрагмент эмпирической функции регрессии так, чтобы
фактор «ТКP» был вынесен за скобки в тех парных произведениях, куда он
входит.
Получим: «ТКP»×[322׫Охват аудитории, млн» (от 0 до 0,88) - 9,6×(Месячная
временная компонента) (от 0 до 2,522)]. Теперь видно, что фактор «показ
рекламы по телеканалу ТКP» оказывает влияние на отклик Y во
взаимодействии с факторами «Охват аудитории, млн» и (Месячная временная
компонента) следующим образом.
1.
Если Охват аудитории = 0 млн (минимален) в начале исследования
(временная компонента = 0 мес) получим коэффициент при факторе
«ТКP»×(322×0 - 9,6×0) = 0. Т. е., в этих условиях отклик Y (индикатор
быстрой реакции пользователей) не возрастает и не убывает.
2.
Если Охват аудитории = 0,88 млн (максимален) в начале
исследования (месячная временная компонента = 0 мес), получим
коэффициент при факторе «ТКP»×(322×0,88 - 9,6×0) = 284. Т. е., в этих
условиях при передаче рекламы по каналу «ТКP» отклик Y возрастает, в
среднем, на 284 визита.
Если Охват аудитории = 0,88 млн (максимален) в конце
исследования (временная компонента = 2,52 мес) получим коэффициент при
факторе «ТКP»×(322×0,88 - 9,6×2,52) = 259. Т. е., в этих условиях при
передаче рекламы по каналу «ТКP» отклик Y возрастает на 259 визитов.
3.
72
7.2.5. Влияние фактора «стоимость показа рекламы»
-Ох, как мне дорого обходится реклама!
-Но Вы же не даёте никакой рекламы!
-Я не даю, но жена-то читает!
Фактор «Стоимость показа рекламы» входит в эмпирическую функцию
регрессии в форме базисной функции - десятичного логарифма от значений
стоимости показа рекламы в € так: Lg«Стоимости показа рекламы». Влияние
базисной функции Lg«Стоимости показа рекламы» значимо проявилось при её
включении в состав эффектов взаимодействия с другими факторами.
Перепишем из табл. 6 фрагмент эмпирической функции регрессии так, чтобы
базисная функция Lg«Стоимости показа рекламы» была вынесена за скобки в
тех парных произведениях, куда она входит.
Получим: Lg«Стоимости показа рекламы»×[123׫Охват аудитории, млн» (от 0
до 0,88) + 57 + 13,2×Показ рекламы во время формата "шоу" (от 0 до 1)].
Теперь видно, что базисная функция Lg«Стоимости показа рекламы» оказывает
влияние на отклик Y во взаимодействии с факторами «Охват аудитории, млн» и
Показ рекламы во время формата "шоу".
1.
Если Охват аудитории = 0 млн (минимален) и Показ рекламы во
время формата "шоу" = 0 (отсутствует), получим коэффициент 57 при
факторе Lg«Стоимости показа рекламы».
Т. е., в этих условиях отклик Y возрастёт при возрастании Lg«Стоимости
показа рекламы» на один порядок (т. е., в 10 раз), в среднем, на 57 визитов
(охват аудитории может быть минимален, но не равным точно 0).
2.
Если Охват аудитории = 0,88 млн (максимален), и Показ рекламы во
время формата "шоу" = 0 (отсутствует), то получим коэффициент при
факторе Lg«Стоимости показа рекламы»: (123×0,88 + 57) = 166.
Т. е., в этих условиях отклик Y возрастёт при возрастании Lg«Стоимости
показа рекламы» на один порядок (т. е., в 10 раз), в среднем, на 166 визитов.
Если Охват аудитории = 0,88 млн (максимален) и Показ рекламы во
время формата "шоу" = 1 (наличествует), получим коэффициент при
факторе Lg«Стоимости показа рекламы»: (123×0,88 + 57 + 13,2×1) = 179. Т. е., в
этих условиях отклик Y возрастёт при возрастании Lg«Стоимости показа
рекламы» на один порядок (в 10 раз), в среднем, на 179 визитов.
3.
7.2.6. Влияние фактора «показ рекламы по телеканалу ТКS»
Телереклама: «Купившему два костыля в нашей аптеке, третий - в подарок!».
Влияние фактора «показ рекламы по телеканалу ТКS» значимо проявилось
при его включении в состав эффектов взаимодействия с другими факторами.
73
Перепишем из табл. 6 фрагмент эмпирической функции регрессии так, чтобы
фактор «ТКS» был вынесен за скобки из тех парных произведениях, куда он
входит.
Получим: «ТКS»×[-76,7 + 0,021×[Количество визитов за 3 мин до окончания
рекламы (от 234 до 4542)]+ 35,0×[Показ рекламы во время фильма (от 0 до 1)].
Теперь видно, что фактор «показ рекламы по телеканалу ТКS» оказывает
влияние на отклик Y во взаимодействии с факторами «Количество визитов за 3
мин до окончания рекламы» и «Показ рекламы во время фильма» следующим
образом.
1.
Если «Показ рекламы во время фильма» отсутствует (равен 0),
количество визитов за 3 мин до окончания рекламы минимально = 234,
получим
коэффициент
при
факторе
«ТКS»,
равный
-76,7 + 0,021×234 = -72. Т. е., в этих условиях отклик Y убывает на 72 визита.
2.
Если происходит «Показ рекламы во время фильма» (фактор равен
1), Количество визитов за 3 мин до окончания рекламы минимально = 234,
получим
коэффициент
при
факторе
«ТКS»,
равный
(-76,7 + 35,0×1 + 0,021×234) = -37.
Т. е., в этих условиях отклик Y убывает, в среднем, на 37 визитов.
Если же происходит «Показ рекламы во время фильма» (фактор
равен 1), Количество визитов за 3 мин до окончания рекламы максимально =
4542, получим коэффициент при факторе «ТКS», равный (-76,7 + 35,0×1 +
0,021×4542) = 54. Т. е., в этих условиях отклик Y возрастает на 54 визита.
3.
7.2.7. Влияние фактора «количество визитов за 3 мин до окончания
рекламы»
Телереклама: «Водка «Машина времени»: выпил - и уже завтра!».
Влияние фактора «Количество визитов за 3 мин до окончания рекламы»
значимо проявилось при его включении в состав эффектов взаимодействия с
другими факторами. Перепишем из табл. 6 фрагмент эмпирической функции
регрессии так, чтобы фактор «Количество визитов за 3 мин до окончания
рекламы» был вынесен за скобки из тех парных произведений, куда он входит.
Получим: «Количество визитов за 3 мин до окончания рекламы» ×
× [0,021×ТКS(от 0 до 1)] - 0,031 - 0,007×[Близость рекламы к началу
рекламного блока (0-начало, 1-конец)].
Теперь видно, что фактор «Количество визитов за 3 мин до окончания
рекламы» оказывает влияние на отклик Y во взаимодействии с факторами
«ТКS» и «Близость рекламы к началу рекламного блока» следующим образом.
74
1. Если фактор «ТКS» отсутствует (равен 0), и «Близость рекламы к
началу рекламного блока» - в начале (равен 0), получим коэффициент при
факторе «Количество визитов за 3 мин до окончания рекламы», равный - 0,031.
Т. е., в этих условиях отклик Y убывает, в среднем, на 31 визит при
возрастании «Количество визитов за 3 мин до окончания рекламы» на 1000
визитов.
2. Если фактор «ТКS» отсутствует (равен 0), и «Близость рекламы к
началу рекламного блока» - в конце (равен 1), получим коэффициент при
факторе «Количество визитов за 3 мин до окончания рекламы», равный - 0,0310,007×1 = - 0,038.
Т. е., в этих условиях отклик Y убывает, в среднем, на 38 визитов при
возрастании «Количество визитов за 3 мин до окончания рекламы» на 1000
визитов.
3. Если фактор «ТКS» наличествует (равен 1), и «Близость рекламы к
началу рекламного блока» - в начале (равен 0), получим коэффициент при
факторе «Количество визитов за 3 мин до окончания рекламы», равный
0,021×1- 0,031- 0,007×0 = - 0,010. Т. е. в этих условиях отклик Y убывает, в
среднем, на 10 визитов при возрастании «Количество визитов за 3 мин до
окончания рекламы» на 1000 визитов. Итак, при разных условиях отклик Y
убывает при возрастании «Количество визитов за 3 мин до окончания
рекламы».
7.2.8. Рисунки к презентации результатов исследования
Один человек нарисовал квадрат и назвал
«Картиной». Получилось! И у вас всё получится!
его
Наличие значимого эффекта взаимодействия Время×Cos((6×Часы)/24)
свидетельствует о том, что динамика изменения отклика в зависимости от
фактора «часы» в процессе исследования претерпевала перемены (рис. 17.а).
Колебания отклика в течение суток, в период с 7-ми до 16-ти часов не даёт
существенного повышения отклика. А в период с 16-ти до 24-х - даёт.
Максимального значения отклик достигает в период с 19-ти до 23-х часов.
График зависимости отклика от дня недели показывает (рис. 17.б.), что отклик
достигает максимального значения по вечерам в четверг и в воскресенье, тогда
как минимальное значение характерно с вечера пятницы до вечера субботы.
Периодичность изменения отклика в течение месяца (Рис. 18.) характеризуется
максимальным значением отклика в период от 28-го числа одного месяца до 3го числа следующего месяца; минимального значения отклик достигает от 4-го
до 11-го текущего месяца, а в середине месяца (с 12-го до 20-го) наблюдалось
уменьшение значения отклика в среднем на 15-ть визитов за каждый
последующий месяц исследования.
75
Рис. 17.а Изменение индикатора быстрой реакции пользователей (Y) в
течение суток в различные периоды исследования:
Х4 – время суток, ч; 1, 2, …, 10 – номера недель в течение 2,5 месяцев после 12.03.20**.
Рис. 17.б. Изменение индикатора быстрой реакции пользователей (Y) за
неделю: Х3 – номер дня недели.
Содержательный анализ полученных результатов математического описания
влияния факторов на отклик (индикатор быстрой реакции пользователей)
позволяет осуществлять управляющие воздействия на факторы, приводящие к
увеличению отклика и снижению издержек на телерекламу.
76
Рис. 18. Влияние на индикатор быстрой реакции пользователей (Y) дней месяца:
3 – в марте; 4 – в апреле; 5 – в мае.
7.3. Маркетинговое исследование реакции пользователей на телевизионную
рекламу интернет-магазина «Рог изобилия»
Чем больше получаешь знаний, тем меньше
времени на то, чтобы их использовать.
Обычно отчёт о статистическом маркетинговом исследовании состоит из двух
частей – презентации (иллюстрируемой рисунками и схемами для популярного
представления заказчику) и технической части, содержащей подробное
изложение хода работ:

матрицы «сырых» и подготовленных к математической обработке данных
(миллионы строк), расширенную за счёт базисных функций;

промежуточные результаты расчётов – корреляционную матрицу
базисных функций, результаты винсоризации регрессионных остатков,
«пригодные» эмпирические функции регрессии и мн. др., хранящиеся в
электронных базах данных.
Ряд примеров построения регрессионных моделей объекта маркетинговых
исследований, иллюстрирующих работу описанного выше модуля (см. рис. 16)
при маркетинговом исследовании покупательского поведения подробно описан
ранее [2].
Ниже приведено описание основных этапов исследований эффективности
телевизионных рекламных кампаний конкретного интернет-магазина. Расчёты
77
выполнены с использованием небольшого массива данных для того, чтобы
читатель мог воспроизвести некоторые этапы расчётов сам.
Исследована реакция пользователей на брендовую телерекламу реального
интернет-магазина, условно названного «Рог изобилия».
Брендовая телереклама, вообще говоря, не требует от пользователя
немедленного обращения в интернет-магазин. Так и оказалось: большинство
индикаторов быстрой реакции были ненамного значимее шума, и поэтому
представительность выборки для регрессионного анализа упала настолько, что
построение интерпретируемых эмпирических функций регрессии стало
практически невозможным. Выход из этого затруднения был найден путём
построения интерпретируемой эмпирической функции регрессии по легко
измеряемым суточным количествам визитов пользователей интернетмагазина в качестве отклика.
7.3.1. Предварительное исследование
«Познание уничтожает деятельность: для того, чтобы
действовать, нужно быть ослепленным иллюзией». (Ф. Ницше).
Целями предварительного исследования были выбор и обоснование способа
статистического анализа полученной информации. Исходные данные для
измерения индикаторов быстрой реакции представляли собой результаты
наблюдения рядов временных штампов визитов {хj} и МОР {ti} (см. п. 1)
интернет-магазина «Рог изобилия» в течение 17-ти суток. Визуальный анализ
графиков Ʌ-кривых на дифференциальной функции распределения визитов
(рис. 17) послужил основанием для выдвижения двух гипотез:

пессимистической – нулевой гипотезы Н0 о том, что величины
индикаторов быстрой реакции после МОР в данных не более значимы, чем
шум и

оптимистической и предпочтительной - альтернативной гипотезы Н1
о том, что величины индикаторов быстрой реакции после МОР значимо
выделяются на фоне шума.
Для проверки этих гипотез было сделано следующее.
Основываясь на результатах измерения значений индикаторов быстрой реакции
методом косвенного измерения АФВ (см. п. 4.1.1.) построена ЭФРа
продолжительности f-кривых (см. рис. 2) от одиночных телереклам (рис. 18), из
которой следует, что в период времени менее 420 с (Т0,01 = 420 с) наблюдается
99% всех одиночных f-кривых.
Выделены группы близких ТВ-реклам (см. п. 5. и табл. 8.) от различных
телеканалов, «расстояния» ΔТi между которыми не превышают периоды
времени Тα = 420 с. «Близкими» из 131 оказались не только 61 группа по двум
телерекламам подряд, но и большее количество (70 групп) – от 3-х до 11-ти
телерекламам подряд.
78
1.
Рис. 17. Фрагменты графиков дифференциальной функции распределения
визитов:
t – время суток (мин:с) в период – от 20 ч 44:00 до 20 ч 59:00; F`(t) – среднее за период
времени Δt количество визитов в секунду; пунктиры – моменты ti окончания телереклам на
4-х телеканалов – NT, RT, N2 и PR; сглаженные кривые F`(t) ≈ ΔF(t)/Δt (с-1) построены при
различных значениях приращения Δt для численного определения производной; номера
кривых 1, …, 5 соответствуют значениям периодов времени Δt  (30, 60, 120, 180, 240) с.
Рис. 18. Эмпирическая функция распределения продолжительности f-кривых
от одиночных телереклам:
Р – вероятность; Т – время, с; Тα - верхний альфа-предел периодов времён Тαi, в течение
которых наблюдаются fi-кривые; α = 0,01; Тα = 420 с; всего одиночных телереклам - 161.
Исследованы свойства шума. Для этого найдены 2Тα = 840-секундные
интервалы, в пределах которых отсутствовали реальные ТВ-рекламы. В
серединах этих интервалов были имитированы одиночные телерекламы,
после которых наблюдались только шумы.
79
Следующие статистические оценки параметров распределения одиночных
индикаторов быстрой реакции и их временных интервалов получены
устойчивыми методами [см. формулы (15) и (16)]:

среднеквадратичное отклонение случайной компоненты погрешности
измерения
индикаторов
быстрой
реакции,
определяемое
по
среднеквадратичному отклонению шума, составляет 40 визитов; небольшая
систематическая погрешность измерения одиночных индикаторов быстрой
реакции, составляющая 13 визитов, значимо отклоняется от нулевых
Табл. 8.
значений (критерий Стьюдента: tα/2 = 13×(161)0,5/40 = 4,1;
Частота
(Ч)
уровень значимости α0 = 0,00003; соответствующий, согласно
одиночных
формуле (b), уровень ответственности за вывод Э0 = 97% ; индекс
(К = 1) и
0 означает, что гипотеза Н0 о равенстве нулю систематической
«близких»
погрешности является предпочтительной).
(К > 1)
Поэтому из всех результатов измерения индикаторов быстрой телевизионреакции методом АФВ следует вычитать систематическую ных реклам
ИМ «Рог
компоненту погрешности - 13 визитов.
изобилия».

среднеквадратичное
отклонение
распределения
161
К
Ч
одиночных индикаторов быстрой реакции (см. табл. 8.), равное
1
161
57-и визитам и среднеквадратичное отклонение шумового фона
2
61
(40 визитов) различаются значимо (критерий Фишера
3
30
2
2
Fα;160;91 = 57 /40 = 2,03; α1 = 0,0001; уровень ответственности за
4
18
5
6
вывод, согласно формуле (а), Э1 = 93%; гипотеза Н1 о различии
6
5
среднеквадратичных отклонений является предпочтительной).
7
3
Количество одиночных индикаторов быстрой реакции,
8
2
выделяющихся на фоне шума после МОР, обнаруживаются так
9
3
(см. п. 4.3.2.). Строят согласно «правилу двух сигм»
10
2
доверительный интервал -13 ± 2×40 – от -67-ми до 93-х визитов.
11
1
Если значение индикаторов быстрой реакции находится вне Итого: 292
пределов этого интервала, то его величина значимо (при
α1 = 0,05; Э1 = 50%) отлична от нуля. В массиве данных их было обнаружено
только 17% от общего количества, из них значимо отрицательных - 11% и
значимо положительных - 6%.
7.3.2. Исследование быстрой реакции пользователей на телерекламу из
групп близких телереклам
Если проблема неразрешима, то это - не проблема, а - закономерность.
В имеющимся массиве данных (см. табл. 8) обнаружили 131 группу близких
телереклам.
Расщепить суммарный эффект групп близких телереклам на эффекты индикаторы быстрой реакции от отдельных телеканалов (от отдельных fкривых)
не
представлялось
возможным
из-за
большого
шума,
неопределённости знаков отдельных индикаторов быстрой реакции в группах и
80
очень малых расстояний между соседними телерекламами в группах. Поэтому
попытались, хотя бы, определить суммарные реакции пользователей из групп
близких телереклам, то есть, суммы индикаторов быстрой реакции в группах.
1.
Получено распределение времени продолжительности сумм индикаторов
быстрой реакции (см. табл. 8) в 131 группах близких телереклам из которого
следует, что в период времени менее 840 с наблюдается 99% всех сумм
индикаторов быстрой реакции.
2.
Систематическая компонента распределения сумм индикаторов быстрой
реакции (32 визита) на шумовом фоне (среднеквадратичное отклонение = 40
визитов) является значимой (критерий Стьюдента: tα/2=32×(131)0,5/40 = 9,2;
α1 < 10-9; Э1 > 99%).
3.
Среднеквадратичное отклонение распределения сумм индикаторов
быстрой реакции (89 визитов) и среднеквадратичное отклонение шумового
фона (среднеквадратичное отклонение = 40 визитов) различаются значимо
(критерий Фишера Fα;160;91 = 892/402 = 4,95; α1 < 10-9; Э1 > 99%).
4.
Количество сумм индикаторов быстрой реакции, выделяющихся на фоне
шума из 131 групп близких телереклам было только 45%, из них значимо
отрицательных - 20% и значимо положительных - 25%.
Итак, в приведенных данных нашлось небольшое количество - 17%
индикаторов быстрой реакции от одиночных телереклам и 45% - от групп
близких телереклам, значимо отличающихся от шума. Из них значимо
отрицательных - 11% индикаторов быстрой реакции от одиночных телереклам
и 20% - от групп близких телереклам; значимо положительных - 6%
индикаторов быстрой реакции от одиночных телереклам и 25% - от групп
близких телереклам.
И, наконец, последним существенным недостатком данных было то, что
подавляющее большинство групп близких телереклам наблюдалось в вечернее
время суток. А построение эмпирической функции регрессии для индикаторов
быстрой реакции от одиночных f-кривых в «непопулярное» для телерекламы
дневное время суток для маркетинга большого интереса не представляет.
Таким образом, представительность выборки для регрессионного анализа упала
настолько, что построение интерпретируемых эмпирических функций
регрессии стало практически невозможным.
Выход из этого затруднения лежит в построении интерпретируемой
эмпирической функции регрессии по легко измеряемым суточным
количествам визитов пользователей интернет-магазина в качестве отклика.
81
7.3.3. Исследование зависимости суточного количества визитов
пользователей интернет-магазина «Рог изобилия» от характеристик
телевизионной рекламы
В наше время люди узнают о том, что они думают, в основном, по телевизору.
Известно (см. п. 2.3.), что проблем измерения суточного количества визитов
пользователей интернет-магазина нет, а выделить влияние характеристик
телерекламы на фоне множество других измеримых факторов можно методом
многомерного регрессионного анализа [2, 3, 6, 11 - 17].
В качестве отклика Y принято суточное количество визитов пользователей
интернет-магазина (см. п. 2.3.); значения факторов (см. п. 6.1.2.) измерялись в
течение 17-ти суток (с пропусками) – с 7-го по 25-е мая 2014 г. Данные для
статистической обработки были собраны в матрицу, включающую 17 строк
(наблюдений) и 73 столбца (57 столбцов - в табл. 9 и 16 столбцов базисных
функций в виде членов (23) ряда Фурье для Хj [j ϵ (1; 3)]).
Таблица 9. Некоторых характеристики исходных переменных, наблюдаемых
каждые сутки
№
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
Наименование исходных переменных
Полное
Суточное количество визитов (СКВ)
Номер дня месяца (май 2014 г.)
Номер дня недели (1 – пн; ...; 7 - вс)
Количество телереклам по телеканалу AR
Количество телереклам по телеканалу CC
Количество телереклам по телеканалу DM
Количество телереклам по телеканалу K1
Количество телереклам по телеканалу N4
Количество телереклам по телеканалу N5
Количество телереклам по телеканалу NT
Количество телереклам по телеканалу PS
Количество телереклам по телеканалу RII
Количество телереклам по телеканалу RN
Количество телереклам по телеканалу RT
Количество телереклам по телеканалу S1
Количество телереклам по телеканалу S2
Количество телереклам по телеканалу С1
Количество телереклам по телеканалу С2
Количество телереклам по телеканалу SR
Количество телереклам по телеканалу VO
Количество ТР после телепередачи «Комедия»
Количество ТР после телепередачи «Фильм»
Количество ТР после телепередачи «Новости»
Количество ТР после телепередачи «Реально»
Количество ТР после телепередачи «Сериал»
Количество ТР после телепередачи «Шоу»
Количество ТР после телепередачи «Дока»
82
Код
Y
Х1
Х3
Х4.1
Х4.2
Х4.3
Х4.4
Х4.5
Х4.6
Х4.7
Х4.8
Х4.9
Х4.10
Х4.11
Х4.12
Х4.13
Х4.14
Х4.15
Х4.16
Х4.17
Х5.1.4
Х5.2.4
Х5.3.4
Х5.4.4
Х5.5.4
Х5.6.4
Х5.7.4
Пределы*
ХХ+
253011
518835
7
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
2
0
0
25
7
3
5
5
9
8
3
6
22
7
9
11
8
5
8
3
3
7
13
23
2
1
31
7
14
Количество ТР после телепередачи «Спорт»
Х5.8.4
0
Количество ТР после телепередачи «Магазин»
Х5.9.4
0
Количество ТР после телепередачи «Музыка»
Х5.10.4
0
Количество ТР после телепередачи «Ток-шоу»
Х5.11.4
0
Количество ТР до телепередачи «Комедия»
Х5.1.3
0
Количество ТР до телепередачи «Фильм»
Х5.2.3
0
Количество ТР до телепередачи «Новости»
Х5.3.3
0
Количество ТР до телепередачи «Реальность»
Х5.4.3
0
Количество ТР до телепередачи «Сериал»
Х5.5.3
2
Количество ТР до телепередачи «Шоу»
Х5.6.3
0
Количество ТР до телепередачи «Документы»
Х5.7.3
0
Количество ТР до телепередачи «Спорт»
Х5.8.3
0
Количество ТР до телепередачи «Магазин»
Х5.9.3
0
Количество ТР до телепередачи «Музыка»
Х5.10.3
0
Количество ТР до телепередачи «Ток-шоу»
Х5.11.3
0
Время дня: ночь (00:00-05:59)
Х6.1
0
Время дня: утро (06:00-11:59)
Х6.2
0
Время дня: обед (12:00-17:59)
Х6.3
0
Время дня: вечер (18:00-23:59)
Х6.4
0
Медиана периодов времени между двумя ближайшими
47 показами реклам (мин.)
Х12.1
3,6
48 Медиана близости ТР ИМ к началу блока
Х13.1
0,29
49 Медиана продолжительности ТР (сек.)
Х14.1
20
50 Медиана логарифма стоимости ТР
Х16.1
0,18
51 Количество типов ТР торгового центра
Х19.1
3
52 Количество типов ТР холодильников
Х19.2
0
53 Количество типов телереклам туризма
Х19.3
0
54 Количество типов ТР бытовых товаров
Х19.4
0
55 Количество типов ТР пляжных товаров
Х19.5
1
56 Количество типов телереклам техники
Х19.6
0
57 Количество типов ТР стиральных машин
Х19.7
0
*Обозначения: Х- и Х+- минимальное и максимальное значения; ТР – телереклама.
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
17
11
1
5
13
24
4
0
29
8
14
18
8
1
5
13
7
27
56
16,1
1
26
1,15
52
27
1
32
21
1
21
Целью регрессионного анализа было получение эмпирической функции
регрессии, предназначеной для корректной интерпретации на её области
действия (см. п. 7.1.1.7).
Расчёты выполнялись в интерактивном режиме, в соответствии с алгоритмом
построения линейных эмпирических функций регрессии (см. раздел 7.1). Из 73х «подозреваемых» базисных функций в эмпирическую функцию регрессии
были выбраны только 6 высоко значимых базисных функций (табл. 10).
Влияние остальных базисных функций оказалось не значимым.
Обычно эмпирическую функцию регрессии принято записывать в виде суммы
(22) [2, 16]. В нашем примере – это
Ŷ = 434292 - 7709Х1 + 48349Х5.3.4 - 5111Х5.8.3 + 12745Х4.4 - 15729Х5.6.4 - 6940Х4.13 - 8178Cos(4Х3/7).
(27)
83
Таблица 10. Оценки значимых параметров эмпирической функции регрессии (27):
отклик Y - суточное количество визитов (СКВ) пользователей интернет-магазина;
результатов наблюдений n = 17; коэффициент детерминации R2 = 98,9% высоко значим:
αi < 10-13; Эi > 99,9 %; среднеквадратичное отклонение остаточной ошибки отклика:
SYO = 6676 СКВ с 9-ю числами степеней свободы.
Наименование базисной функции (см. п. 6.1.2.)
Статистические оценки
Полное
Код
bi
Sbi
b0i
ti
α1i
Э1i
-13
Базисная функция при свободном члене
1 434292 6840
63 3×10
99,9
-09
Номер дня месяца
Х1 -7709 319 -0,719 -24 2×10
99,1
-08
Количество телереклам после «Новостей» Х5.3.4 48347 2691 0,618
18 2×10
98,3
Количество ТР до телепередачи «Спорт» Х5.8.3 -5111 394 -0,377 -13 4×10-07 96,8
Количество телереклам по телеканалу K1 Х4.4 12745 944 0,579
13 3×10-07 97,0
Количество ТР после телепередачи «Шоу» Х5.6.4 -15729 1128 -0,582 -14 2×10-07 97,2
Количество телереклам по телеканалу S2 Х4.13 -6940 2111 -0,130 -3,3 9×10-03 66,3
Cos((4(номер дня недели, Х3))/7) Cos(4Х3/7) -8178 2989 -0,090 -2,7 2×10-02 58,5
Обозначения: ТР – телевизионная реклама; Х3 - номер дня недели;
для i-го коэффициента регрессии: bi – его точечная оценка; Sbi - среднеквадратичное
отклонение его ошибки; b0i - его стандартизированное значение; |ti| - статистика критерия
Стьюдента; α1i - уровень его значимости; Э1i – экспертная оценка уровня ответственности
исследователя за вывод о значимости коэффициента bi, %.
Однако в пакетах программного обеспечения прикладной статистики
используется более наглядный – табличный способ представления
эмпирической
функции
регрессии,
где
приводить
статистические
характеристики удобнее (см. табл. 10).
При необходимости читатель имеет возможность повторить вышеописанные
расчёты, воспользовавшись минимально необходимым объёмом исходных
данных (табл. 11). Коэффициент детерминации R2 показывает, какая доля
вариации отклика Y объясняется вариацией значимых факторов, включенных в
эмпирическую функцию регрессии:
R2 = ((S2Y – S2YO)/S2Y)100% = (1 – S2YO/S2Y)100%,
(28)
где S2YO и S2Y – остаточная и общая дисперсии отклика. В нашем примере (см.
табл. 10, 11): S2YO = 50072×16/9 = 66762; R2 = (1 – 66762/625972)100% = 98,9%.
Довольно высокий коэффициент детерминации R2 позволил не вводить в
матрицу базисных функций «лишние» парные эффекты взаимодействия.
Высокая точность эмпирической функции регрессии (27) иллюстрируется
близостью наблюдаемых Yi и рассчитанных Ŷi по эмпирической функции
регрессии (27) значений отклика (см. табл. 11), а также – наглядно (рис. 19).
Матрица базисных функций при значимых коэффициентах регрессии оказалась
«почти» диагональной: только три коэффициента корреляции были «слегка»
Таблица 11. Значения некоторых базисных функций (БФ) и откликов в
регрессионном анализе данных.
84
Базисные функции (БФji)*
Отклики
Сумма затрат, €
i Х1 Х3 Сos(U) K1 S2 Х5.3.4 Х5.6.4 Х5.8.3
Yi
Ŷi
Yi - Ŷi
Ас
1 7 3 0,62 5 1 0
5
0
345365
353388
-8023
4000
2 8 4 0,63 9 2 2
3
0
518835
517834
1001
5100
3 9 5 -0,90 9 2 1
7
2
403325
401112
2213
7000
4 10 6 -0,23 5 0 0
3
6
349860
344937
4923
3900
5 11 7 1,00 1 2 0
2
4
289847
288278
1569
2900
6 12 1 -0,22 0 1 0
0
0
332359
336657
-4298
500
7 14 3 0,62 4 1 0
3
4
308989
297694
11295
3700
8 15 4 0,63 6 2 0
2
6
307606
314001
-6395
4800
9 16 5 -0,90 4 1 0
4
4
281477
278980
2497
4100
10 17 6 -0,23 6 2 0
2
10
276663
285124
-8461
5600
11 18 7 1,00 4 3 1
0
18
275564
273863
1701
6400
12 19 1 -0,22 0 0 0
0
0
293127
289634
3493
0
13 21 3 0,62 3 1 2
6
5
274136
275386
-1250
5000
14 22 4 0,63 9 5 0
2
2
301811
297897
3914
6400
15 23 5 -0,90 7 2 2
7
0
325622
326267
-645
6100
16 24 6 -0,23 5 1 1
3
1
301778
303975
-2197
3500
17 25 7 1,00 3 1 0
0
2
253011
254462
-1451
1800
Хсj 16 0
5 2 1
3
4
319963
319970
-7
4165
Хj 7 -1
0 0 0
0
0
253011
254462
-8461
0
+
Хj 25 1
9 5 2
7
18
518835
517834
11295
7000
Sj 5,8 0,7 2,8 1,2 0,8 2,3
4,6
62597
62395
5007
2008
ОМ 26 1 -0,22 3 0 9
0
0
3000
495430
*Обозначения:
Х1 и Х3 номера дня месяца (мая 20** г.) и дня недели, соответственно;
Сos(U) = Сos(4Х3/7) – член ряда Фурье;
K1 = Х4.4; S2 = Х4.13 - количество телереклам по телеканалам K1 и S2;
Х5.3.4 - количество телереклам после телепередачи «Новости»;
Х5.6.4 - количество телереклам после телепередачи «Шоу»;
Х5.8.3 - Количество телереклам до телепередачи «Спорт»;
Yi и Ŷi – наблюдаемое и рассчитанное по ЭФРе (27) значения отклика;
Хсj, Хj-, Хj+ и Sj – соответственно: среднее, минимальное, максимальное значения и
стандартное отклонение;
Ас - сумма затрат интернет-магазина на все телерекламы за сутки;
ОМ - оптимальный медиаплан на (n + 1)-е сутки по итогам решения задач 1 и 2 (см. п. 7.3.3.).
значимыми (для них Э0 < 50%): r(Х5.3.4, Х5.6.4) = 0,49 (α0 = 0,04; Э0 = 47%); r(Х4.4,
Х5.6.4) = 0,48 (α0 = 0,05; Э0 = 50%); r(Х4.4, Х4.13) = 0,57 (α0 = 0,02; Э0 = 40%);
r(Х5.6.4, Сos(4Х3/7)) = 0,57 (α0 = 0,02; Э0 = 40%).
Здесь Э0 – экспертная оценка уровня ответственности за вывод о том, что
оценка r(•) коэффициента корреляции не значимая. Остальные коэффициенты
корреляции, такие, как, например, r(Х1, Х5.8.3) = 0,05 (α0 = 0,85; Э0 = 96%), – не
значимые, поэтому не приведены. Все коэффициенты детерминации R2(Xi)
оказались также не значимыми: для них все оценки Э0i > 50% (табл. 12).
Фрагменты области действия эмпирической функции регрессии (27)
85
Рис. 19. Близость наблюдаемых Yi и рассчитанных Ŷi по эмпирической
функции регрессии (27) значений суточного количества визитов
пользователей интернет-магазина (прямая – это Y = Ŷ).
Таблица 12. Дополнительные оценки эмпирической функции регрессии (27) и
оптимизация
Наименование i-го фактора
Полное
День месяца
К. ТР после «Новостей»
К. ТР до ТП «Спорт»
К. ТР по каналу K1
К. ТР после ТП «Шоу»
К. ТР по ТВ к-лу S2
Cos(4Х3/7)
Xi
Х1
Х5.3.4
Х5.8.3
Х4.4
Х5.6.4
Х4.13
-
Оценки
R2i
20
40
16
61
59
74
34
α0i
0,86
0,42
0,91
0,08
0,10
0,16
0,56
Э0i
97
82
98
56
58
65
87
bi
48347
-5111
12745
-15729
-6940
-
Оптимизация
ΔXi
0,28
-2,61
1,05
-0,85
-1,92
-
Х+i ΔXi
2
+1
18
-3
9
+2
7
-1
5
-2
-
ΔYi
48347
15333
25490
15729
13880
-
аi
100
200
300
400
500
-
Xin+
26
3
21
11
8
7
-
Обозначения: R2i = R2(Xi) - коэффициент детерминации для регрессии соответствующего
фактора Xi на остальные значимые факторы эмпирической функции регрессии (27);
α0i - уровень значимости коэффициента R2(Xi);
Э0i – экспертная оценка уровня ответственности исследователя за вывод о незначимости
коэффициента R2(Xi), %;
bi – точечная оценка i-го коэффициента регрессии эмпирической функции регрессии (27);
ΔXi и ΔXi – минимальный диапазон варьируемого фактора Xi и его округленное значение;
Х¯i и Х+i - минимальное и максимальное значения варьируемого фактора; Х¯i = 0 для всех i;
ΔYi – реальное изменение отклика при соответствующем изменении ΔXi фактора Хi;
аi - стоимость одной телерекламы по i-тому телеканалу, €;
асi(n+1) – суммарная стоимость телерекламы по i-тому телеканалу за (n+1)-е - сутки, €;
Xin+– верхний допустимый предел экстраполяции эмпирической функции регрессии (27) за
область её действия; К. ТР – количество телереклам; ТП - телепередача.
представлены проекциями на плоскости, образованные некоторыми парами
значимых факторов (рис. 20), в виде пяти- или шестиугольных фигур для
86
Х4.4 - количество телереклам по телеканалу
K1; Х4.13 - количество телереклам по
телеканалу S2;
r(Х4.4, Х4.13) = 0,57 (α0 = 0,02; Э0 = 40%).
Х5.6.4 - количество телереклам после
«Шоу»; Сos(•) = Сos(4Х3/7) – член ряда
Фурье; r(Х5.6.4, Сos(4Х3/7)) = 0,57 (α0 =
0,02; Э0= 40%)
Х4.4 – к-во телереклам по телеканалу K1; Х5.3.4 - количество ТР после «Новостей»;
Х5.6.4 – к-во ТР после телепередачи «Шоу»;
Х5.6.4 – к-во телереклам после «Шоу»;
r(Х4.4, Х5.6.4) = 0,48 (α0 = 0,05; Э0 = 50%).
r(Х5.3.4, Х5.6.4) = 0,49 (α0 = 0,04; Э0 = 47%).
Рис. 20. Проекции области действия
эмпирической функции регрессии
(27) на плоскости, образованные
некоторыми парами значимых
факторов:
● – наблюдаемые значения величин (табл.
11); 1 – регрессия Фриша; 2 – границы
области действия; α0 – уровень значимости
коэффициента корреляции r(•); Э0 экспертная оценка уровня ответственности
за вывод о том, что оценка r(•)
коэффициента корреляции - не значимая;
индекс 0 при α0 и Э0 означает, что гипотеза
Х1 – номер дня месяца (мая);
Х5.8.3 – к-во ТР до телепередачи «Спорт»; о незначимости коэффициента корреляции
является предпочтительной.
r(Х1, Х5.8.3) = 0,05 (α0 = 0,85; Э0 = 96%).
«слегка» коррелирующих между собой факторов, а также - в виде
параллелепипедов (подобных паре Х1 и Х5.8.3 на рис. 20) для некоррелирующих
факторов. Для незначимых факторов эта область ограничена их минимальными
87
(Х-) и максимальными (Х+) значениями (см. табл. 9). Если не пренебрегать
парной корреляцией между факторами, то влияние на отклик одного фактора
будет зависеть от уровня значений другого, корреллирующего с ним, фактора.
Например, когда количество телереклам по телеканалу K1 равно Х4.4 = 0 в
сутки (см. рис. 20), то количество телереклам после телепередачи «Шоу» (Х5.6.4)
может варьироваться лишь в диапазоне, приблизительно, - от 0 до 4-х в сутки
(или меньше), но когда количество Х4.4 = 9 в сутки, то диапазон количества
телереклам после телепередачи «Шоу» (Х5.6.4) может варьироваться уже - не от
0, а – от 2-х до 7-ми в сутки.
Тем не менее, слабая значимость парной корреляции между значимыми
факторами эмпирической функции регрессии (27) позволяет считать влияние на
отклик этих факторов независимым. Действительно, если все значимые
факторы эмпирической функции регрессии (27) рассматривать на их средних
уровнях Хсi (см. табл. 11), то вариация любого из них Хi может происходить во
всём диапазоне области действия – от минимального Хi- значения до
максимального Хi+ (рис. 21). Например, когда количество телереклам по
Рис. 21. Независимое влияние одних факторов эмпирической функции
регрессии (27) на суточное количество визитов пользователей интернетмагазина «Рог изобилия» Y при средних значениях других факторов
(обозначения см. в табл. 10):
пунктиром отмечены границы 95-процентных доверительных интервалов.
телеканалу K1 равно Хс4.4 = 5 в сутки, то количество телереклам после
телепередачи «Шоу» (Х5.6.4) может варьироваться в диапазоне - от Х-5.6.4 = 0 до
Х+5.6.4 = 7-ми в сутки. Таким образом, эмпирическая функция регрессии (27)
оказалась интерпретируемой почти корректно.
88
7.3.4. Проверка адекватности эмпирической функции регрессии
Сложные проблемы всегда имеют простые,
легкие для понимания неправильные решения.
Как указано выше (см. п. 7.1.1.1.), методика проверки адекватности
эмпирической функции регрессии, построенной по данным пассивных
наблюдений, предложенная в работах [2, 3], не получила широкого
распространения.
Поэтому
ниже
на
примере
будет
показана
последовательность соответствующих расчётов. Предпочтение отдаётся
нулевым гипотезам, поэтому примем критическое значение α0к с обычным
уровнем ответственности за вывод [см. 2, с. 239 и п. 2.3] Эк0 = 50% и α0к = 0,05.
1)
Рассматриваемая в общем виде эмпирическая функция регрессии (26)
имеет конкретный вид (27).
2)
Оценка остаточной дисперсии S2YO = 66762 с 9-ю числами степеней
свободы (см. табл. 10).
3)
Размерный коэффициент масштаба
М = 2,8SOYn-0,5 = 2,8×6676×17-0,5 = 4534 СКВ.
4)
Строим квадратную матрицу n×n (табл. 13), содержащую
С = n(n-1)/2 = 17×16/2 = 136 расстояний L(Хi, Хj) (27) между парами точек
Таблица 13. Безразмерные расстояния L(Хi, Хj) (27) между парами точек Хi, Хj
(см. табл. 11) в факторном пространстве.
i, j 1 2 3 4 5 6 7 8 9 10 11
1 0 43 39 22 35 41 26 35 29 45 74
2 43 0 31 47 58 67 52 52 61 61 75
3 39 31 0 46 60 70 54 54 51 60 77
4 22 47 46 0 24 36 15 19 21 26 58
5 35 58 60 24 0 20 19 24 29 33 55
6 41 67 70 36 20 0 31 39 38 45 58
7 26 52 54 15 19 31 0 15 10 24 47
8 35 52 54 19 24 39 15 0 21 9 44
9 29 61 51 21 29 38 10 21 0 24 50
10 45 61 60 26 33 45 24 9 24 0 38
11 74 75 77 58 55 58 47 44 50 38 0
12 55 80 84 47 33 13 38 42 37 42 51
13 60 57 59 60 61 73 48 57 43 59 58
14 56 55 57 49 49 59 40 29 42 32 60
15 65 48 42 74 84 87 68 65 58 64 77
16 49 53 54 42 55 57 35 41 35 41 48
17 57 82 84 50 40 35 35 39 38 42 46
Обозначения: i, j - номер наблюдения в табл. 11.
12
55
80
84
47
33
13
38
42
37
42
51
0
63
49
76
46
25
13
60
57
59
60
61
73
48
57
43
59
58
63
0
63
28
38
53
14
56
55
57
49
49
59
40
29
42
32
60
49
63
0
56
38
36
15
65
48
42
74
84
87
68
65
58
64
77
76
28
56
0
36
67
16
49
53
54
42
55
57
35
41
35
41
48
46
38
38
36
0
32
17
57
82
84
50
40
35
35
39
38
42
46
25
53
36
67
32
0
Хi, Хj (см. табл. 11) факторного пространства . Максимальные значения
абсолютных величин частных производных равны (см. эмпирическую
функцию регрессии (27)): D1 = max|f(b,x)/X1| = 7709 и аналогично:
89
D5.3.4 = 48347; D5.8.3 = 5111; D4.4 = 12745; D5.6.4 = 15729; D4.13 = 6940;
D3 = 8178.
Тогда, например, размерные расстояния ΔХkij = |Хki - Хkj| между парами
координат Хk5 и Хk11 точек Х5 и Х11 (см. табл. 11) равны:
ΔХ(1).5.11 = |Х(1).5 – Х(1).11| = |11 - 18| = |-7| = 7 и аналогично:
ΔХ(5.3.4).5.11 = |0 - 1| = |-1| = 1; ΔХ(5.8.3).5.11 = |4 - 18| = |-14| = 14;
ΔХ(4.4).5.11 = |1 - 4| = |-3| = 3; ΔХ(5.6.4).5.11 = |2 - 0| = |2| = 2;
ΔХ(4.13).5.11 = |2 - 3| = |-1| = 1; ΔХ(3).5.11 = |1 - 1| = 0. Теперь - по формуле (27):
L(Х5, Х11) = (7709×7 + 48347×1 + 5111×14 + 12745×3 + 15729×2 + 6940×1
+ 8178×0)/4534 = 250497/4534 = 55 (см. в табл. 13 - также подчёркнуто).
Из табл. 13 следует, что, к сожалению, из-за малого объёма выборки
данных (n = 17) не нашлось ни одной пары точек Хi, Хj, являющихся
результатами почти параллельных наблюдений (расстояния между ними
не удовлетворяют условию 0 ≤ L(Хi, Хj) ≤ 1).
Таким образом, гипотеза (25) об адекватности эмпирической функции
регрессии (27) не может быть проверена. Удовлетворимся довольно
большим коэффициентом детерминации R2 = 98,9%.
Тем не менее, продолжим расчёты (см. п. 7.1.1.1, действия 5) – 10)), но
только лишь - для примера. Для этого «нарочно» огрубим условие
«почти параллельности наблюдений»: 0 ≤ L(Хi, Хj) ≤ 13.
5) Функция L(Хi, Хj), измеряющая расстояние между векторами Хi и Хj,
задаётся алгоритмически. Поэтому для объединения наблюдаемых точек
факторного пространства в кластеры используется матрица |Сi,j|, (i, j  (1,
2, …, n); i  j) расстояний между ними (см. табл. 13). На основании Сматрицы безразмерных расстояний, методом кластерного анализа Варда
[18-20] найдены три (М = 3) П-кластера почти параллельных
наблюдений, удовлетворяющих условию 0 ≤ L(Хi, Хj) ≤ 13 (рис. 22),
включающих пары точек (см.
табл. 11) под номерами (i, j):
(10, 8); (12, 6) и (9, 7). В Сматрице (см. табл. 13) этому
условию удовлетворяют три
пары точек, расположенных на
расстояниях L(Хi, Хj): 9, 10 и
13, а отклики Y принимают
значения (см. табл. 11) (276663,
307606); (293127, 332359) и
(281477,
308989),
соответственно.
6) Число
степеней
свободы
2
оценок Sm BY дисперсий m 2BY в
каждом П-кластере (m = 1, 2, 3)
Рис. 22. Дендрограмма П-кластеров почти
параллельных наблюдений.
равны 1. Это существенно
облегчает дальнейшие расчёты
90
[3, с. 106]. Для пар измерений Ymi и Ymj смещённые оценки стандартного
отклонения вычисляются просто: SmВY = 0,707|Ymi - Ymj|. Тогда
S1ВY = 0,707|276663 - 307606| = 21877;
S2ВY = 0,707|293127 332359| = 27737; S3ВY = 0,707|281477 - 308989| = 19451.
Каждый из М = 3-х П-кластеров включает по два наблюдения.
Оставшиеся 17 – 6 = 11 одиночных наблюдений, не попавшие в Пкластеры, образуют вместе с М = 3-мя П-кластерами, как бы, «новую»
выборку данных, «новый» объём которой n = 17 – 3 = 14 и
соответствующее число степеней свободы остаточной дисперсии S2OY
становятся меньше: fOY = 9 – 3 = 6.
7) Для проверки гипотезы об однородности оценок Sm 2BY дисперсий в трёх
П-кластерах вычислим по формуле (19) значение статистики критерия
Фишера-Бонферрони:
Ff , f , 2l   max s 2j  min s 2j  = F1,1,α/(2l) = (27737/19451)2 = 2,03,
ч
з
где l = m(m - 1)/2 – количество пар сравниваемых гипотез; у нас:
l = 3(3 - 1)/2 = 3.
Уровень значимости вычисляется по точной формуле [3, с. 107]
α0F = 1 – ((4/)arctg(F1,1,α/(2l)) – 1)l = 1 – ((4/)arctg(2,03) – 1)3 = 0,93.
8) Поскольку 0,93 = α0F > α0к = 0,05, то гипотеза об однородности всех
оценок дисперсий Sm 2BY не отклоняется с высоким уровнем
ответственности за вывод: Э0 = 98% > Эк0 = 50%. Это позволяет
усреднить значения среднеквадратичных отклонений SmВY по формуле
(20): SВY = ((218772 + 277372 + 194512)/3)0.5 = 23283.
9) Проверяем гипотезу Н0 (25) об адекватности эмпирической функции
регрессии. Вычислим по формуле (19) значение статистики критерия
Фишера
с
числами
степеней
свободы
fYO = 6
и
fВY = 3:
2
2
Ff , f , 2  = F6,3,α/2 = (SYO/SВY) = (6676/23283) = 0,082, где fч = fYO и fз = fВY –
числа степеней свободы числителя SYO и знаменателя SВY F-критерия. По
номограмме распределения Фишера [3, с. 92] нашли α0F = 0,88. Поскольку
0,88 = α 0F < α0к = 0,05, и, соответственно Э0 = 97% > Эк0 = 50%, то
гипотеза об адекватности эмпирической функции регрессии не
отклоняется.
Сразу заметим, что пример – лишь демонстративный. Как правило,
SYO > SВY и соответствующий уровень значимости α 0F мал.
10) Поскольку гипотеза Н0 (25) об адекватности эмпирической функции
регрессии не отклоняется, то по формуле (20) вычисляется средневзвешенное
среднеквадратичное отклонение модели регрессии:
SCY = ((S2YO + S2ВY)/(fYO + fВY))0,5 = ((6×66762 + 3×232832)/(6 + 3))0,5 = 14506
визитов.
ч
з
91
7.3.5. Интерпретация эмпирической функции регрессии
«Единственный способ определить границы возможного выйти за границы в невозможное».
А. Ч. Кларк
Поскольку все показатели R2(Xi) (см. табл. 12) и коэффициенты корреляции
rij между значимыми факторами полученной модели регрессии можно считать
почти незначимыми, то эмпирическая функция регрессии (27) допускает почти
корректную интерпретацию. Несмотря на общую способность оценок b 0i, ti, α1i,
и Э1i (см. табл. 10) характеризовать «силы» влияния факторов на отклик, они
различаются по смыслу.
Стандартизированное значение i-го коэффициента регрессии b0i, показывает, на
какую долю среднеквадратичного отклонения изменится отклик (см. Sj в табл.
11) при изменении среднеквадратичного отклонения i-го фактора на 1;
статистика критерия Стьюдента ti показывает, во сколько раз значение
точечной оценки bi i-го коэффициента регрессии больше его
среднеквадратичного отклонения Sbi (например, для Х1: t1 = -7709/319 = -24);
уровень значимости α1i i-го коэффициента регрессии численно равен
вероятности ошибочного отклонения гипотезы Н0, о равенстве «истинного»
коэффициента регрессии βi нулю, если она верна (простыми словами: уровень
значимости α1i показывает, какова вероятность ошибки считать, что βi ≠ 0);
экспертная оценка Э1i уровня ответственности исследователя за вывод о
значимости i-го коэффициента bi отражает субъективную уверенность
исследователя (от 0 до 100%) в правильности предпочитаемого (см. индекс «1»)
им вывода, о том, что βi ≠ 0.
Наглядно «силы» и направдение влияния i-х факторов на суточное количество
визитов Y иллюстрируется фрагментами эмпирической функции регрессии в
форме зависимости значений отклика (см. рис. 21 и 23) от вариации каждого
Рис. 23. Зависимость суточного количества визитов пользователей интернетмагазина «Рог изобилия» Y от номера дня недели Х3 при средних значениях
остальных факторов:
пунктир – границы 95-процентного доверительного интервала.
92
фактора в отдельности во всей области действия эмпирической функции
регрессии (при средних значениях других факторов).
В итоге получаем следующий вариационный ряд «силы» влияния (от самого
сильного до самого слабого): номер дня месяца - Х1, количество телереклам
после «Новостей» - Х5.3.4, количество телереклам после телепередачи «Шоу» Х5.6.4, количество телереклам по телеканалу K1 - Х4.4, количество телереклам до
телепередачи «Спорт» - Х5.8.3, количество телереклам по телеканалу S2 - Х4.13 и
колебания в течение недели - Cos((4(номер дня недели, Х3))/7) = Cos(4Х3/7)).
Направление влияния факторов на отклик определяется знаками перед
коэффициентами регрессии (см. табл. 10 и рис. 21). Возрастанию отклика Y суточного количества визитов (СКВ) пользователей интернет-магазина
способствуют: увеличение количества телереклам после «Новостей» - Х5.3.4,
увеличение количества телереклам по телеканалу K1 - Х4.4, уменьшение
количества телереклам после телепередачи «Шоу» - Х5.6.4, уменьшение
количества телереклам до телепередачи «Спорт» - Х5.8.3 и уменьшение
количества телереклам по телеканалу S2 - Х4.13. С увеличением номера дня
месяца - Х1 количество суточного количества визитов Y уменьшается.
И, наконец, значения точечных оценок bi i-го коэффициента регрессии (см.
табл. 10) показывают, насколько в среднем изменится размерное значение
отклика Y при изменении размерного значения соответствующего фактора Хi на
1. Например, при увеличение номера дня месяца Х1 на 1 день (при неизменных
значениях остальных факторов) суточное количество визитов Y уменьшается в
среднем на b1 = 7709 СКВ.
7.3.6. Содержательный анализ
«Что бы ни случилось, делайте вид, что так оно и задумано». (Правило врача)
Обнаруженные зависимости изменения суточного количества визитов Y от
вариации измеренных факторов - высоко значимые. Зависимость роста
суточного количества визитов Y от увеличения количества телереклам после
«Новостей» и по телеканалу K1 объясняется логикой поведения пользавателя,
получающего рекламную информацию. Например, ожидание «Новостей» до
показа телереклам ведёт к повышению остроты восприятия зрителями
дискретной информации, активизируя по инерции повышенный интерес к
показанных вслед за «Новостями» телереклам.
Уменьшение количества суточного количества визитов Y с увеличением
номера дня месяца можно объяснить насыщением интереса пользователей к
рекламируемому товару и сокращением количества пользавателей, для которых
реклама обладала признаками новизны.
А вот объяснить уменьшение суточного количества визитов Y в зависимости
от увеличения количества телереклам после телепередач «Шоу», до
телепередачи «Спорт» и по телеканалу S2 – трудно. Можно лишь
предположить следующее.
93
1) Показ передачи «Спорт» сразу после телереклам отрицательно воздействует
на интерес и восприятие к рекламируемому товару. Повидимому, зрители ждут
окончания рекламы, не сосредотачиваясь на её содержании.
2) С другой стороны, показ телереклам сразу после передач «Шоу» также
отрицательно воздействует на интерес и восприятие к рекламе.
Предположительно контингент зрителей передач «Спорт» и «Шоу»
существенно различается, а повышенное эмоциональное напряжение зрителей
передач «Шоу» приводит к ослаблению внимания к содержанию рекламы.
3) Уменьшение суточного количества визитов, вызванных телерекламами,
телезрителями телеканалу S2 и, соответственно, повышение суточного
количества визитов зрителями телеканалу K1 вызваны, по-видимому,
различиями в охвате аудитории этими телеканалами, содержанием передач и
степенью соответствия контингента целевой группы рекламируемому товару.
4) Возможно, интерес к передачам «Шоу», «Спорт» и телеканалу S2 отвлекает
пользавателей от телереклам, а возможно, что эти группы пользавателей просто
ведут себя нелогично. Так «Канеман экспериментально показал, что
нелогичность поведения людей закономерна и что масштабы её
неправдоподобно велики. Например, если снизить цену, то товар вовсе не
обязательно начнут быстрей раскупать. Некоторые подумают, что это просто
уценка товара из-за плохого качества. Если же цену повысить, люди подумают,
что им предлагают товар лучший, чем раньше» [22]. Возможно, что рост спроса
на товар при повышнии цены связан с предположением покупателя об
исчезновении остатков товара с рынка.
7.3.7. Задачи дальнейших исследований и разработок
«Никогда нет времени, чтобы сделать правильно, но всегда
есть время, чтобы сделать заново».
Закон Мескимена
Сформулированные в настоящей работе задачи (см. п. 2.2) решены. Теперь
перед менеджерами интернет-магазина раскрываются горизонты для
постановки и решения новых задач.
1) Дальнейшего неформального исследования требует содержательный анализ
вновь обнаруживаемых закономерностей.
2) Вне зависимости от итогов содержательного анализа, с обнаруженными
зависимостями придётся считаться в дальнейших действиях менеджеров
интернет-магазина при медиапланировании телереклам.
7.3.7.1. Оптимизация телевизионных рекламных кампаний интернет-магазина
«Астрологи достаточно умны, чтобы делать свои прогнозы столь
туманными, что их можно отнести к любому исходу». С. Хокинг
В настоящее время к такой дисциплине, как «Управление продажами» еще не
сформировалось общепринятого подхода [23]. Поэтому в настоящей работе мы
94
будем опираться на методы давно сформированной дисциплины «Автоматизированная система управления технологическим процессом» (АСУ
ТП) [23] в приложении к задачам управления продажами, т. е.
«Автоматизированная система управления процессом продаж» (АСУ ПП).
АСУ ТП — это комплекс программных и технических средств,
предназначенный
для
автоматизации
управления
технологическим
оборудованием на предприятиях. Под АСУ ТП обычно понимается
комплексное
решение,
обеспечивающее
автоматизацию
основных
технологических операций на производстве в целом или каком-то его участке,
выпускающем
относительно
завершенный
продукт.
Термин
«автоматизированный» в отличие от термина «автоматический» подчеркивает
возможность участия человека в отдельных операциях, как в целях
сохранения человеческого контроля над процессом, так и в связи со
сложностью или нецелесообразностью автоматизации отдельных операций.
Составными частями АСУ ТП могут быть отдельные системы автоматического
управления (САУ) и автоматизированные устройства, связанные в единый
комплекс. Как правило, АСУ ТП имеет единую систему операторского
управления технологическим процессом в виде одного или нескольких пультов
управления, средства обработки и архивирования информации о ходе процесса,
типовые элементы автоматики: датчики, контроллеры, исполнительные
устройства. Для информационной связи всех подсистем используются
промышленные сети.
Метод адаптационной оптимизации телевизионных рекламных кампаний
интернет-магазина с использованием автоматизированной системы
управления АСУ ПП заключается в следующем.
А) На основании своего опыта менеджеры интернет-магазина совместно с
аналитическим статистиком – специалистом в области теории планирование
эксперимента при поиске оптимальных условий (см. раздел «Статистические
методы планирования эксперимента» в книге [3]) составляют и реализуют
медиаплан размещения телереклам по телеканалам.
Б) В течение короткого времени n (14 – 17 суток) накапливаются n строк
матрицы данных (см. п. 6.1.2. и табл. 9).
В) На основании этих данных (см. табл. 9) в конце n-х суток вычисляются
статистические характеристики (см. табл. 10) эмпирической функции регрессии
вида (26) реализованного медиаплана.
Г) На основании полученных характеристик эмпирической функции регрессии
сразу же оптимально корректируется медиаплан на следующие сутки.
Д) В конце следующих суток матрица данных дополняется очередной строкой
(см., например, табл. 11).
Е) На основании дополненной в п. Д) матрицы данных корректируются
значения статистических характеристик (см. табл. 10) эмпирической функции
регрессии вида (26) и перехотят к п. Г).
Цикл продолжается до завершения рекламной кампании интернет-магазина.
95
7.3.7.2. Оптимальное корректирование медиаплана
«Прогноз от предсказания отличается тем, что
ошибки в нем научно обоснованы».
(В. Зверев).
В соответствии с требования п. (Г) можно решать две задачи оптимизации.
Существенно упрощая ситуацию, допустим, известно следующее.
За исследуемый период (например, n суток) установлена эмпирическая
функция регрессии (26) – зависимость суточного количества визитов Ŷ от
факторов [в примере - эмпирическая функция регрессии (27)].
Стоимость каждой телерекламы по i-тому телеканалу составляет аi (в табл. 12
числа аi - лишь для примера).
Сумму А затрат интернет-магазина на все телерекламы за одни сутки
посчитаем по упрощённой (для примера) формуле
А = ∑аiХi.
(28)
На основании этих данных можно решать две задачи оптимизации.
Задача 1. Если задана максимальная сумма (А = Ас) затрат интернет-магазина
на все телерекламы за одни сутки (допустим, Ас = 3000 €), то - построить
медиаплан установки управляемых факторов на таких уровнях Хi(n+1), чтобы
величина суточного количества визитов Ŷ(n+1) была максимальной, а сумма А
затрат интернет-магазина не превышала Ас.
Задача 2. Если задано значение величины суточного количества визитов (СКВ)
Ŷ постоянным (Ŷ = Ŷс, например, Ŷс = 500000), то - рассчитать минимальную
сумму А затрат интернет-магазина, обеспечивающую постоянное СКВ Ŷс.
Для решения этих задач необходимо подставлять в эмпирическую функцию
регрессии (27) значения неуправляемых переменных Хi(n+1) на сутки (n+1)
вперёд. Затем вычислять шаги ΔXi варьирования каждой управляемой
переменной Хi, такие, чтобы отклик Ŷ изменялся на значимую величину.
Задача решается за короткое время в конце n-х суток, реализуется в следующие
(n+1)-е сутки, результаты заносятся в (n+1)-ю строку таблицы данных (см. табл.
9) с максимальным весом (в(n+1) = 1). По этой таблице вновь строится новая
эмпирическая функция регрессии (26) и готовится медиаплан рекламных
мероприятий на (n+2)–е сутки и т. д. Вес (в(n-j)) каждой предыдущей строки
(j = 0, 1, …) в каждом последующем расчёте оценок параметров эмпирической
функции регрессии (27) должен постепенно уменьшаться для снижения
влияния «устаревающих» данных на значения оценок параметров
эмпирической функции регрессии (26).
96
7.3.7.3. Продолжим пример
«Доказанное примерами никогда нельзя считать полностью доказанным».
(Г. Лейбниц).
Управляемыми являются следующие значимые в эмпирической функции
регрессии (27) факторы:
 позиции телереклам после телепередач «Новости» (Х5.3.4) и «Шоу» (Х5.6.4);
 количество телереклам до телепередачи «Спорт» (Х5.8.3);
 количество телереклам по телеканалам K1 (Х4.4) и S2 (Х4.13).
Минимальный диапазон ΔXi варьируемого фактора Xi (см. табл. 12),
приводящий к значимому изменению значения отклика, можно определить по
«правилу двух сигм»:
ΔXi = 2SYO/bi,
(29)
где SYO – среднеквадратичное отклонение остаточной ошибки отклика (в
примере SOY = 6676 СКВ с 9-ю числами степеней свободы); bi – оценка i-го
коэффициента регрессии. Поскольку числа Xi - целые, то значения ΔXi минимального диапазона варьируемого фактора Xi придётся округлить с
избытком до величин ΔXi (см. табл. 12). Тогда увеличение ΔYi отклика при
соответствующем изменении ΔXi управляемого фактора Хi определится так:
ΔYi = bi×ΔXi.
(30)
Для решения задач 1 и 2 можно упростить эмпирическую функцию регрессии
(27). Значениям убывающих факторов Хi, приводящих к возрастанию значений
отклика Ŷ, необходимо установить на минимальных уровнях. У нас (см. табл. 9
и 10) – это Х(n+1)5.8.3 = Х(n+1)5.6.4 = Х(n+1)4.13 = 0. Заметим также, что установка
незначимых управляемых факторов «количество телереклам» (см. табл. 9) на
нулевых значениях также приведёт к экономии средств на телерекламы.
Если в эмпирическую функцию регрессии (27) подставить прогнозируемые на
(n + 1)-е сутки значения неуправляемых факторов [в примере – номер дня
месяца Х1(n+1) = 26 и номер дня недели Х3(n+1) = 1 в базисную функцию
Cos(4Х3(n+1) /7)] = -0,2225, то эмпирическая функция регрессии (27) станет
функцией двух управляемых факторов:
Ŷ = bi(n+1) + 48349Х(n+1)5.3.4 + 12745Х(n+1)4.4,
где bi(n+1) - прогнозируемая на (n+1)-е сутки постоянная величина,
bi(n+1) = 434292-7709Х1(n+1)-8178Cos(4Х3(n+1)/7) =
= 434292-7709×26+8178×0,2225 = 235678.
97
(31)
Обе задачи удобно решать любым имеющимся в ПО методом линейного
программирования [24]. Экстраполяцию фрагмента эмпирической функции
регрессии (31) за пределы области действия по уровням управляемых факторов
Хi можно выполнить, например, «на один шаг» путём прибавления к
максимальным значениям варьируемых факторов Х+i (см. табл. 12)
округленных значений ΔXi минимальных диапазонов их варьирования: 0 ≤
Xi(n+1) ≤ Xi(n+1)+ = Xin+ + ΔXni, где n – номер итерации. Тогда ограничения задач 1
и 2 линейного программирования в примере примут вид (рис. 24):
0 ≤ Х(n+1)+5.3.4 ≤ 3; 0 ≤ Х(n+1)4.4 ≤ 11 и Х(n+1)+5.3.4 ≤ (2/3)Х(n+1)4.4.
(32)
Решение задачи 1.
Перепишем выражение (28) в виде
ограничения:
3000 ≥ 100Х(n+1)5.3.4 + 300Х(n+1)4.4, или
Х(n+1)5.3.4 ≤ 30 - 3Х(n+1)4.4 (см. Рис. 24).
По формуле (31) вычислим значения
суточного количества визитов Ŷ в
углах четырёхугольника AEFL:
Угол
A
E
F
G
Х(n+1)5.3.4 Х(n+1)4.4
0
0
4
3
3
9
10
0
СКВ Ŷ
235678
431705
495430
363128
максимальное значение суточного
количества визитов Ŷ(n+1) = 495430
принимает в углу F: Х(n+1)4.4 = 9 и
Х(n+1)5.3.4 = 3 (см. табл. 11); величина
затрат
интернет-магазина
на
телерекламы, согласно формуле
(28), составит Ас(n+1) = 3000 €.
Рис. 24. Проекция (32) расширенной
области действия эмпирической
функции регрессии (27) на плоскость,
образованную парой управляемых
факторов:
● – наблюдаемые значения; Х4.4 количество телереклам по телеканалу K1;
Х5.3.4 - количество телереклам после
«Новостей»; 1 – четырёхугольник ABCD –
фрагмент исходной области действия
эмпирической функции регрессии (27); 2 –
четырёхугольник
AEGH
–
фрагмент
расширенной
области
действия
эмпирической функции регрессии (27);
3 – прямая Х(n+1)5.3.4 = 30 - 3Х(n+1)4.4;
4 – прямая Х(n+1)5.3.4 = 5,467 – 0,2636Х(n+1)4.4.
Решение задачи 2. Запишем
выражение (31) в виде
500000 = 235678 + 48349Х(n+1)5.3.4 +
12745Х(n+1)4.4,
или Х(n+1)5.3.4 = 5.467 – 0,2636Х(n+1)4.4
(см. рис. 24). По формуле (28) вычислим величины затрат интернет-магазина на
телерекламы в узлах K и Q:
Минимальная
величина
затрат
интернет-магазина на телерекламы
Ас(n+1) = 3000 € принимает в узле K:
Угол Х(n+1)5.3.4 Х(n+1)4.4 Затраты Ас(n+1), €
K
3
9
3000
Q
3
11
3600
Х(n+1)4.4 = 9 и Х(n+1)5.3.4 = 3 (см. табл. 11).
98
Математические решения задач 1 и 2 дают лишь формальные ориентиры для
составления менеджерами интернет-магазина медиаплана на (n + 1)-е сутки,
потому что не учитывают проигнорированные в примере неформальные
факторы (сложную зависимость коэффициентов аi формулы (28) от времени
суток; ограничения договорных обязательств между интернет-магазинами и
администрациями
телеканалов,
нормы
запрограммированной
сетки
телевещания и др.).
Часть В. Выводы
«Нужно обладать недюжинной интуицией, чтобы прийти к
правильному выводу логическим путем».
(Е. Кащеев).
Традиционно считается, что характеристики телевизионной рекламы являются
основными факторами, влияющими на индикаторы быстрой реакции
пользователей интернет-магазина, а выделить долю влияния характеристик
телевизионной рекламы среди разных факторов на суточное количество
визитов пользователей на фоне влияния остальных факторов невозможно.
Однако суточное количество визитов пользователей интернет-магазин не
только легче измеряется, но, в отличие от индикаторов быстрой реакции,
полностью характеризует реакцию пользователей интернет-магазин на
телевизионную рекламу.
Долю влияния характеристик телевизионной рекламы среди различных
факторов на суточное количество визитов пользователей интернет-магазина
можно выделить с помощью регрессионного анализа.
В практике исследования реакции пользователей на телевизионную рекламу
интернет-магазина встречаются случаи, когда большинство индикаторов
быстрой реакции пользователей в данных не более значимы, чем шумы в
данных; нередко бывает трудно разрешимой проблема близости телевизионных
реклам. В таких случаях построение интерпретируемых эмпирических функций
регрессии осложняется тем, что выборка значимых индикаторов быстрой
реакции становится мало представительной.
Выход из подобных затруднений лежит в построении интерпретируемых
эмпирических функций регрессии по легко измеряемым суточным количествам
визитов пользователей интернет-магазина в качестве отклика.
Приведенные в работе методы и алгоритмы положены в основу создания
автоматизированной системы управления телевизионными рекламными
кампаниями интернет-магазина.
99
8. Фрагменты дискуссий
«Что я должен делать, говорит мне Бог, как - решаю я сам, а что
в результате получится – окружающие».
(А. Подводный).
Рассылая черновой вариант работы коллегам, мы интересовались
конструктивной критикой по существу проблем. Читатель обычно
интересуется вопросами: сколь высоко качество решения сформулированной
задачи, возможны ли другие, более эффективные решения и, наконец, каковы
новизна и полезность решений изложенных авторами, с точки зрения коллег специалистов?
На эти вопросы частично отвечают участники нижеследующей дискуссии,
которым авторы выражают искреннюю благодарность.
8.1. Фрагменты дискуссии с профессором С. А. Кондратовым
«Ha кaждoe дeйcтвиe ecть paвнaя eму пpoдивoдeйcтвующaя кpитикa».
(Xappиccoн)
С. А. Кондратов - доктор хим. наук, зав. кафедрой высшей математики и
компьютерных технологий Института химических технологий (г. Рубежное,
Украина) Восточноукраинского национального университета им. В. Даля;
kondratov@rune.lg.ua.
К (Кондратов С. А.): Дорогой Натан Абрамович! … Работа мне понравилась,
подход интересный, но мне кажется, что перед публикацией её надо как
следует "вылизать".
Я сейчас вхожу в редколлегию "Восточно-европейского журнала передовых
технологий", который опирается на западные стандарты научных статей. У
нас требования такие:
1. Подробное введение с описанием задачи, анализом литературы…
Ц (Цейтлин Н. А. – от авторов): Лет 40 назад я прочитал у Ж. Адамара
(Адамар Ж. Исследование психологии процесса изобретения в области
математики. Франция. 1959 г. Пер. с франц. Изд-во «Советское радио»,
Москва, 1970, 152 стр. http://ega-math.narod.ru/Math/Hadamard.htm), что любую
задачу хорошо решать самому, а только затем искать готовые решения в
литературе. Прежде чем приступить к какому-либо вопросу, я не спешу
сначала изучать работы, посвящённые этой же теме. Напротив, предпочитаю
предоставить своему разуму полную свободу и лишь при последующем
чтении соответствующей литературы устанавливаю, какая часть полученных
мною результатов принадлежит мне. Этот путь имеет преимущества и
недостатки. Преимущества – самоутверждение и надежда получить лучшее
решение из известных; недостатки – возможность получить не лучшее
решение из известных и поэтому - пустая трата времени. Я рискнул (да,
100
собственно, я всегда так «рискую», скорей, - из-за лени), недавно ввёл
ключевые слова в Гугл «Измерение быстрой реакции пользователей на
телерекламу интернет-магазина» и получил за 0,58 секунды более 93200
ссылок. Посмотрел первые, затем – выборочно – из первых десятков. Всё –
сплошные тексты, и иногда - примитивная описательная статистика. Набирал
«Обнаружение резких возрастаний частоты импульсов», «математическое
описание сложных кумулятивных функций» и т. п. Ничего интересного. В
данной работе мы опирались, в основном, на последний обзор 60-ти
источников [1] (см. раздел 3).
К: 2. Описание постановки задачи, формулирование основных идей. 3.
Описание результатов…
Ц: А где же промежуточные требования «построить физическую модель»,
«провести её исследование», «построить математические модели» и пр.?
К: …4. Выводы. 5. Литература. Вследствие такой структуры список
литературы получается достаточно обширным (до 30-40 наименований).
Ц: Совсем не обязательно. Работа может быть оригинальной. Или нам надо
привести выборку объёмом 30-40 наименований из 93200 гугловских ссылок?
К: Мне кажется, Ваша работа имеет отчётливо выраженный прикладной
характер. Поэтому лучше будет сократить формальное деление на подпункты
с соответствующей нумерацией, что затрудняет чтение и понимание.
Ц: Придётся сократить. Собственно, в докладах и тезисах мы так и делали.
К: Вместо этого лучше изложить практические рекомендации в виде алгоритма
действия специалиста…
Ц: Это оказалась сложная работа. Мы её начали делать, но пока не знаем, на
какого именно специалиста ориентироваться. Их, минимум, - трое:
исследователь-маркетолог, но – не статистик; статистик, но – не исследовательмаркетолог и аналитический статистик (АС) - статистик и маркетолог в одном
лице. Поэтому ориентировались только на аналитического статистика.
К: …желательно - с привязкой к популярному программному продукту –
платному (например, SPSS) или бесплатному - «R» (см. в интернете).
Замечания и соображения
Ошибки - не лженаука. Лженаука - это непризнание ошибок.
К: 1. Численное дифференцирование – одна из наименее точных численных
процедур, особенно, если это касается данных, содержащих погрешности
(разность двух близких величин имеет очень высокую погрешность).
2. Не очень понятно, что имеется в виду под понятием «интерпретируемые
коэффициенты» - по величине или по смыслу?
Ц: Интерпретация (толкование) осуществляется и по смыслу, и - по величине.
Смысл их заключён в наименованиях (см. раздел 4.1.1), а влияние величин
можно проследить по рисункам (см. рис. 14 - 18, 21, 23, 24) при различных
значениях факторов».
101
К: Мне кажется, что нужно также более детально обосновать использование
распределения Вейбулла (лучше писать о распределении, а не - о формуле, это
будет более по существу).
Ц: Мне кажется, что обосновывать использование распределения Вейбулла
совсем не нужно. Это ведь формула, вид которой – самый удобный для
эмпирической аппроксимации f-кривой. Вот и всё. Ну, например, можно для
этой же цели использовать гауссиану, двухстороннюю сплайн-функцию [3, с.
399] или, даже, ряд Тейлора. Но они по ряду причин будут неудобными.
К: Об этом хорошо написано у А. И. Орлова.
Ц: Я не раз встречался с А. И. Орловым; он каждый раз дарил мне какую-то из
своих книг www.aup.ru/books/m155/4_15.htm, и я их почитывал. Когда-то
распределение Вейбулла я использовал при описании прочности строительных
балок. Возможно, обосновать именно распределение Вейбулла можно и так: как
только терпение телезрителя после прослушивания телереклам лопнет, он
обращается в интернет-фирму (равно – как сломается балка под непрерывно
возрастающим напряжением).
К: Мне кажется, что основное достоинство распределения Вейбулла – его
гибкость, возможность аппроксимации за счет наличия трёх параметров.
Ц: Согласен. А основной недостаток – нелинейность по параметрам.
К: 3. При работе с аппроксимациями распределений всегда следует иметь в
виду то, что интеграл по всей области определения распределения должен
равняться 1. В нормальном и экспоненциальном распределении это достигается
автоматически, а в Вейбуловском, мне кажется, должна быть какая-то
дополнительная связь между параметрами.
4. Ваши утверждения про нелинейное оценивание с современной точки зрения
некорректны. Большие затраты машинного времени – это было 30 лет назад;
сейчас всё считается быстро и стоит дёшево. Сложность реализации также не
убеждает: очень хорошие готовые программы нелинейного оценивания входят
во все пакеты прикладной математики, вплоть до Excel, и проблемы
выполнения расчётов нет. Но есть другая проблема: поиск хорошего
начального приближения. При плохом начальном приближении у Вас задача
может не сойтись или сойтись не туда, где решение, т. к. компьютерные
программы заточены на выполнение некоторого предельного количества
итераций. Поиск начального приближения – всегда неформальная задача. В
отличие от нелинейного оценивания линейное не требует задания какого-либо
начального приближения. В этом его преимущество. К тому же, полученное
решение можно использовать как начальное приближение для нелинейного
оценивания, если в этом есть необходимость.
Ц: Согласен. У нас – миллионы точек! «Заряжали» компьютер, и шли обедать.
Компьютер считал десятки минут! Но придётся отладить программу так, как
Вы советуете: брать предыдущее решение в качестве нулевого приближения
для последующего решения (например, из табл. 3 следует, что оценки
параметров колеблются несущественно). У нас - простой случай, и из
102
нелинейно входящих параметров распределения Вейбулла нам нужен только
один – «скачок» f-кривой.
К: 5. Мне кажется, что обозначение «е» для «экспертной оценки уровня
ответственности», взятое из ваших книг [2 и 3], лучше заменить каким-нибудь
другим, иначе лезут ассоциации с экспонентой. Как в книжке Харди, где он
вспоминал, как один из преподавателей математики, расписывая полином 3-й
степени Y = dx3 + cx2 + dx + e, обязательно указывал: «где «е» – не обязательно
основание натуральных логарифмов, но может быть таковым».
Ц: Согласен: переписали обозначение «е», взятое из книг [2, 3], не подумав об
этом. Здесь мы заменили «е» на «Э» (от слова «Эксперт»).
К: 6. Мне кажется, тут надо как-то обосновать постановку задачи имитации и её
необходимость, иначе непонятно, зачем это делалось.
Ц: Непонятно, потому что нами написано невразумительно: «Точное значение
реальной величины индикатора быстрой реакции получить невозможно.
Однако оценить компоненты погрешности измерения значений индикатора
быстрой реакции можно методом имитационного моделирования». И - всё. Мы
думали, что это и так понятно. Придётся пояснить: «Для этого можно
имитировать точные значения величины индикатора быстрой реакции на
кумулятивную функцию частот, затем «забыть» о механизме имитации и
попытаться измерить имитированные значения индикатора быстрой реакции
описанными выше методами».
К: 7. В литературе для генерации чисел с нормальным распределением обычно
используют формулу Бокса-Бюллера с использованием двух равномерно
распределенных чисел. Хорошо бы проверить и Бокса-Бюллера: эта формула стандартная, общепринятая.
Ц:
Нашли
ссылку:
bookre.org/reader?file=728599.
Имитационное
моделирование. Классика ЦС: Лоу А., Кельтон В. (Low, Kelton).
Судя по ссылкам www.intuit.ru/studies/courses/623/479/lecture/21084?page=2
(Основы компьютерного моделирования систем / Артемкин Д. Е., Баринов В.
В., Овечкин Г. В., Степнов И. М. // Под ред. А. Н. Пылькина. – М., 2004. – 152
с.: ил.; st.free-lance.ru/projects/upload/f_4f21bc53b2806.pdf) этих методов – как
песка в Сахаре: выбирай на любой вкус. Мы выбрали простейший.
А насчёт того, что формула Бокса-Бюллера - стандартная, общепринятая – это
академические тонкости. Мы считаем, что любой метод Монте-Карло для
практики гож. Для маркетологов-исследователей важно измерение визитов. А
какой метод Монте-Карло использовать, их не волнует. Тем более, что какие-то
стандартные методы Монте-Карло зашиты во все ППП по статистике, так что
нам, наверно, даже и не стоило писать о формуле Сливняка. Просто её никто не
знает (кроме нас), я её проверил и слегка уточнил [3]. Хотелось изложить. Но
теперь известны более 21-й аппроксимации нормальной гауссианы; лучшие аппроксимация № 20 (в книге: Кобзарь А. И. Прикладная математическая
статистика. www.alleng.ru/d/math/math369.htm, с. 27) и Сливняка – в наших
книгах [2 и 3].
К: Про метод Сливняка я не читал.
103
Ц: Профессор Харьковской Артиллерийской Академии (АРТА) И. М. Сливняк мой старый коллега. Я раньше для имитации просто брал "нормальную"
выборку из справочника Большев Л. H., Смирнов H. В. Таблицы
математической статистики. - M.: Наука, 1965. - 464 с. И всё хорошо шло на
старенькой чудесной ЭВМ «Наири-2». Но в 1974 г. И. М. Сливняк посоветовал
мне пользоваться его формулой. Он сказал, что первым получил наиболее
точную аппроксимацию интеграла нормальной вероятности. Просто в своей
книге [3] я уточнил его формулу всего одним коэффициентом так, чтобы
функция проходила точно через "рабочую" точку α = 0,04. В конце раздела
1.1.10. (Маленькие неприятности: совпадение значений) книги [3] я привёл
ссылку: Ландкоф А. С., Сливняк И. М. Специальные главы математики. ч. 3.Харьков: АРТА, 1963. – 314 с. Но в Сети Вы её не найдёте (я тоже не нашёл),
поэтому и не читали, потому что АРТА – военная академия СССР, в которой
все книги были секретными (а сейчас я Вам один секрет разгласил :-)).
К: 8. Далее, следовало бы сравнить результаты расчётов всеми вашими
методами и обсудить их достоинства и недостатки и практические
рекомендации для использования (насколько я понимаю, ваша работа в первую
очередь предназначена для практиков).
Ц: Так сравнили же (см. табл. 4) и обсудили, и рекомендовали метод
аппроксимации формулой Вейбулла.
К: Далее, следует капитально поработать со списком литературы, сделать его
более капитальным и академичным.
Ц: Ну, как это «капитально»? Мы наскребли из немецких источников всего
только две свежие обзорные, но слабенькие, с точки зрения математической
статистики, статьи. Из английских источников - результатов примерно 1 670
000 ссылок. Вот картинки там – классные! Особенно - женщины с
выдающимися достоинствами. Других достоинств я там не обнаружил. Может,
плохо искал?
К: В целом, работа интересная и актуальная, мне понравилась. Ваш С. К.
Ц: Спасибо. А нам понравился Ваш отзыв. Теперь дело – за немалым и
небыстрым: капитально её как следует "вылизать" - исправить, дополнить и
послать Вам на согласование.
8.2. Фрагменты дискуссии с доцентом И. В. Стеценко
Если ты хочешь управлять оркестром, ты должен
повернуться спиной к толпе слушателей.
Стеценко И. В. - доктор техн. наук, в. о. зав. кафедрой компьютерных наук
Буковинского государственного финансово-экономического университета (г.
Черновцы, Украина); stiv66@yandex.ru.
С (Стеценко И. В.): … Идея мне очень нравится - и рекламодатели и
рекламопроизводители, конечно, заинтересованы в таких исследованиях.
Конечно, методы, которые не отсекают "шум" не могут правильно оценить
104
фактор "реклама". Ясно также, что для имитации "шума" Вы, конечно,
используете метод Монте-Карло.
Ц: Мы как раз имитировали не шум, а сигнал на фоне реального шума. Задали
один раз 480 визитов, второй раз - 600, потом их измеряли.
С: Но почему Вы используете формулы Сливняка? На сегодняшний день в
имитационном моделировании для нормально распределенных величин
используется метод Марсальи-Брея (могу сослаться на очень авторитетных
авторов в области имитационного моделирования - В. Кельтон и А.
Лоу). Точность этого метода уже никем не оспаривается, и найти Вы его
можете в Интернете очень легко, поскольку он используется широко и массово.
Ц: Насчёт оспаривания точности метода Монте-Карло – это академические
тонкости. Мы считаем, что любой метод МК для практики гож.
С: Использование этого метода нисколько не ухудшит Ваше исследование, а,
напротив, придаст ему актуальности.
Ц: Актуально для маркетологов-исследователей - измерение визитов. А
актуальность метода МК их не волнует.
С: Если очень "докапываться", то следует также обосновывать, почему влияют
другие факторы - "шум"?
Ц: Так это же – общее место математической статистики: сумма неизвестных
случайных величин (см. «нерегистрируемые факторы Zi (i = 1, 2, …, m)» на рис.
3) и производит "шум".
С: В одном исследовании индикатор быстрой реакции - 480, а в другом – 600.
Это сбивает с толку при чтении.
Ц: Мы начинали с имитирования индикатора быстрой реакции – 480, но для
более точного измерения пришлось увеличить имитированное значение до
600.
С: Не ясно, почему в табл. 3 "tk/100" (почему tk делится на 100?).
Ц: Это – требование старого справочника для авторов. Так таблица
получается более компактной – без пар лишних нулей. Пусть "tk/100" = 27.
Тогда tk = 27×100 = 2700 с. А для читателя ненавязчиво даётся пример: tk =
27×100 с = 45 мин.
С: Таблица 3 стала для меня самой непонятной, потому что в ней значения
индикатора быстрой реакции привязаны к совершенно разным моментам
времени "ti" и "tk". Например, в третьей строке - это значения 14.13 и 10.45.
Ц: Это тоже сделано для компактности. По индексу «i» идут наблюдаемые
моменты окончания рекламы. Между ними по индексу «k» идут имитируемые
моменты окончания рекламы в том же порядке, и дальше все рассчитанные
значения величин - по индексам «k», приведенным в шапке таблицы.
С: Работа интересная и её, конечно, следует публиковать.
Ц: Работа слишком большая. Поэтому мы решили так. Доклады опубликуем в
сборниках конференций, чтобы первыми сказать «Э!» («застолбить»
приоритет), а потом неспеша издадим отдельной брошюрой.
105
В этой достаточно популярно (для маркетологов и математиков-статистиков)
написанной работе мы попытались решить ряд актуальных проблем, от
широкого внедрения которых ожидается немалый экономический эффект.
С: Я, конечно, читала не месяц :-). Может, поэтому мне кое-что было неясно.
Ц: Мы её делали и описывали почти два года. Ну, хоть наши ответы что-то
прояснили?
С: Поэтому воспринимайте эти замечания как БРЧ (быстрая реакция
читателя).
Ц: Я бы сказал, ЧБРЧ - Чудесная БРЧ!
Большое спасибо за быстрый критический отзыв.
8.3. Фрагменты дискуссии с доцентом В. Г. Сословским
«Скажешь правду - и одни будут хвалить тебя за прямоту,
а другие будут ругать за прямолинейность». (В. Зверев)
В. Г. Сословский - канд. экон. наук, доцент кафедры финансов и экономической
безопасности Харьковского института банковского дела Университета
банковского дела НБУ; soslovsk@ukr.net.
С (В. Г. Сословский): …Имеются ли публикации подобных исследований?
Ц: В «Гугле» по заголовку нашей работы мы нашли 232 000 ссылок. Но там не
нашли ни одного серьёзного: сплошная беллетристика, графики, но - почти
никакой математической статистики.
С: Работа выполнена большая и кропотливая. О впечатлении написано ниже.
По тексту доклада встретились опечатки (я выделил их красным цветом).
Ц: Большое спасибо, что нашли только опечатки, а не ляпы, которые мы могли
допустить, «вывариваясь в собственном соку».
С: Мне представляется, что для практического использования результатов
исследования также желательно вовлечь в исследование затраты на рекламу,
выручку от продаж, наличие других каналов (кроме интернет-магазина) у
продавца товаров. Ведь последнего интересует эффективность (прибыльность)
каждого канала сбыта. В изучении взаимосвязи рекламы и продаж, по-моему,
будет заключаться практическая ценность работы, о которой Вы говорите в
предисловии. Индикаторы быстрой реакции могут расти, но растут ли
продажи? На этот вопрос также нужно дать ответ.
Ц: Верное мнение. И мы так думаем. Почему интернет-магазин – наш заказчик
поставил нам задачу так узко – «исследование закономерностей влияния
факторов телерекламы только на количество визитов»? Дело в том, что мы с
соавтором для заказчика – «чужие»! Поэтому финансовые данные они нам не
предоставляют. Но в предисловии мы осторожно написали, что «количество
визитов пользователей интернет-магазина является косвенным критерием
эффективности
телерекламы.
Наиболее
существенным
критерием
эффективности телерекламы является прибыль интернет-магазина. Однако
106
расчёт прибыли – процесс дорогой и долгий. Оперативная информация о ней
обычно труднодоступона. Тем не менее, количество визитов пользователей
интернет-магазина положительно коррелирует с прибылью, и поэтому может
служить «быстрым» критерием эффективности телерекламы».
С: Сегодня вы сосредоточились на изучении индикатора быстрой реакции и
получили результат. Начало положено! Наиболее интересное будет в разделах 6
и 7. Эти разделы содержат множество хорошо обоснованных переменных, но
мне кажется, что в качестве функции отклика, кроме индикатора быстрой
реакции, следует попробовать выручку или количество продаж (или
приращение этих показателей). Для изучения эффективности рекламы, кроме
данных о посещениях интернет-магазина в результате телерекламы, важны
данные о количестве продаж, распределенных по источникам получения
сведений о проданных товарах (поисковый запрос товара, по совету знакомых,
рассылка рекламы как спама, всплывающие рекламы на интернет-страницах и
др.).
Ц: Огромное Вам спасибо за справедливые замечания. Надеемся, что благодаря
нашей рекламе [21] мы сможем найти инвесторов, чтобы в будущих
исследованиях заниматься решением и этих задач.
Литература
Всегда проверяй цитаты: свои - перед тем как
сказать, чужие - после того, как они сказаны.
1. Liaukonyte, Jura and Teixeira, Thales and Wilbur, Kenneth C., How TV Ads
Influence Online Shopping (April 6, 2014). Available at SSRN: 2421408.
2. Горбач А. Н., Цейтлин Н. А. Покупательское поведение: анализ
спонтанных последовательностей и регрессионных моделей в
маркетинговых исследованиях. - Киев: Освіта України, 2011. - 298 с.
http://www.cubematrix.com/oldsite/anlagen/asp.pdf
3. Цейтлин Н. А. Из опыта аналитического статистика. - М.: Солар, 2007. 906 с. www.cubematrix.com/oldsite/anlagen/as.pdf
4. Фомина Н. А. Эффективность телевизионной рекламы. - М: 2009.
http://rudocs.exdat.com/docs/index-428101.html?page=2
5. Weibull, W. (1951), "A statistical distribution function of wide applicability",
J. Appl. Mech.-Trans. ASME 18 (3): 293–297.
6. Дубровский С. А. Прикладной статистический анализ. - M.: ФиС, 1982. 216 с.
7. Цейтлин Н. А. Статистический подход к оцениванию знаний учащихся /
Тезисы докладов третьей международной научно-практической
конференции «Компьютерное моделирование в химии и технологиях и
устойчивое развитие». Киев – Рубежное, 10-12 мая 2012. 284 с. / Сб.
научных трудов. - Киев: «КПИ», 2012. – с. 254 – 256.
107
http://pedsovet.org/components/com_mtree/attachment.php?link_id=74598&
cf_id=24
8. Бард Й. Нелинейное оценивание параметров. / Пер. с англ. В. С.
Дуженко и Е. С. Фоминой. - M.: Статистика, 1979. - 351 с.
9. Цейтлин Н. А. Применение методов математической теории
эксперимента в содовой промышленности. Обзорная информация.
Серия "Содовая промышленность". - М.: НИИТЭХИМ, 1984. - 48 с.
10. Цейтлин Н. А., Горбач А. Н. Измерение быстрой реакции
пользователей на телерекламу интернет-магазина. - Сб. трудов XVIII
Международной научно-практич. конф. «Системный анализ в
проектировании и управлении» 1 – 3 июля 2014 г. ч. 1. – СПб., изд.
Политех. Ун-та. - Сообщение 1. Алгоритмы расчётов. - с. 68 – 75. Сообщение 2. Погрешности методов измерения. - с. 76 – 83.
11. Цейтлин Н. А. Операторная блок-схема алгоритма построения
регрессионных моделей: Тезисы докладов первой международной
научно-технической конференции Computational Intelligence (CI -2011)
Черкассы, Украина 10-13 мая, 2011. – с. 116 – 118.
12. Дрейпер H., Смит Г. Прикладной регрессионный анализ. - M.:
Статистика, 1973. - 392 с. Изд. 2. Кн. 1.1986.- 366 с., Кн. 2. 1987.- 352 с. M.: Финансы и статистика.
13. Айвазян С. А., Мхитарян В. С. Прикладная статистика и основы
эконометрики. – М.: Юнити, 1998. – 1022 с.
14. Лбов Г. С. Методы обработки разнотипных экспериментальных
данных. – Новосибирск: Наука, 1982. – 160 с.
15. Эльясберг П. Е. Измерительная информация: сколько её нужно? Как её
обрабатывать? – М: Наука. - 2011 г. – 208 с.
16. Себер Д. Линейный регрессионный анализ. / Пер. с англ. - M.: Мир,
1980. - 456 с.
17. Вознесенский В. А. Статистические методы планирования эксперимента
в технико-экономических исследованиях. - 2-е изд. - M.: Финансы и
статистика, 1981. - 263 с.
18. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика:
справочное издание. Кн. 1. Основы моделирования и первичная
обработка данных. 1983. – 471 с. Кн. 2. Исследование зависимостей.
1985. – 488 с. Кн. 3. Айвазян С. А., Бухштабер В. М., Енюков И. С.,
Мешалкин Л. Д. Классификация и снижение размерности. 1989. – 608 с. –
M.: ФИС.
19. Орлов А. И. Эконометрика: учебник для вузов. – Ростов н/Д: Феникс,
2009. – 572 с. http://orlovs.pp.ru/econ.php#ek1.
20. Программное обеспечение IBM SPSS Statistics: www.ibm.com;
http://www.datuapstrade.lv/rus/spss/section_1/5/.
21. Gorbach A., Tseitlin N. TV or not TV. Modeling-Ansatz untersucht
Werbewirkung. - Research & Results, 7, 2014. - S. 54, 55.
108
http://www.cubematrix.com/oldsite/download/tv_or_not_tv_modelingansatz_artikel_r&r.pdf.
(А. Горбач, Цейтлин Н. ТВ или – не ТВ: исследование эффективности
телевизионной рекламы. – «Научные исследования и результаты», 7, 2014. С. 54, 55).
22. Кирсанов Ф. Человек неразумный. – «Ораторское искусство и
мастерство общения», Вып. 40. http://www.orator.ru/rass40.html.
23. Управления автоматизированная система
http://dic.academic.ru/dic.nsf/ruwiki/1157306.
24. Князева А., Лыкова Н. П. Постановка задач линейного
программирования и их решение с помощью MS Excel. ГОУ ВПО
«Российский государственный гуманитарный университет», Самара
2010. – 9 с. http://www.econf.rae.ru/pdf/2010/11/ad13a2a07c.pdf.
25. Скриптунова Е. Управление продажами: основные тенденции.
Управление компанией, № 7. – 2003.
109
Download