10. Регрессионный анализ

advertisement
1
Регрессионный анализ
Регрессионный анализ позволяет установить причинно-следственные
взаимосвязи между переменными (объемом продаж и расходами на рекламу,
уровнем обслуживания и площадью торгового зала, предпочтениями
потребителей и степенью узнаваемости торговой марки и т.д.).
Однако, прежде, чем приступить к изучению регрессии, необходимо
рассмотреть понятие корреляции, лежащей в основе регрессионного анализа.
Часто при проведении маркетингового исследования нас интересует
связь между двумя метрическими переменными:
1. Насколько сильно связан объем продаж с расходами на рекламу?
2. Существует ли связь между долей рынка и количеством торгового
персонала?
3. Связано ли восприятие качества товара с уровнем цены?
Для определения силы взаимосвязи между метрическими переменными
используется коэффициент корреляции Пирсона – r. Формула для расчета:

n
r

 ( X i  X ) * (Yi  Y )
i 1

n
(X
i 1
i
n

 X ) *  (Yi  Y ) 2
2
i 1
В формуле переменная Х является независимой, а Y – зависимой.
В Excel выполняется командой «Мастер функций» - «Статистические»
- «Коррел» (или «Мастер функций» - «Статистические» - «Пирсон»).
Коэффициент Пирсона принимает значения от -1 до +1. Абсолютное
значение (по модулю) <0,5 означает отсутствие устойчивой взаимосвязи, 0,5
– 0,7 – средний уровень, > 0,7 – наличие тесной (сильной) взаимосвязи.
Знак коэффициента Пирсона означает наличие прямой или обратной
взаимосвязи между переменными.
Парная корреляция составляет концептуальную основу для парного и
множественного регрессионного анализа.
Расчет коэффициента корреляции носит название «корреляционного
анализа».
2
Пример. Рассмотреть силу взаимосвязи между показателями ВВП и
доходами страховых компаний.
Год
Доходы страховых компаний
ВВП (млн. грн.)
2002
2003
2004
2005
2006
2007
2008
2009
3049,6
6167,2
14913,5
27822,7
23927
25511,2
35644
32710
225810
267344
345113
441452
544153
720731
948056
913345
Коррел = 0,900995506
3
Таким образом, между этими переменными, существует сильная
взаимосвязь (корреляция).
Если маркетологу приходится иметь дело с категориальными
переменными, то для изучения взаимосвязи рассчитывается ранговый
коэффициент корреляции Спирмена.
n
r  1
6 *  ( X i  Yi ) 2
i 1
n * (n 2  1)
, где
n – количество парных наблюдений.
Регрессионный анализ представляет собой статистический метод
изучения данных, в результате которого устанавливаются причинноследственные взаимосвязи между переменными.
В результате анализа появляется возможность рассчитывать значение
зависимой переменной в зависимости от того, какое значение примет
независимая переменная (предиктор), т.е. выполнять прогнозирование.
Все переменные для регрессионного анализа должны быть
метрическими.
Парная (двумерная) регрессия – это метод установления зависимости
между двумя метрическими переменными в виде математического
уравнения, одна из которых является зависимой (категориальной), а другая –
независимой.
Примеры для применения регрессионного анализа.
1. На сколько можно ожидать увеличение объема продаж при
увеличении количества продавцов?
2. Как влияет изменение расходов на рекламу на степень узнаваемости
торговой марки?
3. Как цена товара влияет на количество лояльных покупателей?
Порядок выполнения регрессионного анализа
Построение корреляционной диаграммы
Построение модели линейной регрессии
диаграммы
Расчет параметров модели
Проверка модели
4
Пример. Изучить влияние рекламы на объемы продаж.
Расходы на рекламу
Объем продаж
41
54
63
54
48
46
62
61
64
71
1250
1380
1425
1425
1450
1300
1400
1510
1575
1650
1. Построение корреляционной диаграммы и расчет коэффициента
корреляции. («Мастер диаграмм» - «Точечная» - «Ок»).
Объем продаж
Влияние рекламы на объемы продаж
1800
1600
1400
1200
1000
800
600
400
200
0
Объем продаж
0
10
20
30
40
50
60
70
80
Расходы на рекламу
r = 0,84, что свидетельствует о сильной взаимосвязи между
переменными.
5
2. Построение модели и вывод уравнения регрессии.
1800
y = 10,787x + 828,13
R2 = 0,719
1600
1400
1200
1000
Ряд1
Линейный (Ряд1)
800
600
400
200
0
0
10
20
30
40
50
Уравнение регрессии имеет вид:
3. Расчет параметров модели.
60
70
80
y  10,787 * x  828,13
ВЫВОД ИТОГОВ
Регрессионная статистика
Множествен. R
0,847950033
R-квадрат
0,719019259
Нормированный
R-квадрат
0,683896667
Стандартная
ошибка
67,19447214
Наблюдения
10
Дисперсионный анализ
1
8
9
SS
92431,72
36120,78
128552,5
MS
92431,72
4515,097
F
20,4717
Значимость
F
0,001938
Коэффиц.
828,1268882
10,7867573
Стандарт.
ошибка
136,1286
2,384042
tстатистика
6,083416
4,524567
PЗначение
0,000295
0,001938
Нижние
95%
514,2138
5,289146
Предсказ. Y
1270,383938
1410,611782
1507,692598
1410,611782
1345,891239
1324,317724
1496,905841
1486,119084
1518,479355
1593,986657
Остатки
-20,3839
-30,6118
-82,6926
14,38822
104,1088
-24,3177
-96,9058
23,88092
56,52064
56,01334
df
Регрессия
Остаток
Итого
Y-пересечение
Переменная X 1
ВЫВОД ОСТАТКА
Наблюдение
1
2
3
4
5
6
7
8
9
10
Верхние
95%
1142,04
16,28437
6
Основные параметры регрессионной модели:
1. Множественный R = 0,847950033 (коэффициент корреляции
Пирсона).
2. R-квадрат = 0,719019259 (коэффициент детерминации) –
показывает долю вариации зависимой переменной, которая объясняется
вариацией независимой переменной (значения от 0 до 1).
3. Стандартная ошибка SE = 67,19 (значение
SE
Ymax  Ymin не
должно превышать 30%).
4. F – критерий Фишера (полученное значение должно быть больше
табличного), Значимость F < 0,05.
5. t – статистика (коэффициент Стьюдента) – значение должно быть
> 2; р – значение < 0,05; доверительный интервал не должен включать 0.
Эти три показателя между собой взаимосвязаны и интерепретируются
одинаково: переменная Х оказывает значимое влияние на переменную Y.
6. Остатки (влияние случайных факторов) – коэффициент
автокорреляции для остатков должен стремиться к нулю. Рассчитывается как
коэффициент корреляции для двух наборов данных их одного столбца:
первый – значения с 1 по 9 (предпоследний), второй – значения с 2 по 10
(последний).
4. Проверка модели на возможность ее практического применения
производится по критериям точности, надежности и адекватности. Все
параметры должны выполняться одновременно. Несоответствие
одному из критериев означает отсутствие модели как таковой.
Точность оценивается по значениям коэффициента корреляции r,
коэффициента детерминации r2 и стандартной ошибки SE.
Критерий
Критическое
значение
r
> 0,7
r2
SE
Расчетное
значение
Вывод о точности
модели
0,847
+
> 0,5
0,719
+
< 30%
67,19
 16,7%
1650  1250
+
7
Надежность модели оценивается по значениям F – для модели в целом
и значениям t, p и доверительного интервала – для независимой
переменной Х.
Критерий
Критическое
значение
Для независимой
переменной Х
для модели
F
Расчетное
значение
Вывод о
надежности
модели
20,47
+
F > Fтабличн
Значимость F
> 0,05
0,0018
+
t
t>2
4,524
+
p
p < 0,05
0,019
+
доверительный
интервал
0 отсутствует
5,289 – 16,283
+
Адекватность модели оценивается по коэффициенту автокорреляции.
Критерий
Критическое
значение
Расчетное
значение
Вывод о
точности модели
r
< 0,3
0,164
+
ВЫВОД ОСТАТКА
Наблюдение
1
2
3
4
5
6
7
8
9
10
Предсказанное Y
1270,383938
1410,611782
1507,692598
1410,611782
1345,891239
1324,317724
1496,905841
1486,119084
1518,479355
1593,986657
Остатки
-20,3839
-30,6118
-82,6926
14,38822
104,1088
-24,3177
-96,9058
23,88092
56,52064
56,01334
Автокорреляция
0,164647
8
Вывод:
Уравнение y  10,787 * x  828,13 , описывающее зависимость
двух переменных отвечает требованиям точности, надежности и
адекватности и может быть использовано для прогнозирования результатов.
Таким образом, при расходах на рекламу в размере 50 и 80 денежных
единиц, прогнозируется объем продаж на уровне 1367 и 1690 соответственно.
Download