Дисперсионный анализ

advertisement
Дисперсионный анализ: t – тест.
Дисперсионный анализ представляет собой совокупность методов,
предназначенных для сравнения средних значений по различным наборам
данных (выборкам). Суть анализа заключается в том, что если средние
значения по выборкам (т.е. средние значения по результатам наблюдений)
равны между собой, то влияние факторов, вызвавших эти результаты по
группам, одинаково.
Если же средние по выборкам не равны между собой, это
убедительно доказывает различное влияние факторов на сформированные
группы и, соответственно, результаты по этим группам.
Дисперсионный анализ позволяет ответить на вопросы следующего
характера:
1. Различаются ли разные сегменты с точки зрения потребления
товара?
2. Имеется ли различие в оценках торговой марки среди разных групп
респондентов?
3. Зависят ли намерения потребителей приобрести товар от разницы в
уровнях цен?
4. Влияет ли осведомленность потребителей о магазине на их
предпочтения к данному магазину?
5. Различается ли отношение разных категорий посредников к
политике распределения компании?
6. Какому из партнеров отдать предпочтение, исходя их показателей
качества поставляемой продукции?
В зависимости от количества рассматриваемых данных, используются
различные методы дисперсионного анализа.
1. t – тест для одной выборки.
2. t – тест для двух зависимых выборок.
3. t – тест для двух независимых выборок.
4. Для трех и более выборок применяется однофакторный или
многофакторный дисперсионный анализ.
Дисперсионный анализ
Одна
выборка
Две
зависимые
выборки
Две
независимые
выборки
t – тест для одной выборки, двух зависимых
или двух независимых выборок
Три
и более
выборок,
один фактор
Три и более
выборок,
несколько
факторов
одно- или много- факторный
дисперсионный анализ
t – тест состоит в расчете t- статистики (коэффициента Стьюдента) по
имеющимся данным, сравнение его с табличным значением и
формулированием вывода о равенстве средних.
1. t – тест для одной выборки.
Для проведения t – теста необходимо рассчитать среднее значение по
выборке (X) и стандартную ошибку выборки (Sx). t- статистика находится по
формуле:
Для среднего
t
Для доли признака
t
Стандартная
ошибка среднего
Стандартная
ошибка доли
SХ =
Sр =

n
р(1 - р)
n
X 
Sx
 
S
σ – ст. отклонение
n - объем выборки
ρ - доля изучаемого
признака
где μ – задаваемое для сравнения среднее значение генеральной
совокупности;
π – задаваемое для сравнения значение доли признака в генеральной
совокупности;
Для сравнения с табличным значением используется абсолютное
значение t, т.е. «по модулю».
t - статистика показывает на сколько стандартных ошибок отличаются
между собой средние значения по выборке (Х) и генеральной совокупности
(μ). Поскольку при 95% уровне достоверности значение t =1,96, то
существует эмпирическое правило, что «при t >2 нулевая гипотеза
отклоняется», т.е. существует убедительное доказательство того, что среднее
значение по выборке отличается от среднего значения генеральной
совокупности.
Фактически, t – тест для одной выборки сводится к процедуре
проверки гипотезы о равенстве выборочного среднего среднему генеральной
совокупности (см. «Проверка гипотез»).
2. t – тест для двух зависимых выборок.
t – тест в данном случае проводится для сравнения средних значений
по двум выборкам (двум наборам данных), при условии, что эти данные
«связаны между собой естественным образом».
Такая ситуация возникает в исследованиях типа «до и после», где
результаты измерения рассматриваются «до» и «после» некоторого
вмешательства (например, просмотр рекламы, проведение тренинга,
регулировка оборудования и т.д.), причем в обеих ситуациях в исследовании
принимают участие те же самые респонденты (или то же самое
оборудование).
В случае с двумя зависимыми выборками t – тест можно свести к
проверке для одной выборки. Для этого нужно перейти к работе с
«разностями», т.е. свести разности значений результатов «до и после» свести
в одну группу (выборку).
Далее вычисляются среднее значение по «разности (ХΔ)», стандартная
ошибка для «разности (Sx)» и рассчитывается t – статистика.
t
X
Sx
Если вычисленное значение t – статистики по абсолютному
значению больше t – значения по таблице, то это является убедительным
доказательство того, что различие в средних имеет место, т.е.
подтверждается влияние внешнего фактора.
Пример. Оценка эффективности рекламы.
С выборкой респондентов из 15 человек провели опрос до и после
показа рекламного ролика с целью выяснения наличия в нем положительного
эмоционального эффекта. Респонденты отмечали свои ощущения по шкале
от 1 до 5, что означало «безразличное» и «восторженное» отношение от
просмотра. Результаты опроса указаны в таблице:
Респондент № 1
№2
№3
№4
№5
№6
№7
№8
№9
№ 10
№ 11
№ 12
№ 13
№ 14
№ 15
До
3
2
2
4
2
2
1
3
3
2
5
2
4
3
4
После
2
2
2
5
4
1
1
5
4
4
5
3
5
5
4
Решение.
Поскольку выборки являются «зависимыми», то влияние рекламы на
респондентов оценивается через «разности» результатов наблюдений.
До
После
Разность, (Δ)
Респондент № 1
3
2
-1
№2
2
2
0
№3
2
2
0
№4
4
5
1
№5
2
4
2
№6
2
1
-1
№7
1
1
0
№8
3
5
2
№9
3
4
1
№ 10
2
4
2
№ 11
5
5
0
№ 12
2
3
1
№ 13
4
5
1
№ 14
3
5
2
№ 15
4
4
0
Объем выборки
n = 15
Среднее
ХΔ= 0,667
Ст. отклонение
σ=1,047
Ст. ошибка
Sх =0,27
Вычисляем t - статистику: t 
X  0,667

 2,47
Sx
0,27
t – значение (коэффициент Стьюдента) по таблице для выборки n = 15
и уровне достоверности 95% составляет 2,145.
Результат вычисления в Excel.
Парный двухвыборочный t-тест для средних
Переменная 1
Среднее
Дисперсия
Наблюдения
Корреляция Пирсона
Гипотетическая разность средних
df
t-статистика
Переменная 2
2,8
3,466666667
1,171428571
2,266666667
15
15
0,718892706
0
14
-2,467175819
P(T<=t) одностороннее
0,013565808
t критическое одностороннее
1,761310115
P(T<=t) двухстороннее
0,027131615
t критическое двухстороннее
2,144786681
Поскольку tстат > tтабл , можно сделать вывод, что рекламный ролик
имел влияние (эффективность) на респондентов.
Т.е. по результатам t – теста нулевая гипотеза отклоняется и
принимается альтернативная гипотеза.
Команды на выполнение t-теста в Excel:
«Сервис» - «Анализ данных» - «Парный двухвыборочный t-тест для
средних».
3. t – тест для двух независимых выборок.
t – тест в данном случае проводится для сравнения средних значений
по двум выборкам (двум наборам данных), в ситуации, когда результаты в
выборках не могут быть «естественным образом сведены в пары». Например,
имеются данные по предприятиям различных отраслей, результаты по
респондентам разных специальностей или возрастных групп, оценки
качества продукции разных технологических линий.
В таких случаях нельзя сводить значения в одну группу, необходимо
работать с двумя выборками.
Расчет t – статистики для независимых выборок:
t
X X 1  X 2

,
Sx
Sx
где S x 
 12
 22

n1 n2 - для выборок большого размера (более
30). Имеет широкое применение на практике.
(n 1 - 1) *  12  (n2  1) *  22
или S x 
n1  n2  2
1 1
*    - для выборок
 n1 n2 
малого размера (< 30).
В дальнейшем tстат и tтабл , сравниваются между собой и делается
вывод о равенстве средних двух независимых выборок.
Пример. Рассмотрите стоимость ухода за одним ребенком в
дошкольных учреждениях в центре города и за его пределами. Сделайте
вывод о соотношении этих показателей.
В центре города, $
В других районах города, $
400
500
625
425
440
300
550
350
600
550
500
475
325
350
350
Решение.
В данном случае изучаются две независимые выборки малого
размера. Предварительные вычисления:
В центре города, $
В других районах
города, $
400
500
625
425
440
300
550
350
600
550
500
475
325
350
350
Объем выборки
n1 = 6
n2 = 9
Среднее
Х1 = 519,16
Х2 = 402,77
Ст. отклонение
σ1 = 88,91
σ2 = 87,9
(n 1 - 1) *  12  (n2  1) *  22
Таким образом, S x 
n1  n2  2
(6 - 1) * 88,912  (9  1) * 87,92  1 1 
Sx 
*     46,53
692
6 9
Следовательно,
X X 1  X 2 519,16  402,77


 2,501
Sx
Sx
46,53
Табличное значение tтабл = 2,160
t
1 1
*   
 n1 n2 
Поскольку tстат > tтабл , можно сделать вывод, что цены по уходу за
ребенком в центре города и в других районах значимо отличаются (в центре
города цены выше).
Результат вычисления в Excel.
Двухвыборочный t-тест с одинаковыми дисперсиями
Переменная 1
Переменная 2
Среднее
519,1666667
402,7777778
Дисперсия
7904,166667
7725,694444
6
9
Наблюдения
Объединенная дисперсия
Гипотетическая разность средних
df
7794,337607
0
13
t-статистика
2,501342522
P(T<=t) одностороннее
0,013260775
t критическое одностороннее
1,770933383
P(T<=t) двухстороннее
0,026521551
t критическое двухстороннее
2,160368652
Команды на выполнение t-теста в Excel:
1. Для малых выборок:
«Сервис» - «Анализ данных» - «Двухвыборочный
одинаковыми дисперсиями».
2. Для больших выборок:
«Сервис» - «Анализ данных» - «Двухвыборочный
различными дисперсиями».
t-тест
с
t-тест
с
Download