§ 35. Выборочный коэффициент ранговой корреляции Кендалла

advertisement
М.В.Дубатовская. Теория вероятностей и математическая статистика
§ 35. Выборочный коэффициент ранговой корреляции Кендалла и проверка
гипотезы о его значимости.
Пусть известны ранги объектов выборки объема n :
по признаку A : x1 , x2 , ..., x n .
по признаку B : y1 , y 2 , ..., y n .
Допустим, что правее y1 имеется R1 рангов, больших y1 , правее y 2 имеется R2
рангов, больших y 2 , …, правее y n 1 имеется Rn 1 рангов, больших y n 1 . Пусть сумма
рангов R R1 R2 ... Rn 1 .
Выборочный коэффициент ранговой корреляции Кендалла определяется формулой:
В
4R
1,
n(n 1)
где n - объем выборки, R R1 R2 ... Rn 1 .
Коэффициент Кендалла имеет те же свойства, что и коэффициент Спирмена:
1) В случае полной прямой зависимости правее y1 имеется n 1 рангов, больших y1 ,
Rn 1 1 .
R1 n 1 .
R2 n 2 ,
поэтому
Очевидно,
…,
Следовательно,
4n(n 1)
n(n 1)
1 2 1 1.
R (n 1) (n 1) ... 1
. Тогда В
2n(n 1)
2
2) В случае противоположной зависимости
x1 1 , x2 2 , ..., xn n .
y1
n , y2
n 1 , ..., yn
1.
Правее y1 нет рангов, больших y1 , поэтому R1 0 . Очевидно R2 ... Rn 1 0 .
1.
Следовательно, R 0 и В
Замечание. При достаточно большом объеме выборки и при значениях ранговой
корреляции, не близких к единице, имеет место приближенное равенство:
rВ
3
2
В
Приведем правило, позволяющее установить значимость или незначимость
ранговой корреляционной связи Кендалла.
При уровне значимости
проверим
H0 : Г 0 ,
H1 :
Г
Вычислим Tкр
0,
zкр
где n - объем выборки,
2(2n 5)
9n(n 1)
М.В.Дубатовская. Теория вероятностей и математическая статистика
z кр - критическая точка двусторонней критической области, находят ее из таблицы
функции Лапласа из условия
1
.
2
Если
Tкр , то нет оснований отвергнуть гипотезу
В
корреляционная связь между качественными признаками незначима.
( zкр )
H0 .
Ранговая
Если В Tкр , то нулевую гипотезу отвергают. Между качественными признаками
существует значимая ранговая корреляционная связь.
§ 36. Понятие о дисперсионном анализе.
Пусть генеральные совокупности X1, X 2 ,...,X p распределены нормально и имеют
одинаковую, хотя и неизвестную дисперсию. Математические ожидания также
неизвестны, но могут быть различны. Требуется при заданном уровне значимости по
выборочным средним проверить нулевую гипотезу
H 0 : M ( X1)
M ( X 2 ) ...
M (X p)
о равенстве всех математических ожиданий.
Другими словами, требуется установить, значимо или незначимо различаются
выборочные средние.
Казалось бы, при сравнении нескольких средних их можно было бы сравнивать
попарно, одно с возрастанием числа средних возрастает и наибольшее различие между
ними: среднее новой выборки может оказаться больше наибольшего или меньше
наименьшего из средних, полученных до нового опыта.
Поэтому для сравнения нескольких средних используют другой метод, который
основан на сравнении дисперсий и поэтому назван дисперсионным анализом. Метод
развит английским статистиком Р.Фишером.
На практике дисперсионный анализ используют, чтобы установить, оказывает ли
существенное влияние некоторый качественный фактор F , который имеет p уровней
F1, F2 ,...,Fp , на изучаемую СВ X . Например, требуется выяснить, какой вид удобрений
наиболее эффективен для получения наибольшего урожая. В этом случае качественный
фактор F - удобрение, а его уровни – виды удобрений.
Основная идея дисперсионного анализа состоит в сравнении «факторной»
дисперсии, порождаемой воздействием фактора, и «остаточной» дисперсии,
обусловленной случайными причинами. Если различие между этими дисперсиями
значимо, то фактор оказывает существенное влияние на СВ X . В этом случае средние
наблюдаемых значений на каждом уровне (групповые средние) различаются также
значимо.
М.В.Дубатовская. Теория вероятностей и математическая статистика
Если уже установлено, что фактор оказывает существенное влияние на СВ X , а
требуется выяснить, какой из уровней фактора оказывает наибольшее воздействие, то
дополнительно производят попарное сравнение средних.
Дисперсионный анализ используют также для установления однородности
нескольких совокупностей (дисперсии этих совокупностей одинаковы по предположению;
если дисперсионный анализ покажет, что математические ожидания одинаковы, то в этом
смысле совокупности однородны).
Однородные совокупности можно объединять в одну и тем самым получить о ней
более полную информацию, следовательно, и более надежные выводы.
В более сложных случаях исследуют воздействие нескольких факторов на
нескольких постоянных или случайных уровнях и выясняют влияние отдельных уровней
и их комбинаций (т.н. многофакторный анализ).
Download