1.3 Числовые характеристики выборки

advertisement
МИНИСТЕРСТВО СПОРТА, ТУРИЗМА И МОЛОДЕЖНОЙ
ПОЛИТИКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
ФИЗИЧЕСКОЙ КУЛЬТУРЫ, СПОРТА И ТУРИЗМА
Кафедра естественнонаучных дисциплин
МАТЕМАТИКА
Методические рекомендации
по самостоятельному изучению курса
Элементы статистических исследований
2011
Методические рекомендации
утверждены и рекомендованы
Экспертно-методическим
Советом РГУФКСиТ
Протокол №_____
от «____» ___________2011 г.
Составители: Конюхова Г.П. – кандидат педагогических наук, доцент
кафедры ЕНД РГУФКСиТ;
Конюхов В.Г. – кандидат технических наук, доцент кафедры ЕНД
РГУФКСиТ;
Рецензент: Попов Г.И. – д.п.н., профессор кафедры ЕНД РГУФКСиТ.
Методические указания разработаны по самостоятельному изучению
курса «Математика» для студентов, обучающихся по направлениям
032100.62 «Физическая культура», 100200.62 «Туризм», 080100.62 «Экономика», по специальностям: 032101.65 «Физическая культура и спорт»,
032103.65 «Рекреация и спортивно-оздоровительный туризм», 100201.65
«Туризм», 032102.65 «Физическая культура для лиц с отклонениями в состоянии здоровья (АФК)», 030602.65 «Связи с общественностью», 080507.65
«Менеджмент организации», 030301.65 «Психология», 040104.65 «Организация работы с молодежью», 050720.65 «Физическая культура».
В пособии рассмотрены основные сведения по статистическому анализу выборочных совокупностей, необходимые для решения ряда задач в области физической культуры и спорта. Материал пособия представлен с позиции
прикладной направленности дисциплины.
Учебное пособие предназначено для студентов дневной и заочной
форм обучения для изучения теоретических и практических основ математической статистики при подготовке к занятиям и сдаче экзамена.
2
Содержание
1 ЭМПИРИЧЕСКИЕ РАСПРЕДЕЛЕНИЯ И ЧИСЛОВЫЕ
ХАРАКТЕРИСТИКИ (ВЫБОРОЧНОЕ ИССЛЕДОВАНИЕ)...................... 4
1.1 ГЕНЕРАЛЬНАЯ И ВЫБОРОЧНАЯ СОВОКУПНОСТИ ...................... 4
1.2 ФОРМЫ ПРЕДСТАВЛЕНИЯ ЭМПИРИЧЕСКИХ
РАСПРЕДЕЛЕНИЙ .............................................................................................. 8
1.2.1 ПОСТРОЕНИЕ СТАТИСТИЧЕСКИХ РЯДОВ ................................................... 8
1.2.2 ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ СТАТИСТИЧЕСКИХ РЯДОВ .................. 16
1.3 ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ ВЫБОРКИ ................................... 20
1.3.1 ХАРАКТЕРИСТИКИ ПОЛОЖЕНИЯ ............................................................. 21
1.3.2 ХАРАКТЕРИСТИКИ РАССЕЯНИЯ................................................................ 28
1.3.3 ХАРАКТЕРИСТИКИ ФОРМЫ ....................................................................... 34
2 ИССЛЕДОВАНИЕ КОРРЕЛЯЦИИ И РЕГРЕССИЯ ............................... 39
2.1 ОБЩИЕ СВЕДЕНИЯ ................................................................................... 39
2.1.1 ВИДЫ ВЗАИМОСВЯЗИ ................................................................................. 39
2.1.2 ФОРМА ЗАВИСИМОСТИ .............................................................................. 40
2.1.3 НАПРАВЛЕННОСТЬ ВЗАИМОСВЯЗИ ........................................................... 41
2.1.4 ТЕСНОТА (СИЛА) ВЗАИМОСВЯЗИ............................................................... 41
2.1.5 КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ БРАВЭ-ПИРСОНА..................................... 44
2.1.6 КОЭФФИЦИЕНТ РАНГОВОЙ КОРРЕЛЯЦИИ RS СПИРМЕНА ....................... 46
2.1.7 РЕГРЕССИЯ ................................................................................................. 52
2.2 ПРИМЕР ИССЛЕДОВАНИЯ КОРРЕЛЯЦИИ И РЕГРЕССИИ ......... 55
СПИСОК ЛИТЕРАТУРЫ ................................................................................. 67
ПРИЛОЖЕНИЕ. СТАТИСТИЧЕСКИЕ ТАБЛИЦЫ .................................. 68
3
1 Эмпирические распределения и числовые характеристики
(выборочное исследование)
Задание. Даны результаты экспериментального исследования одного признака. Произвести табличное и графическое представление экспериментальных данных, рассчитать числовые характеристики выборки.
1.1 Генеральная и выборочная совокупности
Законы теории вероятностей представляют собой математическое выражение реальных закономерностей, фактически существующих в массовых
случайных явлениях. Разработка методов регистрации, описания и анализа
экспериментальных данных, полученных в результате наблюдения массовых
случайных явлений, составляет предмет специальной науки – математической статистики. Задачи математической статистики касаются вопросов обработки наблюдений над массовыми случайными явлениями, но в зависимости от характера решаемого практического вопроса и от объема имеющегося
экспериментального материала эти задачи могут принимать ту или иную
форму.
Выбор объектов для исследования производится на основе обладания
ими общими признаками. Именно наличие общего признака позволяет, с одной стороны, объединить их в одну группу, а с другой – сравнивать между
собой. По характеру представления признаки подразделяются на качественные и количественные.
Качественные признаки отражают определенные свойства качества
данного объекта и записываются в виде текста. Примерами качественных
признаков являются: пол, принадлежность к той или иной команде, специализация и т.д.
Количественные признаки характеризуются определенными численными значениями и подразделяются на дискретные и непрерывные.
Дискретным называется признак, множество значений которого явля4
ется счетным множеством (элементы счетного множества могут быть перенумерованы и выписаны в соответствующей последовательности). Например, количество баллов, очков, забитых мячей и т.д.
Непрерывным является признак, который может принимать любые
значения из некоторого интервала числовой оси (скорость движения, время
прохождения дистанции и т.д.).
Предположим, что изучается поведение признака, являющегося случайной величиной, т.е. величиной, которая в результате опыта приобретает
одно из своих возможных значений, неизвестно заранее какое. С этой целью
над
случайной
величиной
производится
ряд
независимых
опытов-
наблюдений. В каждом из этих опытов исследуемая случайная величина
принимает определенное значение. Отдельные значения исследуемого признака принято называть вариантами и обозначать латинскими буквами x, y и
т.п. из конца алфавита. Совокупность зафиксированных значений признака
представляет собой первичный экспериментальный материал, подлежащий
обработке, осмыслению и статистическому анализу. Такая совокупность
называется статистической совокупностью. Итак, статистической совокупностью называется множество зафиксированных в ходе наблюдений значений признака. Из всех возможных статистических совокупностей особое значение для исследования имеют две совокупности: генеральная и выборочная.
Множество всех возможных значений признака, которое можно было
бы получить в данном исследовании, называется генеральной совокупностью.
Выборочной совокупностью, или просто выборкой, называется статистическая совокупность, состоящая из некоторого числа значений признака, случайным образом отобранная из соответствующей генеральной совокупности.
Случайность отбора необходима для того, чтобы свойства полученной
выборки наилучшим способом отражали соответствующие свойства генеральной совокупности, т.е. выборка была репрезентативной (представитель5
ной). Выборка является случайной, если, во-первых, все измерения, составляющие выборку, независимы (т.е. результат каждого измерения не зависит
от предыдущих) и, во-вторых, каждый из объектов генеральной совокупности имеет одинаковую вероятность быть представленным в выборке.
Одной из главных характеристик выборки является число элементов в
ней, которое называется объемом выборки и обозначается символом n. В
большинстве практически важных случаев объем выборки существенно
меньше объема генеральной совокупности, что позволяет считать, что выборка производится из генеральной совокупности, содержащей бесконечное
число членов.
Статистические исследования различаются по степени охвата рассматриваемой статистической совокупности. Исследования, охватывающие
все объекты генеральной совокупности, называются сплошными, а использующие информацию лишь о некоторой части объектов генеральной совокупности - несплошными. Примером сплошного исследования является
Всероссийская перепись населения. Несплошные исследования подразделяются на выборочные, способ основного массива и монографические.
При выборочном исследовании изучению подвергаются элементы
выборки. Репрезентативность выборочной совокупности основывается на соблюдении научно обоснованных правил ее формирования.
В случае применения способа основного массива изучению подлежат наиболее существенные элементы совокупности, которые имеют в ней
максимальный удельный вес.
При проведении монографического исследования производится подробное изучение характеристик отдельного объекта генеральной совокупности. Монографическое описание используется для характеристики, например, одного конкретного спортсмена.
В области физической культуры и спорта экспериментальные данные,
как правило, являются результатами измерений некоторых признаков (спортивный результат, двигательные способности и пр.) объектов, являющихся
6
частью более широкой совокупности подобных объектов. Таким образом,
они являются выборочными. Проведение сплошных исследований не характерно для физической культуры и спорта, да и вообще для статистических
исследований. Например, просто невозможно, не говоря уже о том, что и нецелесообразно обследовать всех спортсменов, занимающихся определенным
видом спорта и имеющих одинаковую квалификацию. Таким образом, проведение эксперимента для всей генеральной совокупности, как правило, или
неосуществимо, или неоправдано, поэтому применяется выборочный метод.
Выборочный метод является одним из основных методов математической
статистики. При выполнении выборочных исследований получаемые результаты используются для описания свойств всей генеральной совокупности.
Проводя каждое конкретное статистическое исследование, необходимо точно определить, что в данном случае является генеральной совокупностью. Так, например, если производится исследование роста российских студентов, то все они составляют генеральную совокупность, а студенты какоголибо института – выборку. В то же время все студенты нашей страны являются выборкой из более широкой совокупности - множества студентов
нашей планеты.
Объем и состав выборки зависят от объектов и целей проводимого исследования. Чем больше объектов включает в себя выборка, тем точнее отражает она свойства генеральной совокупности. Вместе с тем увеличение
объема выборки приводит к усложнению проведения исследования и повышению его стоимости, поэтому необходимо находить компромисс, так чтобы
обследуемые выборки были и не слишком велики, и представительны.
Далее будет рассмотрено применение выборочного метода для установления вида закона распределения случайной величины и оценки числовых характеристик статистического распределения.
7
1.2 Формы представления эмпирических распределений
Статистическое исследование состоит из трех основных этапов. Первым этапом является наблюдение, при котором производится научно обоснованный сбор данных, характеризующих изучаемое явление или объект. Второй этап заключается в статистической сводке и группировке. На этом этапе
данные систематизируются и определенным образом оформляются – чаще
всего в виде статистических таблиц. Третьим этапом является анализ статистического материала.
Применение того или иного метода статистического анализа определяется математической моделью, описывающей свойства генеральной совокупности. Для корректного проведения эксперимента выбор и обоснование
математической модели должны быть произведены до его начала. На практике при проведении обследований ограниченный объем предварительной информации не позволяет сделать обоснованное предположение о математической модели генеральной совокупности. В таких случаях ее выбор
осуществляется на основе построения эмпирического распределения и анализа его характеристик. Под эмпирическим распределением принято понимать распределение элементов выборки по значениям изучаемого признака.
Построение эмпирических распределений является необходимым этапом
применения статистических методов. Основной задачей при построении эмпирического распределения является формулирование на основе его анализа
предположения о форме распределения изучаемого признака в генеральной
совокупности.
1.2.1 Построение статистических рядов
Выборка, полученная при проведении экспериментального исследования, представляет собой неупорядоченный набор чисел, записанных в той
последовательности, в которой производились измерения. Обычно выборка
8
оформляется в виде таблицы, в первой строке (или столбце) которой стоит
номер опыта i, а во второй (втором) - зафиксированное значение случайной
величины признака. В таком виде выборка представляет собой первичную
форму записи статистического материала, который может быть обработан
различными способами. В качестве примера рассмотрим результаты, показанные на легкоатлетических соревнованиях толкателями ядра и приведенные в таблице 1. В первой строке этой таблицы записаны номера измерений,
а во второй - их численные значения в метрах.
Таблица 1
Результаты соревнований в толкании ядра
№
xi
1
3
4
5
6
16,36 14,91 15,31 14,26 14,77 13,88
№
xi
2
11
12
13
14
15
16
14,44 14,81 13,81 15,15 15,23 15,69
№
xi
21
22
23
24
25
13,62 14,92 15,73 13,22 14,65
7
8
14,97
14,01
17
18
14,29
14,15
9
10
14,07 14,48
19
20
14,57 13,92
26
27
28
29
14,8
13,04
15,1
13,3
Как видно из таблицы 1, простая статистическая совокупность перестает быть удобной формой представления статистического материала даже
при относительно небольшом объеме выборки: она является достаточно громоздкой и мало наглядной. Проанализировать полученные экспериментальные данные и тем более сделать какие-либо выводы на их основе весьма затруднительно. Исходя из этого, полученный статистический материал
должен быть обработан для проведения дальнейшего исследования. Простейшим способом обработки выборки является ранжирование. Ранжированием называют расстановку вариант в порядке возрастания или убывания их
9
значений. Ниже в таблице 2 приведена ранжированная выборка, элементы
которой расположены в порядке возрастания.
Таблица 2
Ранжированные результаты соревнований в толкании ядра
№
xi
1
13,04 13,22
№
xi
2
11
3
13,3
12
4
5
6
13,62 13,81
13
14
№
xi
21
22
14,92 14,97
23
15,1
13,88
15
14,26 14,29 14,44 14,48 14,57
24
7
8
9
13,92 14,01 14,07
10
14,15
16
17
18
19
20
14,65
14,77
14,8
14,81
14,91
25
15,15 15,23
26
15,31
27
28
29
15,69 15,73 16,36
Но и в таком виде полученные экспериментальные данные плохо обозримы и мало пригодны для непосредственного анализа. Именно поэтому для
придания статистическому материалу большей компактности и наглядности
он должен быть подвергнут дальнейшей обработке – строится так называемый статистический ряд. Построение статистического ряда начинается с
группировки.
Группировкой называется процесс упорядочения и систематизации
данных, полученных в ходе проведения эксперимента, направленный на извлечение содержащейся в них информации. В процессе группировки осуществляется распределение вариант выборки по группам или интервалам
группировки, каждый из которых содержит некоторый диапазон значений
изучаемого признака. Процесс группировки начинается с разбиения всего
диапазона варьирования признака на интервалы группировки.
Для каждой конкретной цели статистического исследования, объема
рассматриваемой выборки и степени варьирования признака в ней существует оптимальное значение числа интервалов и ширины каждого из них. Ориентировочное значение оптимального числа интервалов k может быть опре10
делено, исходя из объема выборки п либо с помощью данных, приведенных в
таблице 3., либо с помощью формулы Стэрджесса:
k = 1 + 3,322 lgn.
Таблица 3
Определение числа интервалов группировки
Объем выборки n
Число интервалов k
10-30
30-60
60-100
100-300
300-400
4-5
5-6
7
8
9
Получаемое по формуле значение k почти всегда оказывается дробной
величиной, которую необходимо округлить до целого числа, поскольку количество интервалов не может быть дробным. Практика показывает, что, как
правило, лучше округлять в меньшую сторону, ибо формула дает хорошие
результаты при больших значениях n, а при малых - несколько завышенные.
Рассмотрим группировку вариант выборки на конкретном примере.
Для этого обратимся к
примеру с толкателями ядра (см. таблицы 1, 2).
Определение числа интервалов группировки будем производить на основе
данных, приведенных в таблице 3. При объеме выборки n=29 число интервалов целесообразно выбрать равным k =5 (формула Стэрджесса дает значение
k =5,9).
Условимся использовать в рассматриваемом примере интервалы равной ширины. В этом случае после того, как число интервалов группировки
определено, следует вычислить ширину каждого из них с помощью соотношения:
h
xmax  xmin
.
k
Здесь h - ширина интервалов, а хmax и хmin - соответственно максимальное и минимальное значение признака в выборке. Величины хmax и хmin определяются непосредственно по таблице исходных данных (см. таблицу 2). В
рассматриваемом случае:
11
h
16,36  13,04
 0,664 (м).
5
Здесь необходимо остановиться на точности определения ширины интервала. Возможны две ситуации: точность вычисленного значения h совпадает с точностью проведения эксперимента или превышает ее. В последнем
случае возможно использование двух подходов для определения границ интервалов. С теоретической точки зрения наиболее правильно использовать
полученное значение h для построения интервалов. Такой подход не внесет
дополнительных искажений, связанных с обработкой экспериментальных
данных. Однако для практических целей в статистических исследованиях,
относящихся к физической культуре и спорту, принято округлять полученное
значение h до точности измерения данных. Связано это с тем, что для
наглядного представления получаемых результатов удобно, чтобы границами
интервалов являлись возможные значения признака. Таким образом, полученное значение ширины интервалов следует округлить с учетом точности
проводимого эксперимента. Особо отметим, что округление необходимо
производить не в общепринятом математическом смысле, а в сторону увеличения, т.е. с избытком, чтобы не уменьшить общий диапазон варьирования
признака - сумма ширины всех интервалов не должна быть меньше разности
между максимальным и минимальным значениями признака. В рассматриваемом примере экспериментальные данные определены с точностью до сотых
(0,01 м), поэтому полученное выше значение ширины интервалов следует
округлить с избытком с точностью до сотых. В результате получаем:
h= 0,67 (м).
После определения ширины интервалов группировки следует определить их границы. Нижнюю границу первого интервала целесообразно принять равной минимальному значению признака в выборке xmin:
xН1= xmin.
В рассматриваемом примере xН1 = 13,04 (м).
Для получения верхней границы первого интервала (xВ1) следует к
12
значению нижней границы первого интервала прибавить значение ширины
интервала:
xВ1= хН1+h.
Заметим, что верхняя граница каждого интервала (здесь – первого)
будет являться одновременно и нижней границей следующего (в данном случае второго) интервала: xН2= xВ1.
Подобным образом определяются значения нижних и верхних границ
всех оставшихся интервалов:
xВi =xНi+1= xНi+h.
В рассматриваемом примере:
xВ1= xН2= xН1+h=13,04+0,67=13,71 (м),
xВ2= xН3= xН2+h=13,71+0,67=14,38 (м),
xВ3= xН4= xН3+h=14,38+0,67=15,05 (м),
xВ4= xН5= xН4+h=15,05+0,67=15,72 (м),
xВ5= xН5+h=15,72+0,67=16,39 (м).
Перед группировкой вариант введем понятие срединного значения
интервала xi, равного значению признака, равноудаленного от концов этого
интервала. Учитывая, что оно отстоит от нижней границы на величину, равную половине ширины интервала, для его определения удобно воспользоваться соотношением:
xi= xНi+ h/2,
где xНi - нижняя граница i-ro интервала, а h - его ширина. Срединные значения интервалов будут использоваться в дальнейшем при обработке сгруппированных данных.
После определения границ всех интервалов следует распределить выборочные варианты по этим интервалам. Но предварительно следует решить
вопрос о том, к какому интервалу отнести значение, находящееся в точности
на границе двух интервалов, т. е. когда значение варианты совпадает с верхней границей одного и нижней границей соседнего с ним интервала. В таком
случае варианта может быть отнесена к любому из двух соседних интервалов
13
и, для исключения неоднозначности при группировке, условимся в таких
случаях относить варианты к верхнему интервалу. В пользу такого подхода
можно привести следующий довод. Поскольку минимальное значение признака совпадает с нижней границей первого интервала и входит в этот интервал, то варианту, попадающую на границу двух интервалов, следует отнести
к тому из них, значение нижней границы которого равно рассматриваемой
варианте.
Перейдем к рассмотрению статистической таблицы - см. таблицу 4,
которая состоит из семи столбцов.
Таблица 4
Табличное представление результатов в толкании ядра
1
Номер
интервала
i
2
Границы
интервала
5
Накопленная
частота
Ni
6
Частость
fi
7
Накопленная
частость
Fi
1
13,04 – 13,71
13,375
4
4
0,138
0,138
2
13,71 – 14,38
14,045
8
12
0,276
0,414
3
14,38 – 15,05
14,715
10
22
0,345
0,759
4
15,05 – 15,72
15,385
5
27
0,172
0,931
5
15,72 – 16,39
16,055
2
29
0,069
1
xНi – xВi
3
4
Срединное Чазначение стота
интервала
xi
ni
Сумма
29
1
В первых трех столбцах статистической таблицы содержатся соответственно номера интервалов группировки i, их границы xНi - xВi и срединные
значения интервалов xi.
В четвертом столбце располагаются частоты интервалов. Частотой
интервала называется число, показывающее сколько вариант, т.е. результатов
измерений попало в данный интервал. Для обозначения этой величины принято использовать символ ni. Сумма всех частот всех интервалов всегда равна объему выборки п, что можно использовать для проверки правильности
проведенной группировки.
14
Пятый столбец таблицы 4 предназначен для занесения в него накопленной частоты интервала - числа, полученного суммированием частоты текущего интервала с частотами всех предыдущих интервалов. Накопленную
частоту принято обозначать латинской буквой Ni. Накопленная частота показывает, сколько вариант имеют значения не больше, чем верхняя граница интервала.
В шестой столбец таблицы помещается частость. Частостью называется частота, представленная в относительном выражении, т.е. отношение
частоты к объему выборки. Сумма всех частостей всегда равна 1. Для обозначения частости используется символ fi:
fi=ni/n.
Частость интервала связана с вероятностью попадания случайной величины в этот интервал. Согласно теореме Бернулли, при неограниченном
увеличении числа опытов частость события сходится по вероятности к его
вероятности. Если понимать под событием попадание значения исследуемой
величины в определенный интервал, то становится ясно, что при большом
числе опытов частость интервала приближается к вероятности попадания измеряемой случайной величины в этот интервал.
И частота, и частость характеризуют повторяемость результатов в выборке. Сравнивая их статистическое значение, следует отметить, что информативность частости существенно выше, чем у частоты. Действительно, если,
как, например, в таблице 4 частота второго интервала равна 8 и, значит, 8 результатов попало в этот интервал, то трудно понять - мало это или много; если в выборке 1000 вариант, то такая частота мала, а если 20, то велика. В таком случае для объективной оценки необходимо сопоставить значение
частоты с объемом выборки. Если же воспользоваться частостью, то сразу
можно сказать, какая доля результатов попала в рассматриваемый интервал
(примерно 28% в приведенном примере). Поэтому частость дает более
наглядное представление о повторяемости признака в выборке. Особо следует отметить другое важное достоинство частости. Ее использование позволя15
ет сопоставлять выборки различного объема. Частота для таких целей не
применима.
В седьмом столбце таблицы расположена накопленная частость.
Накопленной частостью является отношение накопленной частоты к объему выборки. Накопленная частость обозначается буквой Fi:
Fi 
Ni
.
n
Накопленная частость показывает, какая доля вариант выборки имеет
значения, не превосходящие значения верхней границы интервала.
Последняя строка статистической таблицы используется для контроля
над проведением группировки.
После заполнения таблицы вернемся к определению статистического
ряда. Как правило, статистический ряд оформляется в виде таблицы, в первой строке которой перечислены интервалы, а во второй – соответствующие
им частости или частоты. Таким образом, статистическим рядом называется двойной числовой ряд, устанавливающий связь между численным значением исследуемого признака и его повторяемостью в выборке. Существенным достоинством статистических рядов является то, что они, в отличие от
статистических совокупностей, дают наглядное представление о характерных
особенностях варьирования признаков.
1.2.2 Графическое представление статистических рядов
В целях упрощения анализа статистических рядов и придания им
большей наглядности используют графические представления. Основными
видами графического представления статистических рядов являются гистограмма, полигон частостей и полигон накопленных частостей. Для визуального представления можно использовать как частости, так и частоты. Ограничимся
рассмотрением
частости,
информативен.
16
поскольку
этот
параметр
более
Наиболее часто для анализа статистического ряда используется гистограмма, представляющая собой совокупность примыкающих друг к другу прямоугольников, основание каждого из которых равно ширине интервала
группировки, а площадь - частости этого интервала.
Гистограмма строится в декартовой (прямоугольной) системе координат следующим образом. По оси абсцисс откладываются отрезки, отображающие интервалы группировки, а затем на каждом из них строится прямоугольник, площадь которого равна частости
данного интервала. Для
удовлетворения этому требованию высота прямоугольника выбирается равной частному от деления частости интервала на его ширину Hi=fi/hi. В случае, если все интервалы группировки имеют одинаковую ширину, высоты
прямоугольников пропорциональны соответствующим частостям. Полная
площадь гистограммы равна единице, что следует из способа ее построения.
Действительно, площадь каждого из прямоугольников равна частости, а
сумма всех частостей - единица.
В качестве примера на рис. 1 приведена гистограмма распределения
результатов, показанных на соревновании в толкании ядра, и построенная
для статистического ряда, образованного по данным столбцов 2 и 6 таблицы
4.
17
fi
0,4
0,3
0,2
0,1
0
13,04 13,71 14,38 15,05 15,72 16,39
Рис. 1. Гистограмма
С увеличением числа экспериментальных данных можно использовать большее количество интервалов, имеющих меньшие ширины. Гистограмма при этом будет все более и более приближаться к некоторой кривой,
ограничивающей площадь, равную единице. Эта кривая представляет собой
не что иное как график плотности распределения (или, по-другому, плотности вероятности) исследуемой случайной величины. Таким образом, гистограмма является экспериментальным аналогом плотности распределения.
Другим распространенным способом графического представления
статистических рядов является полигон частостей. Полигон частостей
отображает зависимость частости от срединных значений интервалов. Полигон частостей строится в декартовой системе координат путем соединения
прямыми линиями точек, абсциссы которых равны срединным значениям интервалов, а ординаты - частостям этих интервалов. Эти данные располагаются в третьем и шестом столбцах таблицы 4.
Полигон частостей может быть получен из гистограммы путем соединения середин верхних сторон прямоугольников гистограммы отрезками
прямых. Полигон частостей для рассматриваемого примера изображен на
рис. 2.
18
fi
0,4
0,3
0,2
0,1
0
13
14
15
16
17
Рис. 2. Полигон частостей
Полигон частостей может оказаться более удобным и наглядным способом графического представления, чем гистограмма, в том случае, когда
признак является непрерывным и его распределение описывается плавной
зависимостью.
Полигон накопленных частостей представляет собой зависимость
накопленных частостей от значений верхних границ интервалов. Полигон
накопленных частостей строится в декартовой системе координат посредством соединения прямыми линиями точек, абсциссы которых равны значениям верхних границ интервалов, а ординаты - накопленным частостям этих
интервалов. Эти данные располагаются во втором и седьмом столбцах таблицы 4. Полигон накопленных частостей для рассматриваемых экспериментальных данных приведен на рис. 3.
19
Fi
1
0,8
0,6
0,4
0,2
0
13
14
15
16
17
Рис. 3. Полигон накопленных частостей
Полигон накопленных частостей имеет более плавную форму, чем
гистограмма или полигон частостей.
С увеличением числа опытных данных в выборке и соответственно
увеличением числа используемых интервалов полигон накопленных частостей будет приближаться к кривой, являющейся графиком функции распределения исследуемой случайной величины. Таким образом, он является экспериментальным аналогом функции распределения.
1.3 Числовые характеристики выборки
Рассмотренные выше статистические ряды дают наиболее полную
информацию о поведении признака. Однако в практических целях часто бывает достаточно указать только отдельные числовые параметры, до некоторой степени характеризующие существенные черты распределения. Использование
таких
характеристик
позволяет
компактно
выразить
все
существенные сведения с помощью минимального количества числовых параметров. Такие характеристики, назначение которых - выразить в сжатой
форме наиболее существенные особенности распределения, называются числовыми характеристиками.
20
Суть выборочного метода заключается в том, что на основании исследования ограниченного числа элементов генеральной совокупности судят об
особенностях всей генеральной совокупности. Любое значение параметра
распределения, вычисленное на основе ограниченного числа опытов, т.е. выборки, всегда содержит элемент случайности. Такое приближенное, случайное значение называется оценкой параметра. Значение оценки должно быть
максимально близко к значению соответствующего параметра генеральной
совокупности, которое является истинным значением оцениваемого параметра. Исходя из этого, к оценке предъявляется ряд требований.
При увеличении числа опытов (объема выборки) значение оценки
должно приближаться (сходиться по вероятности) к истинному значению
параметра. Это свойство оценки называется состоятельностью.
Оценка не должна содержать систематической ошибки в сторону завышения или занижения. Иными словами, среднее значение оценки, вычисленное по данным различных выборок из одной и той же генеральной совокупности, должно сходиться к истинному
значению параметра. Оценка,
удовлетворяющая этому требованию, называется несмещенной.
Желательно, чтобы выбранная несмещенная оценка обладала бы по
сравнению с другими наименьшим разбросом -дисперсией. Оценка, удовлетворяющая этому требованию, называется эффективной.
На практике не всегда удается удовлетворить этим требованиям. Среди числовых характеристик наибольшее практическое значение имеют характеристики положения, рассеяния и формы распределений.
1.3.1 Характеристики положения
Рассмотрение числовых характеристик выборки необходимо начать с
тех из них, которые характеризуют положение значений исследуемого признака на числовой оси, т. е. указывают некоторое среднее, ориентировочное
21
значение, около которого группируются экспериментальные данные. К ним
относятся среднее арифметическое, мода и медиана.
Среднее арифметическое равно сумме значений всех вариант выборки, деленное на объем выборки:
1 n
x   xi .
n i 1
Здесь п - объем выборки, а xi - варианты выборки.
Среднее арифметическое является наиболее важной характеристикой
положения, поскольку при его определении используется вся имеющаяся
информация о выборке. Для обозначения среднего арифметического используется та же буква, что и для вариант выборки, с той лишь разницей, что над
буквой ставится черта - символ усреднения. В рассматриваемом случае исследуемый признак обозначен через X, его числовые значения - через хi, а
среднее арифметическое имеет обозначение x .
Из определения среднего арифметического следует, что сумма отклонений выборочных значений признака от него равна нулю.
Вычислять среднее арифметическое исходя из его определения при
большом объеме выборки становится затруднительным и можно применить
следующий прием: воспользоваться результатами группировки и считать
приближенно значения вариант в каждом интервале постоянными и равными
срединному значению, которое выступает в роли «представителя» интервала.
Число вариант в интервале равно частоте интервала, поэтому среднее арифметическое для сгруппированных данных будет выражаться следующей приближенной формулой:
x
1 k
 ni xi ,
n i 1
где п - объем выборки;
k - число интервалов группировки;
ni - частоты интервалов;
xi - срединные значения интервалов.
22
Отметим, что платой за упрощение процесса вычислений является
уменьшение их точности - точность вычислений по необработанным данным
всегда выше, чем по обработанным. Исходя из этого, вычисление оценочных
характеристик по первичным экспериментальным данным является предпочтительным.
Среднее арифметическое, вычисленное по результатам группировки,
иногда называют взвешенным средним. Смысл такой формулировки заключается в том, что в формуле срединные значения суммируются с весами (коэффициентами), равными частотам попадания вариант в
соответствующие
интервалы группировки.
В качестве примера определим среднее арифметическое результатов в
толкании ядра для экспериментальных данных из таблицы 1 и сгруппированных в таблице 4. Среднее арифметическое, определенное по необработанным
экспериментальным данным, равно:
x  14,5331 (м).
При использовании для упрощения вычислений результатов проведенной группировки получаем:
x  (4*13,375+8*14,045+10*14,715+5*15,385+2*16,055)/29=14,55328 (м).
Полученные двумя способами средние арифметические различаются
на две сотых, что превышает точность измерений экспериментальных данных.
Среди других характеристик положения наиболее важны мода и медиана. Они характеризуют величину варианты, занимающей определенное
положение в статистической совокупности.
Модой случайной величины называется значение признака, встречающееся в выборке наиболее часто. Условимся использовать для обозначения
моды символы Mo. Геометрически мода соответствует максимуму кривой
эмпирического распределения (см. рис. 4).
23
f
Мо
x
Рис. 4. Мода
С точки зрения теории вероятностей модой случайной величины является ее наиболее вероятное значение.
Если распределение случайной величины имеет более одного максимума, то распределение называется “полимодальным” (см. рис. 5).
f
x
Рис. 5. Полимодальное распределение
На практике встречаются распределения, имеющие посередине не
максимум, а минимум. Такие распределения принято называть “антимодальными” (см. рис. 6).
24
f
x
Рис. 6. Антимодальное распределение
Прежде чем приступить к вычислению значения моды в случае сгруппированных данных, необходимо
определить модальный интервал. Мо-
дальным называется интервал группировки, содержащий наибольшее число
вариант, т.е. имеющий максимальную частоту (частость).
Значение моды определяется по результатам группировки с помощью
следующего соотношения:
Mo  xMoH  h
(nMo
nMo  nMo1
,
 nMo1 )  (nMo  nMo1 )
где xMoH - нижняя граница модального интервала;
h -ширина интервала группировки;
пMo - частота модального интервала;
пМо-1 - частота интервала, предшествующего модальному;
пмо+1 - частота интервала, следующего за модальным.
При проведении исследования может оказаться, что модальным оказывается первый или последний интервал группировки. В этом случае
предыдущий или последующий интервал не существует и возникает вопрос о
пути применения последней формулы. Если один из интервалов не существует, то при проведении вычисления моды значение частоты, соответствующее этому интервалу, следует принять равным нулю. Это интуитивно
25
очевидно - раз нет интервала, то нет и вариант, относящихся к нему, потому
и частота должна обращаться в нуль.
В рассматриваемом примере модальным является третий интервал, а
значение моды равно:
Mo  14,38  0,67
10  8
 14,38  0,19  14,57 (м).
(10  8)  (10  5)
Часто для характеристики распределения применяется еще одна характеристика положения - медиана. Медианой называется такое значение
признака, при котором половина значений экспериментальных данных оказывается меньше его, а вторая половина — больше. Для обозначения медианы принято использовать символы Me. Геометрический смысл медианы – это
абсцисса точки, в которой площадь, ограниченная кривой распределения, делится пополам (см. рис. 7).
f
Ме
x
Рис. 7. Медиана
В случае несгруппированных данных для нахождения медианы необходимо ранжировать выборку, т. е. расположить данные в порядке их возрастания или убывания. Медианой будет являться значение признака, находящееся в середине ранжированного ряда. В ранжированной выборке,
содержащей п членов, ранг RMe, т.е. порядковый номер, медианы равен:
RMe 
26
n 1
,
2
а сама медиана совпадает с членом выборки, имеющим номер RMe. Описанное правило дает однозначный результат, если выборка содержит нечетное
число членов.
Если же выборка содержит четное число членов, то медиана не может
быть определена столь однозначно. Действительно, RMe оказывается дробным. В этом случае берут два члена выборки с номерами большим и меньшим RMe и считают медиану, равной их среднему значению.
Для определения медианы в случае сгруппированных данных необходимо найти медианный интервал. Интервал группировки, содержащий медиану, называется медианным. Медианным является интервал, в котором
накопленная частота впервые окажется больше половины объема выборки
(либо накопленная частость - больше 0,5). Значение медианы определяется
по следующей формуле:
Me  xMeH  h
0,5n  N Me1
,
nMe
где хМеH - нижняя граница медианного интервала;
n - объем выборки;
h - ширина интервалов группировки;
NMe-1 - накопленная частота интервала, предшествующего медианному;
пMe - частота медианного интервала.
В рассматриваемом примере накопленная частота впервые превышает
половину объема выборки (накопленная частость 0,5) в третьем интервале
(см. таблицу 4), поэтому он и будет являться медианным. Само значение медианы равно:
Me  14,38  0,67
0,5 * 27  12
 14,38  0,17  14,55 (м).
10
В рассматриваемом примере все характеристики положения различаются между собой. Это свидетельствует об асимметрии эмпирического распределения.
27
Значения среднего арифметического, моды и медианы совпадают
только для симметричных одномодальных распределений. Напомним, что
распределение является симметричным, если частости двух любых вариант,
равно отстоящих в обе стороны от центра распределения, равны между собой.
В таких случаях все характеристики положения равноправны, но предпочтение принято отдавать среднему арифметическому, поскольку оно опирается
на всю имеющуюся информацию об изучаемой выборке. Чем сильнее форма
распределения отклоняется от симметричной, тем большее различие наблюдается между значениями характеристик положения.
Значение медианы наиболее важно при исследовании сильно асимметричных эмпирических распределений. В этих случаях значительная часть
значений признака оказывается больше, либо меньше среднего арифметического и последнее оказывается мало пригодным для описания положения
центра распределения. Использование медианы, занимающей промежуточное
значение между средней арифметической и модой, для характеристики центра распределения в описанной ситуации оказывается наиболее рациональным.
1.3.2 Характеристики рассеяния
Характеристики положения описывают центр распределения. В то же
время значения вариант могут группироваться вокруг него как в широкой,
так и в узкой полосе. Поэтому для описания распределения необходимо охарактеризовать диапазон изменения значений признака. Для описания диапазона варьирования признака используются характеристики рассеяния.
Наиболее широкое применение нашли размах вариации, дисперсия, стандартное отклонение и коэффициент вариации.
Размах вариации определяется как разность между максимальным и
минимальным значением признака в изучаемой совокупности:
R=xmax-xmin.
28
Очевидным достоинством рассматриваемого
показателя является
простота расчета. Однако поскольку размах вариации зависит от величин
только крайних значений признака, то область его применения ограничена
достаточно однородными распределениями. В остальных случаях информативность этого показателя весьма невелика, поскольку существует очень
много распределений, сильно отличающихся по форме, но имеющих одинаковый размах. В практических исследованиях размах вариации используется
иногда при малых (не более 10) объемах выборки. Так, например, по размаху
вариации легко оценить, насколько различаются лучший и худший результаты в группе спортсменов.
В рассматриваемом примере:
R=16,36 – 13,04=3,32 (м).
Второй характеристикой рассеяния является дисперсия. Дисперсия
представляет собой средний квадрат отклонения значения случайной величины от ее среднего значения. Дисперсия есть характеристика рассеяния,
разбросанности значений величины около ее среднего значения. Само слово
«дисперсия» означает «рассеяние».
При проведении выборочных исследований необходимо установить
оценку для дисперсии. Дисперсия, вычисляемая по выборочным данным,
называется выборочной дисперсией и обозначается S2.
На первый взгляд наиболее естественной оценкой для дисперсии является статистическая дисперсия, вычисленная, исходя из определения, по формуле:
n
S2 
В этой формуле
n
 ( xi  x ) 2
 ( xi  x ) 2
i 1
n
.
- сумма квадратов отклонений значений
i 1
признака хi от среднего арифметического x . Для получения среднего квадрата отклонений эта сумма поделена на объем выборки п.
29
Однако такая оценка не является несмещенной. Можно показать, что
сумма квадратов отклонений значений признака для выборочного среднего
арифметического меньше, чем сумма квадратов отклонений от любой другой
величины, в том числе от истинного среднего (математического ожидания).
Поэтому результат, получаемый по приведенной выше формуле, будет содержать систематическую ошибку, и оценочное значение дисперсии окажется заниженным. Для ликвидации смещения достаточно ввести поправочный
коэффициент
n
. В результате получается следующее соотношение для
n 1
оценочной дисперсии:
n
S2 
 ( xi  x ) 2
i 1
n 1
.
При больших значениях n, естественно, обе оценки - смещенная и несмещенная – будут различаться очень мало и введение поправочного множителя теряет смысл. Как правило, уточнение формулы для оценки дисперсии
следует производить при n<30.
В случае сгруппированных данных последнюю формулу для упрощения вычислений можно привести к следующему виду:
k
S2 
 ni ( xi  x ) 2
i 1
n 1
,
где k - число интервалов группировки;
ni - частота интервала c номером i;
xi - срединное значение интервала c номером i.
В качестве примера проведем вычисление дисперсии для сгруппированных данных разбираемого нами примера (см. табл. 4.):
S2=[4 (13,375-14,5331)2+8 (14,045-14,5331)2+10 (14,715-14,5331)2+
5 (15,385-14,5331)2+2 (16,055-14,5331)2]/28=0,5473 (м2).
Дисперсия случайной величины имеет размерность квадрата размерности случайной величины, что затрудняет ее интерпретацию и делает не
30
очень наглядной. Для более наглядного описания рассеяния удобнее пользоваться характеристикой, размерность которой совпадает с размерностью исследуемого признака. С этой целью вводится понятие стандартного отклонения (или среднего квадратического отклонения).
Стандартным отклонением
называется положительный корень
квадратный из дисперсии:
S  S2 .
В разбираемом нами примере стандартное отклонение равно
S  0,547  0,7398
Стандартное отклонение
(м).
имеет те же единицы измерения, что и ре-
зультаты измерения исследуемого признака и, таким образом, оно характеризует степень отклонения признака от среднего арифметического. Иными словами, оно показывает, как расположена основная часть вариант относительно
среднего арифметического.
Стандартное отклонение и дисперсия являются наиболее широко
применяемыми показателями вариации. Связано это с тем, что они входят в
значительную часть теорем теории вероятностей, служащей фундаментом
математической статистики. Помимо этого, дисперсия может быть разложена
на составные элементы, позволяющие оценить влияние различных факторов
на вариацию исследуемого признака.
Помимо абсолютных показателей вариации, которыми являются дисперсия и стандартное отклонение, в статистике вводятся относительные.
Наиболее часто применяется коэффициент вариации. Коэффициент вариации равен отношению стандартного отклонения к среднему арифметическому, выраженному в процентах:
S
V  100% .
x
Из определения ясно, что по своему смыслу коэффициент вариации
представляет собой относительную меру рассеяния признака.
Для рассматриваемого примера:
31
V
0,7398
 100%  0,05  100%  5% .
14,5331
Коэффициент вариации широко используется при проведении статистических исследований. Будучи величиной относительной, он позволяет
сравнивать колеблемости как признаков, имеющих различные единицы измерения, так одного и того же признака в нескольких разных совокупностях с
различными значениями среднего арифметического.
Коэффициент вариации используется для характеристики однородности полученных экспериментальных данных. В практике физической культуры и спорта разброс результатов измерений в зависимости от значения коэффициента вариации принято считать небольшим (V<10%), средним (11-20%) и
большим (V> 20%).
Ограничения на использование коэффициента вариации связаны с его
относительным характером – определение содержит нормировку на среднее
арифметическое. В связи с этим при малых абсолютных значениях среднего
арифметического коэффициент вариации может потерять свою информативность. Чем ближе значение среднего арифметического к нулю, тем менее информативным становится этот показатель. В предельном случае среднее
арифметическое обращается в ноль (например, температура) и коэффициент
вариации обращается в бесконечность независимо от разброса признака. По
аналогии со случаем погрешности можно сформулировать следующее правило. Если значение среднего арифметического в выборке больше единицы, то
использование коэффициента вариации правомерно, в противном случае для
описания разброса опытных данных следует использовать дисперсию и стандартное отклонение.
В заключение этой части рассмотрим оценку варьирования значений
оценочных характеристик. Как уже было отмечено, значения характеристик
распределения, рассчитанные по данным эксперимента, не совпадают с их истинными значениями для генеральной совокупности. Точно установить последние не представляется возможным, поскольку, как правило, невозможно
32
обследовать всю генеральную совокупность. Если использовать для оценки
параметров распределения результаты разных выборок из одной и той же генеральной совокупности, то окажется, что эти оценки для разных выборок отличаются друг от друга. Оценочные значения флуктуируют около своих истинных значений.
Отклонения оценок генеральных параметров от истинных значений
этих параметров называются статистическими ошибками. Причиной их возникновения является ограниченный объем выборки - не все объекты генеральной совокупности входят в нее. Для оценки величины статистических
ошибок используется стандартное отклонение выборочных характеристик.
В качестве примера рассмотрим наиболее важную характеристику положения - среднее арифметическое. Можно показать, что стандартное отклонение среднего арифметического определяется соотношением:
x 

n
,
где σ - стандартное отклонение для генеральной совокупности.
Поскольку истинное значение стандартного отклонения не известно,
то для оценки стандартного отклонения выборочного среднего используется
величина, называемая стандартной ошибкой среднего арифметического и
равная:
Sx 
S
.
n
Величина S x характеризует ошибку, которая в среднем допускается
при замене генерального среднего его выборочной оценкой. Согласно формуле, увеличение объема выборки при проведении исследования приводит к
уменьшению стандартной ошибки пропорционально корню квадратному из
объема выборки.
33
Для рассматриваемого примера значение стандартной ошибки среднего арифметического равно S x 
0,7398
 0,137 . В нашем случае она оказалась
29
в 5,4 раза меньше значения стандартного отклонения.
1.3.3 Характеристики формы
При проведении статистических исследований встречаются распределения, имеющие самые разнообразные формы. Для характеристики отклонения формы распределения от симметричной используется коэффициент
асимметрии или просто асимметрия, обозначаемая As и вычисляемая по
формуле:
n
As 
 ( xi  x ) 3
i 1
nS 3
,
где xi - значение i-й варианты;
x - среднее арифметическое;
S - среднее квадратическое отклонение;
n - объем выборки.
Для симметричной формы распределения коэффициент асимметрии
равен нулю. На рис. 8 и 9. показано два асимметричных распределения. Одно
из них (рис. 8) имеет положительную асимметрию (As>0), а другое (рис. 9) –
отрицательную (As<0). Иногда положительную асимметрию называют левосторонней, а отрицательную – правосторонней. Смысл этого заключается в
том, что максимум распределения (и большая часть вариант) смещен влево
(или соответственно вправо от значения среднего арифметического.
34
f
Mo <Me <x ср
x
Mo Me x ср
Рис. 8. Положительная (левосторонняя) асимметрия
f
Mo >Me >x ср
x ср Me Mo
x
Рис. 9. Отрицательная (правосторонняя) асимметрия
Для сгруппированных данных формула для вычисления коэффициента асимметрии имеет вид:
k
As 
 ni ( xi  x ) 3
i 1
nS 3
.
Здесь ni –частота интервала с номером i;
xi - его срединное значение;
k - число интервалов группировки.
В рассматриваемом примере о толкании ядра:
35
As=[4 (13,375-14,5331)3+8 (14,045-14,5331)3+10 (14,715-14,5331)3+
5 (15,385-14,5331)53+2 (16,055-14,5331)3]/[29* 0,73983]= 0,260663.
Коэффициент асимметрии положителен, следовательно, можно предположить, что распределение признака в генеральной совокупности имеет
левостороннюю асимметрию.
Для быстрой предварительной оценки асимметрии распределения
можно воспользоваться ее простейшим показателем - мерой скошенности.
Мера скошенности (Sk) определяется как отклонение среднего арифметического ( x ) от моды (Мо):
Sk 
x  Mo
.
S
Нормировка на среднее квадратическое отклонение S производится
для обезразмеривания, что необходимо для сравнительного анализа степени
асимметрии различных распределений. Применение этого показателя основано на том, что равенство среднего арифметического, моды и медианы имеет место только для симметричных распределений. Поэтому наиболее просто
связать
показатель
асимметрии
с
соотношением
характеристик
положения: чем больше разница между средним арифметическим и модой,
тем больше асимметрия распределения. В нашем примере:
Sk 
14,5331  14,57
 0,052 .
0,7398
Как видим, и мера скошенности имеет значение, близкое к нулю. В
рассматриваемом случае As>0, а Sk0. Никакого противоречия в этом нет,
поскольку, с одной стороны, оба показателя являются выборочными, и, следовательно, вычислены с погрешностью, а, с другой стороны, оба они близки
к нулю. Это соответствует случаю или симметричного распределения, или
распределения, мало отличающегося от симметричного.
Следующий показатель - эксцесс - служит для характеристики так
называемой крутости, т.е. островершинности или плосковершинности рас-
36
пределения. Эксцессом называется случайная величина, определяемая соотношением:
n
Ex 
 ( xi  x ) 4
i 1
nS 4
3 .
Число три вычитается из частного потому, что для весьма важного и
широко распространенного в природе закона нормального распределения
значение этого частного равно трем. Таким образом, для нормального распределения эксцесс равен нулю. Кривые, более островершинные по сравнению с
кривой нормального распределения, обладают положительным эксцессом, а
кривые более плосковершинные – отрицательным эксцессом. Таким образом,
нормальное распределение служит эталоном, а эксцесс показывает крутизну
эмпирического распределения относительно крутизны кривой нормального
распределения (см. рис. 10).
островершинное
f
нормальное
плосковершинное
x
Рис. 10. Островершинное и плосковершинное распределения
Для сгруппированных данных формула для вычисления эксцесса имеет следующий вид:
37
k
Ex 
 ni ( xi  x ) 4
i 1
nS 4
 3.
В нашем примере:
Ex=[4 (13,375-14,5331)4+8 (14,045-14,5331)4+10 (14,715-14,5331)4+
5 (15,385-14,5331)4+2 (16,055-14,5331)4]/[29∙0,73984] - 3= -0,66.
Отрицательное значение эксцесса свидетельствует о наличии тенденции к плосковершинности у рассматриваемого эмпирического распределения.
38
2 Исследование корреляции и регрессия
Задание. Даны результаты экспериментального исследования двух признаков. Исследовать, существует ли взаимосвязь между этими признаками.
Сравнить вариацию двух обследуемых признаков. Если между двумя наборами данных существует связь, то построить линию регрессии. Рассчитать
коэффициент ранговой корреляции Спирмена.
2.1 Общие сведения
2.1.1 Виды взаимосвязи
Исследования в области физической культуры и спорта носят, как правило, комплексный характер, при котором изучается не одна характеристика
обследуемого объекта, а целая совокупность показателей. В ряде случаев
между исследуемыми показателями обнаруживается взаимосвязь. Существует два вида взаимосвязи – функциональная и статистическая.
Функциональной называется взаимосвязь, при которой каждому значению одного показателя соответствует строго определенное значение другого.
Например, средняя скорость V движения автомобиля на расстояние S связана
со временем движения t: V 
S
.
t
Статистической взаимосвязью называется взаимосвязь, при которой
одному значению первого показателя может соответствовать несколько значений второго показателя. В качестве примера можно привести зависимость
веса человека от его роста. Одному значению роста может соответствовать
несколько значений веса.
Среди статистических зависимостей наибольший интерес представляют корреляционные. Корреляционная зависимость заключается в том, что
средняя величина одного показателя (Y) изменяется в зависимости от значения другого (X).
39
Для изучения взаимосвязей используются корреляционный и регрессионный анализ. Корреляционный анализ состоит в определении степени связи
между двумя случайными величинами (Y и X). Основной задачей корреляционного анализа является определение формы, направленности и тесноты взаимосвязи. При исследования корреляции используются графический и аналитический подходы.
Графический анализ начинается с построения корреляционного поля.
Корреляционное поле (или диаграмма рассеяния) является графической зависимостью между результатами измерений двух признаков. Для ее построения
исходные данные наносят на график, отображая каждую пару значений (xi,yi)
в виде точки с координатами xi и yi в прямоугольной системе координат.
2.1.2 Форма зависимости
Визуальный анализ корреляционного поля позволяет сделать предположение о форме взаимосвязи двух исследуемых показателей. По форме взаимосвязи корреляционные зависимости принято разделять на линейные (см.
рис. 11) и нелинейные (см. рис. 12).
Рис 11. Линейная статистическая связь
Рис 12. Нелинейная статистическая связь
При линейной зависимости огибающая корреляционного поля близка к
эллипсу. Линейная взаимосвязь двух случайных величин состоит в том, что
при увеличении одной случайной величины другая случайная величина имеет тенденцию возрастать (или убывать) по линейному закону.
40
Выявление формы статистической зависимости необходимо для выбора метода оценки тесноты (силы) взаимосвязи.
2.1.3 Направленность взаимосвязи
Направленность является положительной, если увеличение значения
одного признака приводит к увеличению значения второго (см. рис. 13).
Рис 13. Положительная направленность
Рис 14. Отрицательная направленность
Направленность является отрицательной, если увеличение значения
одного признака приводит к уменьшению значения второго (см. рис. 14).
Зависимости, имеющие положительные или отрицательные направленности, называются монотонными.
Таким образом, любая монотонная зависимость характеризуется
направленностью, которая может быть положительной, или отрицательной.
Зависимость может и не иметь направленности.
2.1.4 Теснота (сила) взаимосвязи
Теснота взаимосвязи может быть оценена качественно по ширине корреляционного поля – чем меньше его ширина, тем больше теснота и сильнее
зависимость.
Количественная оценка тесноты взаимосвязи двух случайных величин
осуществляется с помощью коэффициента корреляции. Вид коэффициента
корреляции и, следовательно, алгоритм его вычисления зависят от шкалы, в
41
которой производятся измерения изучаемых показателей и от формы зависимости.
Принято различать следующие типы шкал: номинальная, порядковая
(ординальная), интервальная, относительная (шкала отношения). В соответствии с этими типами шкал существует четыре типа переменных: номинальные, порядковые (ординальные), интервальные и относительные.
Номинальная шкала (или шкала наименований) используются только
для качественной классификации. Свойства, характеризуемые с помощью
этой шкалы, могут быть измерены только в терминах принадлежности к некоторым, существенно различным классам. Упорядочить эти классы невозможно. Примерами номинальных переменных являются пол, национальность, принадлежность к какому-либо виду спорта. Иногда номинальные
переменные называют категориальными. Использование чисел в шкале
наименований играет роль ярлыков, позволяющих различать изучаемые объекты. Например, номера игроков в команде.
Шкала порядка позволяет упорядочить (ранжировать) исследуемые
объекты, указав какие из них в большей или меньшей степени обладают качеством, выраженным данной переменной. В тоже время она не позволяет
определить “на сколько больше” или “на сколько меньше”. Примером порядковой переменной является место, занятое спортсменом на соревновании.
Номер места позволяет сказать, какой спортсмен сильнее, а какой слабее, но
не показывает “на сколько сильнее” или “на сколько слабее”.
Шкала интервалов позволяет не только упорядочивать исследуемые
объекты, но и численно выразить и сравнить различия между ними. Особенностью интервальной шкалы является то, что точка отсчета (т.е. нулевая точка) может быть выбрана произвольно. Примерами интервальных переменных
является температура, измеренная в градусах Фаренгейта или Цельсия, суставной угол. Шкала интервалов позволяет определить, на сколько одно измеренное значение больше (меньше) другого, но не дает возможности установить во сколько раз больше (или меньше).
42
Шкала отношений очень похожа на шкалу интервалов, но отличается
от нее тем, что положение начала отсчета (точки абсолютного нуля) строго
определено. Фиксирование точки отсчета дает возможность определять, во
сколько раз одно измеренное значение больше (или меньше) другого. Примерами использования шкал отношений являются измерения времени прохождения дистанции или пространства (длины дистанции, прыжка).
Значение коэффициента корреляции может изменяться в диапазоне от 1 до +1:
1  r  1.
Абсолютное значение коэффициента корреляции показывает силу взаимосвязи. Чем меньше его абсолютное значение, тем слабее связь. Если он
равен нулю, то связь вообще отсутствует. Чем больше значение модуля коэффициента корреляции, тем сильнее связь и тем меньше разброс в значениях yi при каждом фиксированном значении xi. Знак коэффициента корреляции определяет направленность взаимосвязи: минус – отрицательная, плюс –
положительная (см. рис. 15).
r=1
r=-1
r=0,9
r=0,5
r=-0,5
r=-0,9
43
r=0,1
r=-0,1
r=0
r=0
r=0
Рис.15. Корреляционные поля при различных значениях коэффициента корреляции
При проведении исследований в области спорта принята следующая
классификация взаимосвязей по значению коэффициента корреляции (см.
таблицу 5)
Таблица 5
Интерпретация значений коэффициент корреляции
1
r 1
функциональная зависимость
2
0,7  r  0,99
сильная статистическая взаимосвязь
3
0,5  r  0,69
средняя статистическая взаимосвязь
4
0,2  r  0,49
слабая статистическая взаимосвязь
5
0,09  r  0,19
очень слабая статистическая взаимосвязь
6
r 0
корреляции нет
В ряде случаев тесноту взаимосвязи определяют на основании коэффициента детерминации. Коэффициент детерминации равен квадрату коэффициента корреляции, выраженному в процентах:
D  r 2 100%
2.1.5 Коэффициент корреляции Бравэ-Пирсона
Коэффициент корреляции Браве-Пирсона применим в том случае, если
измерение значений исследуемых признаков производятся в шкале отношений или интервалов и форма зависимости является линейной. Коэффициент
корреляции характеризует только линейную взаимосвязь (степень ее тесно44
ты). Линейная взаимосвязь двух случайных величин состоит в том, что при
увеличении одной случайной величины другая случайная величина имеет
тенденцию возрастать (убывать) по линейному закону.
Для вычисления коэффициента корреляции Браве-Пирсона используется формула:
n
r
 ( xi  x )( yi  y )
i 1
 (x  x)
i

i 1
n
2
   ( y  y) 
i
 

i 1
n
,
2
либо
n
r
 ( xi  x )( yi  y )
i 1
(n  1) S x S y
.
где x и y – средние, а S x и S y стандартные отклонения, рассчитанные по
двум выборкам.
Рассчитанный коэффициент корреляции является выборочным, так как
он определен для ограниченной совокупности, являющейся выборкой из
генеральной совокупности. Поэтому делать вывод о существовании корреляции в генеральной совокупности только исходя из его значения, особенно если его модуль не очень близок к 1, преждевременно. Необходимо проверить
статистическую значимость обнаруженной корреляции. Определение статистической значимости коэффициента корреляции осуществляется с помощью
критерия Стьюдента. Основные этапы проверки гипотезы о достоверности
коэффициента корреляции заключаются в следующем.
1. Задаются уровнем значимости α. В области физкультуры и спорта принято
использовать уровень значимости α=0,05.
2. Формулируют гипотезы, которые в дальнейшем необходимо принять или
отклонить. Н0: r=0 (в генеральной совокупности корреляции нет, а отличие от
нуля выборочного коэффициента корреляции связано со случайными факторами). Н1: r≠0 (в генеральной совокупности корреляция есть).
3. Рассчитывают эмпирическое значение t критерия Стьюдента
45
tэм п 
r  n2
1  r2
4. По специальной таблице определяют критическое значение критерия tкр
для числа степеней свободы =n-2 и уровня статистической значимости α
(см. таблицу 1 Приложения).
5. Сравнивают эмпирическое значение критерия с критическим. Если tэмп 
tкр, то полученный коэффициент корреляции достоверен, и между исследуемыми показателями существует статистическая связь с вероятностью q=1-α.
Если же tэмп < tкр, то полученный коэффициент корреляции недостоверен, и
между исследуемыми показателями нет взаимосвязи.
Существует и более простой способ проверки статистической значимости коэффициента корреляции. Он основан на использовании специальных
таблиц критических значений коэффициента корреляции (см. таблицу 2 Приложения). Вычисленный коэффициент корреляции сравнивают с критическим значением rкр для объема выборки n и уровня значимости α. Если
r  rкр , то принимается гипотеза H0 и делается вывод об отсутствии значимой
корреляции. Если же оказывается, что r  rкр , то гипотеза H0 отклоняется и
принимается гипотеза H1, согласно которой значение коэффициента корреляции в генеральной совокупности статистически значимо отличается от нуля на уровне значимости α.
2.1.6 Коэффициент ранговой корреляции rs Спирмена
В случаях, если измерения исследуемых признаков проводятся в шкале
порядка, или же форма взаимосвязи отличается от линейной, исследование
взаимосвязи между двумя случайными величинами осуществляется с помощь ранговых коэффициентов корреляции. Рассмотрим коэффициент ранговой корреляции Спирмена. При его вычислении необходимо ранжировать
(упорядочить) варианты выборки. Ранжированием называется группировка
46
экспериментальных данных в определенном порядке, либо по возрастанию,
либо по убыванию.
Проведение операции ранжирования осуществляется по следующему
алгоритму:
1. Меньшему значению начисляется меньший ранг. Наибольшему
значению начисляется ранг, соответствующий количеству ранжируемых
значений. Наименьшему значению начисляется ранг равный 1. Например,
если n=7, то наибольшее значение получит ранг под номером 7, за исключением случаев, которые предусмотрены вторым правилом.
2. Если несколько значений равны, то им начисляется ранг, представляющий собой среднее значение из тех рангов, которые они получили
бы, если бы не были равны. В качестве примера рассмотрим упорядоченную по возрастанию выборку, состоящую из 7 элементов: 22, 23, 25, 25, 25,
28, 30. Значения 22 и 23 встречаются по одному разу, поэтому их ранги соответственно равны R22=1, а R23=2. Значение 25 встречается 3 раза. Если бы
эти значения не повторялись, то их ранги были бы равными 3, 4, 5. Поэтому их ранг R25 равен среднему арифметическому 3, 4 и 5: R25 
3 4  5
 4.
3
Значения 28 и 30 не повторяются, поэтому их ранги соответственно равны
R28=6, а R30=7. Окончательно имеем следующее соответствие:
элемент выборки 22 23 25 25 25 28 30
его ранг 1 2 4 4 4 6 7
3. Общая сумма рангов должна совпадать с расчетной, которая определяется по формуле:
 Ri 
n( n  1)
2 ,
где n - общее количество ранжируемых значений.
Несовпадение реальной и расчетной сумм рангов будет свидетельствовать об ошибке, допущенной при начислении рангов или их суммировании. В
этом случае необходимо найти и исправить ошибку.
47
Коэффициент ранговой корреляции Спирмена является методом, позволяющим определить силу и направленность взаимосвязи между двумя признаками или двумя иерархиями признаков. Применение коэффициента ранговой корреляции имеет ряд ограничений:
а) Предполагаемая корреляционная зависимость должна носить монотонный характер.
б) Объем каждой из выборок должен быть больше или равен 5. Для
определения верхней границы выборки пользуются таблицами критических
значений (Таблица 3 Приложения). Максимальное значение n в таблице - 40.
в) При проведении анализа вероятна возможность возникновения
большого количества одинаковых рангов. В этом случае, необходимо вносить поправку. Наиболее благоприятным является случай когда, обе изучаемые выборки представляют собой две последовательности несовпадающих
значений.
Для проведения корреляционного анализа исследователь должен располагать двумя выборками, которые могут быть ранжированы, например:
- два признака, измеренные в одной и той же группе испытуемых;
- две индивидуальные иерархии признаков, выявленные у двух испытуемых
по одному и тому же набору признаков;
- две групповые иерархии признаков;
- индивидуальная и групповая иерархии признаков.
Расчет начинаем с ранжирования изучаемых показателей отдельно по
каждому из признаков.
Проведем анализ случая с двумя признаками, измеренными в одной и
той же группе испытуемых. Сначала ранжируют индивидуальные значения
по первому признаку, полученные разными испытуемыми, а затем индивидуальные значения по второму признаку. Если меньшим рангам одного показателя соответствуют меньшие ранги другого показателя, а большим рангам
одного показателя соответствуют большие ранги другого показателя, то два
признака связаны положительно. Если же большим рангам одного показате48
ля соответствуют меньшие ранги другого показателя, то два признака связаны отрицательно. Для нахождения rs, определяем разности между рангами
(d) по каждому испытуемому. Чем меньше разности между рангами, тем
ближе коэффициент ранговой корреляции rs будет к «+1». Если взаимосвязь
отсутствует, то между ними не будет никакого соответствия, следовательно
rs окажется близким к нулю. Чем больше разности между рангами испытуемых по двум переменным, тем ближе к «-1» будет значение коэффициента rs.
Таким образом, коэффициент ранговой корреляции Спирмена является мерой любой монотонной зависимости между двумя исследуемыми признаками.
Рассмотрим случай с двумя индивидуальными иерархиями признаков,
выявленными у двух испытуемых по одному и тому же набору признаков. В
данной ситуации ранжируют индивидуальные значения, полученные каждым
из двух испытуемым по определенной совокупности признаков. Признаку с
самым низким значением необходимо присвоить первый ранг; признаку с
более высоким значением - второй ранг и т.д. Следует обратить особое внимание на то, чтобы все признаки были измерены в одних и тех же единицах.
Например, невозможно ранжировать показатели, если они выражены в различных по «цене» баллах, поскольку невозможно определить, какой из факторов будет занимать первое место по выраженности, пока все значения не
будут приведены к единой шкале. Если признаки, имеющие низкие ранги у
одного из испытуемых так же имеют низкие ранги у другого, и наоборот,
то индивидуальные иерархии связаны положительно.
В случае с двумя групповыми иерархиями признаков, ранжируют
средне-групповые значения, полученные в двух группах испытуемых по
одинаковому для исследуемых групп, набору признаков. Далее следует придерживаемся алгоритма, приведенного в предыдущих случаях.
Проведем анализ случая с индивидуальной и групповой иерархией признаков. Начинают с того, что ранжируют отдельно индивидуальные значения
испытуемого и средне-групповые значения по тому же набору признаков, ко49
торые получены, при исключении того испытуемого, который не участвует в
средне-групповой иерархии, так как с ней будет сопоставляться его индивидуальная иерархия. Ранговая корреляция позволяет оценить степень согласованности индивидуальной и групповой иерархии признаков.
Рассмотрим, как определяется значимость коэффициента корреляции в
перечисленных выше случаях. В случае с двумя признаками она будет определяться объемом выборки. В случае с двумя индивидуальными иерархиями
признаков значимость зависит от количества признаков, входящих в иерархию. В двух последних случаях значимость обуславливается числом изучаемых признаков, а не численностью групп. Таким образом, значимость rs во
всех случаях определяется числом ранжированных значений n.
При проверке статистической значимости rs пользуются таблицами
критических значений коэффициента ранговой корреляции, составленных
для различных количеств ранжируемых значений и разных уровней значимости. Если абсолютная величина rs, достигает критического значения или превышает его, то корреляция достоверна.
При рассмотрении первого варианта (случай с двумя признаками, измеренными в одной и той же группе испытуемых) возможны следующие гипотезы.
Н0: Корреляция между переменными x и y не отличается от нуля.
Н1: Корреляция между переменными x и y достоверно отличается от нуля.
Если мы работаем с любым из трех оставшихся случаев, то необходимо
выдвинуть другую пару гипотез:
Н0: Корреляция между иерархиями x и y не отличается от нуля.
Н1: Корреляция между иерархиями x и y достоверно отличается от нуля.
Последовательность действий при вычислении коэффициента ранговой
корреляции Спирмена rs такова.
- Определить, какие два признака или две иерархии признаков будут
участвовать в сопоставлении как переменные x и y.
50
- Ранжировать значения переменной x, начисляя ранг 1 наименьшему
значению, в соответствии с правилами ранжирования. Поместить ранги в
первую колонку таблицы по порядку номеров испытуемых или признаков.
- Ранжировать значения переменной y. Поместить ранги во вторую
колонку таблицы по порядку номеров испытуемых или признаков.
- Вычислить разности d между рангами x и y по каждой строке таблицы. Результаты поместить в следующую колонку таблицы.
- Вычислить квадраты разностей (d2). Полученные значения поместить в четвертую колонку таблицы.
- Вычислить сумму квадратов разностей ∑ d2.
- При возникновении одинаковых рангов вычислить поправки:
1
Tx  (t x3  t x )
2
1
T y  (t 3y  t y )
2
где tx - объем каждой группы одинаковых рангов в выборке x;
ty - объем каждой группы одинаковых рангов в выборке y.
- Вычислить коэффициент ранговой корреляции в зависимости от
наличия или отсутствия одинаковых рангов. При отсутствии одинаковых
рангов коэффициент ранговой корреляции rs рассчитать по формуле:
d i2

rs  1  6
2
n( n  1)
При наличии одинаковых рангов коэффициент ранговой корреляции
rs рассчитать по формуле:
rs  1  6
 d i2
n( n 2  1)  (Tx  T y )
где ∑d2 - сумма квадратов разностей между рангами;
Tx и Ty - поправки на одинаковые ранги;
n - количество испытуемых или признаков, участвовавших в
ранжировании.
51
- Определить по таблице 3 Приложения критические значения rs, для
данного количества испытуемых n. Достоверное отличие от нуля коэффициента корреляции будет наблюдаться при условии, если rs не меньше критического значения.
2.1.7 Регрессия
Регрессией называется зависимость среднего значения одной случайной величины Y от значений других исследуемых величин Xi.
Регрессионный анализ устанавливает форму зависимости между случайной величиной Y и значениями одной или нескольких переменных, причем значения эти величин считаются точно заданными. Такая зависимость
определяется уравнением регрессии.
Основной этап регрессионного анализа заключается в выборе подходящей регрессионной модели, т.е. математического выражения, связывающего значения зависимой случайной величины Y и значение независимой величины X.
В простейшем случае предполагается линейная зависимость, выраженная уравнением
Y  a  b X .
b называют коэффициентом регрессии, а a – свободным членом уравнения
регрессии. Параметр а является ординатой точки пересечения прямой с осью
ординат, а параметр b – тангенсом угла наклона прямой относительно оси
абсцисс.
Регрессия, выраженная таким уравнением, называется простой линейной регрессией. Она описывает зависимость только от одной контролируемой переменной.
Значения а и b вычисляются с помощью метода наименьших квадратов
по формулам:
52
n
b
n
n
n  xi yi  (  xi )(  yi )
i 1
i 1
n
i 1
n
n  x i  (  xi )
2
i 1
;
2
i 1
a  y  bx .
Мерой точности предсказания значений случайной величины Y по заданным значениям величины X является стандартное отклонение значений yi
от регрессионной прямой, которое по-иному называется стандартной ошибкой предсказания. Стандартная ошибка предсказания вычисляется с помощью следующего соотношения:
S yx 
n
n
n
i 1
i 1
i 1
 yi2  a  yi  b xi yi
.
n2
Если провести две прямые, отстоящие от регрессионной прямой на расстояние ±Syx, то они ограничат область около прямой регрессии, в которую с вероятностью 0,7 попадают экспериментальные значения yi. Это означает, что
приблизительно 70% всех значений yi находятся в этой области.
Поскольку вычисляемый по данным исследования коэффициент регрессии является выборочным, то следует проверить его статистическую значимость. Сформулируем статистические гипотезы. Н0 – для рассматриваемой
генеральной совокупности нет статистически значимого коэффициента регрессии. Н1 – полученный коэффициент регрессии является статистически
значимым. Нулевая гипотеза Н0 проверяется с помощью t-критерия Стьюдента, эмпирическое значение которого вычисляется с помощью соотношения
n
t эм п 
b  xi2  nx
i 1
S yx
.
Вычисленное эмпирическое значение критерия сравнивается с критическим (см. таблицу 1 Приложения) для числа степеней свободы ν=n-2 и
уровне значимости α. Если tэмп  tкр, то гипотеза Н0 отклоняется и делается
53
вывод о значимости линейной регрессии на уровне значимости α. Если же
оказывается, что tэмп < tкр, то принимается гипотеза Н0.
54
2.2 Пример исследования корреляции и регрессии
Пример. В соревнованиях по десятиборью участвовали 20 спортсменов. Результаты, показанные ими в метании диска и толкании ядра, приведены в таблице 6.
Таблица 6
Результаты метания диска и толкания ядра
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
xi,
метание
диска
(м)
40,9
49,47
45,44
45,64
43,76
36,08
33,92
40,22
39,47
38,38
38,68
47,14
36,47
39,03
46,3
33,47
44,97
38,83
42,68
30,79
yi,
толкание
ядра
(м)
13,84
16,51
15,83
16,47
13,40
13,45
13,88
15,06
14,68
13,97
13,70
14,68
12,85
14,84
15,65
12,27
14,97
13,99
15,03
11,77
Исследовать, существует ли связь между результатами, показанными
спортсменами в метании диска и результатами в толкании ядра. Сравнить вариацию двух обследуемых признаков. Если между двумя наборами данных
существует связь, то построить линию регрессии.
Построим корреляционное поле, откладывая в прямоугольной системе
координат по оси OX результаты, показанные в метании диска, а по оси OY –
результаты, показанные в толкании ядра (см. рис. 16). Проведем огибающую
для нанесенных точек.
55
толкание
ядра (м)
17,00
16,00
15,00
14,00
13,00
12,00
11,00
25
35
45
55
метание диска (м)
Рис. 16. Корреляционное поле
Как видно из рассмотрения рисунка, огибающая имеет форму, близкую к эллипсу. Это позволяет предположить, что два набора данных связаны между
собой линейной связью. Из рис. 6 видно, что увеличение значения результата, показанного в метании диска, приводит к увеличению значения результата, показанного в толкании ядра. Следовательно, предполагаемая связь является положительной. Поскольку связь линейная, а измерения значений
исследуемых признаков производятся в шкале отношений, то для оценки ее
силы можно воспользоваться коэффициентом корреляции Браве-Пирсона
n
r
 ( xi  x )( yi  y )
i 1
 ( x  x )2    ( y  y )2 
i
i

 

i 1
i 1
n
n
.
Для определения коэффициента корреляции Браве-Пирсона воспользуемся
вспомогательной таблицей. Построим таблицу, содержащую 8 столбцов и 23
строки (см. таблицу 6). В первом столбце разместим номера результатов (или
спортсменов). Во втором и третьем столбцах – результаты, показанные
спортсменами в метании диска (xi) и толкании ядра (yi).
56
Таблица 6
Определение коэффициента корреляции
1
2
3
4
5
6
7
8
i
xi
yi
xi  x
yi  y
( xi  x )( yi  y )
( xi  x ) 2
( yi  y ) 2
1
40,9
13,84
0,318
-0,502
-0,159636
0,101124
0,252004
2
49,47
16,51
8,888
2,168
19,269184
78,996544
4,700224
3
45,44
15,83
4,858
1,488
7,228704
23,600164
2,214144
4
45,64
16,47
5,058
2,128
10,763424
25,583364
4,528384
5
43,76
13,40
3,178
-0,942
-2,993676
10,099684
0,887364
6
36,08
13,45
-4,502
-0,892
4,015784
20,268004
0,795664
7
33,92
13,88
-6,662
-0,462
3,077844
44,382244
0,213444
8
40,22
15,06
-0,362
0,718
-0,259916
0,131044
0,515524
9
39,47
14,68
-1,112
0,338
-0,375856
1,236544
0,114244
10
38,38
13,97
-2,202
-0,372
0,819144
4,848804
0,138384
11
38,68
13,70
-1,902
-0,642
1,221084
3,617604
0,412164
12
47,14
14,68
6,558
0,338
2,216604
43,007364
0,114244
13
36,47
12,85
-4,112
-1,492
6,135104
16,908544
2,226064
14
39,03
14,84
-1,552
0,498
-0,772896
2,408704
0,248004
15
46,3
15,65
5,718
1,308
7,479144
32,695524
1,710864
16
33,47
12,27
-7,112
-2,072
14,736064
50,580544
4,293184
17
44,97
14,97
4,388
0,628
2,755664
19,254544
0,394384
18
38,83
13,99
-1,752
-0,352
0,616704
3,069504
0,123904
19
42,68
15,03
2,098
0,688
1,443424
4,401604
0,473344
20
30,79
11,77
-9,792
-2,572
25,185024
95,883264
6,615184
Сумма 811,64
286,84
0
0
102,40092
481,0747
30,97072
Вычислим суммы значений xi и yi и занесем их в соответствующие
клетки строки «Сумма» (последняя строка таблицы) столбцов 2 и 3:
20
 xi  x1  x2  x3    x19  x20  811,64 ;
i 1
20
 yi  y1  y2  y3    y19  y20  286,84 .
i 1
Рассчитаем средние значения признаков xi и yi:
x
1 20
811,64
 40,58 ;
 xi 
20 i 1
20
57
y
1 20
286,64
 14,34 .
 yi 
20 i 1
20
В клетках столбца 4 вычислим разность значений результатов метания
диска xi и их среднего значения x : xi  x , а в клетках столбца 5 – аналогичную разность для толкания ядра yi  y . Суммы элементов этих столбцов
должны быть равны нулю, поскольку сумма отклонений значений признака
от среднего значения равна нулю.
В столбце 6 подсчитаем произведения отклонений двух исследуемых
признаков от их средних значений ( xi  x )( yi  y ). В столбце 7 вычислим
квадраты отклонений результатов метания диска от среднего их значения –
( xi  x )2, а в столбце 8 - квадраты отклонений результатов толкания ядра от
их среднего значения – ( yi  y )2. Подсчитаем соответствующие суммы и
занесем результаты в последнюю строку таблицы:
20
 ( xi  x )  ( yi  y )  102,4009 ;
i 1
20
 ( xi  x )2  481,0747 ;
i 1
20
 ( yi  y )2  30,9707 .
i 1
Используя полученные значения вспомогательных сумм, вычислим
значение коэффициента корреляции Браве-Пирсона:
n
r
 ( xi  y )  ( y i  y )
i 1
 n ( x  x )2    n ( y  y )2 
i
i

 

i 1
i 1

102,4009
 0,839 .
481,0747  30,9707
Коэффициент корреляции лежит в интервале 0,7  r  0,99 , поэтому
можно сделать предположение о том, что между результатами, показанными
спортсменами в метании диска, и результатами, показанными ими в толкании
ядра, существует линейная положительная сильная статистическая взаимосвязь.
Коэффициент детерминации в рассматриваемом случае равен
58
D  r 2 100%  0,839  0,839 100%  70,4% .
Таким образом, 70% взаимосвязи между двумя наборами данных объясняется их взаимовлиянием. Остальная часть вариации обусловлена воздействием других неучтенных причин.
Для обоснования статистической значимости полученного коэффициента корреляции воспользуемся двусторонним критерием. Сформулируем
статистические гипотезы. Н0 – в генеральной совокупности корреляция отсутствует, а отличие от нуля выборочного коэффициента корреляции связано
со случайностью выборки. Н1 – в генеральной совокупности существует взаимосвязь между двумя исследуемыми признаками. Зададимся уровнем статистической значимости α=0,05. Соответствующее ему критическое значение
коэффициента корреляции для объема выборки n=20 равно rкр=0,468 (см.
таблицу 2 Приложения). Так как значение выборочного коэффициента корреляции превосходит значение критического для заданного уровня значимости, то делаем вывод о статистической значимости коэффициента корреляции на уровне значимости 0,05. Между результатами, показанными
спортсменами в метании диска, и результатами, показанными ими в толкании
ядра, существует значимая положительная взаимосвязь.
Обоснуем статистическую значимость коэффициента корреляции иным
способом. Он используется тогда, когда таблицы критических значений коэффициента корреляции оказались по каким-либо причинам недоступными.
В том случае для проверки статистической значимости применяется tкритерий Стьюдента, таблицы критических значений которого гораздо доступнее. Сами формулировки статистических гипотез Н0 и Н1 остаются без
изменений. Вычислим эмпирическое значение t-критерия t эм п :
t эм п 
r n2
1  r2

0,839  20  2
1  0,839 2
 6,54 .
Сопоставим полученное значение с критическим значением критерия têð для
числа степеней свободы   n  2  20  2  18 и уровня значимости α=0,05.
59
Критическое значение определяется с помощью специальных таблиц (см.
таблицу 1 Приложения). В рассматриваемом случае оно равно têð =2,101. Поскольку эмпирическое значение критерия оказалось больше критического, то
можно сделать вывод о том, что на уровне значимости 0,05 коэффициент
корреляции является статистически значимым.
Для сравнения вариативности исследуемых признаков вычислим коэффициенты вариации. Предварительно, использую значения сумм столбцов 7
и 8 таблицы 3, необходимо вычислить дисперсии и стандартные отклонения:
 x2 
1 n
481,0747
 25,32
 ( xi  xcp ) 2 
n  1 i 1
20  1
 y2 
1 n
30,9707
 1,63
 ( yi  ycp ) 2 
n  1 i 1
20  1
 x   x2  25,53  5,03
 y   y2  1,63  1,28
Подсчитаем коэффициенты вариации двух признаков:
Vx 
x
Vy 
x
100% 
y
y
5,03
100%  12,4% ;
40,58
 100% 
1,28
100%  8,9% .
14,3
Поскольку коэффициент вариации у результатов в метании диска больше,
чем у результатов в толкании ядра, то этот признак варьирует сильнее. Следует отметить, что в рассматриваемом случае различия в варьировании признаков не велики.
Определим значения коэффициентов регрессии. Для этого воспользуемся вспомогательной таблицей 7.
60
Таблица 7
Определение коэффициентов регрессии
1
2
3
4
5
6
i
xi
yi
xi2
xiyi
yi2
1
40,9
13,84
1672,81
566,056
191,5456
2
49,47
16,51
2447,2809
816,7497
272,5801
3
45,44
15,83
2064,7936
719,3152
250,5889
4
45,64
16,47
2083,0096
751,6908
271,2609
5
43,76
13,40
1914,9376
586,384
179,56
6
36,08
13,45
1301,7664
485,276
180,9025
7
33,92
13,88
1150,5664
470,8096
192,6544
8
40,22
15,06
1617,6484
605,7132
226,8036
9
39,47
14,68
1557,8809
579,4196
215,5024
10
38,38
13,97
1473,0244
536,1686
195,1609
11
38,68
13,70
1496,1424
529,916
187,69
12
47,14
14,68
2222,1796
692,0152
215,5024
13
36,47
12,85
1330,0609
468,6395
165,1225
14
39,03
14,84
1523,3409
579,2052
220,2256
15
46,3
15,65
2143,69
724,595
244,9225
16
33,47
12,27
1120,2409
410,6769
150,5529
17
44,97
14,97
2022,3009
673,2009
224,1009
18
38,83
13,99
1507,7689
543,2317
195,7201
19
42,68
15,03
1821,5824
641,4804
225,9009
20
30,79
11,77
948,0241
362,3983
138,5329
Сумма
811,64
286,84
33419,0492
11742,9418
4144,8300
Первые три столбца совпадают с соответствующими столбцами таблицы 6. В
столбце 4 таблицы 7 вычислим квадраты значений результатов метания диска xi2 , в столбце 5 произведения двух исследуемых признаков xi  yi . В последней строке таблицы подсчитаем соответствующие суммы:
20
 xi2  33419 ,0419 ;
i 1
20
 xi  yi  11742 ,9418 .
i 1
Вычислим коэффициент регрессии:
61
n
b
n
n
n  xi yi  (  xi )(  yi )
i 1
i 1
n
i 1
n
n  x i  (  xi )
2
i 1
b
20

2
i 1
20
20
20  xi yi  (  xi )(  yi )
i 1
i 1
20
i 1
20
20  x i  (  xi )
i 1
2
;
2
i 1
20 11742 ,9418  811,64  286,84
 0,213 .
20  33417 ,0492  811,64 2
Рассчитаем значение свободного члена уравнения регрессии
a  y  bx  14,34  0,213  40,48  5,7 .
Таким образом, уравнение регрессии имеет вид:
y  5,7  0,213  x .
Определим стандартную ошибку предсказания. Для этого в столбце 6
таблицы 3 вычислим квадраты значений результатов толкания ядра y i2 и занесем их сумму в последнюю строку:
20
 yi2  4144 ,83 .
i 1
Используя полученные результаты, вычислим стандартную ошибку
предсказания:
S yx 
n
n
n
i 1
i 1
i 1
 yi2  a  yi  b xi yi
n2

4144 ,83  5,7  286,84  0,213  11742 ,9418
 0,7
20  2
.
Стандартная ошибка предсказания является характеристикой точности
предсказания значений случайной величины y по известным значениям случайной величины x. Зона, ограниченная двумя прямыми, отстоящими от регрессионной прямой на расстояние ±0.7, является областью, в которую с вероятностью 0,7 попадают экспериментальные значения yi. Это означает, что
приблизительно 70% всех значений yi находятся в этой области.
Проверим статистическую значимость полученного коэффициента регрессии. Сформулируем статистические гипотезы. Н0 – для рассматриваемой
генеральной совокупности нет статистически значимого коэффициента регрессии. Н1 – полученный коэффициента регрессии является статистически
62
значимым. Нулевая гипотеза проверяется с помощью t-критерия Стьюдента,
эмпирическое значение которого вычисляется с помощью соотношения
n
t эм п 
b  xi2  nx
i 1
S yx
0,213  33419 ,0492  20  40,58 2

 6,7
0,7
Зададимся уровнем статистической значимости α=0,05. Соответствующее ему критическое значение для объема выборки n=20 и числа степеней
ν=n-2=20-2=18 равно tкр=2,101 (см. таблицу 1 Приложения). Сравним эмпирическое значение t-критерия с критическим для выбранного уровня значимости. tэмп > tкр (tэмп > 2,101), поэтому коэффициент регрессии b=0,213 является статистически значимым на уровне статистической значимости α=0,05.
Рассмотрим исследование взаимосвязи признаков с помощью коэффициента ранговой корреляции Спирмена.
Пример. В ходе тренировок группа спортсменов из 20 человек выполняют упражнения «подъем-разгибом» и «отмах в стойку». Результаты, зафиксированные при выполнении этих упражнений, приведены в таблице 8.
Число выполнений упражнения «подъем-разгибом» каждым спортсменом
приведено во второй колонке таблицы 8 обозначено x. Число выполнений
упражнения «отмах в стойку» приведено в третьей колонке таблицы 8 и обозначено y. Исследовать зависимость между результатами выполнения упражнения «отмах в стойку» и результатами выполнения упражнения «подъемразгибом».
63
Таблица 8
Вычисление коэффициента ранговой корреляции Спирмена.
1
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Сумма
2
xi
20
15
18
19
17
10
15
13
11
10
13
18
11
12
16
16
20
13
15
18
3
yi
10
7
9
8
5
3
7
5
3
3
6
8
3
4
6
7
11
2
7
9
4
RXi
19,5
10
16
18
14
1,5
10
7
3,5
1,5
7
16
3,5
5
12,5
12,5
19,5
7
10
16
210
5
RYi
19
12,5
17,5
15,5
7,5
3,5
12,5
7,5
3,5
3,5
9,5
15,5
3,5
6
9,5
12,5
20
1
12,5
17,5
210
6
di
0,5
-2,5
-1,5
2,5
6,5
-2
-2,5
-0,5
0
-2
-2,5
0,5
0
-1
3
0
-0,5
6
-2,5
-1,5
0
7
d i2
0,25
6,25
2,25
6,25
42,25
4
6,25
0,25
0
4
6,25
0,25
0
1
9
0
0,25
36
6,25
2,25
133
Построим корреляционное поле, откладывая по оси X декартовой системы координат результаты выполнения упражнения «подъем-разгибом», а
по оси Y – соответствующие им результаты выполнения упражнения «отмах
в стойку» (см. рис. 17).
64
"отмах в
стойку"
11
9
7
5
3
1
8
10
12
14
16
18
20
22
"подъем разбигом"
Рис. 17. Корреляционное поле
Как видно из рассмотрения рисунка, увеличение значения одного признака,
приводит к увеличению значения второго. Это позволяет предположить, что
два набора данных связаны положительной связью. Поскольку предполагаемая связь является монотонной, то для оценки ее силы можно воспользоваться коэффициентом ранговой корреляции Спирмена.
Вычислим ранги RXi и RYi значений исследуемых данных и занесем полученные результаты в 4 и 5 колонки таблицы 5.
Вычислим разности рангов RXi и RYi. Полученные данные обозначим di
и занесем в шестую колонку. Сумма разностей равна нулю, что может быть
использовано для проверки корректности вычислений.
20
Определим квадраты разностей рангов и суммируем их (  d i2  133 ).
i 1
Результат записываем в нижней строке таблицы.
Поскольку как среди результатов выполнения упражнения «подъемразгибом», так и среди результатов выполнения упражнения «отмах в стойку» есть совпадающие значения, то вычислим поправочные коэффициенты.
Среди результатов выполнения упражнения «подъем-разгибом» есть 7 групп
совпадающих значений – по два раза встречается значения 10, 11, 16, 20 и по
три
раза
встречается
значения
65
13,
15,
18.
Поэтому
1
Tx  (4  (23  2)  3  (33  3))  48 . Среди результатов выполнения упражне2
ния «подъем-разгибом» по два раза встречаются значения 5, 6, 8, 9 и по четыре
раза
встречаются
значения
3,
7,
поэтому
1
Ty  (4  (23  2)  2  (43  4))  72 .
2
Подставим полученные значения в формулу для вычисления коэффициента корреляции Спирмена:
rs  1 
6  133
 0,8985  0,9 .
20  (20 2  1)  48  72
Определим статистическую достоверность полученного коэффициента
корреляции. Для n=20 и уровня значимости α=0,05 критическое значение
rsкр=0,45 (см. таблицу 3 Приложения).
Поскольку полученное значение rs превосходит критическое rsкр, то
можно сделать вывод о статистически значимой положительной корреляции
между результатами выполнения упражнения «отмах в стойку» и результатами выполнения упражнения «подъем-разгибом» (p<0,05).
66
Список литературы
Основная
1. Высшая математика и математическая статистика : учебное пособие для
вузов/ под общ. ред. Г. И. Попова. – М.: Физическая культура, 2007. – 368
с.
2. Конюхов В.Г., Конюхова Г.П. Основы выборочного метода исследования.
– М.: РИО РГУФК, 2005. – 43 с.
3. Основы математической статистики : учебное пособие для институтов физической культуры / под общ. ред. В. С. Иванова. – М.: Физкультура и
спорт, 1990. – 176 с.
4. Селиванова Т.Г. Учебное пособие для студентов РГАФК. - М.: С.Принт,
1999. – 87с.
5. Спортивная метрология: учебник для институтов физической культуры /
под ред. В. М. Зациорского. – М.: Физкультура и спорт, 1982. – 256 с.
Дополнительная
1.
Вентцель Е.С. Теория вероятностей. – М.: Наука, 1969. – 564с.
2.
Гмурман В. Е. Теория вероятностей и математическая статистика. - М.:
Высшая школа, 2006. – 479c.
3.
Ивченко Г.И., Медведев Ю.Я. Математическая статистика. – М.: Высшая
школа, 1994. – 328с.
4.
Колемаев В.А., Калинина В.Н. Теория вероятностей и математическая
статистика. - М.: Инфра-м, 1997. – 302с.
5.
Селиванова Т.Г. Программа дисциплины «Математика» федерального
компонента цикла ЕН ГОС по направлению 521900 «Физическая культура», по специальности 022300 «Физическая культура и спорт». – М.:
РИО РГУФК, 2002.
67
Приложение. Статистические таблицы
Таблица 1
Критические значения t-критерия Стьюдента
Число степеней
свободы ν
Уровень значимости  для двусторонней критической области
0,1
0,05
0,01
0,005
0,001
2
2,9200
4,3027
9,9250
14,0892
31,5998
4
2,1318
2,7765
4,6041
5,5975
8,6101
6
1,9432
2,4469
3,7074
4,3168
5,9587
8
1,8595
2,3060
3,3554
3,8325
5,0414
10
1,8125
2,2281
3,1693
3,5814
4,5868
12
1,7823
2,1788
3,0545
3,4284
4,3178
14
1,7613
2,1448
2,9768
3,3257
4,1403
16
1,7459
2,1199
2,9208
3,2520
4,0149
18
1,7341
2,1009
2,8784
3,1966
3,9217
20
1,7247
2,0860
2,8453
3,1534
3,8496
22
1,7171
2,0739
2,8188
3,1188
3,7922
24
1,7109
2,0639
2,7970
3,0905
3,7454
26
1,7056
2,0555
2,7787
3,0669
3,7067
28
1,7011
2,0484
2,7633
3,0470
3,6739
30
1,6973
2,0423
2,7500
3,0298
3,6460
32
1,6939
2,0369
2,7385
3,0149
3,6218
34
1,6909
2,0322
2,7284
3,0020
3,6007
36
1,6883
2,0281
2,7195
2,9905
3,5821
38
1,6860
2,0244
2,7116
2,9803
3,5657
40
1,6839
2,0211
2,7045
2,9712
3,5510
50
1,6759
2,0086
2,6778
2,9370
3,4960
60
1,6706
2,0003
2,6603
2,9146
3,4602
70
1,6669
1,9944
2,6479
2,8987
3,4350
80
1,6641
1,9901
2,6387
2,8870
3,4164
90
1,6620
1,9867
2,6316
2,8779
3,4019
100
1,6602
1,9840
2,6259
2,8707
3,3905
110
1,6588
1,9818
2,6213
2,8648
3,3811
120
1,6576
1,9799
2,6174
2,8599
3,3734

1,6449
1,9600
2,5758
2,8070
3,2905
Число степеней
свободы ν
0,05
0,025
0,005
0,0025
0,0005
Уровень значимости  для односторонней критической области
68
Таблица 2
Критические значения rкр выборочного коэффициента корреляции.
Связь считается достоверной, если r ≥ rкр
n α=0,05
α =0,01
α =0,001
n
α=0,05 α =0,01 α =0,001
3 0,9969 0,999877 0,99999877
26
0,388
0,496
0,607
4
0,950
0,9900
0,9990
27
0,381
0,487
0,597
5
0,878
0,9597
0,99114
28
0,374
0,479
0,588
6
0,811
0,9172
0,9741
29
0,367
0,470
0,579
7
0,754
0,875
0,9509
30
0,361
0,463
0,570
8
0,707
0,834
0,9244
32
0,349
0,449
0,554
9
0,666
0,798
0,898
35
0,332
0,435
0,539
10 0,632
0,765
0,872
37
0,325
0,418
0,519
11 0,602
0,735
0,847
40
0,312
0,402
0,501
12 0,576
0,708
0,823
42
0,304
0,393
0,490
13 0,553
0,684
0,801
45
0,292
0,384
0,416
14 0,532
0,661
0,780
47
0,288
0,372
0,465
15 0,544
0,641
0,760
50
0,279
0,361
0,451
16 0,497
0,623
0,742
52
0,273
0,354
0,443
17 0,482
0,606
0,725
60
0,254
0,330
0,414
18 0,468
0,590
0,708
80
0,220
0,286
0,380
19 0,456
0,575
0,693
100
0,196
0,258
0,324
20 0,444
0,561
0,679
125
0,175
0,230
0,286
21 0,433
0,549
0,665
150
0,160
0,210
0,249
22 0,423
0,537
0,652
250
0,124
0,163
0,207
23 0,413
0,526
0,641
500
0,088
0,115
0,147
24 0,404
0,515
0,629
1000 0,062
0,081
0,104
25 0,396
0,505
0,618
69
Таблица 3
Критические значения rsкр коэффициента ранговой корреляции Спирмена.
Связь считается достоверной, если rs ≥ rsкр
α
n
0,05
5
α
0,01
α
n
0,05
0,01
n
0,05
0,01
0,94
17
0,48
0,62
29
0,37
0,48
6
0,85
18
0,47
0,60
30
0,36
0,47
7
0,78
0,94
19
0,46
0,58
31
0,36
0,46
8
0,72
0,88
20
0,45
0,57
32
0,36
0,45
9
0,68
0,83
21
0,44
0,56
33
0,34
0,45
10
0,64
0,79
22
0,43
0,54
34
0,34
0,44
11
0,61
0,76
23
0,42
0,53
35
0,33
0,43
12
0,58
0,73
24
0,41
0,52
36
0,33
0,43
13
0,56
0,70
25
0,49
0,51
37
0,33
0,43
14
0,54
0,68
26
0,39
0,50
38
0,32
0,41
15
0,52
0,66
27
0,38
0,49
39
0,32
0,41
16
0,50
0,64
28
0,38
0,48
40
0,31
0,40
70
Download