Выборочный метод Опр.: Статистической совокупностью называют множество однородных предметов или явлений. Опр.: Число n элементов этого множества называется объёмом совокупности. Опр.: Наблюдаемые значения xi признака X называют вариантами. Варианты расположенные в возрастающей последовательности называются дискретным вариационным рядом. Опр.: Под частотой m значения признака понимают число членов совокупности с данной вариантой. Опр.: Отношения частоты к объёму статистической совокупности называют относительной частотой значения признака. W= ni n Опр.: Соответствие между вариантами вариационного ряда и их частотами (или относительными частотами) называют статистическим распределением выборки. xi X1 X2 X3 xk ni N1 N2 N3 nk Опр.: Средним выборочным называют величину X B= 1 k n n (2) n i 1 Опр.: Дисперсией признака X по отношению к его среднему арифметическоn n (x му называют величину DB (x)= i 1 i n xk ) 2 (3) Опр.: Квадратный корень из дисперсии называют средним квадратичным отклонением G(x)= D(x) распределения относительных частот. Опр.: Эмпирической функцией распределения называют функцию определяющую для каждого значения относительную частоту событий (X<x), т.е. F*(x)=w(X<x)= nx , где n x -число вариант меньших x , а n -объём выборки n Опр.: Полигоном частот называют ломаную, отрезки, которой соединяют точки (x1,n1),(x2,n2),(xk,nk) Опр.: Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых являются частичные интервалы длинной li ,а высотой ni h Пример выполнения лабораторной работы №1“ Первичная обработка данных“ Цель работы: Овладеть методом вычисления X B , DB , B ,составление эмпирической функции распределения и гистограммы частот. Задание: По данной выборке составить статистическое распределение, вычислить X B , DB , B , составить эмпирическую функцию xi 17 18 19 20 21 22 23 ni 7 7 3 1 3 2 2 1. Тогда ряд распределения относительных частот имеет вид Xi 17 18 19 20 21 22 23 0,28 0,28 0,12 0,04 0,12 0,08 0,08 n W= i n k 2. Вычислить среднюю выборочную : x n XB i 1 i i n 17 7 18 7 19 3 20 1 22 2 23 2 XB 19 25 n n (x 3. Дисперсия признака X равна DB (x)= i 1 i xB ) 2 n 7 (2) 7 (1) 0 3 1 1 2 3 32 2 4 2 2 DB 3,92 25 5.Тогда среднее квадратическое отклонение ( x) D( x) 2 2 2 2 ( x) 3,92 1,98 6.Составим функцию распределения а)x1=17-наименьшая варианта значит F* (x3)=0 при x 17 б) x2=18 , значение x18 , именно x1=17 наблюдалось 7 раз F*(x)= 7 0,28 при 17x 18 25 в) x3=19 значение x19 ,а именно x2=18 и x1=17 встречались 14 раз т.е. F*(x)= 14 0,56 при 18x 19 25 17 0,68 при 14x 20 25 18 0,72 при 20x 21 F*(x)= 25 21 0,84 при 21x 22 F*(x)= 25 23 0,92 при 22x 23 F*(x)= 25 Аналогично F*(x)= Так как x=23 –наибольшая варианта, то F*(x)=1 при x23 Функция распределения имеет вид 0при , x 17 0,28, при 17 < x 18 0,56, при 18 < x 19 0,68, при 19 < x 20 * F (x)= 0,72, при 20 < x 21 0,84, при 21 < x 22 0,96при 22 < x 23 1при , x 23 График функции распределения F*(x) F*(x) 1 0,96 0,84 0,72 0,68 0,56 0,28 17 X 18 19 20 21 22 23 7)Построим полигон частот по точкам (17,7) ; (18;7) ; (19;3) ; (20; 1) ; (21;3); (22;2) ; (23;2) ni 7,5 17 18 19 20 21 22 23 xi 8)Построить гистограмму частот Для этого разобьем вариантный ряд на интервалы равной длины h , в нашем случае h=2 Составим таблицу 17-19 19-21 21-23 x ,x i i 1 ni 15 4 6 ni 15 2 7,5 4 2 2 6 3 2 h ni h 7,5 3 3 2 n 17 19 21 23 Пример выполнения лабораторной работы №2 “Метод произведений для X B , DB ” Цель работы: Овладеть методом вычисления X B и DB в случае распредевычислений ления равностоящих вариант. Задание: По данной выборке вычислить xi 12 14 16 18 ni 5 15 50 16 X B , DB 20 10 22 4 20 10 22 4 Составить статистическое распределение. xi ni 12 5 14 15 16 50 18 16 Данное распределение равностоящих вариант и соответствующих им частот. Для вычисления X B , DB воспользуемся методом произведений. Составим расчётную таблицу 1) запишем варианты в первый столбец 2) запишем частоты во второй столбец , сумму частот (100) поместим в нижнюю клетку столбца ; 3) В качестве ложного нуля C выберем варианту, которая принадлежит строке, содержащей ложный нуль, пишем 0;над нулем последовательно запишем -1, -2; под нулём 1, 2, 3; 4) В четвёртой столбец записываем произведение частот ni на условные варианты ui , сумму произведений u i ni 5) Произведение частот на квадраты условных вариант , т.е. 2 ui ni запи- шем в пятый столбец. Сумму чисел (ni u i ) (127) записываем в ниж2 нюю клетку столбца. Произведения частот на квадраты условных вариант , увеличенных на единицу , т.е. ni (u i 1) , запишем в шестой контрольный столбец ; сумму чисел 2 столбца (273) помещаем в нижнюю клетку шестого столбца. Таблица заполнена. Для контроля вычисления пользуются тождеством: n (u i 1) 2 ni u i 2 ni u i n 2 i Контроль: n u i 2 i 273 ni (ui 1) 2 2 ni ui n 127 2 23 100 273 xi 12 14 16 18 20 22 ni 5 15 50 16 10 4 n=100 ui -2 -1 0 1 2 3 uini -10 -15 -25 16 20 12 23= n u i niui2 20 15 16 40 36 i n u i ni(ui+1)2 5 50 64 90 64 2 i 127 n (u i i 1) 2 273 X B и DB воспользуемся формулами X B = M h C DB M 2* (M 1* ) 2 h 2 Для вычисления 1 h –шаг (разность между двумя соседними вариантами) C-ложный ноль M 1* M * 2 n u i i n n u i n - условный момент I порядка 2 i - условный момент II порядка С=16 M 1* 23 0,23 100 M 2* 127 1,27 100 Найдём h, h=14-12=2 Вычислим X B и DB X B = M 1 h C =0,23 2 16 16,46 DB M 2* (M 1* ) 2 h 2 1,27 0,232 2 2 4,87 Статистические оценки параметров распределения Опр. Интервальной называют оценку, которая определяется двумя числамиконцами интервала, покрывающего оцениваемый параметр. Опр. Доверительным называют интервал, который с заданной надёжностью покрывает оцениваемый параметр. Для оценки математического ожидания а нормально распределённого количественного признака X по выборочной средней X B при известном среднем квадратическим отклонении генеральной совокупности служит доверительный интервал. XB t где t n n a XB t , n - точность оценки; n-объём выборки; t- такое значение аргу- мента функции Лапласа Ф(t), при котором Ф(t)= При неизвестном (и объёме выборки n>30). X B t S n . 2 a X B t S n , n DB исправленное среднее квадратическое отклонение, t находят n 1 по таблице Стьюдента по заданным n и . Для оценки среднего квадратического отклонения нормально распределённого количественного признака X с надёжностью по исправленному отклонению S служат доверительные интервалы. S (1 g ) S (1 g ) (при g<1) S 0 S (1 g ) где g находят по таблице по заданным n и . (при g>1) Пример выполнения лабораторной работы №3 “Доверительные интервалы” Цель работы :Овладение методом составления доверительных интервалов для оценки математического ожидания при незвестном и для оценки среднего квадратического отклонения нормального распределения. Порядок выполнения лабораторной работы. 1. Составьте статистическое распределение частот результатов испытаний. xi -2 1 2 3 4 5 ni 2 1 2 2 2 1 XB XB n i xi n ni XB 2 2. Вычислить 3. n=10 Вычислить исправленное среднее квадратическое отклонение S по формуле S 4. n n (x i i X B )2 n 1 Найти по таблице Стьюдента по заданным S=24 0,95 и n 10 , t 2,26 . Найдём искомый доверительный интервал покрывающий неизвестное математическое ожидание а с надёжностью 0,95 . X B t S n a X B t S n X B =2, t 2,26 , S=2,4 , n 10 Получим 0,3 a 3,7 5. Найти g по таблице по заданным 0,95 и n=10. g (10;0,95) 0,65 Подставляя 6. Найти доверительный интервал для , т.к. g<1 то доверительный интервал S (1 g ) S (1 g ) имет вид Подставляя S=2,4 ,g=0,65 получим 0,84 3,96 Элементы теории корреляции. Корреляционной зависимостью Y от X называют функциональную зависимость условной средней Yx от X. Yx f (x) представляет уравнение регрессии Y на X. X y (y) представляет уравнение регрессии X на Y. Если обе линии регрессии- прямые, то корреляцию называют линейной. Выборочное уравнение прямой линии регрессии Y на X имеет вид: Yx Y rB где Yx - условная средняя, y (X X ) x X и Y - выборочные средние признаков X и Y, x и y - выборочные средние квадратические отклонения; rB выборочный коэффициент корреляции, причём rB n xy x y n x y n x y Если данные наблюдений над признаками X и Y заданы в виде корреляционной таблицы с равностоящими вариантами, то целесообразно перейти к условным вариантам. xi C1 h1 ui vj y j C2 h2 где С1 – “ложный нуль ” варианты X, где С2 – “ложный нуль” варианты Y, h1- шаг варианты X, h2- шаг варианты Y. В этом случае rB u n u u n x u h1 C1 v n v v n n uv u v nu v n u v u u 2 (u ) 2 n y v h2 C2 Для вычисления uv x u h1 v v 2 (v ) 2 y v h2 u v удобно использовать метод четырёх полей. В случае не группированных данных наблюдений над признаками X и Yуравнение линии регрессии удобнее записать в виде: y yx x b где yx - выборочный коэффициент регрессии Y на X. yx n xy x y n x 2 ( x ) 2 x y xx y b n x ( x) 2 2 2 Лабораторная работа №4 По заданной выборке получить уравнение линии регрессии Y на X. Цель работы: получить уравнение прямой линии регрессии по несгруппированным данным. Порядок выполнения работы: Заполним вспомогательную таблицу: xi yi Xi2 xiyi 2 1,25 4 2,5 2,5 1,4 6,25 3,5 5 1,5 25 7,5 6,5 1,75 42,25 11,375 7 2,25 49 15,75 x i y 23 i x 8,15 2 i x y 126,5 i i 40,625 а) в первый столбец запишем варианты xi; в нижнюю клетку x i б) во второй столбец запишем варианты yi; в нижней клетке столбца поместим y i в) в третий столбец запишем квадраты вариант xi-xi2. В нижней клетке столбца поместим x 2 i . г) в четвёртый столбец запишем произведения вариант клетке столбца поместим x i yi . По формулам yx n xy x y n x 2 ( x ) 2 xi yi . В нижней x y xx y n x ( x) 2 и b 2 2 вычислим искомые коэффициенты уравнения прямой линии регрессии. 5 40,625 23 8,15 203,125 187,45 15,675 0,151 632,5 529 103,5 5 126,5 232 126,5 8,15 23 40,625 1930,975 934,375 96,6 0,933 103,5 103,5 5 126,5 232 Уравнение прямой лини регрессии имеет вид : y 0,151 x 0,933 Лабораторная работа №5. “Метод четырёх полей”. Задание: Найти выборочное уравнение прямой линии регрессии Y на X по данным, приведённым в корреляционной таблице используя метод 4-х полей. 20 25 30 35 40 ny y x 16 26 36 46 56 nx 4 6 10 8 10 18 32 3 9 44 4 12 6 22 1 5 6 4 14 46 16 20 n=100 Цель работы: Овладеть методом вычисления коэффициентов прямой линии регрессии по данным корреляционной таблицы. Порядок выполнения работы. Составим корреляционную таблицу в условных вариантах, выбрав в качестве C1=30 и C2=36, h1=5 и h2=10. 20 30 2 5 35 30 u4 1 5 26 36 v2 1 10 56 36 v5 2 10 25 30 1 5 40 30 u5 2 5 36 36 v3 0 10 u1 -2 -1 0 1 2 nu Найдём 30 30 0 5 16 36 v1 2 10 46 36 v4 1 10 u2 u3 -2 -1 0 1 2 nv 4 4 6 8 14 10 32 4 46 3 12 1 16 9 6 5 28 10 18 44 22 6 n=100 uиv n u 4 (2) 14 (1) 460 16 1 28 2 0,34 n 100 nv v 10 (2) 18 (1) 44 (0) 221 6 2 0,04 v n 100 2 2 Найдём вспомогательные величины u и v nu u 2 4 4 14 1 16 1 20 4 2 u 1,26 n 100 nv v 2 10 4 18 1 22 1 6 4 2 v 1,04 n 100 u Найдём u u u 2 (u ) 2 1,26 0,342 1,07 u v 2 (v ) 2 1,04 0,04 2 1,02 Для вычисления n uv -2 4 -1 6 -1 0 1 2 I 0 - III 0 -2 u v воспользуемся методом четырёх полей. 0 1 - 2 - I 1 - - 8 1 8 - II 12 1 0 6 5 0 III 0 0 36 0 IV 24 21 0 IV 13 32 0 45 44 62 II 0 28 4 4 16 6 2 8 1 20 0 Описание заполнения таблицы. 1.Найти сумму произведений nuv и u v по строкам первого поля (4 (2) (2) 6 (2) 8 (1) (1) 8) и поместим их в дополнительный столбец 2.Найти сумму произведений nuv и u v по столбцам первого поля (4 (2) (2) 16 и 6 (2) (1) 8 (1) (1) 20) и поместим их в дополнительную строку 3.Найти сумму чисел дополнительного столбца (28+8=36) и запишем её в первую итоговую клетку Для контроля сложим все числа дополнительной строки (16+20=36) . Аналогично ведётся расчёт и по остальным полям. n uv uv 36 45 81 rB по формуле n uv uv n u v Вычислим rB = 81 100 0,34 (0,04) 82,36 0,755 100 1,07 1,02 109,14 n u v Найдём x и y , x , y по формулам x u h1 C1 0,34 5 30 31,7 x u h1 1,07 5 5,35 y v h2 C2 0,04 10 36 35,6 y v h2 1,02 10 10,2 Составим уравнение прямой линии регрессии y x y rB x (x x) y y x 35,6 0,755 10,25 ( x 31,7) 5,35 Окончательно имеем y x 1,45 x 10,36 Статистическая проверка статистических гипотиз. Пусть эмпирическое распределение задано в виде последовательности равностоящих вариант и соответствующих им частот. xi x1 x2 xN ni n1 n2 nN Требуется, используя критерий Пирсона, проверить гипотезу о том, что генералтная совокупность распределена нормально. Правило 1.Вычислить XB и B 2.Вычислить теоретические частоты ni n-объём выборки, h-шаг, ui= xi x B B (u i ) 1 2 nh B e u (u I ) 2 2 3.Сравнить эмпирические и теоретические частоты с помощью Критерия Пирсона. Для этого а) составляют расчётную таблицу, по которой находят наблюдаемое значение критерия x 2 наб (ni ni ) 2 ni б) По таблице критических точек распределения x2 по заданному уровню значимости и числу степеней свободы k=S-3 ( S-число групп выборки ) правосторонней критической области. 2 2 Если x нсб < x кр -нет оснований отвергнуть гипотезу о нормальном распределении генеральной совокупности. 2 2 Если x нсб < x кр - гипотезу отвергают. Пример выполнения лабораторной работы №6 “Критерий согласия Пирсона .” Цель работы: Овладеть критерием Пирсона. Задание: Используя критерий Пирсона, при уровне значимости 0,05 , проверить, согласуется ли, гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объёма n=200. xi 5 7 9 1 13 15 17 19 21 ni 15 26 25 30 26 21 24 20 13 Найдём Порядок выполнения работы: XB и B XB 5 15 7 26 9 25 11 30 13 26 15 21 17 24 19 20 21 13 12,63 200 X2 5 2 15 7 2 26 9 2 25 112 30 132 26 15 2 21 17 2 24 19 2 20 212 13 181,56 200 B X 2 ( X B ) 2 181,56 (12,63) 2 4,695 Вычислим теоретические частоты, учитывая , что n=200, h=2 , по формуле ni nh B (u i ) 200 2 (u i ) 85,2 (u i ) 4,695 Составим расчётную таблицу i xi x x ui B 4,695 i B (u i ) B 1 5 -1,62 0,1074 2 7 -1,20 0,1942 3 9 -0,77 0,2966 4 11 -0,35 0,3752 5 13 0,08 0,3977 6 15 0,51 0,3503 7 17 0,93 0,2589 8 19 1,36 0,1582 9 21 1,78 0,0818 Сравним эмпирические и теоретические частоты ni 85,2 (ui ) 9,1 16,5 25,3 32,0 33,9 29,8 22,0 13,5 7,0 а) Составим расчётную таблицу, из которой найдём наблюдаемое значение критерия i ni 1 2 3 4 5 6 7 8 9 15 26 25 30 26 21 24 20 13 200 (ni ni ) 2 ni ni ni (ni ni ) 2 x 2 наб ni 9,1 16,5 25,3 32 33,9 29,8 22,0 13,5 7 5,9 9,5 -0,3 -2,0 -7,9 -8,8 2,0 6,5 6,0 34,81 90,25 0,09 4,00 62,41 77,44 4,0 42,25 36,00 ( n ni ) 2 ni 3,8 3,6 0,0 0,1 1,9 2,3 0,2 3,0 5,1 X2наб=20 X2наб=3,8+3,6+0,0+0,1+1,9+2,3+0,2+3,0+5,1=20 По таблице критических точек распределения X2 по уровню значимости 0,05 и числу степеней свободы k S 3 9 3 6 находим критическую точку правосторонней критической области 2 X 2 кр (0,05;6) 12,6 2 Так как x нсб < x кр - гипотезу о нормальном распределении генеральной совокупности X отвергаем. Другими словами, эмпирические и теоретические частоты различаются значимо. Однофакторный дисперсионный анализ. Пусть на количественный нормально распределённый признак X воздействует фактор F, который имеет p постоянных уровнейF1, F2 F3 Fp. На каждом уровне произведено по q испытаний. Результаты наблюдений - числа xij =где i– номер испытания (i=1,2,,q), jномер фактора (j=1,2,,p), записывают в виде таблицы: Номер испытания Уровни фактора i F1 F2 Fp 1 x11 X1 Xp 2 X21 X22 X2p q xq1 Xq2 Xqp Групповая средяя x x гр x гр гр 1 x гр j 2 з Ставится задача: на уровне значимости проверить нулевую гипотезу о равенстве групповых средних при допущении, что групповые генеральные дисперсии хотя и неизвестны, но одинаковы. Для этой задачи вводится общая сумма квадратов отклонений наблюдаемых значений признака от общей средней. p q S общ ( xij x ) 2 j 1 i 1 Факторная сумма квадратов отклонений групповых средних от общей средней (характеризует рассеяние между “группами”) p S факт q ( x гро x ) 2 j 1 Остаточная сумма квадратов отклонений наблюдаемых значений группы от своей групповой средней (характеризует рассеяние “внутри группы”) q q q i 1 i 1 i 1 Sост ( xi1 x гр1 ) 2 ( xi 2 x гр2 ) 2 ( xip x грp ) 2 Практически остаточную сумму находят по формуле: Sост=Sобщ-Sфакт Для вычисления общей и факторной сумм более удобны следующие формуp p лы: Sобщ p j j 1 p ( R j ) 2 j 1 pq S факт R j 1 q 2 p j ( R j ) 2 j 1 pq где p j q x 2 ij – сумма квадратов наблюдаемых значений признака на i 1 q R j xij -сумма наблюдаемых значений признака на уровне Fj. уровне Fj i 1 Если наблюдаемые значения признака сравнительно больше числа, то для упрощения вычислений вычитают из каждого наблюдаемого значения одно и то же число C, примерно равное общей средней. Если уменьшенные значения yij xij C , то p p Sобщ Q j i 1 p S факт где Q j q y 2 T j 1 q 2 ( T j ) 2 j 1 pq p j ( T j ) 2 j 1 pq – сумма квадратов уменьшенных значений признака на ij i 1 уровне Fj; T j q y ij - сумма уменьшенных значений признака на уровне Fj. i 1 Разделив уже вычисленные факторную и остаточную сумм на соответствующее число степеней свободы, находят факторную и остаточную дисперсии. 2 S факт S факт p 1 , 2 Sост Sост p( q 1) Сравниваем факторную и остаточную дисперсии по критерию Фишера – Снедекора. Если Fнабл Fкр различие групповых средних незначимое Если Fнабл Fкр различие групповых средних значимое. Пример выполнения лабораторной работы №7 Цель работы: Овладеть методами однофакторного анализа для одинакового числа испытаний на всех уровнях. Задание: Произведено по 4 испытания на каждом из трёх уровней фактора F. Методом дисперсионного анализа, при уровне значимости 0,05 , проверить нулевую гипотезу о равенстве групповых средних. Предполагается, что выборки извлечены из нормальных совокупностей с одинаковыми дисперсиями. Результаты испытаний приведены в таблице. Номер испытания Уровни фактора I F1 F2 F3 1 38 20 21 2 36 24 22 3 35 26 31 4 31 30 34 35 25 27 x гр j Прядок выполнения работы. 1.Общая средняя x 35 25 227 29 3 2.Для упрощения расчёта перейдём к уменьшенным величинам y11=38-29=9 , y21=36-29=7 и т.д. Составим расчётную таблицу Номер испытания Уровни фактора Итоговый столбец F1 F2 F3 I yi1 yi12 yi2 yi22 yi3 yi32 1 9 81 -9 81 -8 64 2 7 49 -5 25 -7 49 3 6 36 -3 9 2 4 4 2 4 1 1 5 25 Sj=yij2 170 24 576 Tj=yij Tj2 p S факт 116 T 2 j j 1 q -16 256 142 -8 64 p ( T j ) 2 j 1 pq = 896 0 224 4 Sj=428 Tj=0 Tj2=896 Найдём остаточную сумму квадратов отклонений Sост=Sобщ-Sфакт=428-224=204 Найдём факторную дисперсию; для этого разделим Sфакт на число степеней свободы p-1=3-1=2 2 S факт S факт p 1 224 112 2 Найдём остаточную дисперсию, для этого разделим S ост на число степеней свободы p(q-1)=3(4-1)=9 2 Sост Sост 204 22,67 = p( q 1) 9 Сравним факторную и остаточную дисперсии с помощью критерия ФишераСнедекора. Найдём наблюдаемое значение критерия Fнабл= 2 S факт Sост 112 4,94 22,67 Учитывая, что число степеней свободы числителя k1=2, а знаменателя k2=9 и что уровень значимости 0,05 по таблице (см. приложение) находим критическую точку Fкр(0,05;2;9)=4,26 Так как Fнабл Fкр нулевую гипотезу о равенстве групповых средних отвергаем. То есть групповые средние “в целом ” различаются значимо.