Лабораторные работы по статистике

Выборочный метод Опр.: Статистической совокупностью называют множество однородных предметов или явлений. Опр.: Число n элементов этого множества называется объёмом совокупности. Опр.: Наблюдаемые значения xi признака X называют вариантами. Варианты расположенные в возрастающей последовательности называются дискретным вариационным рядом. Опр.: Под частотой m значения признака понимают число членов совокупности с данной вариантой. Опр.: Отношения частоты к объёму статистической совокупности называют относительной частотой значения признака. W= ni n Опр.: Соответствие между вариантами вариационного ряда и их частотами (или относительными частотами) называют статистическим распределением выборки. xi X1 X2 X3 xk  ni N1 N2 N3 nk  Опр.: Средним выборочным называют величину X B= 1 k   n  n (2) n i 1 Опр.: Дисперсией признака X по отношению к его среднему арифметическоn  n  (x му называют величину DB (x)= i 1 i n  xk ) 2 (3) Опр.: Квадратный корень из дисперсии называют средним квадратичным отклонением G(x)= D(x) распределения относительных частот. Опр.: Эмпирической функцией распределения называют функцию определяющую для каждого значения относительную частоту событий (X<x), т.е. F*(x)=w(X<x)= nx , где n x -число вариант меньших x , а n -объём выборки n Опр.: Полигоном частот называют ломаную, отрезки, которой соединяют точки (x1,n1),(x2,n2),(xk,nk) Опр.: Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых являются частичные интервалы длинной li ,а высотой ni h Пример выполнения лабораторной работы №1“ Первичная обработка данных“ Цель работы: Овладеть методом вычисления X B , DB ,  B ,составление эмпирической функции распределения и гистограммы частот. Задание: По данной выборке составить статистическое распределение, вычислить X B , DB ,  B , составить эмпирическую функцию xi 17 18 19 20 21 22 23 ni 7 7 3 1 3 2 2 1. Тогда ряд распределения относительных частот имеет вид Xi 17 18 19 20 21 22 23 0,28 0,28 0,12 0,04 0,12 0,08 0,08 n W= i n k 2. Вычислить среднюю выборочную : x n XB  i 1 i i n 17  7  18  7  19  3  20  1  22  2  23  2 XB   19 25 n  n  (x 3. Дисперсия признака X равна DB (x)= i 1 i  xB ) 2 n 7  (2)  7  (1)  0  3  1  1  2  3  32  2  4 2  2 DB   3,92 25 5.Тогда среднее квадратическое отклонение  ( x)  D( x) 2 2 2 2  ( x)  3,92  1,98 6.Составим функцию распределения а)x1=17-наименьшая варианта значит F* (x3)=0 при x  17 б) x2=18 , значение x18 , именно x1=17 наблюдалось 7 раз F*(x)= 7  0,28 при 17x  18 25 в) x3=19 значение x19 ,а именно x2=18 и x1=17 встречались 14 раз т.е. F*(x)= 14  0,56 при 18x  19 25 17  0,68 при 14x  20 25 18  0,72 при 20x  21 F*(x)= 25 21  0,84 при 21x  22 F*(x)= 25 23  0,92 при 22x  23 F*(x)= 25 Аналогично F*(x)= Так как x=23 –наибольшая варианта, то F*(x)=1 при x23 Функция распределения имеет вид 0при , x  17 0,28, при 17 < x  18  0,56, при 18 < x  19  0,68, при 19 < x  20 * F (x)=  0,72, при 20 < x  21 0,84, при 21 < x  22  0,96при 22 < x  23 1при , x  23  График функции распределения F*(x) F*(x) 1 0,96 0,84 0,72 0,68 0,56 0,28 17 X 18 19 20 21 22 23 7)Построим полигон частот по точкам (17,7) ; (18;7) ; (19;3) ; (20; 1) ; (21;3); (22;2) ; (23;2) ni 7,5 17 18 19 20 21 22 23 xi 8)Построить гистограмму частот Для этого разобьем вариантный ряд на интервалы равной длины h , в нашем случае h=2 Составим таблицу 17-19 19-21 21-23 x ,x  i i 1  ni 15 4 6 ni 15 2  7,5 4 2 2 6 3 2 h ni h 7,5 3 3 2 n 17 19 21 23 Пример выполнения лабораторной работы №2 “Метод произведений для X B , DB ” Цель работы: Овладеть методом вычисления X B и DB в случае распредевычислений ления равностоящих вариант. Задание: По данной выборке вычислить xi 12 14 16 18 ni 5 15 50 16 X B , DB 20 10 22 4 20 10 22 4 Составить статистическое распределение. xi ni 12 5 14 15 16 50 18 16 Данное распределение равностоящих вариант и соответствующих им частот. Для вычисления X B , DB воспользуемся методом произведений. Составим расчётную таблицу 1) запишем варианты в первый столбец 2) запишем частоты во второй столбец , сумму частот (100) поместим в нижнюю клетку столбца ; 3) В качестве ложного нуля C выберем варианту, которая принадлежит строке, содержащей ложный нуль, пишем 0;над нулем последовательно запишем -1, -2; под нулём 1, 2, 3; 4) В четвёртой столбец записываем произведение частот ni на условные варианты ui , сумму произведений u i  ni 5) Произведение частот на квадраты условных вариант , т.е. 2 ui  ni запи- шем в пятый столбец. Сумму чисел (ni  u i ) (127) записываем в ниж2 нюю клетку столбца. Произведения частот на квадраты условных вариант , увеличенных на единицу , т.е. ni  (u i  1) , запишем в шестой контрольный столбец ; сумму чисел 2 столбца (273) помещаем в нижнюю клетку шестого столбца. Таблица заполнена. Для контроля вычисления пользуются тождеством:  n (u i  1) 2   ni u i  2 ni u i  n 2 i Контроль: n u i 2 i 273   ni  (ui  1) 2  2 ni ui  n  127  2  23  100  273 xi 12 14 16 18 20 22 ni 5 15 50 16 10 4 n=100 ui -2 -1 0 1 2 3 uini -10 -15 -25 16 20 12 23= n u i niui2 20 15 16 40 36 i n u i ni(ui+1)2 5 50 64 90 64 2 i  127  n (u i i  1) 2  273 X B и DB воспользуемся формулами X B = M  h  C DB  M 2*  (M 1* ) 2  h 2 Для вычисления   1  h –шаг (разность между двумя соседними вариантами) C-ложный ноль M 1*  M * 2 n u i i n n u  i n - условный момент I порядка 2 i - условный момент II порядка С=16 M 1*  23  0,23 100 M 2*  127  1,27 100 Найдём h, h=14-12=2 Вычислим X B и DB X B = M 1  h  C =0,23  2  16  16,46     DB  M 2*  (M 1* ) 2  h 2  1,27  0,232  2 2  4,87 Статистические оценки параметров распределения Опр. Интервальной называют оценку, которая определяется двумя числамиконцами интервала, покрывающего оцениваемый параметр. Опр. Доверительным называют интервал, который с заданной надёжностью покрывает оцениваемый параметр. Для оценки математического ожидания а нормально распределённого количественного признака X по выборочной средней X B при известном среднем квадратическим отклонении  генеральной совокупности служит доверительный интервал. XB t где t  n  n  a  XB t  , n   - точность оценки; n-объём выборки; t- такое значение аргу- мента функции Лапласа Ф(t), при котором Ф(t)= При неизвестном  (и объёме выборки n>30). X B  t S n  . 2  a  X B  t S n , n DB исправленное среднее квадратическое отклонение, t  находят n 1 по таблице Стьюдента по заданным n и  . Для оценки среднего квадратического отклонения  нормально распределённого количественного признака X с надёжностью  по исправленному отклонению S служат доверительные интервалы. S (1  g )    S (1  g ) (при g<1) S 0    S (1  g ) где g находят по таблице по заданным n и  . (при g>1) Пример выполнения лабораторной работы №3 “Доверительные интервалы” Цель работы :Овладение методом составления доверительных интервалов для оценки математического ожидания при незвестном  и для оценки среднего квадратического отклонения нормального распределения. Порядок выполнения лабораторной работы. 1. Составьте статистическое распределение частот результатов испытаний. xi -2 1 2 3 4 5 ni 2 1 2 2 2 1 XB XB  n i  xi n   ni XB  2 2. Вычислить 3. n=10 Вычислить исправленное среднее квадратическое отклонение S по формуле S 4. n  n (x i i  X B )2 n 1 Найти по таблице Стьюдента по заданным S=24   0,95 и n  10 , t   2,26 . Найдём искомый доверительный интервал покрывающий неизвестное математическое ожидание а с надёжностью   0,95 . X B  t S n  a  X B  t S n X B =2, t   2,26 , S=2,4 , n  10 Получим 0,3  a  3,7 5. Найти g по таблице по заданным   0,95 и n=10. g (10;0,95)  0,65 Подставляя 6. Найти доверительный интервал для  , т.к. g<1 то доверительный интервал S (1  g )    S (1  g ) имет вид Подставляя S=2,4 ,g=0,65 получим 0,84    3,96 Элементы теории корреляции. Корреляционной зависимостью Y от X называют функциональную зависимость условной средней  Yx от X. Yx  f (x) представляет уравнение регрессии Y на X. X y   (y) представляет уравнение регрессии X на Y. Если обе линии регрессии- прямые, то корреляцию называют линейной. Выборочное уравнение прямой линии регрессии Y на X имеет вид: Yx  Y  rB где Yx - условная средняя, y (X  X ) x X и Y - выборочные средние признаков X и Y,  x и  y - выборочные средние квадратические отклонения; rB выборочный коэффициент корреляции, причём rB  n xy  x y n x  y n  x  y Если данные наблюдений над признаками X и Y заданы в виде корреляционной таблицы с равностоящими вариантами, то целесообразно перейти к условным вариантам. xi  C1 h1 ui  vj  y j  C2 h2 где С1 – “ложный нуль ” варианты X, где С2 – “ложный нуль” варианты Y, h1- шаг варианты X, h2- шаг варианты Y. В этом случае rB  u n u u n x  u h1  C1 v n v v n n uv u v  nu v n  u  v  u  u 2  (u ) 2 n y  v h2  C2 Для вычисления uv  x   u  h1  v  v 2  (v ) 2  y   v  h2  u  v удобно использовать метод четырёх полей. В случае не группированных данных наблюдений над признаками X и Yуравнение линии регрессии удобнее записать в виде: y   yx  x  b где  yx - выборочный коэффициент регрессии Y на X.  yx  n   xy   x   y n   x 2  ( x ) 2 x  y xx y b n   x  ( x) 2 2 2 Лабораторная работа №4 По заданной выборке получить уравнение линии регрессии Y на X. Цель работы: получить уравнение прямой линии регрессии по несгруппированным данным. Порядок выполнения работы: Заполним вспомогательную таблицу: xi yi Xi2 xiyi 2 1,25 4 2,5 2,5 1,4 6,25 3,5 5 1,5 25 7,5 6,5 1,75 42,25 11,375 7 2,25 49 15,75 x i y  23 i x  8,15 2 i x y  126,5 i i  40,625 а) в первый столбец запишем варианты xi; в нижнюю клетку x i б) во второй столбец запишем варианты yi; в нижней клетке столбца поместим y i в) в третий столбец запишем квадраты вариант xi-xi2. В нижней клетке столбца поместим x 2 i . г) в четвёртый столбец запишем произведения вариант клетке столбца поместим x i  yi . По формулам  yx  n   xy   x   y n   x 2  ( x ) 2 xi  yi . В нижней x  y xx y n   x  ( x) 2 и b 2 2 вычислим искомые коэффициенты уравнения прямой линии регрессии.  5  40,625  23  8,15 203,125  187,45 15,675    0,151 632,5  529 103,5 5  126,5  232 126,5  8,15  23  40,625 1930,975  934,375 96,6    0,933 103,5 103,5 5  126,5  232 Уравнение прямой лини регрессии имеет вид : y  0,151  x  0,933  Лабораторная работа №5. “Метод четырёх полей”. Задание: Найти выборочное уравнение прямой линии регрессии Y на X по данным, приведённым в корреляционной таблице используя метод 4-х полей. 20 25 30 35 40 ny y x 16 26 36 46 56 nx 4 6 10 8 10 18 32 3 9 44 4 12 6 22 1 5 6 4 14 46 16 20 n=100 Цель работы: Овладеть методом вычисления коэффициентов прямой линии регрессии по данным корреляционной таблицы. Порядок выполнения работы. Составим корреляционную таблицу в условных вариантах, выбрав в качестве C1=30 и C2=36, h1=5 и h2=10. 20  30  2 5 35  30 u4  1 5 26  36 v2   1 10 56  36 v5  2 10 25  30  1 5 40  30 u5  2 5 36  36 v3  0 10 u1  -2 -1 0 1 2 nu Найдём 30  30 0 5 16  36 v1   2 10 46  36 v4  1 10 u2  u3  -2 -1 0 1 2 nv 4 4 6 8 14 10 32 4 46 3 12 1 16 9 6 5 28 10 18 44 22 6 n=100 uиv n u 4  (2)  14  (1)  460  16  1  28  2  0,34 n 100  nv  v  10  (2)  18  (1)  44  (0)  221  6  2  0,04 v n 100 2 2 Найдём вспомогательные величины u и v nu  u 2 4  4  14  1  16  1  20  4  2 u    1,26 n 100 nv  v 2 10  4  18  1  22  1  6  4  2 v    1,04 n 100 u Найдём u   u  u 2  (u ) 2  1,26  0,342  1,07  u  v 2  (v ) 2  1,04  0,04 2  1,02 Для вычисления n uv -2 4 -1 6 -1 0 1 2 I 0 - III 0 -2  u  v воспользуемся методом четырёх полей. 0 1 - 2 - I 1 - - 8 1  8 - II 12 1 0 6 5 0 III 0 0 36 0 IV 24 21 0 IV 13 32 0 45 44  62  II 0  28 4  4  16 6  2  8 1   20 0 Описание заполнения таблицы. 1.Найти сумму произведений nuv и u  v по строкам первого поля (4  (2)  (2)  6  (2)  8  (1)  (1)  8) и поместим их в дополнительный столбец 2.Найти сумму произведений nuv и u  v по столбцам первого поля (4  (2)  (2)  16 и 6  (2)  (1)  8  (1)  (1)  20) и поместим их в дополнительную строку 3.Найти сумму чисел дополнительного столбца (28+8=36) и запишем её в первую итоговую клетку Для контроля сложим все числа дополнительной строки (16+20=36) . Аналогично ведётся расчёт и по остальным полям. n uv  uv  36  45  81 rB по формуле  n uv  uv  n  u  v Вычислим rB =  81  100  0,34  (0,04) 82,36   0,755 100  1,07  1,02 109,14 n  u  v Найдём x и y ,  x ,  y по формулам x  u  h1  C1  0,34  5  30  31,7  x   u  h1  1,07  5  5,35 y  v  h2  C2  0,04 10  36  35,6  y   v  h2  1,02  10  10,2 Составим уравнение прямой линии регрессии y x  y  rB  x (x  x) y y x  35,6  0,755  10,25 ( x  31,7) 5,35 Окончательно имеем y x  1,45 x  10,36 Статистическая проверка статистических гипотиз. Пусть эмпирическое распределение задано в виде последовательности равностоящих вариант и соответствующих им частот. xi x1 x2  xN ni n1 n2  nN Требуется, используя критерий Пирсона, проверить гипотезу о том, что генералтная совокупность распределена нормально. Правило 1.Вычислить XB и B 2.Вычислить теоретические частоты ni  n-объём выборки, h-шаг, ui= xi  x B B  (u i )  1 2 nh B e u   (u I ) 2 2 3.Сравнить эмпирические и теоретические частоты с помощью Критерия Пирсона. Для этого а) составляют расчётную таблицу, по которой находят наблюдаемое значение критерия x 2 наб   (ni  ni ) 2 ni б) По таблице критических точек распределения x2 по заданному уровню значимости  и числу степеней свободы k=S-3 ( S-число групп выборки ) правосторонней критической области. 2 2 Если x нсб < x кр -нет оснований отвергнуть гипотезу о нормальном распределении генеральной совокупности. 2 2 Если x нсб < x кр - гипотезу отвергают. Пример выполнения лабораторной работы №6 “Критерий согласия Пирсона .” Цель работы: Овладеть критерием Пирсона. Задание: Используя критерий Пирсона, при уровне значимости   0,05 , проверить, согласуется ли, гипотеза о нормальном распределении генеральной совокупности X с эмпирическим распределением выборки объёма n=200. xi 5 7 9 1 13 15 17 19 21 ni 15 26 25 30 26 21 24 20 13 Найдём Порядок выполнения работы: XB и  B XB  5  15  7  26  9  25  11  30  13  26  15  21  17  24  19  20  21  13  12,63 200 X2  5 2  15  7 2  26  9 2  25  112  30  132  26  15 2  21  17 2  24  19 2  20  212  13  181,56 200  B  X 2  ( X B ) 2  181,56  (12,63) 2  4,695 Вычислим теоретические частоты, учитывая , что n=200, h=2 , по формуле ni  nh B   (u i )  200  2   (u i )  85,2   (u i ) 4,695 Составим расчётную таблицу i xi x x ui   B  4,695 i B  (u i ) B 1 5 -1,62 0,1074 2 7 -1,20 0,1942 3 9 -0,77 0,2966 4 11 -0,35 0,3752 5 13 0,08 0,3977 6 15 0,51 0,3503 7 17 0,93 0,2589 8 19 1,36 0,1582 9 21 1,78 0,0818 Сравним эмпирические и теоретические частоты  ni  85,2   (ui ) 9,1 16,5 25,3 32,0 33,9 29,8 22,0 13,5 7,0 а) Составим расчётную таблицу, из которой найдём наблюдаемое значение критерия i ni 1 2 3 4 5 6 7 8 9 15 26 25 30 26 21 24 20 13 200  (ni  ni ) 2 ni   ni  ni (ni  ni ) 2 x 2 наб   ni  9,1 16,5 25,3 32 33,9 29,8 22,0 13,5 7 5,9 9,5 -0,3 -2,0 -7,9 -8,8 2,0 6,5 6,0 34,81 90,25 0,09 4,00 62,41 77,44 4,0 42,25 36,00  ( n  ni ) 2  ni 3,8 3,6 0,0 0,1 1,9 2,3 0,2 3,0 5,1 X2наб=20 X2наб=3,8+3,6+0,0+0,1+1,9+2,3+0,2+3,0+5,1=20 По таблице критических точек распределения X2 по уровню значимости   0,05 и числу степеней свободы k  S  3  9  3  6 находим критическую точку правосторонней критической области 2 X 2 кр (0,05;6)  12,6 2 Так как x нсб < x кр - гипотезу о нормальном распределении генеральной совокупности X отвергаем. Другими словами, эмпирические и теоретические частоты различаются значимо. Однофакторный дисперсионный анализ. Пусть на количественный нормально распределённый признак X воздействует фактор F, который имеет p постоянных уровнейF1, F2 F3 Fp. На каждом уровне произведено по q испытаний. Результаты наблюдений - числа xij =где i– номер испытания (i=1,2,,q), jномер фактора (j=1,2,,p), записывают в виде таблицы: Номер испытания Уровни фактора i F1 F2 Fp  1 x11 X1 Xp  2 X21 X22  X2p      q xq1 Xq2  Xqp Групповая средяя x x гр  x гр гр 1 x гр j 2 з Ставится задача: на уровне значимости  проверить нулевую гипотезу о равенстве групповых средних при допущении, что групповые генеральные дисперсии хотя и неизвестны, но одинаковы. Для этой задачи вводится общая сумма квадратов отклонений наблюдаемых значений признака от общей средней. p q S общ   ( xij  x ) 2 j 1 i 1 Факторная сумма квадратов отклонений групповых средних от общей средней (характеризует рассеяние между “группами”) p S факт  q  ( x гро  x ) 2 j 1 Остаточная сумма квадратов отклонений наблюдаемых значений группы от своей групповой средней (характеризует рассеяние “внутри группы”) q q q i 1 i 1 i 1 Sост   ( xi1  x гр1 ) 2   ( xi 2  x гр2 ) 2     ( xip  x грp ) 2 Практически остаточную сумму находят по формуле: Sост=Sобщ-Sфакт Для вычисления общей и факторной сумм более удобны следующие формуp p лы: Sобщ   p j  j 1 p ( R j ) 2 j 1 pq S факт  R j 1 q 2 p j  ( R j ) 2 j 1 pq где p j  q x 2 ij – сумма квадратов наблюдаемых значений признака на i 1 q R j   xij -сумма наблюдаемых значений признака на уровне Fj. уровне Fj i 1 Если наблюдаемые значения признака сравнительно больше числа, то для упрощения вычислений вычитают из каждого наблюдаемого значения одно и то же число C, примерно равное общей средней. Если уменьшенные значения yij  xij  C , то p p Sобщ   Q j  i 1 p S факт  где Q j  q y 2 T j 1 q 2 ( T j ) 2 j 1 pq p j  ( T j ) 2 j 1 pq – сумма квадратов уменьшенных значений признака на ij i 1 уровне Fj; T j  q y ij - сумма уменьшенных значений признака на уровне Fj. i 1 Разделив уже вычисленные факторную и остаточную сумм на соответствующее число степеней свободы, находят факторную и остаточную дисперсии. 2 S факт  S факт p 1 , 2 Sост  Sост p( q  1) Сравниваем факторную и остаточную дисперсии по критерию Фишера – Снедекора. Если Fнабл  Fкр различие групповых средних незначимое Если Fнабл  Fкр различие групповых средних значимое. Пример выполнения лабораторной работы №7 Цель работы: Овладеть методами однофакторного анализа для одинакового числа испытаний на всех уровнях. Задание: Произведено по 4 испытания на каждом из трёх уровней фактора F. Методом дисперсионного анализа, при уровне значимости 0,05 , проверить нулевую гипотезу о равенстве групповых средних. Предполагается, что выборки извлечены из нормальных совокупностей с одинаковыми дисперсиями. Результаты испытаний приведены в таблице. Номер испытания Уровни фактора I F1 F2 F3 1 38 20 21 2 36 24 22 3 35 26 31 4 31 30 34 35 25 27 x гр j Прядок выполнения работы. 1.Общая средняя x  35  25  227  29 3 2.Для упрощения расчёта перейдём к уменьшенным величинам y11=38-29=9 , y21=36-29=7 и т.д. Составим расчётную таблицу Номер испытания Уровни фактора Итоговый столбец F1 F2 F3 I yi1 yi12 yi2 yi22 yi3 yi32 1 9 81 -9 81 -8 64 2 7 49 -5 25 -7 49 3 6 36 -3 9 2 4 4 2 4 1 1 5 25 Sj=yij2 170 24 576 Tj=yij Tj2 p S факт  116 T 2 j j 1 q -16 256 142 -8 64 p  ( T j ) 2 j 1 pq = 896  0  224 4 Sj=428 Tj=0 Tj2=896 Найдём остаточную сумму квадратов отклонений Sост=Sобщ-Sфакт=428-224=204 Найдём факторную дисперсию; для этого разделим Sфакт на число степеней свободы p-1=3-1=2 2 S факт  S факт p 1  224  112 2 Найдём остаточную дисперсию, для этого разделим S ост на число степеней свободы p(q-1)=3(4-1)=9 2 Sост  Sост 204  22,67 = p( q  1) 9 Сравним факторную и остаточную дисперсии с помощью критерия ФишераСнедекора. Найдём наблюдаемое значение критерия Fнабл= 2 S факт Sост  112  4,94 22,67 Учитывая, что число степеней свободы числителя k1=2, а знаменателя k2=9 и что уровень значимости   0,05 по таблице (см. приложение) находим критическую точку Fкр(0,05;2;9)=4,26 Так как Fнабл  Fкр нулевую гипотезу о равенстве групповых средних отвергаем. То есть групповые средние “в целом ” различаются значимо.

Лабораторные работы по статистике

Products

Support

Лабораторные работы по статистике

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib