MATEMATIChESKAYa STATISTIKA Men (1)

Частное образовательное учреждение высшего образования «САНКТ-ПЕТЕРБУРГСКИЙ УНИВЕРСИТЕТ ТЕХНОЛОГИЙ УПРАВЛЕНИЯ И ЭКОНОМИКИ» Кафедра информационных технологий и математики МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Методические указания по выполнению контрольных работ для студентов заочной формы обучения, обучающихся по направлению 38.03.02 Менеджмент Санкт-Петербург 2017 УДК ББК Рассмотрено и рекомендовано к изданию Методическим советом Института экономики и менеджмента и информационных технологий (протокол № ____ от «___» ___________ 2017 г.) Составители: кандидат экономических наук, доцент Т.А. Черняк кандидат педагогических наук, доцент С.Д. Прозоровская Рецензент: доктор технических наук, доцент, профессор кафедры Информационных технологий и математики С.В. Колесниченко М-14 Математическая статистика: методические указания по выполнению контрольных работ для студентов заочной формы обучения / сост. Т.А. Черняк, С.Д. Прозоровская С.-Петерб. ун-т технол. упр. и экон. — СПб.: Изд-во Санкт-Петербургского университета технологий управления и экономики, 2017. — 34 с. ISBN 978-5-94047-331-2 Методические указания по выполнению контрольных работ для студентов заочной формы обучения предназначены для студентов высших учебных заведений (бакалавров), обучающихся по направлению 38.03.02 Менеджмент УДК ББК ISBN 978-5-94047-331-2 © Черняк Т.А., составление, 2017 © Прозоровская С.Д. составление, 2017 © СПбУТУиЭ, 2017 СОДЕРЖАНИЕ 1 2 3 4 5 Требования к оформлению контрольных работ……………………… Контрольная работа № 2. Элементы математической статистики…. Краткое содержание (программа) курса……………………………… Приложение 1. Значения функции Лапласа………………………….. Приложение 2. Таблица значений 2 ……………………… 4 24 48 50 52 ТРЕБОВАНИЯ К ОФОРМЛЕНИЮ КОНТРОЛЬНЫХ РАБОТ 1. Контрольные работы следует выполнять в отдельной тетради. На обложке тетради необходимо указать: название института Университета; название кафедры; название и номер контрольной работы; название (номер) специальности; фамилию, имя, отчество и личный шифр студента. 2. На каждой странице следует оставить поля размером 4 см для оценки решения задач и методических указаний проверяющего работу. 3. Условия задач переписывать полностью необязательно, достаточно указать номера задач по данному сборнику. В условия задач следует сначала подставить конкретные числовые значения параметров т и п, после чего выполняется их решение. 4. Задачи в контрольной работе нужно располагать в порядке возрастания номеров. ФОРМИРОВАНИЕ ИСХОДНЫХ ДАННЫХ К ЗАДАЧАМ Каждая контрольная работа состоит из задач одного или нескольких разделов сборника. Условия задач, входящих в контрольную работу, одинаковы для всех студентов, однако числовые данные задач зависят от личного шифра студента, выполняющего работу. Числовые значения параметров т и п определяются по двум последним цифрам личного шифра (А – предпоследняя цифра, В – последняя цифра). Значение параметра т выбирается из таблицы 1, а значение параметра п – из таблицы 2. Числа т и п следует подставить в условия задач контрольной работы. Таблица 1 (выбор параметра т) А 0 1 2 3 4 5 6 7 8 9 т 1 2 3 4 5 1 2 3 4 5 Таблица 2 (выбор параметра п ) В 0 1 2 3 4 5 6 7 8 9 п 3 5 4 2 1 5 4 1 3 2 Например, если шифр студента 1037, то А = 3, В = 7, и из таблиц находим, что т = 4, п = 1. Полученные т = 4 и п = 1 подставляются в условия всех задач контрольной работы студента. РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА 1. 2. 3. 4. 5. а) основная литература: Волкова В.Н. Теория систем и системный анализ. Учебник для вузов. — М. : Издательство Юрайт, 2010 г. — 679 с. — Электронное издание. — ISBN 978-5-9916-0229-7 Гусева Е.Н. Теория вероятностей и математическая статистика. — М. : Флинта, 2011 г. — 220 с. — Электронное издание. — ISBN 978-5-97651192-7 Семенов В. А. Теория вероятностей и математическая статистика: Учебное пособие. Стандарт третьего поколения. — СПб. : Питер, 2012 г. — 192 с. — Электронное издание. — УМО. — ISBN 978-5-496-00120-5 Маталыцкий М.А. Теория вероятностей, математическая статистика и случайные процессы. — Минск: Вышэйшая школа, 2012 г. — 720 с. — Электронное издание. — МО. — ISBN 978-985-06-2105-4 Данко, П. Е. Высшая математика в упражнениях и задачах : учеб. Пособие : в 2 ч. / П. Е. Данко, А. Г. Попов, Т. Я. Кожевникова. – М.: Оникс 21 век, 2005. б) дополнительная литература: 6. Богомолов, Н.В., Математика: учебник для бакалавриата: рекомендовано Мин. образования/ Н. В. Богомолов, П. И. Самойленко. - М.: Юрайт, 2012. - 396 с. - (Бакалавр). - ISBN 978-5-9916-1631-7: 291.61 р. 7. Гмурман, В. Е., Руководство к решению задач по теории вероятностей и математической статистике: Учебное пособие для вузов: рекомендовано Мин. образования/ В. Е.Гмурман. - 11-е изд., перераб. и доп.. - М.: Юрайт, 2011. - 404 с. - (Основы наук). - Приложения: с. 388.. - ISBN 978-5-99161266-1: 336.71 р. Контрольная работа № 2. Элементы математической статистики 2.1 Результаты измерений некоторой физической величины представлены в таблице: i 1 2 3 4 5 6 7 8 ai ; bi a1 ; b1 a2 ; b2 a3 ; b3 a6 ; b6 a7 ; b7 a8 ; b8 a4 ; b4 a5 ; b5 mi 4 7 13 21   m  n  30   m  n  16 6 3 где i – номер интервала, ai , bi – границы интервала, ai  m  n  2,5  i  1 , bi  m  n  2,5i , mi – частота. 2.1.1. Найти функцию распределения выборки Fn*  x  и построить ее график. 2.1.2. Построить гистограмму относительных частот. 2.1.3. Найти числовые характеристики выборки: выборочное 2 среднее x и исправленную выборочную дисперсию S . 2.1.4. Используя функцию Лапласа, построить доверительный интервал для математического ожидания, соответствующий доверительной вероятности   0,9  0,01   m  2  . 2.1.5. С помощью критерия 2 (Пирсона) проверить гипотезу о нормальном распределении генеральной совокупности при уровне значимости   0,05 . 2.2 Двумерная выборка результатов совместных измерений признаков х и у объемом n  100 измерений задана корреляционной таблицей: mxi y1 y2 y3 y4 y5 x1 x2 x3 x4 x5 x6 x7 my j 2 3 – – – – – 5 3 8 – 2 12  n – – – – – – 8m – – – – 19  m 16  m 9 3 – 42  n  m 14  n 10 6 1 31  n – – 1 2 3 5 13 20   m  n  30   m  n  19 10 3 n  100 где xi  0,2  m   i  1  0,3  n , y j  0,5  m   j  1  0,2  n . 2.2.1 Найти выборочные средние x, y и выборочные дисперсии  x ,в ,  y ,в . 2.2.2. Построить уравнение линии регрессии Y на Х в виде yx  ax  b . 2.2.3. На графике изобразить корреляционное поле, т.е. нанести точки  xi , y j  и построить прямую yx  ax  b . Краткие теоретические сведения для выполнения контрольной работы № 2 и решение типовых задач 2.1. Выборка из одномерной генеральной совокупности Пусть Х – случайная величина с функцией распределения F  x  P X  x. Совокупность всех значений СВ Х называют генеральной совокупностью. Случайной выборкой ( или выборочной совокупностью) объема n, отвечающей случайной величине Х с функцией распределения F  x  , называется последовательность x1 , x2 ,..., xn наблюдаемых значений СВ Х, соответствующих n независимым повторениям эксперимента. Объемом совокупности (выборочной или генеральной) называется число объектов этой совокупности. Статистическим рядом распределения называется последовательность пар  xi , mi  , которые записывают в виде таблицы; в первой строке – элементы xi в возрастающем порядке, одинаковые значения записывают один раз, во второй строке – их частоты (сколько раз встретился элемент). mi Относительной частотой называется отношение n абсолютной частоты к объему выборки. s Очевидно, что m i 1 i  n, s mi n  1. i 1 При большом объеме выборки ее элементы (варианты) объединяют в группы, представляя результаты опытов в виде группированного статистического ряда. Для этого интервал, содержащий все элементы выборки, разбивается на k частичных непересекающихся интервалов, чаще имеющих одинаковую длину xi  W , где W – размах выборки (разность между максимальным и k минимальным элементами выборки). После этого определяют частоты mi – количество элементов выборки, попавших в i-тый интервал (элемент, совпадающий с верхней границей интервала, относится к последующему интервалу). Гистограммой частот (относительных частот) называется ступенчатая фигура, составленная из прямоугольников, построенных на интервалах группированной выборки так, что площадь каждого прямоугольника равна частоте mi , i  1, 2,..., k (относительной m частоте i ). n Если длины всех интервалов одинаковы и равны x , то высоты m прямоугольников гистограммы частот равны hi  i , i  1, 2,..., k , x m для гистограммы относительных частот hi  i . nx Гистограмма относительных частот – прообраз плотности распределения. Площадь гистограммы относительных частот равна единице. Оценкой для функции распределения F  x  СВ Х по случайной выборке  x1 , x2 ,..., xn  служит эмпирическая функция распределения или функция распределения выборки, которая определяется формулой: n Fn*  x   x , n где nx – число вариант, меньших х, n – объем выборки. Эмпирическая функция распределения Fn*  x  определяется по значениям накопленных относительных частот m Fn*  x    i , xi  x n где  mi – число вариант, меньших х. xi  x Числовые характеристики выборки Выборочное среднее x – среднее арифметическое всех значений выборки, находится по формуле 1 k x   xi mi . n i1 Выборочная дисперсия S 2 вычисляется по формуле 2 1 k 2 S   xi  x mi . n i1 Выборочное СКО вычисляется по формуле  Исправленная формуле  S2 . выборочная дисперсия  вычисляется по  2 1 k S  x  x mi .  i n  1 i1 Исправленное выборочное СКО вычисляется по формуле 2 S2 . Для группированной выборки формулы примут вид: 2 2 1 k * 1 k * 1 k * 2 2 x   xi mi , S   xi  x mi , S  x  x mi ,  i n i1 n i1 n  1 i1 где xi* – средняя точка интервала группированного ряда.      Доверительным интервалом называют интервал a    ; a    , который покрывает неизвестный параметр а с  заданной вероятностью ; здесь a – оценка параметра а, концы a   и a    – доверительные границы (они оценивают возможную погрешность), число  – доверительная вероятность или надежность. Число   характеризует точность оценки. Доверительный интервал для математического ожидания при большом объеме выборки и неизвестном среднем квадратическом отклонении выражается формулой   J   mx   x    ; x    , где    где    x  1  2 x –  функция, обратная S 2  1    , n функции Лапласа t2 2  e dt (приложение 1), т.е. такое значение аргумента в 2 0 таблице функции Лапласа, для которого функция Лапласа равна . Замечание. Если использовать таблицу значений функции x t2  1 Лапласа   x   e 2 dt , то точность оценки находится по  2 0 формуле    2   1   . n 2 S Проверка статистической гипотезы о нормальном законе распределения генеральной совокупности с помощью критерия Пирсона  2 Постановка задачи. Относительно некоторой генеральной совокупности Х высказывается гипотеза Н (о возможных значениях числовых характеристик, о виде закона распределения…) которую называют статистической гипотезой. Из этой генеральной совокупности извлекается выборка x1 , x2 ,..., xn . Требуется указать правило, при помощи которого можно было бы по каждой данной выборке решить вопрос о том, следует ли отклонить гипотезу Н или принять ее. Нулевой гипотезой (основной) называют основную выдвигаемую гипотезу H 0 . Конкурирующей (альтернативной) называют гипотезу H 1 , которая противоречит нулевой гипотезе H 0 . Для проверки нулевой гипотезы H 0 используют специально подобранную случайную величину, которая рассчитывается по экспериментальной выборке, точное или приближенное распределение которой известно. Эту случайную величину К называют статистическим критерием. Зная закон распределения К можно определить вероятность попадания К в любой интервал, т.е. P  K   a; b для любых значений а и b. Обозначим:    a; b  . Уровнем значимости  называют условное достаточно малое значение вероятности P  K    , соответствующее практически невозможному событию K    . При этом область    a , b  называют критической областью. Областью допустимых значений считают область R    , так как P  K  R     1   достаточно велика при малых . Итак: при выбранном значении  для данной гипотезы H 0 известна критическая область   , в которую с вероятностью 1  критерий К попасть не должен. Если вычисленный по выборке критерий К оказался в критической области   , говорят о несоответствии гипотезы H 0 фактическим данным, т.е. об отсутствии оснований принять гипотезу H 0 . Если критерий К оказался вне критической области   , говорят о соответствии гипотезы фактическим данным, т.е об отсутствии оснований отвергать гипотезу H 0 . При статистической проверке правильности выдвигаемой гипотезы могут быть допущены ошибки двух родов: ошибка первого рода состоит в том, что гипотеза H 0 отвергнута, а она верна; ошибка второго рода состоит в том, что гипотеза H 0 принята, а она не верна. Критерием согласия называют критерий проверки статистической гипотезы о предполагаемом законе неизвестного распределения СВ. Критерий согласия Пирсона (критерий 2 ). Пусть выдвигается простая гипотеза H 0 , полностью определяющая вид функции распределения F  x  исследуемой СВ Х. При этом имеется выборка достаточно большого объема, которой соответствует определенный статистический ряд. В качестве критерия проверки справедливости гипотезы H 0 выбирается СВ: 2 s mi  npi   2 ,   np i 1 i где pi – теоретические относительные частоты появления величины xi , вычисленные в предположении гипотезы H 0 по известной плотности распределения вероятностей f  x  ; npi – теоретические абсолютные частоты появления xi . Эта величина при n   распределена по закону 2 с степенями свободы r  s  l  1, r где s – число различных значений СВ Х (количество интервалов группированной выборки), l – число параметров предполагаемого закона распределения. обладает симметрией, поэтому 2 не критическая область выбирается односторонней    02 ,   , значение  02 полностью определяются по уровню значимости  и данному значению r по таблице распределения 2 (приложение 2). Распределение Критерий 2 использует тот факт, что случайная величина mi  npi имеет распределение, близкое к нормальному N  0;1 . npi Чтобы это утверждение было достаточно точным, необходимо, чтобы для всех интервалов группированного статистического ряда выполнялось условие npi  5 . Если в некоторых интервалах это условие не выполняется, то их следует объединять с соседними. Так как после объединения остается меньше интервалов, то число степеней свободы следует вычислять, используя число вновь полученных интервалов. Пример Результаты измерений некоторой физической величины представлены в таблице: i 1 2 3 4 5 6 7 8 ai ; bi 1,5;1 1;3,5 3,5;6 6;8,5 8,5;11 11;13,5 13,5;16 16;18,5 mi 3 8 14 27 20 16 7 5 1. Найти функцию распределения выборки Fn*  x  и построить ее график. 2. Построить гистограмму относительных частот. 3. Найти числовые характеристики выборки: выборочное среднее x 2 и исправленную выборочную дисперсию S . 4. Используя функцию Лапласа, построить доверительный интервал для математического ожидания, соответствующий доверительной вероятности   0,95 . 5. С помощью критерия 2 (Пирсона) проверить гипотезу о нормальном распределении генеральной совокупности при уровне значимости   0,05 . Решение Объем выборки n  100 , длина интервала x  2,5 . Для нахождения эмпирической функции распределения Fn*  x  , построения гистограммы относительных частот и вычисления числовых характеристик выборки дополним заданную таблицу следующими строками: строкой, в которой расположим средние m точки xi* каждого интервала, строкой относительных частот i , n i m строкой накопленных относительных частот  j и строкой, в j 1 n которой вычислим высоты столбиков гистограммы относительных mi частот hi  . n  x Таблица 1 i ai ; bi mi xi* 1 1,5;1 5 8,5;1 1;3,5 3,5;6 6;8,5 1 3 8 14 27 20 0,25 2,25 4,75 7,25 9,75 mi 0,03 n i m j 0,03  j 1 n mi hi  n  x 0,012 2 3 4 6 11;13, 5 16 12,25 7 13,5;1 6 7 14,75 8 16;18, 5 5 17,25 0,08 0,14 0,27 0,2 0,16 0,07 0,05 0,11 0,25 0,52 0,72 0,88 0,95 1 0,03 2 0,05 6 0,10 8 0,08 0,064 0,028 0,02 1. Эмпирическая функция распределения Fn*  x  определяется по значениям накопленных относительных частот, которые расположены в шестой строке таблицы 1. Эта функция имеет скачки в точках xi* – серединах интервалов группированного статистического ряда. Аналитическое выражение эмпирической функции распределения имеет вид: x  0,25 0, 0,03,  0,25  x  2,25  0,11, 2,25  x  4,75  0,25, 4,75  x  7,25 Fn*  x   0,52, 7,25  x  9,75 . 0,72, 9,75  x  12,25  0,88, 12,25  x  14,75 0,95, 14,75  x  17,25  1, x  17,25 График эмпирической функции распределения Fn*  x  изображен на рис. 1. Fn*  x  1 0,95 0,88 0,72 0,52 0,25 0,11 0,03 -0,25 2,25 4,75 7,25 9,75 Рис. 1 12,25 14,75 17,25 х 2. Построим гистограмму относительных частот, для этого на каждом интервале группированной выборки строим столбики, высоты которых вычислены в седьмой строке таблицы 1. График гистограммы изображен на рис. 2. hi 0,108 0,08 0,064 0,056 0,032 0,028 0,02 0,012 -1,5 0 х 1 3,5 6 8,5 11 13,5 16 18,5 Рис. 2 3. Найдем числовые характеристики выборки. Выборочное 1 k * среднее находим по формуле x   xi mi , в нашем случае n i1 1   0, 25  3  2, 25  8  4,75 14  7, 25  27  9,75  20  12, 25 16  100  14,75  7  17, 25  5   8,6. Исправленную выборочную дисперсию находим по формуле 2 1 k * 2 S  x  x mi , в нашем случае  i n  1 i1 1 2 2 2 S 2   0,25  8,6   3   2,25  8,6   8   4,75  8,6  14  99  2 2 2   7,25  8,6   27   9,75  8,6   20  12,25  8,6  16  x    14,75  8,6   7  17,25  8,6   5  17,1 . 2 2 4. При большом объеме выборки доверительный интервал для математического ожидания имеет вид   J   mx   x    ; x    , где    S 2  1    . n Используя таблицу значений функции Лапласа (приложение 1) находим  1      1  0,95   1,96 .   17,1  1,96  0,81 , тогда доверительный 100 интервал для математического ожидания имеет вид J   mx   8,6  0,81;8,6  0,81 или J   mx    7,79;9,41 . Вычислим 5. Выдвигаем простую гипотезу H 0 о нормальном распределении генеральной совокупности. В качестве критерия проверки справедливости гипотезы выбирается случайная величина 2 s mi  npi   2 ,   np i 1 i где pi находятся по формуле вероятности попадания случайной величины в интервал в предположении гипотезы о нормальном законе  ai  x   1 b x pi    i      , 2   S   S   где   x   2 x  t2 2  e dt – функция Лапласа. 2 0 Замечание. Если использовать таблицу значений функции x t2  1 Лапласа   x   e 2 dt , то вероятности попадания случайной  2 0 величины в интервал в предположении гипотезы о нормальном законе распределения находится по формуле b x  ai  x  pi    i     .  S   S  s Для соблюдения условия p i 1 i  1 полагают a1   , bs   . Для вычисления критерия 2 составим расчетную таблицу: Таблица 2 I ai ; bi mi xi* bi ai bi  x S ai  x S b x  i   S  a x  i   S  pi npi 1 2 1,5;1 1;3,5 3 8 0,25 2,25 1 3,5 1  3 3,5;6 14 4,75 6 3,5 4 5 6 7 8 6;8,5 8,5;11 11;13,5 13,5;16 16;18,5 27 20 16 7 5 7,25 9,75 12,25 14,75 17,25 8,5 11 13,5 16  6 8,5 11 13,5 16 1,1849 1,7895  1,8378 1, 2333 0, 6287 0, 0241 0,5803 1,1849 1,7895 0,934 0, 783 0, 47 0, 019 0,438 0,764 0,926 1 1 0,934 0, 783 0, 47 0, 019 0,438 0,764 0,926 0,0755 0,1565 0,2255 0,2285 7,55 15,65 22,55 22,85 0,163 16,3 0,081 8,1 0,037 3,7 1,8378 1, 2333 0, 6287 0, 0241  0,033 3,3 0,5803 mi  npi  mi  npi  2  mi  npi  2 10,85 0,15 15,65 1,65 22,55 4,45 22,85 2,85 16,3 0,3 11,8 0,2 0,0225 2,7225 19,8025 8,1225 0,09 0,04 0,0020 0,1739 0,8781 0,3554 0,0055 0,0033 npi Находим сумму элементов 11-ой и 12-ой строк таблицы 2, 8 получаем p i 1 i  1, 8  np i 1 i  n  100 . Критерий  равен сумме элементов последней строки таблицы 2 12: 2    mi  npi  2  npi  0,002  0,1739  0,8781  0,3554  0,0055  0,0033  1,4182 . 02 ;   . Так как уровень значимости   0,05 по условию, число степеней свободы r  s  l  1  6  2  1  3, то согласно таблице распределения 2 02  7,82 , критическая область имеет вид  7,82;  . Находим критическую область Так как критерий 2  1,4182 не попал в критическую область 1,4182 7,82;  , то нет оснований отвергать гипотезу о нормальном законе распределения генеральной совокупности. 2.2. Выборка из двумерной генеральной совокупности Системой случайных величин (СВ) называют совокупность СВ, характеризующих состояние рассматриваемой системы или исход данного опыта. Обозначение:  X1 , X 2 ,..., X n  – n-мерная СВ. Каждую из величин X 1 , X 2 ,..., X n называют составляющей или компонентой. Различают дискретные и непрерывные многомерные СВ: дискретные – если составляющие этих величин дискретны, и непрерывные – когда составляющие этих величин непрерывны. Полной характеристикой ССВ является ее закон распределения, который может иметь разные формы: функция распределения, плотность распределения, таблица вероятностей отдельных значений случайного вектора и т.д. Рассмотрим двумерную СВ  X , Y  , возможные значения которой – пары чисел  x, y  . Закон распределения дискретной двумерной СВ  X , Y  может быть задан таблицей распределения (матрицей распределения) (таблица 3), элемент которой, стоящий на пересечении i-той строки и j-того столбца, равен вероятности того, что двумерная случайная величина  X , Y  имеет значение  xi , y j  : pij  P  X  xi ,Y  y j  . Таблица 3 yj y1 y2 … yj … yl x1 p11 p12 … p1 j … p1l x2 p21 p22 … p2 j … p2l … … … … pi1 pi 2 … … … xi … … … … … … pk1 pk 2 … … … xk … … xi pij pkj pil pkl События  X  xi ,Y  y j  при i  1,2,..., k , j  1,2,..., l образуют полную группу, поэтому сумма всех вероятностей pij  P  X  xi ,Y  y j  равна единице: k l  p i 1 j 1 ij  1. Зная матрицу распределения двумерной ДСВ можно найти законы распределения каждой из составляющих. Чтобы найти вероятность того, что одномерная случайная величина Х или Y примет значение X  xi или Y  y j , следует сложить все вероятности pij , стоящие в строке с номером i или столбце с номером j. Две случайные величины Х и Y называются независимыми, если закон распределения каждой из них не зависит от того, какое возможное значение приняла другая случайная величина. В противном случае величины Х и Y называются зависимыми. При изучении двумерных случайных величин рассматриваются числовые характеристики одномерных составляющих Х и Y математические ожидания и дисперсии: M  X , M Y , D  X , D Y  . Также рассматриваются условные математические ожидания и условные дисперсии. Например, условным математическим ожиданием одной из случайных величин, входящих в систему  X , Y  , называется ее математическое ожидание, вычисленное при условии, что другая случайная величина приняла определенное значение. Условное математическое ожидание случайной величины Y при заданном X  x , т.е. функция f  x   M Y / X  x  , называется функцией регрессии случайной величины Y относительно случайной величины Х (у на х). График этой функции называется линией регрессии у на х. Аналогично определяется функция регрессии х на у, Числовые характеристики системы не исчерпываются числовыми характеристиками случайных величин, входящих в систему. Может иметь место взаимная связь между случайными величинами, составляющими систему. Для ее описания вводят в рассмотрение числовую характеристику – корреляционный момент. Корреляционным моментом (или ковариацией) K xy случайных величин Х и Y называется математическое ожидание произведения отклонения этих величин от своих математических ожиданий: K xy  M  X  mx  Y  m y   . Эта характеристика помимо рассеяния величин Х и Y описывает еще и связь между ними. Если случайные величины Х и Y независимы друг от друга, то корреляционный момент K xy равен нулю. Обратное утверждение неверно, т.е. из равенства нулю корреляционного момента K xy случайных величин Х и Y. Формула для вычисления дискретных случайных величин: не следует независимость корреляционного момента K xy    xi  mx   y j  m y  pij . k l i 1 j 1 Для характеристики связи между величинами Х и Y в чистом виде переходят от момента K xy к безразмерной характеристике коэффициенту корреляции случайных величин Х и Y: K xy , rxy  x y где  x и  y – средние квадратические отклонения величин Х и Y. Коэффициент корреляции принимает значения на отрезке  1;1 : 1  rxy  1. Если случайные величины Х и Y независимы, то их коэффициент корреляции равен нулю. Случайные величины, для которых корреляционный момент, а значит и коэффициент корреляции, равен нулю, называется некоррелированными (несвязанными). Две независимые случайные величины всегда являются некоррелированными. Обратное утверждение не всегда верно, могут быть случаи, когда случайные величины являются некоррелированными, но зависимыми. Если rxy  n  1  3 , где n – число двумерных случайных величин, то связь между случайными величинами Х и Y достаточно вероятна. Рассмотрим выборку из двумерной генеральной совокупности, отождествляемой с системой двух случайных величин  X , Y  . В результате n независимых наблюдений получили n пар чисел:  x1 , y1  ,  x2 , y2  , ...,  xn , yn  . Статистический материал сводят в корреляционную таблицу (таблица 4): Таблица 4 yj y1 y2 … yj … yl mxi x1 m11 m12 … m1 j … m1l mx1 x2 m21 m22 … m2 j … m2l mx2 … … … … mi1 mi 2 … … … xi … … … … … xk my j mk 1 mk 2 m y1 m y2 xi mij … … … mil … … mkj mxi … my j mkl mxk m yl n где mij - частоты наблюденных пар значений признаков k l  m i 1 j 1 ij  x , y , i j  n , n – объем выборки. Если по данным корреляционной таблицы построить законы распределения для каждой компоненты X и Y, то числовые характеристики выборки можно найти по формулам: выборочные средние значения компонент 1 l 1 k x   xi mxi , y   y j m y j ; n j 1 n i1 выборочные дисперсии компонент 2 2 1 l 1 k 2 2 2 2 S x   x ,в   xi  x mxi , S y   у ,в   y j  y m y j n j 1 n i1 или 2 2 1 l 2 1 k 2 2 2  x ,в   xi mxi  x ,  у ,в   y j m y j  y ; n j 1 n i1 выборочный корреляционный момент 1 k l K xy ,в   xi  x y j  y mij n i1 j 1 или k l 1 K xy ,в   xi y j mij  x  y ; n i1 j 1 выборочный коэффициент корреляции        rxy ,в  K xy ,в  х ,в  у ,в ; условные средние компонент l k xy  xm i xi y m j 1 j yj , yx  , nx ny где усреднение ведется в 1-ой формуле лишь по тем xi , которые появились совместно с данным у, а во 2-ой формуле лишь по тем y j , которые появились совместно с данным х. i 1 Функция регрессии имеет важное значение при статистическом анализе зависимостей и может быть использована для прогнозирования значений одной из СВ, если известны значения другой СВ. Точность такого прогноза определяется условной дисперсией. Однако возможности практического применения функции регрессии весьма ограничены, так как для ее использования необходимо знать аналитический вид двумерного распределения  X , Y  . Поэтому идут на упрощение и вместо корреляционной зависимости рассматривают статистическую зависимость, которая устанавливает функциональную связь между значениями одной из величин и условным средним другой величины, например yX  f  x  , эта функция называется эмпирической функцией регрессии, а ее график – эмпирической линией (кривой) регрессии. На практике получают лишь оценку кривой регрессии, так как число значений величины Х в выборке конечно. Функция регрессии обладает замечательным свойством – она дает наименьшую среднюю погрешность оценки прогноза, т.е. величина 2 M  Y  f  x      является минимальной именно для функции yX  f  x  . На этом свойстве построен метод наименьших квадратов для определения неизвестных параметров функции регрессии. Сущность метода наименьших квадратов состоит в выборе линии регрессии таким образом, чтобы сумма квадратов отклонений экспериментальных значений Y от теоретических была наименьшей. Для иллюстрации метода рассмотрим частный случай линейной регрессии y X  ax  b . По данным выборки требуется определить параметры а и b. Строим функцию S  a; b  : n S  a; b     axi  b  yi  . 2 i 1 Используя корреляционную таблицу функцию S  a; b  можно записать в виде S  a; b     axi  b  y j  mij . k l 2 i 1 j 1 Составляем необходимые условия экстремума: k l  S  a  2  axi  b  y j  xi mij  0 i 1 j 1  .  k l  S  2  axi  b  y j  mij  0   b i 1 j 1 После упрощения система примет вид: k k  k 2 a  xi mxi  b xi mxi   xi y xi mxi  i 1 i 1 i 1 .  k k a x m  bn  y xi mxi  i xi   i 1 i 1 Последнюю систему называют нормальной, решая ее получаем значения неизвестных коэффициентов а и b. Уравнение регрессии можно также найти путем вычисления коэффициента регрессии. Уравнение регрессии у на х можно записать в виде  y ,в y X  y  rxy ,в  xx .  x ,в  Число  yx  rxy ,в  y ,в называют коэффициентом регрессии у на х.  x ,в   Пример Двумерная выборка результатов совместных измерений признаков х и у объемом n  100 измерений задана корреляционной таблицей: Таблица 5 Y mxi 3 4,2 5,4 6,6 7,8 X 1,2 2 3 – – – 5 3 3 8 2 – – 13 4,8 – 14 18 – – 32 6,6 – – 10 8 – 18 8,4 – – 9 10 – 19 10,2 – – 3 6 1 10 12 – – – 1 2 3 my j 5 25 42 25 3 100 1. Найти выборочные средние x, y и выборочные дисперсии  x ,в ,  y ,в . 2. Построить уравнение линии регрессии у на х в виде yx  ax  b . 3. На графике изобразить корреляционное поле, т.е. нанести точки  xi , y j  и построить прямую yx  ax  b . Решение 1. Запишем законы распределения для случайных величин Х и Y: xi 1,2 3 4,8 6,6 8,4 10,2 12 mxi 5 13 32 18 19 10 3 yj 3 4,2 5,4 6,6 7,8 my j 5 25 42 25 3 Найдем числовые характеристики. Выборочные средние: 1 k x   xi mxi , n i1 1 x 1,2  5  3 13  4,8  32  6,6 18  8,4 19  10,2 10  12  3  6,15 100 , 1 l y   y j my j , n j 1 1 535,2 y  5,352 ;  3  5  4,2  25  5,4  42  6,6  25  7,8  3  100 100 выборочные дисперсии: 2 1 k 2 2  x ,в   xi mxi  x , n i1 1 2x ,в  (1,44  5  9  13  23,04  32  43,56  18  70,56  19  104,04  10  100 4458,6 2  144  3)   6,15   37,8225  6,7635, 100 l 2 1  2у ,в   y j 2 m y j  y , n j 1 1 2 2у ,в   9  5  17,64  25  29,16  42  43,56  25  60,84  3   5,352   100  29,8224  28,6439  1,1785. 2. Найдем уравнение линии регрессии y X  ax  b у на х по методу наименьших квадратов, для этого составим систему уравнений для нахождения коэффициентов а и b: k k  k 2 a  xi mxi  b xi mxi   xi y xi mxi  i 1 i 1 i 1 ,  k k a x m  bn  y xi mxi  i xi   i 1 i 1 выше при вычислении числовых характеристик было найдено: 7 x m i 1 2 i xi  4458,6 , 7 x m i 1 i xi  615 . Используя корреляционную таблицу каждому варианту xi признака Х поставим в соответствие среднее арифметическое y xi соответствующих ему (входящих с ним в пару) значений признака Y, т.е. 1 l xi  y xi   y j mij , mxi j 1 результаты вычислений сведем в таблицу (таблица 6). 1,2 3,72 xi y xi 3 4,8 4,10769 4,875 6,6 8,4 5,9333 6,03157 Таблица 6 10,2 12 6,36 7,4 Вычислим: 7 x y i 1 i xi mxi  1,2  3,72  5  3  4,10769  13  4,8  4,875  32  6,6  5,9333  18   8,4  6,03157  19  10,2  6,36  10  12  7,4  3  3513,9545, 7 y i 1 xi mxi  3,72  5  4,10769 13  4,875  32  5,9333 18  6,03157 19   6,36 10  7,4  3  535,1992. Подставим найденные коэффициенты и свободные члены в систему, получим 4458,6a  615b  3513,9545 .  615 a  100 b  535,1992  Решим систему по формулам Крамера: 4458,6 615 3513,9545 615   67635,  a   22247,942, 615 100 535,1992 100 b  тогда 4458,6 3513,9545 615 535,1992  225157,1356, a  a 22247,942  225157,1356   0,33, b  b   3,33 .  67635  67635 Таким образом, эмпирическая функция регрессии у на х имеет вид: y X  0,33x  3,33 . Найдем ту же эмпирическую функцию регрессии у на х путем вычисления коэффициента регрессии  y ,в  yx  rxy ,в  .  x ,в Найдем:  x,в  2x,в  6,7635  2,6 ,  y ,в  2у ,в  1,1785  1,0856 , выборочный корреляционный момент найдем по формуле 1 k K xy ,в   xi y xi mxi  x  y , n i1 в нашем случае 1 K xy ,в   3513,9545  6,15  5,352  2,2247 , 100 выборочный коэффициент корреляции найдем по формуле K xy ,в , rxy ,в   х ,в  у ,в в нашем случае 2,2247 rxy ,в   0,788 . 2,6 1,0856 Проверим гипотезу о существования связи между факторами Х и Y, вычислим rxy ,в  n  1 : 0,788  100  1  7,84  3 , следовательно, связь достаточно вероятна. Подставим найденные значения x, y, rxy ,в ,  x ,в ,  y ,в в уравнение y X  y  rxy ,в   y ,в  x ,в  x  x , получим 1,0856  x  6,15  , 2,6 после преобразований получаем уравнение эмпирической функции регрессии у на х y X  0,33x  3,33 . y X  5,352  0,788  3. Изобразим корреляционное поле и построим прямую y X  0,33x  3,33 (рис. 3). 10 8 6 Y y ( x) 4 2 0 0 2 4 6 8 10 12 Xx Рис. 3 КРАТКОЕ СОДЕРЖАНИЕ (ПРОГРАММА) КУРСА Математическая статистика Предмет и задачи математической статистики. Генеральная и выборочная совокупности. Статистический ряд распределения. Группированный статистический ряд. Полигон частот и относительных частот. Гистограмма частот и относительных частот. Эмпирическая функция распределения, ее свойства. Числовые характеристики выборки. Понятие точечной оценки. Критерии качества точечных оценок. Метод моментов и метод наибольшего правдоподобия. Доверительные интервалы. Основные этапы решения задачи о статистической проверке гипотез. Критерий согласия 2 (Пирсона). Выборка из двумерной генеральной совокупности, ее характеристики. Функция регрессии. Метод наименьших квадратов для нахождения неизвестных параметров функции регрессии. Приложение 1 Значения функции Лапласа   x  2 x e  2  t2 2 dt 0 х (х) х (х) х (х) х (х) 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10 0,11 0,12 0,13 0,14 0,15 0,16 0,17 0,18 0,19 0,20 0,21 0,22 0,23 0,24 0,25 0,26 0,27 0,28 0,29 0,0000 0,0080 0,0160 0,0239 0,0319 0,0399 0,0478 0,0558 0,0638 0,0717 0,0797 0,0876 0,0955 0,1034 0,1113 0,1192 0,1271 0,1350 0,1428 0,1507 0,1585 0,1663 0,1741 0,1819 0,1897 0,1974 0,2051 0,2128 0,2205 0,2282 0,30 0,31 0,32 0,33 0,34 0,35 0,36 0,37 0,38 0,39 0,40 0,41 0,42 0,43 0,44 0,45 0,46 0,47 0,48 0,49 0,50 0,51 0,52 0,53 0,54 0,55 0,56 0,57 0,58 0,59 0,2358 0,2434 0,2510 0,2586 0,2661 0,2737 0,2812 0,2886 0,2961 0,3035 0,3108 0,3182 0,3255 0,3328 0,3401 0,3473 0,3545 0,3616 0,3688 0,3759 0,3829 0,3899 0,3969 0,4039 0,4108 0,4177 0,4245 0,4313 0,4381 0,4448 0,60 0,61 0,62 0,63 0,64 0,65 0,66 0,67 0,68 0,69 0,70 0,71 0,72 0,73 0,74 0,75 0,76 0,77 0,78 0,79 0,80 0,81 0,82 0,83 0,84 0,85 0,86 0,87 0,88 0,89 0,4515 0,4581 0,4647 0,4713 0,4878 0,4843 0,4907 0,4971 0,5035 0,5098 0,5161 0,5223 0,5285 0,5346 0,5407 0,5467 0,5527 0,5587 0,5646 0,5705 0,5763 0,5821 0,5878 0,5935 0,5991 0,6047 0,6102 0,6157 0,6211 0,6265 0,90 0,91 0,92 0,93 0,94 0,95 0,96 0,97 0,98 0,99 1,00 1,01 1,02 1,03 1,04 1,05 1,06 1,07 1,08 1,09 1,10 1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,18 1,19 0,6319 0,6372 0,6424 0,6476 0,6528 0,6579 0,6629 0,6680 0,6729 0,6778 0,6827 0,6875 0,6923 0,6970 0,7017 0,7063 0,7109 0,7154 0,7199 0,7243 0,7287 0,7330 0,7373 0,7415 0,7457 0,7499 0,7540 0,7580 0,7620 0,7660 х 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30 1,31 1,32 1,33 1,34 1,35 1,36 1,37 1,38 1,39 1,40 1,41 1,42 1,43 1,44 1,45 1,46 1,47 1,48 1,49 (х) 0,7699 0,7737 0,7775 0,7813 0,7850 0,7887 0,7923 0,7959 0,7995 0,8029 0,8064 0,8098 0,8132 0,8165 0,8198 0,8230 0,8262 0,8293 0,8324 0,8355 0,8385 0,8415 0,8444 0,8473 0,8501 0,8529 0,8557 0,8584 0,8611 0,8638 х 1,50 1,51 1,52 1,53 1,54 1,55 1,56 1,57 1,58 1,59 1,60 1,61 1,62 1,63 1,64 1,65 1,66 1,67 1,68 1,69 1,70 1,71 1,72 1,73 1,74 1,75 1,76 1,77 1,78 1,79 (х) 0,8664 0,8690 0,8715 0,8740 0,8764 0,8789 0,8812 0,8836 0,8859 0,8882 0,8904 0,8926 0,8948 0,8969 0,8990 0,9011 0,9031 0,9051 0,9070 0,9090 0,9109 09127 0,9146 0,9164 0,9181 0,9199 0,9216 0,9233 0,9249 0,9265 х 1,80 1,81 1,82 1,83 1,84 1,85 1,86 1,87 1,88 1,89 1,90 1,91 1,92 1,93 1,94 1,95 1,96 1,97 1,98 1,99 2,00 2,05 2,10 2,15 2,20 2,25 2,30 2,35 2,40 2,45 (х) 0,9281 0,9297 0,9312 0,9328 0,9342 0,9357 0,9371 0,9385 0,9399 0,9412 0,9426 0,9432 0,9451 0,9464 0,9476 0,9488 0,9500 0,9512 0,9523 0,9534 0,9545 0,9596 0,9643 0,9684 0,9722 0,9756 0,9786 0,9812 0,9836 0,9857 х 2,50 2,55 2,60 2,65 2,70 2,75 2,80 2,85 2,90 2,95 3,00 3,10 3,20 3,30 3,40 3,50 3,60 3,70 3,80 3,90 4,00 4,42 4,89 5,33 (х) 0,9876 0,9892 0,9907 0,9920 0,9931 0,9940 0,9949 0,9956 0,9963 0,9968 0,9973 0,9981 0,9986 0,9990 0,9993 0,9995 0,9997 0,9998 0,9999 0,9999 0,9999 1-10-5 1-10-6 1-10-7 Приложение 2 Таблица значений 2 в зависимости от r=n-1 и p. р n-1 0,99 0,98 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,02 0,01 0,001 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0,000 0,020 0,115 0,297 0,554 0,872 1,239 1,646 2,09 2,56 3,05 3,57 4,11 4,66 5,23 5,81 6,41 7,02 7,63 8,26 8,90 9,54 10,20 10,86 11,52 12,20 12,88 13,56 14,26 14,95 0,001 0,040 0,185 0,429 0,752 1,134 1,564 2,03 2,53 3,06 3,61 4,18 4,76 5,37 5,98 6,61 7,26 7,91 8,57 9,24 9,92 10,60 11,29 11,99 12,70 13,41 14,12 14,85 15,57 16,31 0,004 0,103 0,352 0,711 1,145 1,635 2,17 2,73 3,32 3,94 4,58 5,23 5,89 6,57 7,26 7,96 8,67 9,39 10,11 10,85 11,59 12,34 13,09 13,85 14,61 15,38 16,15 16,93 17,71 18,49 0,016 0,211 0,584 1,064 1,610 2,20 2,83 3,49 4,17 4,86 5,58 6,30 7,04 7,79 8,55 9,31 10,08 10,86 11,65 12,44 13,24 14,04 14,85 15,66 16,47 17,29 18,11 18,94 19,77 20,6 0,064 0,446 1,005 1,649 2,34 3,07 3,82 4,59 5,38 6,18 6,99 7,81 8,63 9,47 10,31 11,15 12,00 12,86 13,72 14,58 15,44 16,31 17,19 18,06 18,94 19,82 20,7 21,6 22,5 23,4 0,148 0,713 1,424 2,20 3,00 3,93 4,67 5,53 6,39 7,27 8,15 9,03 9,93 10,82 11,72 12,62 13,53 14,44 15,35 16,27 17,18 18,10 19,02 19,94 20,9 21,8 22,7 23,6 24,6 25,5 0,455 1,386 2,37 3,36 4,35 5,35 6,35 7,34 8,34 9,34 10,34 11,34 12,34 13,34 14,34 15,34 16,34 17,34 18,34 19,34 20,3 21,3 22,3 23,3 24,3 25,3 26,3 27,3 28,3 29,3 1,074 2,41 3,66 4,88 6,06 7,23 8,38 9,52 10,66 11,78 12,90 14,01 15,12 16,22 17,32 18,42 19,51 20,6 21,7 22,8 23,9 24,9 26,0 27,1 28,2 29,2 30,3 31,4 32,5 33,5 1,642 3,22 4,64 5,99 7,29 8,56 9,80 11,03 12,24 13,44 14,63 15,81 16,98 18,15 19,31 20,5 21,6 22,8 23,9 25,0 26,2 27,3 28,4 29,6 30,7 31,8 32,9 34,0 35,1 36,2 2,71 4,60 6,25 7,78 9,24 10,64 12,02 13,36 14,68 15,99 17,28 18,55 19,81 21,1 22,3 23,5 24,8 26,0 27,2 28,4 29,6 30,8 32,0 33,2 34,4 35,6 36,7 37,9 39,1 40,3 3,84 5,99 7,82 9,49 11,07 12,59 14,07 15,51 16,92 18,31 19,68 21,0 22,4 23,7 25,0 26,3 27,6 28,9 30,1 31,4 32,7 33,9 35,2 36,4 37,7 38,9 40,1 41,3 42,6 43,8 5,41 7,82 9,34 11,67 13,39 15,03 16,62 18,17 19,68 21,2 22,6 24,1 25,5 26,9 28,3 29,6 31,0 32,3 33,7 35,0 36,3 37,7 39,0 40,3 41,7 42,9 44,1 45,4 46,7 48,0 6,64 9,21 11,84 13,28 15,09 16,81 18,48 20,1 21,7 23,2 24,7 26,2 27,7 29,1 30,6 32,0 33,4 34,8 36,7 37,6 38,9 40,3 41,6 43,0 44,3 45,6 47,0 48,3 49,6 50,9 10,83 13,82 16,27 18,46 20,5 22,5 24,3 26,1 27,9 29,6 31,3 32,9 34,6 36,1 37,7 39,3 40,8 42,3 43,8 45,3 46,8 48,3 49,7 51,2 52,6 54,1 55,5 56,9 58,3 59,7

MATEMATIChESKAYa STATISTIKA Men (1)

Related documents

Products

Support

MATEMATIChESKAYa STATISTIKA Men (1)

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib