И.А. Палий Учебное пособие

advertisement
И.А. Палий
Учебное пособие
100
80
60
40
20
0
1
2
3
4
5
6
Министерство образования РФ
Сибирская государственная автомобильно-дорожная академия
(СибАДИ)
И.А. ПАЛИЙ
ПРИКЛАДНАЯ СТАТИСТИКА
Учебное пособие
Допущено Министерством образования Российской федерации в качестве
учебного пособия для студентов высших учебных заведений,
обучающихся по направлению 55000 Технические науки и социальноэкономическим специальностям
Омск
Издательство СибАДИ
2003
УДК 311
ББК 60.6
П 14
Рецензенты:
доктор педагогических наук, профессор В.А.Долингер, кандидат
экономических наук, доцент В.В.Мыльников
Работа одобрена редакционно - издательским советом академии в
качестве учебного пособия по дисциплине “Статистика” для
специальностей 060811 – Экономика и управление на предприятиях
строительства и 060813 - Экономика и управление на предприятиях
автотранспорта.
Палий И.А.
ПРИКЛАДНАЯ СТАТИСТИКА: Учебное пособие. – Омск: Изд-во
СибАДИ, 2000.Ч.1.-79с.
Учебное пособие составлено на основании рабочей программы
дисциплины “Статистика” и предназначено для студентов всех форм
обучения СибАДИ. Рассмотрены следующие разделы курса: выборка, ее
графическое представление и числовые характеристики, двумерные
выборки, временные ряды, экономические индексы. Изложение
сопровождается подробно разобранными примерами, иллюстрациями,
диаграммами.
Ил. 21. Табл. 24. Библиогр.: 21 назв.
© И.А.Палий, 2000
© Издательство СибАДИ, 2000
ISBN 5-93204-030-0
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ............................................................................................................................... 7
1. ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ И ВЫБОРКА .....................................................
ИЗ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ.......................................................................... 8
2. ВЫБОРКА, ЕЕ ПРЕДСТАВЛЕНИЕ И ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ ...... 10
2.1. ПРЕДСТАВЛЕНИЕ ВЫБОРКИ ................................................................................. 10
2.1.1. Таблица частот и интервальная таблица частот ............................................ 10
2.1.2. Графическое представление выборки............................................................. 12
2.2. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ ВЫБОРКИ ....................................................... 15
2.2.1. Выборочное среднее, мода, медиана .............................................................. 15
2.2.2. Квартили, декатили, персентили ..................................................................... 17
2.2.3. Измерение разброса: размах, выборочная дисперсия, выборочное.................
среднее квадратическое отклонение (стандартное отклонение), ...............................
коэффициент вариации............................................................................................... 18
2.2.4. О симметричных и несимметричных распределениях ................................. 19
2.2.5. Вычисление выборочного среднего и выборочной дисперсии для .................
объединения двух выборок ........................................................................................ 20
2.2.6. Общая, межгрупповая и внутригрупповая дисперсии .................................. 22
2.2.7. Кривая Лоренца и показатели концентрации................................................. 22
2.3. ЗАДАЧИ........................................................................................................................ 25
3. ОБРАБОТКА РЕЗУЛЬТАТОВ НАБЛЮДЕНИЙ...................................................... 31
ПО МЕТОДУ НАИМЕНЬШИХ КВАДРАТОВ .............................................................. 31
3.1. ДВУМЕРНЫЕ ВЫБОРКИ .......................................................................................... 31
3.2. ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ДВУМЕРНЫХ ВЫБОРОК — .......................
ДИАГРАММЫ РАССЕЯНИЯ ........................................................................................... 33
3.3. ВЫБОРОЧНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ — ЧИСЛОВАЯ.................... 35
ХАРАКТЕРИСТИКА ДВУМЕРНОЙ ВЫБОРКИ ........................................................... 35
3.4. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ................................................................ 37
3.5. ДРУГИЕ УРАВНЕНИЯ РЕГРЕССИИ ....................................................................... 41
3.5.1. Парабола второго порядка ............................................................................... 41
3.5.2. Показательная функция.................................................................................... 41
3.5.3. Степенная функция........................................................................................... 42
3.5.4. Гиперболическая функция ............................................................................... 42
3.5.5. О квазилинейном уравнении регрессии ......................................................... 42
3.5.6. Пример построения нелинейного уравнения регрессии ............................... 44
3.6. РАСЧЕТ КОЭФФИЦИЕНТОВ ЛИНЕЙНОГО УРАВНЕНИЯ................................ 46
РЕГРЕССИИ ПО СГРУППИРОВАННЫМ ДАННЫМ .................................................. 46
3.7. ИНДЕКС КОРРЕЛЯЦИИ............................................................................................ 47
3.8. ИНДЕКС ФЕХНЕРА И КОРРЕЛЯЦИОНННОЕ ОТНОШЕНИЕ ........................... 48
3.9.ЗАДАЧИ......................................................................................................................... 51
4. ВРЕМЕННЫЕ РЯДЫ......................... ОШИБКА! ЗАКЛАДКА НЕ ОПРЕДЕЛЕНА.
4.1. ЧТО ТАКОЕ ВРЕМЕННОЙ РЯД..................... Ошибка! Закладка не определена.
4.2. ПОНЯТИЕ ОБ АНАЛИЗЕ ВРЕМЕННЫХ РЯДОВ ...............Ошибка! Закладка не
определена.
4.2.1. О значениях временного ряда................ Ошибка! Закладка не определена.
4.2.2. Тренды временных рядов....................... Ошибка! Закладка не определена.
4.2.2.1 Линейный тренд........................... Ошибка! Закладка не определена.
4.2.2.2. Параболический тренд ............... Ошибка! Закладка не определена.
4.2.2.3. Показательная функция ............. Ошибка! Закладка не определена.
4.2.2.4. Исключение трендовой составляющей ...........Ошибка! Закладка не
определена.
4.2.2.5. Скользящие средние................... Ошибка! Закладка не определена.
4.2.3. Сезонные колебания и индексы сезонности ...............Ошибка! Закладка не
определена.
4.3. Задачи.................................................................. Ошибка! Закладка не определена.
5. ПОНЯТИЕ ОБ ИНДЕКСАХ ............. ОШИБКА! ЗАКЛАДКА НЕ ОПРЕДЕЛЕНА.
5.1. ИНДИВИДУАЛЬНЫЕ (ЧАСТНЫЕ) ИНДЕКСЫ .................Ошибка! Закладка не
определена.
5.2. ОБЩИЕ ИНДЕКСЫ .......................................... Ошибка! Закладка не определена.
5.2.1. Агрегатные индексы ............................... Ошибка! Закладка не определена.
5.2.2. Средние индексы..................................... Ошибка! Закладка не определена.
5.2.3. Индексы цен ............................................ Ошибка! Закладка не определена.
5.2.4. Дефлятирование стоимостных величин Ошибка! Закладка не определена.
5.3. ЗАДАЧИ.............................................................. Ошибка! Закладка не определена.
6. ПРОВЕРКА ГИПОТЕЗЫ О ЗАКОНЕ РАСПРЕДЕЛЕНИЯ ГЕНЕРАЛЬНОЙ
СОВОКУПНОСТИ ПО КРИТЕРИЮ ПИРСОНА (КРИТЕРИЮ χ2) ........................ 56
6.1. ПРИМЕР ....................................................................................................................... 56
6.2. НЕМНОГО ТЕОРИИ ................................................................................................... 59
1.3. ДРУГИЕ ПРИМЕРЫ ................................................................................................... 62
6.3.1. Проверка гипотезы о нормальном законе распределения ............................ 62
6.3.2. Проверка гипотезы о равномерном законе распределения .......................... 64
6.3.3. Проверка гипотезы о биномиальном законе распределения ........................ 66
6.3.4. Проверка гипотезы о законе распределения Пуассона ................................. 67
6.3.5. Последний пример ............................................................................................ 68
6.4. ЗАДАЧИ........................................................................................................................ 70
7. ПОНЯТИЕ О ТОЧЕЧНЫХ И ИНТЕРВАЛЬНЫХ ОЦЕНКАХ ПАРАМЕТРОВ
ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ . ОШИБКА! ЗАКЛАДКА НЕ ОПРЕДЕЛЕНА.
7.1. ВЫБОРОЧНЫЕ СТАТИСТИКИ...................... Ошибка! Закладка не определена.
7.2. ТОЧЕЧНЫЕ ОЦЕНКИ ПАРАМЕТРОВ ГЕНЕРАЛЬНОЙ ..Ошибка! Закладка не
определена.
СОВОКУПНОСТИ .................................................. Ошибка! Закладка не определена.
7.3. О ТОЧНОСТИ И НАДЁЖНОСТИ ТОЧЕЧНЫХ ОЦЕНОК .Ошибка! Закладка не
определена.
7.3.1. Ещё об определении нужного объёма выборки..........Ошибка! Закладка не
определена.
7.4. ПОНЯТИЕ ОБ ИНТЕРВАЛЬНЫХ ОЦЕНКАХ ПАРАМЕТРОВ ................Ошибка!
Закладка не определена.
ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ ..................... Ошибка! Закладка не определена.
7.4.1. Построение доверительного интервала для неизвестного................................
математического ожидания a нормально распределённой генеральной Ошибка!
Закладка не определена.
совокупности, когда дисперсия σ2 генеральной совокупности известна ..Ошибка!
Закладка не определена.
7.4.2. Построение доверительного интервала для неизвестной .................................
вероятности p “успеха” .................................... Ошибка! Закладка не определена.
7.4.3. Построение доверительного интервала для неизвестного................................
математического ожидания нормально распределённой генеральной .....................
совокупности, когда дисперсия σ2 генеральной совокупности неизвестна
............................................................................. Ошибка! Закладка не определена.
7.4.4. Построение доверительного интервала для неизвестной дисперсии ..............
σ2 нормально распределённой генеральной совокупности..Ошибка! Закладка не
определена.
7.4.5. Построение доверительного интервала для разности математических ..........
ожиданий нормально распределенных генеральных совокупностей........Ошибка!
Закладка не определена.
7.5. ЗАДАЧИ.............................................................. Ошибка! Закладка не определена.
8. ПОНЯТИЕ О ПРОВЕРКЕ СТАТИСТИЧЕСКИХ ГИПОТЕЗ……………… 120
8.1. ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ......................... Ошибка! Закладка не определена.
8.1.1. Что такое статистическая гипотеза ....... Ошибка! Закладка не определена.
8.1.2. О процедуре проверки нулевой гипотезы ...................Ошибка! Закладка не
определена.
8.1.3. Ошибки, допускаемые при проверке статистических гипотез.........Ошибка!
Закладка не определена.
8.2. ПРОВЕРКА ПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ ...........ОШИБКА! ЗАКЛАДКА НЕ
ОПРЕДЕЛЕНА.
ПО КРИТЕРИЯМ ЗНАЧИМОСТИ ......... ОШИБКА! ЗАКЛАДКА НЕ ОПРЕДЕЛЕНА.
8.2.1. Проверка гипотезы о значении матаматического ожидания............Ошибка!
Закладка не определена.
8.2.1.1. Случай, когда дисперсия σ2 генеральной совокупности известна
............................................................................. Ошибка! Закладка не определена.
8.2.1.2. Проверка гипотезы о значении вероятности "успеха" .........Ошибка!
Закладка не определена.
8.2.1.3. Проверка гипотезы о значении математического ожидания, когда ...
дисперсия генеральной совокупности неизвестна ...............Ошибка! Закладка не
определена.
8.2.2. Проверка гипотезы о равенстве математических ожиданий двух ...................
генеральных совокупностей ............................ Ошибка! Закладка не определена.
8.2.2.1. Случай, когда дисперсии σ12 и σ22 считаются известными .Ошибка!
Закладка не определена.
8.2.2.2. Случай, когда σ12 и σ22 неизвестны, но известнно, что σ12 = σ22….130
8.2.3. Проверка гипотезы о значении дисперсии ..................Ошибка! Закладка не
определена.
8.2.4. Проверка гипотезы о равенстве дисперсий двух генеральных ........................
совокупностей ................................................... Ошибка! Закладка не определена.
8.2.5. Проверка гипотезы о значении коэффициента корреляции ρ ..........Ошибка!
Закладка не определена.
8.3. ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ ..............Ошибка! Закладка не
определена.
8.3.1. Проверка гипотезы о законе распределения генеральноой .............................
совокупности по критерию Колмогорова ─ Смирнова (λ - критерию) .....Ошибка!
Закладка не определена.
8.3.2. Проверка гипотезы об извлечении двух выборок из одной и той же..............
генеральной совокупности............................... Ошибка! Закладка не определена.
8.3.2.1. Проверка по λ - критерию ......... Ошибка! Закладка не определена.
8.3.2.2. Проверка по критерию Вилкоксона ................Ошибка! Закладка не
определена.
8.3.2.3. Критерий знаков......................... Ошибка! Закладка не определена.
8.3.3. Проверка гипотезы о независимости двух дискретных случайных ................
величин .............................................................. Ошибка! Закладка не определена.
8.4. РАНГОВАЯ КОРРЕЛЯЦИЯ..................... Ошибка! Закладка не определена.
8.4.1. Коэффициент ранговой корреляции Спирмена ..........Ошибка! Закладка не
определена.
8.4.2. Связанные ранги ..................................... Ошибка! Закладка не определена.
8.4.3. Коэффициент ранговой корреляции Кендэла .............Ошибка! Закладка не
определена.
8.4.4. Коэффициент конкордации Кендэла..... Ошибка! Закладка не определена.
8.5. ЗАДАЧИ.............................................................. Ошибка! Закладка не определена.
Нормальное распределение...................................... Ошибка! Закладка не определена.
Распределение Стьюдента........................................ Ошибка! Закладка не определена.
χ2 - распределение ..................................................... Ошибка! Закладка не определена.
Распределение Фишера ............................................ Ошибка! Закладка не определена.
Библиографический список…………………………………………………………. 166
ВВЕДЕНИЕ
Жизнь – без начала и конца,
Нас всех подстерегает случай.
А. Блок. Haрод и поэт
Статистика изучает случайные явления, которые, по своей сути, не
поддаются однозначному описанию и прогнозированию. Например, нельзя
абсолютно точно предсказать, сколько человек родится или умрет в стране
за данный промежуток времени. Нельзя с точностью до копейки (цента,
сантима) определить доход некоторой семьи за определенный промежуток
времени (можно найти на дороге монетку в 10 копеек, выиграть в лотерею,
получить неожиданное наследство, и, наоборот, можно потерять часть
денег из-за болезни, или неверно принятого решения, или биржевого
кризиса). Невозможно с точностью до минуты определить, какое время
проработает купленный телевизор (компьютер, автомобиль) до первой
поломки.
Жизнь человека, общества, цивилизации складывается из случайных
явлений. Чтобы общество было устойчивым, а жизнь предсказуемой,
важно не давать случаю слишком большой воли (любая попытка совсем
исключить из жизни случай обречена на провал).
Современные задачи планирования, управления, прогнозирования
невозможно решать, не располагая достоверными статистическими
данными и не используя статистические методы обработки этих данных.
Стремление объяснить настоящее и заглянуть в будущее всегда было
свойственно человечеству, а для решения этих задач применялись
различные методы. Статистика при описании случайных явлений
использует язык науки – математику. Это значит, что реальные ситуации
заменяются вероятностными схемами и анализируются методами теории
вероятностей. Выразительная сила математики как языка очень велика.
Серьезные математические методы стали использоваться для анализа
статистических наблюдений сравнительно недавно. Человечество осознало
необходимость сбора статистических данных о различных сторонах жизни
общества значительно раньше появления сопутствующего развитого
математического аппарата. Но и сравнительно несложные методы сбора и
анализа данных оказались важным инструментом, помогающим принимать
разумные решения.
Любые статистические данные всегда неполны, и неточны, и другими
быть не могут. Задача статистики заключается в том, чтобы дать
обоснованные выводы о свойствах изучаемого явления, анализируя
неполные и неточные данные. Статистика доказала, что умеет справляться
с подобными проблемами.
1.ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ И ВЫБОРКА
ИЗ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ
В одном мгновенье видеть вечность,
Огромный мир - в зерне песка,
В единой горсти - бесконечность
И небо - в чашечке цветка.
В. Блейк (перевод С. Маршака)
Понятия генеральной совокупности и выборки из нее являются
первоначальными в статистике. Строгие определения пришли из теории
вероятностей, хотя терминология математической статистики отличается
от терминологии теории вероятностей. Вместо случайной величины Х в
теории вероятностей, в математической статистике говорят о генеральной
совокупности X. Таким образом, понятие генеральной совокупности
тождественно понятию случайной величины, т.е. включает в себя описание
области определения (пространства элементарных исходов), множества
значений, функциональной зависимости, закона распределения.
Вместо эксперимента, в результате которого случайная величина Х
приняла значение х (в теории вероятностей), в математической статистике
говорят о случайном выборе из генеральной совокупности Х значения х.
Вместо n независимых экспериментов, в результате которых случайная
величина Х приняла значения x1, х2, ..., хn (в теории вероятностей), в
математической статистике говорят о случайной выборке объема n
значений x1, x2, ..., xn из генеральной совокупности X.
При нестрогом подходе, под генеральной совокупностью понимают
множество всех объектов некоторого наблюдения в совокупности с
множеством всех значений этого наблюдения, соответствующих каждому
объекту. А под выборкой объема n понимают множество из n объектов,
реально подвергшихся наблюдению, в совокупности с n значениями
наблюдения для каждого объекта. Например, социолог, изучающий мнение
избирателей, под генеральной совокупностью понимает множество всех
избирателей данной страны, а под выборкой объема n – множество из n
человек, которых он опросил. Мы будем иметь в виду и такую точку
зрения на генеральную совокупность.
Основная задача статистики – получить обоснованные выводы о
свойствах генеральной совокупности, анализируя извлеченную из нее
выборку x1, х2, ..., хn. Более подробно: описать закон распределения
генеральной совокупности; подобрать значения параметров этого закона,
оценить числовые характеристики генеральной совокупности; если
генеральная совокупность – многомерная случайная величина, оценить
всевозможные коэффициенты корреляции между ее составляющими; если
имеется несколько выборок, извлеченных из разных генеральных
совокупностей, определить, одинаково распределены эти генеральные
совокупности или нет; одинаковы ли определенные числовые
характеристики этих генеральных совокупностей или нет и т.д., и т.п.
Все перечисленные вопросы сформулированы на языке теории
вероятностей. От статистики требуют ответы и на другие вопросы: можно
ли утверждать, что новое лекарство эффективнее излечивает от некоторой
болезни, чем старое? Какой будет численность населения страны в
следующем году? Существует ли связь между значениями предела
прочности и предела текучести различных марок стали? Чтобы ответы на
подобные вопросы соответствовали действительности, нужно уметь
строить подходящие вероятностные модели для реальных ситуаций. А для
этого нужно уметь представить выборку в подходящем для изучения виде.
Возникает задача описания и представления выборки.
Наконец, располагая сведениями о свойствах генеральной
совокупности, можно предсказать свойства повторно извлеченных из нее
выборок – заглянуть в будущее.
2. ВЫБОРКА, ЕЕ ПРЕДСТАВЛЕНИЕ И ЧИСЛОВЫЕ
ХАРАКТЕРИСТИКИ
Все, что видим мы – видимость только одна.
Далеко от поверхности моря до дна.
Полагай несущественным явное в мире,
Ибо тайная сущность вещей - не видна.
О. Хайям (перевод Г. Плисецкого)
2.1. ПРЕДСТАВЛЕНИЕ ВЫБОРКИ
2.1.1. Таблица частот и интервальная
таблица частот
Небольшие выборки удобно представлять в виде таблицы из двух
строк. В первой строке записывают элементы выборки (они называются
вариантами), расположенные в порядке возрастания. Во второй строке
записываются частоты вариант. Частотой варианты называется число,
равное количеству повторений варианты в выборке. Если ni – частота
варианты xi, всего в выборке k разных вариант, то n1 + n2 + ...+ nk = n, где n
– объем выборки. Описанная таблица называется таблицей частот.
Рассмотрим пример. С производственной линии случайным образом 36
раз отбирали по 10 единиц некоторого изделия. Каждый раз отмечалось
число дефектных изделий.
Получена выборка 1:
0
0
0
0
1
0
0
2
2
0
0
0
1
1
2
1
1
0
0
0
0
0
0
1
0
1
0
0
3
1
1
0
0
1
0
1
Здесь n = 36, в выборке представлены 4 варианты: х1 = 0, х2 = 1, х3 = 2,
х4 = 3.
Таблица частот выглядит следующим образом (табл. 2.1):
xi
ni
0
21
1
11
Таблица 2.1
2
3
3
1
Относительной частотой варианты хi называется число νi, равное
отношению ni /n. Если сумма частот равна n, то сумма относительных
частот равна n/n = 1.
Таблица относительных частот для этого примера такова (табл. 2.2):
xi
νi
0
1
21/36 11/36
Таблица 2.2
2
3
3/36 1/36
Таблица относительных частот напоминает таблицу вероятностей
дискретной случайной величины. Только вместо значений случайной
величины пишут варианты выборки, а роль вероятностей исполняют
относительные частоты.
Накопленной частотой nxнак называется число вариант выборки,
меньших данного числа х.
Относительной накопленной частотой νxнак называется отношение
nxнак/n. Найдем накопленные и относительные накопленные частоты
вариант выборки для нашего примера (табл 2.3).
xi
нак
nxi
νxiнак
Таблица 2.3
1
2
3
21
32
35
21/36 32/36 35/36
0
0
0
Ясно, что nx1нак = 0, νx1нак = 0, т.к. нет ни одной варианты, меньшей x1.
Кроме того,
n xiнак = n xiнак−1 + ni −1 = ∑ n j ; ν xiнак = ν xiнак−1 + ν i −1 = ∑ν j ,
j <i
j <i
отчего частоты и называются накопленными. Относительные
накопленные чacтоты – это статистические аналоги значений функций
распределения F(xi) дискретной случайной величины X. Действительно,
F ( xi ) = P( x < xi ) = ∑ P( x = x j ) = ∑ Pj .
j <i
j <i
Если выборка извлечена из непрерывно распределенной генеральной
совокупности, причем ее объем n достаточно велик, то в выборке
представлено много значений, и такую выборку неразумно представлять в
виде таблицы частот. Кроме того, при работе с непрерывно
распределенными случайными величинами рассматривают не отдельные
значения этих величин, а некоторые интервалы этих значений. Поэтому
достаточно
большую
выборку,
извлеченную
из
непрерывно
распределенной генеральной совокупности, группируют по интервалам
следующим образом. Весь диапазон значений вариант разбивают на
разумное число интервалов одинаковой, как правило, ширины h. Чтобы не
было недоразумений при подсчете числа вариант выборки, попавших в
каждый интервал, левый конец каждого интервала считают закрытым, а
правый – открытым, так что интервалы имеют вид [хi-1; хi).
Частотой i-го интервала ni называется число, равное количеству
вариант выборки, попавших в этот интервал,
Относительной частотой i-го интервала νi называется отношение ni /n.
Кроме того, вычисляют накопленные и относительные накопленные
частоты для правых границ интервалов.
Если всего интервалов k, очевидно :
k
∑n
i =1
k
i
= n ; ∑ν i = 1 ; n xнак = n ;ν xнак
= 1,
k
k
i =1
где xk – правая граница последнего интервала, все варианты выборки
меньше числа xk .
Полученные числа заносят в таблицу, которая называется
интервальной таблицей частот.
Рассмотрим пример. У 50 новорожденных измерили массу тела с
точностью до 10г. Результаты (в кг) таковы (выборка 2):
3,7
3,75
3,38
4,22
3,58
3,85
4,03
3,3
3,75
3,98
3,7
3,75
4,15
3,58
3,88
3,78
4,18
3,95
3,55
3,78
3,6
3,8
3,5
4,08
4,05
4,45
4,75
3,88
4,03
3,4
4,2
3,25
3,71
3,24
3,8
3,87
4,1
3,15
4,05
3,06
3,33
3,55
4,15
3,56
4,38
3,76
3,35
3,8
3,05
4,2
Сгруппируем эту выборку. Наименьшая масса равна 3,05 кг,
наибольшая масса равна 4,75 кг. “Упакуем” выборку в интервал [3 – 4,8],
который разобьем на 6 интервалов шириной 0,3.
Интервальная таблица частот выглядит следующим образом
(накопленные частоты считают для правых границ интервалов) (табл.2.4).
[xi-1, xi)
ni
νi
nxiнак
νxiнак
[3-3,3)
5
0,1
5
0,1
[3,3-3,6)
11
0,22
16
0,32
[3,6-3,9)
17
0,34
33
0,66
[3,9-4,2)
11
0,22
44
0,88
[4,2-4,5)
5
0,1
49
0,98
Таблица 2.4
[4,5-4,8)
1
0,02
50
1,0
2.1.2. Графическое представление выборки.
Полигон, гистограммa, кривая
накопленных частот
Рисунки и графики – удобный и наглядный способ представления
выборки. Выборку, извлеченную из дискретной генеральной
совокупности, можно представить в виде полигона частот. На плоскости в
прямоугольной системе координат строят точки с координатами (хi, νi) и
соединяют эти точки отрезками прямых. Полученная ломаная и
называется полигоном частот. Полигон можно, конечно, построить и для
сгруппированной выборки. Но такую выборку нагляднее всего
представить в виде гистограммы. Гистограмма – это фигура, состоящая из
прямоугольников. Основания прямоугольников – это интервалы, на
которые разбита сгруппированная выборка. Высота i-го прямоугольника
hi определяется формулой
hi = νi /h, i = 1, 2, 3,…, k.
Таким образом, высоты прямоугольников пропорциональны частотам
интервалов, а сумма высот равна
k
∑ν
i =1
i
/ h = 1/ h .
Поэтому площадь гистограммы равна (1/h)*h = 1.
Гистограмма – это аналог графика функции плотности вероятности f(х)
непрерывной случайной величины, площадь под графиком f(х) равна 1.
Кривая накопленных частот (кумулятивная кривая) – это статистический
аналог графика функции распределения F(x) непрерывной случайной
величины. Кривая накопленных частот строится так: точки с координатами
(хi, νxiнак) соединяют отрезками прямых. Кроме того, накопленные частоты
для любого числа х < х1 равны 0, накопленные частоты для любого числа
х > хk равны 1. Чтобы найти накопленную
частоту
для
некоторого х1 < х < хk, нужно воспользоваться линейной интерполяцией.
На рис. 2.1, 2.2, 2.3 показаны полигон частот для выборки 1, гистограмма и
кумулятивная кривая для выборки 2 соответственно.
Vi
0,6
0,5
0,4
0,3
0,2
0,1
0
Xi
0
1
2
3
Рис. 2.1
1,2
ni/nh 1
0,8
0,6
0,4
0,2
0
3
3,3
3,6
3,9
4,2
4,5
4,8
X
Рис. 2.2
h1 = 0,1/0,3 = 0,33; h2 = 0,22/0,3 = 0,73; h3 = 0,34/0,3 = 1,13; h4 = h2 =
=0,73; h5 = h1 = 0,33; h6 = 0,02/0,3 = 0,067.
Покажем, как, используя линейную интерполяцию,
относительную накопленную частоту νxнак для числа х1 < х < хk .
нак
vx
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
3
3,3
3,6
3,9
4,2
4,5
найти
X
4,8
Рис. 2.3
Пусть х принадлежит интервалу [хi-1, хi). Рассмотрим соответствующий
участок кривой накопленных частот ( рис.2.4).
Рис. 2.4
− ν xнак
Имеем: АС = h; АЕ = x - xi-1; BC = ν xнак
; DE = ν xнак − ν xнак
;
i
i −1
i −1
∆ABC ∼ ∆ADE.
Из подобия треугольников следует, что
ν xнак
− ν xнак
h
AC BC
i
i −1
= нак
=
, или
.
нак
AE DE
x − xi −1 ν x − ν xi −1
Отсюда получаем
( x − xi −1 ) ∗ (ν xнак
)
− ν xнак
нак
i
i −1
νx =
+ ν xнак
.
i −1
h
Например, в выборке 2 :
ν4нак = 0,66 + [(4 - 3,9)*(0,88 - 0,66)]/0,3 = 0,73.
Точно так же решается и обратная задача: по известной частоте νxнак
найти число х. Имеем
)
h ∗ (ν xнак − ν xнак
i −1
x=
+ xi −1 .
нак
ν xнак
ν
−
xi −1
i
Например, для выборки 2 относительную накопленную частоту 0,5
имеет число
x=
0,3 ∗ (0,5 − 0,32)
+ 3,6 = 3,76 .
0,66 − 0,32
Действительно, если νxнак = 0,5, то число х лежит внутри интервала
[3,6; 3,9), так как ν3,6нак = 0,32 < 0,5, a ν3,9нак = 0,66 > 0,5.
2.2. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ ВЫБОРКИ
2.2.1. Выборочное среднее, мода, медиана
Выборочное среднее x – это среднее арифметическое вариант
выборки. Если объем выборки равен n, то
n
k
k
j =1
i =1
i =1
x = (1 / n)∑ x j = (1 / n)∑ n i x i = ∑ν i x i ,
где k - число различных вариант; ni – частота варианты хi, i = 1,
2, 3, ..., k.
Если выборка сгруппирована, то часто даже неизвестно, какие именно
варианты попали в i-й интервал. Тогда частоту интервала ni умножают на
средину интервала. Конечно, при этом получается ошибка, так как
варианты, попавшие в интервал, не обязаны все совпадать с числом
(хi + xi-1)/2. Но эта ошибка не может быть слишком большой, особенно
при достаточно больших n. Ведь в среднем половина вариант, попавших в
интервал [xi-1, хi), будет меньше числа (хi + xi-1)/2, а половина – больше,
поэтому ошибки будут иметь разные знаки и, таким образом,
компенсируют друг друга. Легко видеть, что формула для выборочного
среднего x совпадает с формулой для вычисления математического
ожидания дискретной случайной величины. Роль вероятностей играют
относительные частоты νi.
Найдем выборочные средние для выборок, рассмотренных ранее.
1. Выборка 1.
4
x = ∑ν i ∗ xi = 0 ∗ 21 / 36 + 1 ∗ 11 / 36 + 2 ∗ 3 / 36 + 3 ∗ 1 / 36 = 0,56 .
i =1
Итак, в среднем из каждых 10 единиц товара 0,56 единицы дефектны.
2. Выборка 2.
Найдем сначала выборочное среднее непосредственно по выборке, а
затем по сгруппированной выборке и сравним полученные числа.
В первом случае имеем:
x = 1/50*( 3,7 + 3,85 + 3,7 + 3,78 + 3,6 + 4,45 + 4,2 + 3,87 + 3,33 + 3,76 +
+3,75 + 4,03 + 3,75 +4.18+ 3,8 + 4,75 + 3,25 + 4,1 + 3,55 + 3,35 + 3,38 +3,3 +
+4,15 + 3,95 + 3,5 + 3,88 + 3,71 + 3,15 + 4,15 + 3,8 + 4,22 + 3,75 + 3,58 +
+3,55 + 4,08 + 4,03 + 3,24 + 4,05 + 3,56 + 3,05 + 3,58 + 3,98 + 3,88 + 3,78 +
+4,05 + +3,4 + 3,8 + 3,06 + 4,38 + 4,2) = 3,78.
Средняя масса ребенка равна 3,78 кг.
Рассчитаем выборочное среднее по сгруппированной выборке.
x = 3,15*0,1 + 3,45*0,22 + 3,75*0,34 + 4,05*0,22 + 4,35*0,1 + 4,65*0,02 =
=3,77.
Расхождение равно 10 граммам. Но ведь и массы детей определялись с
точностью до 10 граммов, так что мы не превзошли ошибки округления.
Сам же подсчет оказался намного проще.
В теории вероятностей модой хмо дискретной случайной величины
называется такое её значение, которое имеет максимальную вероятность.
Модой непрерывной случайной величины называется такое её значение, на
котором достигается максимум функции плотности вероятности f(х). Закон
распределения называется унимодальным, если мода единственна.
∧
Соответственно вводится понятие моды и в статистике. Модой x
∧
(обозначают x , читают “х с крышечкой”) называется варианта хi с
∧
наибольшей частотой (относительной частотой). В выборке 1 мода x = 0.
Если выборка сгруппирована, то сначала определяют модальный
интервал, т.е. интервал с наибольшей частотой (относительной частотой).
В качестве моды можно взять середину модального интервала. Эту оценку
можно подправить с помощью простого дополнительного построения на
гистограмме (рис. 2.5).
∧
В выборке 2 модальный интервал – это интервал [3,6; 3,9). Тогда x =
=3,75. Так как высоты прямоугольников слева и справа от интервала [3,6;
∧
3,9) одинаковы, подправлять значение x не нужно.
В теории вероятностей медианой непрерывной случайной величины Х
называется такое число хме, когда Р(Х < хме) = 0,5 = Р(Х > хме).
Соответственно в статистике медианой (обозначают ~x , читают “х с
волной”) называют такое число ~x , когда 50% вариант выборки меньше
этого значения, а 50% больше его. Ясно, что для любой выборки можно
подобрать бесконечно много медиан. Чтобы избежать неоднозначности,
будем называть медианой число ~x такое, когда ν ~хнак = 0,5, где 0,5 –
ордината точки с абсциссой ~x на кривой накопленных частот.
Pиc 2.5
Чтобы найти медиану, нужно сначала найти медианный интервал
[xi-1; хi), где νхнак < 0,5; νxiнак > 0,5, тогда ~x ∈ [xi-1; xi). Используя формулу,
выведенную в пункте 2.1.2, получаем, что
h ∗ (0,5 − ν xнак
)
i −1
.
x = xi −1 +
нак
ν xнак
−
ν
xi −1
i
В выборке 2 медианным интервалом является интервал [3,6; 3,9), так
как ν3,6нак = 0,32; ν3,9нак = 0,66. Тогда
0,3 ∗ (0,5 − 0,32)
~
= 3,76 .
x = 3,6 +
0,66 − 0,32
2.2.2. Квартили, декатили, персентили
Медиана делит выборку на две части: половина вариант меньше
медианы, половина – больше медианы. Можно найти три числа: Q1, Q2,
Q3, которые аналогичным образом делят выборку на 4 равные части. Эти
числа называются квартилями. Число Q2 совпадает с медианой ~x , число Q1
называется нижней квартилью, число Q3 называется верхней квартилью. В
теории вероятностей квартилями непрерывной случайной величины Х
называются числа Q1, Q2, Q3, определяемые из условия
Р(X < Q1) = P(Q1 < X < Q2) = P(Q2 < X < Q3) = P(X > Q3) = 0,25.
Точно так же можно найти 9 чисел: D1, D2, …, D9, которые разбивают
выборку (площадь под графиком f(х)) на десять равных частей. Эти числа
называются декатилями. Если разбить выборку (площадь под графиком
f(х)) на сто равных частей, точки деления называются персентилями. Их
99, они обозначаются Р1, Р2, …, P99. Ясно, что P25 = Q1, Р50 = Q2 = ~x , Р75 =
=Q3. Числа Q1, Q2, Q3, Р1, Р2, …, P99 находятся точно так же, как ~x .
Например, νQ1нак = 0,25, тогда
h ∗ (0,25 − ν xнак
)
i −1
,
Q1 = xi −1 +
нак
ν xнак
−
ν
xi −1
i
где ν xнак < 0,25; ν xнак > 0,25; Q1 ∈ [xi-1, x i,).
i −1
i
2.2.3. Измерение разброса: размах, выборочная
дисперсия, выборочное среднее квадратическое
отклонение (стандартное отклонение),
коэффициент вариации
Размах R – простейшая мера разброса значений данной выборки. Если
xmax – максимальная, хmix – минимальная варианты, то R = xmax - хmix. Этой
величиной пользуются при работе с малыми выборками.
Более эффективные меры разброса должны учитывать все элементы
выборки. Одна из самых распространенных мер называется выборочной
дисперсией S2. Она вычисляется точно так же, как дисперсия дискретной
случайной величины. Следовательно, выборочная дисперсия оценивает
средний разброс значений выборки относительно выборочного среднего.
n
n
k
j =1
j =1
i =1
S 2 = (1 / n) ∑ ( x j − x) 2 = (1 / n) ∑ x 2j − ( x) 2 = (1 / n)∑ ni x i2 − ( x) 2 =
k
= ∑ν i xi2 − x 2 , где k - число разных вариант выборки.
i =1
Если выборка сгруппирована, частота i-го интервала ni умножается
на середину интервала – число (хi + хi-1)/2. Соответственно корень
квадратный из выборочной дисперсии называется выборочным средним
квадратическим отклонением и обозначается S. Другое часто
встречающееся название для S – стандартное отклонение; оно короче,
поэтому мы будем чаще использовать его.
Найдем эти параметры для выборки 2.
S2 = 3,152 * 0,1 + 3,452 * 0,22 + 3,752 * 0,34 + 4,052 * 0,22 + 4,352 * 0,1 +
+4,652 * 0,02 - (3,77)2 = 0,127; S= 0,36.
В среднем масса ребенка отличается от средней массы на 0,36 кг. В
теории вероятностей для нормального закона распределения
доказываются так называемые “правило двух сигм” и “правило трех
сигм”: вычисляются вероятности того, что нормально распределенная
случайная величина отклонится по модулю от своего математического
ожидания а не более чем на два или три средних квадратических
отклонения σ.
Р(⎜X - a⎜< 2σ) = 0,9545; P(⎜Х - а⎜< 3σ) = 0,9973.
Эти правила приблизительно выполняются для большинства
унимодальных законов распределения и соответственно выборок из таких
генеральных совокупностей:
1. Более 95% значений выборки лежат в интервале ( x - 2S, x + 2S).
2. Более 99% значений выборки лежат в интервале ( x - 3S, x + 3S).
Для выборки 2 имеем :
x - 2S = 3,77 - 0,36 * 2 = 3,05; x - 3S = 3,77 - 0,36 * 3= 2,69;
x + 2S = 3,77 + 0,36 * 2 = 4,49; x + 3S = 3,77 + 0,36 * 3 = 4,85.
В интервале (3,05; 4,49) лежат 48 значений (или 96%) выборки; в
интервале (2,69; 4,85) лежат 100% значений выборки.
Коэффициент вариации V служит для сравнения стандартных
отклонений нескольких выборок и вычисляется по формуле V=S/ x .
Если коэффициенты вариации оказались величинами одного порядка,
то средние рассеяния данных относительно среднего в этих выборках
можно считать примерно равными.
Рассмотрим простой пример. Пусть массы трех килограммовых
пакетов с сахаром оказались такими: х1 = 0,995 кг; х2 = 1 кг; x3 = 1,005 кг.
Тогда x 1 = 1,00 кг; S1 = 4,08 * 10-3 кг; V1 = 4,08 * 10-3.
Допустим так же, что масса некоторого железобетонного блока должна
равняться 100 кг, а массы трех отобранных блоков оказались равными 99,5
кг, 100,00 кг и 100,5 кг. Отсюда x 2 = 100 кг; S2 = 0,408 кг; V2 = 4,08 * 10-3.
Пусть, наконец, некоторый студент, сдавая сессию, получил такие
оценки: 4, 3, 5. Значит, x 3 = 4,0; S3 = 0,82; V3 = 0,21.
Сравнивая три найденных коэффициента вариации, заключаем, что
точности работы устройств, развешивающих сахар в пакеты и
изготовляющих железобетонные блоки, одинаковы. Хотя в первом случае
максимальное отклонение массы от номинала составило 5 г, а во втором
случае в 100 раз больше – 500 г. Зато разброс оценок студента значительно
больше: V3 ≈ 50 V1.
2.2.4. О симметричных и несимметричных
распределениях
Закон распределения непрерывной случайной величины Х называется
симметричным, если график функции плотности вероятности f(x) имеет
ось симметрии, например, нормальный закон распределения симметричен.
Для унимодального симметричного закона распределения очевидно
равенство моды, медианы и математического ожидания. Если имеет место
небольшая асимметрия (рис 2.6.), то возможны только два случая:
xмо < хме < М(Х) или М(Х) < хме < хмо. То же справедливо и для выборок из
∧
подобных генеральных совокупностей. Значит, разность ( x - x ) можно
использовать в качестве меры асимметрии: чем больше эта разность, тем
∧
больше асимметрия. Асимметрия называется положительной, когда x > x ,
∧
и отрицательной, когда x < x .
Рис. 2.6
∧
Для получения безразмерной меры разность ( x - x ) делят на S. Число
∧
( x - x )/S называется первым коэффициентом асимметрии Пирсона
(К.Пирсон (1857-1936) – один из создателей современной математической
статистики). Второй коэффициент асимметрии Пирсона приблизительно
равен первому, только мода заменяется медианой. Второй коэффициент
асимметрии равен числу 3( x - ~x )/S. Коэффициент 3 появился из-за того,
∧
что обычно верна приближенная формула ( x - x ) ≈ 3( x - ~x ). Для выборки
2 имеем:
1-й коэффициент асимметрии Пирсона равен (3,77 - 3,75)/0,36 = 0,056;
2-й коэффициент асимметрии Пирсона равен 3*(3,77 – 3,76)/0,36 =
=0,083.
Наша выборка извлечена из генеральной совокупности с
симметричным законом распределения.
В теории вероятностей коэффициент асимметрии определяется как
отношение третьего центрального момента к кубу среднеквадратического
отклонения.
2.2.5. Вычисление выборочного среднего
и выборочной дисперсии
для объединения двух выборок
Пусть из одной и той же генеральной совокупности Х извлечены две
выборки объемов n1 и n2 и для каждой выборки отдельно вычислены
выборочное среднее и выборочная дисперсия: x1, x2, S12, S22. Найдем
параметры х и S2 для объединения этих выборок .
n1+ n 2
n1+ n 2
j =1
j =1
1. x = ( ∑ x j ) /(n1 + n2 ) , тогда (n1 + n2 ) x =
∑x
j
= n1 x1 + n2 x 2 .
Отсюда
n1 x1 + n2 x 2
.
n1 + n2
Эта же формула применяется и тогда, когда выборки сгруппированы.
x=
2. (n1 + n2 ) ∗ S =
2
n1+ n 2
∑x
2
j
j =1
n1
− (n1 + n2 ) x = ∑ x +
2
2
j
j =1
n2
∑x
j = n1+1
2
j
2
− (n1 + n2 ) x +
2
2
(n1 x 1 + n 2 x 2 ) 2
+ (−n1 x + n1 x − n 2 x + n 2 x ) = n1 S + n 2 S + n1 x + n 2 x −
n1 + n 2
.
Рассмотрим выражение
2
1
2
1
2
2
2
2
2
1
2
1
2
2
2
2
2
2
(n1 x1 + n2 x 2 ) 2
n1 x + n2 x −
.
n1 + n2
После приведения к общему знаменателю получаем, что оно равно
n1 n2
∗ ( x1 − x 2 ) 2 .
n1 + n2
Следовательно,
n1 S12 + n2 S 22
n1 n2
2
S =
+
∗ ( x1 − x 2 ) 2 .
2
n1 + n2
(n1 + n2 )
Но если выборки извлечены из одной и той же генеральной
совокупности, то числа x 1 и x 2 не должны сильно отличаться друг от
друга. Кроме того, легко видеть, чтo
n1 n2
≤ 1/ 4 .
(n1 + n2 ) 2
2
1
Поэтому членом
2
2
n1 n 2
∗ ( x 1 − x 2 ) 2 можно пренебречь и положить
n1 + n 2
n1 S12 + n2 S 22
S =
.
n1 + n2
Для примера разобьем выборку 2 на две части по 25 вариант в каждой.
Как разбивать – все равно, главное, чтобы выбор был случайным. Пусть
выборки будут такие:
1-я часть:
2
3,7
3,85
3,7
3,78
3,6
4,45
4,2
3,87
3,33
3,76
3,75
3,38
4,03
3,3
3,75
4,15
4,18
3,95
3,8
3,5
4,75
3,88
4,03
3,4
3,71
3,24
3,8
3,15
4,05
3,06
4,15
3,56
4,38
3,8
3,05
4,2
4,22
3,58
3,25
4,1
3,55
3,35
3,75
3,98
3,58
3,88
3,55
3,78
4,08
4,05
Для этой выборки x 1 = 3,8; S12 = 0,132.
2-я часть:
Для этой выборки x 2 = 3,76; S22 = 0,131. Тогда
25 ∗ 3,8 + 25 ∗ 3,76
x=
= 3,78 ;
50
25 ∗ 0,132 + 25 ∗ 0,131
= 0,1315 ; S = 0,36.
S2 =
50
Небольшие отличия x и S2 от найденных ранее получились из-за того,
что x 1, x 2, S12, S22 считались “в лоб”, для несгруппированных выборок.
2.2.6. Общая, межгрупповая
и внутригрупповая дисперсии
Пусть из k выборок объемов n1, n2, …, nk соответственно образована
одна выборка объема n = n1 + n2 +…+ nk. Обозначим через x , x 1, …, x k, S2,
S12, …, Sk2 выборочные средние и выборочные дисперсии объединенной
выборки и исходных выборок соответственно. Обобщая формулы,
рассмотренные выше, получим, что объединенная дисперсия равна
k
∑S
2
i
ni
k
∑ (x
i
− x ) 2 ni
1
( x j − x) 2 = i =1
+ i =1
.
∑
n
n
n j =1
Величину S называют еще общей дисперсией. Величины S12, S22, …, Sk2
называют внутригрупповыми дисперсиями.
1 k
Величина
( x i − x) 2 ni называется межгрупповой дисперсией. Она
∑
n i =1
показывает, насколько в среднем выборочные средние отдельных выборок
отличаются от общего выборочного среднего. Тем самым оценивается,
насколько внутригрупповые выборочные средние отличаются друг от
друга. Мы разложили общую дисперсию на сумму межгрупповой
дисперсии и среднего из внутригрупповых дисперсий.
S2 =
n
2.2.7. Кривая Лоренца и показатели
концентрации
С помощью кривой Лоренца представляют распределение некоторых
ресурсов (капитала, земли, рабочей силы и т.п.) среди владельцев
ресурсов. Если значительная часть ресурсов сосредоточена у небольшой
доли владельцев, говорят о высокой степени концентрации ресурсов.
Степень концентрации оценивают
с помощью специальных
коэффициентов. Неравномерность распределения ресурсов можно
проследить и по кривой Лоренца, при построении этой кривой по
горизонтальной оси откладывают накопленные доли владельцев ресурсов,
а по вертикальной оси – относительные накопленные частоты объема
ресурсов. Полученные точки соединяют отрезками.
Рассмотрим распределение в 1964 г. ферм в США, сгруппированных по
величине занимаемых площадей (табл. 2.5).
Число
Площадь
фермы, акр ферм,
(1акр≈0,4га) тыс.
[0 - 10)
[10 - 50)
[50 - 100 )
[100 - 180 )
[180 - 260 )
[260 - 500)
[ 500 - 1000 )
≥1000
ВСЕГО
183
637
542
633
355
451
210
145
3156
Общая
площадь
занимаемой
земли, тыс.
акров
778
17325
39589
86592
76857
159598
144600
584848
1110187
Таблица 2.5
Относительные
Относительные
накопленные
частоты,
частоты
%
Число
Площадь
Число
Площадь
ферм
земли
ферм
земли
0,057
0,0007
5,7
0,07
0,202
0,0156
25,9
1,63
0,172
0,0357
43,1
5,2
0,201
0,0780
63,2
13,0
0,112
0,0692
74,4
19,92
0,143
0,1438
88,7
34,3
0,067
0,1302
95,4
47,32
0,046
0,5268
100,0
100,0
1,00
1,00
–
–
Здесь ресурсы – это земля; владельцы ресурсов – фермы. Кривая
Лоренца построена на рис. 2.7.
Если бы распределение земли было строго равномерным, то 5,7% ферм
располагали бы 5,7% земли; 25,9% ферм располагали бы 25,7% земли и
т.д., а кривая Лоренца стала бы биссектрисой координатного угла. Эта
биссектриса называется линией равномерного распределения.
Чем сильнее кривая Лоренца отклоняется от линии равномерного
распределения, тем выше концентрация ресурсов. В нашем случае 52,7%
всей земли сконцентрировано у 4,6% крупных ферм. А на остальные 95,4%
небольших ферм приходится менее половины угодий.
Степень концентрации можно оценить, вычисляя площадь фигуры А
(см. рис.2.7), ограниченной линией равномерного распределения и кривой
Лоренца. Если принять площадь квадрата за 1, то удвоенная площадь
фигуры А равна разности 1 минус удвоенная площадь фигуры В.
Последняя легко считается как сумма площадей трапеций,
составляющих фигуру В. Таким образом определяется коэффициент
Джини:
Площадь 100
земли, % к
90
итогу
80
70
60
A
50
40
30
20
B
10
0
0
10
20
30 40 50 60 70 80 90
Число ферм, % к итогу
Линия равномерного распределения
100
Рис. 2.7
k
G = 1 − 2∑ν xiν
i =1
нак
yi −1
k
k
i =1
i =1
− ∑ν xiν yi = 1 − 2∑ν xiν
нак
yi
k
+ ∑ν xiν yi ,
i =1
где k – число интервалов группировки;
νxi – относительная частота i-го интервала группировки владельцев
ресурсов;
νyi – относительная частота i-го интервала группировки ресурсов;
νyiнак – относительная накопленная частота i-го интервала группировки
ресурсов.
На рис.2.8 показана i-я трапеция, составляющая фигуру B, и приведен
расчет площади этой трапеции.
ν нак
y
AB = ν yнак = ν yнак − ν yi ;
i −1
ν нак
y
CD = ν yнак ;
С
i
i
AD = ν xнак −ν xнак = ν xi ;
B
ν нак
yi −1
i
D
ν нак
x
i −1
i −1
S i = 0,5 ⋅ ( AB + BC ) ⋅ AD =
Si
A
i
ν нак
x
ν нак
x
i
Рис. 2.8
= 0,5 ⋅ (2ν нак
− ν yi ) ⋅ ν xi =
yi
= 0,5 ⋅ (2ν нак
+ ν yi ) ⋅ ν xi .
уi −1
Тогда
G = 1 − 2 ⋅ S B = 1 − 2 ⋅ ∑ S i = 1 − ∑ (2 ⋅ ν нак
− ν yi −1 ) ⋅ ν xi =
y
i
i
i
1 − ∑ (2 ⋅ ν нак
+ ν yi ) ⋅ ν xi = 1 − 2∑ ν xi ν нак
+ ∑ ν xi ν yi =
y
y
i −1
i
i
i
i
1 − 2∑ ν xi ν нак
− ∑ ν xi ν yi .
y
i
i −1
i
В нашем случае
G = 1 - 2(0,057*0,0007 + 0,202*0,0163 + 0,172*0,052 + 0,201*0,13 +
+0,112*0,1992 + 0,143*0,343 + 0,067*0,4732 + 0,046*1) + (0,057*0,0007 +
+0,202*0,0156 + 0,172*0,0357 + 0,201*0,078 + 0,112*0,0692 + 0,143*
*0,1438 + 0,067*0,1302 + 0,046*0,5268) = 0,7113 (71,13%).
Другой
коэффициент,
оценивающий
степень
концентрации,
называется коэффициентом Лоренца. Рассмотрим сумму
k
∑ν
i =1
xi
− ν yi ,
По известному свойству модуля
k
k
k
i =1
i =1
i =1
∑ ν xi − ν yi ≤ ∑ν xi + ∑ν yi = 1 + 1 = 2 .
Число 2 получается в пределе, если практически 100% ресурсов
сосредоточены у бесконечно малой доли владельцев. Поэтому, чем ближе
к 2 эта сумма, тем выше концентрация ресурсов, тем неравномернее они
распределены.
Коэффициент Лоренца определяется так:
k
L=
∑ν
i =1
xi
− ν yi
∗ 100 0 0 .
2
Для нашего случая получаем:
L = (1/2)*(⎪0,057 - 0,0007⎪ + ⎪0,202 - 0,0156⎪ + ⎪10,172 - 0,0357⎪+
+⎪0,201 - 0,0780⎪ + ⎪0,112 - 0,0692⎪ + ⎪0,143 - 0,1438⎪ + ⎪0,067 - 0,1302⎪ +
+⎪0,046 - 0,5268⎪)*100% = 54,5%.
Полученные значения коэффициентов Джини и Лоренца говорят о
высокой степени концентрации земли на крупных фермах.
2.3. ЗАДАЧИ
1. Как изменятся выборочное среднее, мода, медиана и выборочная
дисперсия, если каждый член выборки:
а) увеличить (уменьшить) на число d?
б) увеличить (уменьшить) в k раз?
В задачах 2 - 13 нужно представить выборку графически и найти её
числовые характеристики.
2. Диаметры 40 металлических шариков (мм):
8,53
8,51
8,54
8,42
8,42
8,59
8,46
8,47
8,58
8,54
8,51
8,55
8,53
8,60
8,57
8,59
8,61
8,55
8,52
8,68
8,41
8,68
8,43
8,56
8,46
8,52
8,47
8,56
8,57
8,43
8,59
8,60
8,62
8,40
8,63
8,54
8,45
8,41
8,56
8,61
3. Продолжительность работы 30 электрических лампочек (часы /10):
51
63
55
56
48
72
69
53
70
31
51
54
56
64
51
49
50
77
51
59
98
53
84
62
74
55
73
51
82
55
4. Скорость автомобилей на некотором участке дороги (км/ч):
41
23
55
30
41
48
27
35
29
50
43
38
15
36
53
41
41
35
48
36
43
46
47
38
42
28
34
45
34
46
35
59
41
50
29
44
30
41
42
43
5. В «Северных прериях» Э. Сетон-Томпсон рассказывает, что из окна
вагона поезда канадской Тихоокеанской железной дороги в районе
Альберты он видел 26 стад антилоп. В книге указывается количество
животных в каждом стаде:
8
3
14
4
7
6
18
18
3
4
9
25
4
4
1
34
6
6
12
5
2
6
8
16
1
4
6. Пятьюдесятью абитуриентами на вступительных экзаменах
получены следующие баллы (из 20 возможных):
12
13
18
18
14
17
17
15
19
16
15
15
15
20
14
17
14
14
15
15
18
14
15
16
13
13
18
16
16
17
15
14
17
16
15
14
12
15
19
17
20
19
14
19
17
16
16
15
15
18
7. Результаты исследования прочности 200 образцов бетона на сжатие:
Предел прочности
(МПа)
Количество образцов
[19,20)
[20,21)
[21,22)
[22,23)
[23,24)
[24,25)
10
26
56
64
30
14
8. Продолжительности автомобильных рейсов, определенные по
дорожным ведомостям:
Продолжительность рейса
(суток)
[0,2)
[2,4)
[4,6)
[6,8)
[8,10)
Число рейсов
400
600
900
700
400
9. Распределение частот барометрического давления воздуха в городе
Ташкенте с мая по август 1897г.:
Давление
(мм рт. ст.)
Количество дней
Давление
(мм рт. ст.)
Количество дней
709
710
711
712
713
714
715
716
717
2
7
24
30
44
48
36
35
32
718
719
720
721
722
723
724
725
726
26
23
21
14
12
8
7
2
1
10. Следующее распределение частот было получено в результате
эксперимента с разведением мышей:
Количество мышей в одном
помете (шт.)
Частота
1
2
3
4
5
6
7
8
9
7
11
16
17
26
31
11
1
1
11. Длины початков кукурузы в дюймах (с точностью до половины
дюйма):
Длина
початка
Частота
4
4,5
5
5,5
6
6,5
7
7,5
8
8,5
9
9,5
10
1
1
8
33
70 110 176 172 124 61
32
10
2
12. При подсчете количества простых чисел в восьмом миллионе весь
интервал был разбит на 2000 групп по 500 последовательных чисел в
каждой группе. Пусть Х – количество простых чисел в группе, N (х) –
число групп, в которых по Х простых чисел. В результате подсчетов
получилась таблица
18
Х
N(x) 1
32
Х
N(x) 203
19
4
33
181
20
5
34
160
21
6
35
141
22
11
36
115
23
18
37
78
24
48
38
63
25
63
39
38
26
70
40
16
27
102
41
15
28
141
42
14
29
149
43
4
30
165
44
1
31
188
–
–
Показать, что, если бы простые числа были расположены случайно,
дисперсия была бы значительно больше.
13. Приведенные ниже числа представляют собой затраты в долл. на
питание 66 семей, каждая из которых состоит из 4 человек (данные конца
1960-х годов).
48
48
48
56
41
43
44
52
28
41
51
40
40
39
47
52
39
45
51
41
52
36
47
44
44
39
33
50
37
53
45
38
40
37
35
46
46
43
45
53
44
57
29
40
42
39
57
45
55
38
32
34
54
45
49
50
38
38
32
46
46
47
28
32
42
41
14. Даны следующие 7 выборок объема 20, сгруппированных по одним
и тем же интервалам:
[хi-1, хi)
[12-15)
[15-18)
[18-21)
[21-24)
[24-27)
n i1
2
4
8
4
2
n i2
6
3
2
3
6
n i3
4
4
4
4
4
n i4
1
1
16
1
1
n i5
0
1
18
1
0
n i6
2
3
5
8
2
n i7
2
8
5
3
2
а) Не производя вычислений, на глаз, сравнить следующие пары
стандартных отклонений: S1 и S2; S2 и S3; S1 и S4; S4 и S5; S1 и S6; S2 и S6; S6 и
S7.
в) Вычислить стандартные отклонения.
15. Преподаватели А и В ведут разные курсы у одних и тех же
студентов. Преподаватель А, оценивая знания студентов, предлагает им
письменные работы и подсчитывает баллы, набранные студентами за
ответы на вопросы в работах. Преподаватель В поступает так: всего нужно
посетить 24 занятия, за каждое посещение начисляется 2 очка. Баллы,
полученные пятью студентами у этих преподавателей, таковы:
Студент
Преподаватель А
Преподаватель В
1
69
48
2
70
42
3
77
44
4
62
46
5
58
46
Вычислить коэффициент вариации баллов у каждого преподавателя.
Почему оценкам преподавателя В не следует доверять?
16. Следующие баллы получены пятью студентами у преподавателей X,
Y, Z, ведущих три смежных дисциплины:
Студент
Преподаватель Х
Преподаватель Y
Преподаватель Z
1
168
36
76
2
190
44
78
3
147
37
85
4
158
38
67
5
179
40
65
Вычислить коэффициенты вариации оценок. Можно ли утверждать,
что системы оценок сходны по своим принципам?
17. Варианты выборки называют стандартизированными, если они
преобразуются по следующему правилу:
xi’ = (xi - x )/S,
где xi – старое значение варианты;
xi’ – новое значение варианты;
x , S – выборочное среднее и стандартное отклонение исходной
выборки.
а) Показать, что выборочное среднее преобразованной выборки равно
0, а стандартное отклонение равно 1.
б) Стандартизировать баллы студентов из задачи 15 и сравнить
успеваемость каждого студента по каждой дисциплине.
18. В приведенной ниже таблице фермы США сгруппированы по
величине занимаемых площадей
Площадь, занимаемая фермой, акр
(1акр ≈ 0,4га)
<10
[10-50)
[50 -100)
[100-180)
[180 - 260)
[260 - 500)
[500 -1000)
> 1000
Всего
Число ферм, тыс.
1940
506
1780
1291
1310
486
459
164
101
6097
1964
183
637
542
633
355
451
210
145
3156
а) Почему пришлось прибегнуть к интервалам разной ширины?
б) Какие изменения произошли в фермерском хозяйстве США?
19. Ниже приводятся распределения возрастных групп населения США
и острова Самоа в 1960г.:
Остров Самоа
Возраст, лет
<5
[5-10)
[10-15)
[15-20)
[20 - 25)
[25-35)
[35-45)
[45 - 55)
[55 - 65)
≥ 65
Всего
Численность, млн. чел.
3709
3244
2993
2182
1444
2261
1844
1162
672
540
20051
США
Возраст, лет
<5
[5-15)
[15-25)
[25 – 35)
[35 – 45)
[45 – 55)
[55-65)
[65-75)
≥ 75
–
–
Численность, млн. чел.
16243
24429
22220
23878
21535
17398
13327
8432
3862
–
151324
а) Найти Q1, ~x , Q3 в каждом случае и объяснить результаты.
б) Определить долю населения старше 55 лет в каждой стране.
20. Ниже приводятся два следующих распределения. Годовой
денежный доход лиц, окончивших только среднюю школу, и лиц,
имеющих высшее образование (4-годичный колледж), данные налоговых
деклараций за 1967 год.
% лиц с данным доходом
Среднее образование
Бакалавры
5,6
3,8
9,2
4,9
31,8
15,5
32,6
25,1
16,2
29,4
4,6
21,3
100
100
Доход, долл.
<2000
[2000 - 4000)
[4000-7000)
[7000-10000)
[10000 -15000)
≥15000
Всего
а) Найти Q1, ~x , Q3 для каждой выборки и объяснить результаты.
б) Подобрать разумные правые границы для последних интервалов,
вычислить x и S для каждой выборки и объяснить результаты
21. Построить кривую Лоренца и найти коэффициент Джини для
следующих данных:
Группы
предприятий по
численности
занятых, чел.
Число
предприятий
Численность
занятых, млн.
чел.
[1 - 500)
[500-1000)
[1000-5000)
[5000-10000)
≥10000
4941
1173
1408
202
94
0,99
0,84
2,92
1,36
1,81
22. Построить кривую Лоренца и найти коэффициент Джини для
следующих данных:
Группы населения,
ранжированные по
уровню
среднедушевого
дохода (по 10% от
общей численности
населения)
Удельный вес в
совокупном доходе,
(%)
1
2
3
4
5
6
7
2,3
5,1
6,0
6,9
7,8
8,6
9,7
8
9
10
11,5 15,8 26,3
3. ОБРАБОТКА РЕЗУЛЬТАТОВ НАБЛЮДЕНИЙ
ПО МЕТОДУ НАИМЕНЬШИХ КВАДРАТОВ
Музыку я разъял, как труп.
Поверил я алгеброй гармонию.
А. Пушкин. Моцарт и Сальери
3.1. ДВУМЕРНЫЕ ВЫБОРКИ
До сих пор мы считали, что генеральная совокупность Х – одномерная
случайная величина. В результате эксперимента такая случайная величина
принимает одно значение – х. Но генеральная совокупность может быть и
многомерной случайной величиной. Здесь мы ограничимся случаем
двумерных случайных величин (Х, Y). Составляющие двумерного вектора
– случайные величины Х и Y - могут быть как зависимыми, так и
независимыми. Значения двумерной случайной величины (Х, Y) – это
упорядоченные пары чисел (x, y). Выборка объема n из двумерной
генеральной совокупности - это набор из n упорядоченных пар (xi,уi), i =
=1,2,...,n. Такие выборки называются двумерными. Рассмотрим несколько
примеров.
1. Генеральная совокупность (X, Y) – это множество предложений
русского языка. Случайная величина Х – число слов в предложении.
Случайная величина Y - число букв в предложении. Ниже приводится
текст из 10 предложений - отрывок из рассказа А.П. Чехова «Анна на
шее». После каждого предложения в скобках указано количество слов (xi)
и количество букв (yi) в данном предложении. Пробелы здесь не
учитываются.
«Поехали на бал. (3,12) Вот и дворянское собрание, и подъезд со
швейцаром. (8,41) Передняя с вешалками, шубы, снующие лакеи и
декольтированные дамы, закрывающиеся веерами от сквозного ветра;
пахнет светильным газом и солдатами. (19,122) Когда Аня, идя вверх по
лестнице под руку с мужем, услышала музыку и увидела в громадном
зеркале всю себя, освещенную множеством огней, то в душе ее проснулась
радость и то самое предчувствие счастья, какое испытывала она в лунный
вечер на полустанке. (41,203) Она шла гордая, самоуверенная, в первый раз
чувствуя себя не девочкой, а дамой, и невольно походкою и манерами
подражая своей покойной матери. (22,106) И в первый раз в жизни она
чувствовала себя богатой и свободной. (12,52) Даже присутствие мужа не
стесняло ее, так как, перейдя порог собрания, она уже угадала инстинктом,
что близость старого мужа нисколько не унижает ее, а, наоборот, кладет на
нее печать пикантной таинственности, которая так нравится мужчинам.
(35,197) В большом зале уже гремел оркестр, и начались танцы. (9,42)
После казенной квартиры, охваченная впечатлениями света, пестроты,
музыки, шума, Аня окинула взглядом залу и подумала: «Ах, как хорошо!»
и сразу отличила в толпе всех своих знакомых, всех, кого она раньше
отличала на вечерах и гуляньях, всех этих офицеров, учителей, адвокатов,
чиновников, помещиков, его сиятельство, Артынова и дам высшего
общества, разодетых, сильно декольтированных, красивых и безобразных,
которые уже занимали свои позиции в избушках и павильонах
благотворительного базара, чтобы начать торговлю в пользу бедных.
(72,43) Громадный офицер в эполетах - она познакомилась с ним на
Старо-Киевской улице, когда была гимназисткой, а теперь не помнила его
фамилии – точно из-под земли вырос и пригласил ее на вальс, и она
отлетела от мужа, и ей уже казалось, будто она плыла на парусной лодке, в
сильную бурю, а муж остался далеко на берегу.» (53,247)
В табличном виде выборка выглядит так:
Предложение
1
2
3
4
5
6
7
8
9
10
Количество слов (xi)
3
8
19
41
22
12
35
9
72
53
Количество букв (yi)
12
41
122
203
106
52
197
42
439
247
2. Из большого мешка, содержащего монеты одинакового достоинства,
случайным образом отобраны 10 монет. Каждая монета была взвешена, и
для каждой определен ее возраст:
Монета
Время обращения, лет
(xi)
Вес, г (yi)
1
2
3
4
5
6
7
8
9
10
5
9
14
17
23
31
35
42
46
50
2,82 2,85 2,80 2,80 2,79 2,78 2,77 2,79 2,75 2,72
3.Результаты подбрасывания двух кубиков:
№ подбрасывания
1
2
3
4
5
6
7
8
9
10
Число очков, выпавшее на
1-м кубике
4
6
5
1
1
5
1
5
6
6
Число очков, выпавшее на
2-м кубике
5
1
2
3
6
1
1
6
2
6
3.2. ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ДВУМЕРНЫХ
ВЫБОРОК — ДИАГРАММЫ РАССЕЯНИЯ
Графическое представление одномерной выборки – это гистограмма.
Двумерные выборки удобно представлять с помощью так называемых
диаграмм рассеяния. Каждый элемент двумерной выборки представляется
точкой на плоскости с координатами (xi, yi), i = 1,2,…,n. Диаграммы
рассеяния, представляющие двумерные выборки из наших примеров,
приведены на рис.3.1 – 3.3.
На рис. 3.1 хорошо видно, что точки на диаграмме рассеяния
группируются относительно некоторой прямой, причем чем больше слов в
предложении, тем больше в нем букв. В таком случае говорят, что между
числом слов и числом букв в предложении существует положительная
линейная корреляция (слово “корреляция” означает связь). Во втором
случае (см. рис. 3.2) хорошо заметна отрицательная линейная корреляция
между массой монеты и ее возрастом. Точки на третьей диаграмме
рассеяния (см. рис. 3.3) расположены хаотически. Следует допустить
отсутствие связи между числом очков, выпавшим на первом кубике, и
числом очков, выпавшим на втором. Другими словами разумно
предположить, что случайные величины Х и Y- числа очков, выпавшие на
первом и втором кубике соответственно, независимы.
Слова и предлож ения
y
450
400
350
300
250
200
150
100
50
0
x=0,17y+2,63
y=5,71x-10,36
x
0
10
20
30
Рис. 3.1
40
50
60
70
80
Монеты
y
2,88
x=-348,84y+999,4
2,84
y=-0,002x+2,84
2,8
2,76
2,72
x
2,68
0
10
20
30
40
Рис. 3.2
Кубики
y
6
5
.
3.
2
4
3
2
1
x
0
0
1
2
3
Рис. 3.3
4
5
6
50
3.3. ВЫБОРОЧНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ — ЧИСЛОВАЯ
ХАРАКТЕРИСТИКА ДВУМЕРНОЙ ВЫБОРКИ
В теории вероятностей числовой мерой линейной связи между
случайными величинами Х и Y служит коэффициент корреляции ρ(Х,Y),
определяемый по формуле
ρ( X , Y) =
M( XY) − MX) ⋅ M(Y)
.
σ ( X ) ⋅ σ (Y)
Коэффициент корреляции обладает следующими свойствами:
1. Если X и Y независимы, то ρ(Х,Y) = 0.
2. | ρ(Х,Y) | ≤ 1.
3. | ρ(Х,Y) | = 1 тогда и только тогда, когда случайные величины X и Y
связаны линейной зависимостью Y = aX + b.
В математической статистике аналогом является выборочный
коэффициент корреляции r, определяемый по формуле
1 n
∑ xi y i − x y
n
r = i =1
.
SxS y
Нетрудно убедиться в следующих свойствах выборочного
коэффициента корреляции:
| r | ≤ 1.
1.
2.
| r |= 1 тогда и только тогда, когда точки (xi, yi) лежат на одной
прямой.
Если точки (xi, yi) расположены на диаграмме рассеяния
3.
хаотически, то значение r весьма близко к нулю. Значение r может
оказаться близким к нулю и в случае группировки точек относительно
некоторой кривой, например, параболы.
Вычислим значение выборочного коэффициента корреляции для наших
трех случаев. Для удобства будем использовать таблицы.
Пример с текстом (табл. 3.1).
i
1
2
3
4
5
6
7
8
9
xi
3
8
19
41
22
12
35
9
72
yi
12
41
122
203
106
52
197
42
439
xi yi
36
328
2318
8323
2332
624
6895
378
31608
xi2
9
64
261
1681
484
144
1225
81
5184
Таблица 3.1
yi2
144
1681
14884
41209
11236
2704
38809
1764
192721
10
Сумма
53
274
247
1461
13091
65933
Окончание табл. 3.1
2809
61009
12042
366161
Отсюда:
x = 27,4;
Sx2 = 1204,2 – 27,42 = 453,44;
Sx = 21,3;
2
2
y = 146,1;
Sy = 36616,1 – 146 = 15270,9;
Sy
123,58;
1 10
x i y i = 6593,3; r = 6593 ,3 − 27 , 4 ⋅ 146 ,1 = 0,984 .
∑
10 i =1
21,3 ⋅ 123 ,58
=
Это значение весьма близко к единице. Число букв и число слов в
предложении почти линейно зависят друг от друга.
Пример с монетами (табл. 3.2)
Таблица 3.2
yi2
i
xi
yi
xi yi
xi2
1
5
2,82
14,1
25
7,95
2
9
2,85
25,65
81
8,12
3
14
2,80
39,2
196
7,84
4
17
2,80
47,6
289
7,84
5
6
7
23
31
35
2,79
2,78
2,77
64,17
86,18
96,95
529
961
1225
7,78
7,73
7,67
8
42
2,79
117,18
1764
7,78
9
46
2,75
126,5
2116
7,56
10
50
2,72
136
2500
7,40
Сумма
272
27,87
753,53
9686
77.67
r=
75,353 − 27,2 ⋅ 2,787
= -0,83 .
15,13 ⋅ 0,036
Такое значение r указывает на достаточно сильную отрицательную
линейную зависимость между возрастом монеты и ее массой.
Пример с кубиками (табл. 3.3).
i
1
2
3
4
5
6
xi
4
6
5
1
1
5
yi
5
1
2
3
6
1
xi yi
20
6
10
3
6
5
xi2
16
36
25
1
1
25
Таблица 3.3
yi2
25
1
4
9
36
1
7
1
1
1
i
8
9
10
Сумма
xi
5
6
6
yi
6
2
6
xi yi
30
12
36
1
Окончание
xi2
25
36
36
40
33
129
202
1
табл. 3.3
yi2
2
36
4
36
153
12,9 − 4 ⋅ 3,3
= -0,07
2,05 ⋅ 2,1
Такое маленькое значение r указывает на отсутствие связи между
результатами бросаний кубиков, что соответствует интуитивному
представлению о независимости бросаний.
1 n
В дальнейшем выражение
∑ x i y i − x y будем обозначать через Sxy
n 1
и назовем его выборочной ковариацией.
r=
3.4. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ
Обратимся к примеру с текстом. На рис. 3.1 хорошо видно, что точки
(хi, уi) группируются около прямой. Естественным образом возникает
задача подбора уравнения этой прямой. Например, для того, чтобы
предсказать, сколько примерно букв будет содержать предложение с
заданным количеством слов, можно подобрать два уравнения:
y = ax + b (независимая переменная - число слов, функция –
число букв);
x = cy + d (независимая переменная - число букв, функция –
число слов).
Каждое из таких уравнений называется уравнением регрессии. (Слово
“прогресс” означает развитие, движение вперед, слово “регресс” означает
упрощение, движение назад). В случае уравнения y = ax + b говорят о
регрессии y на x; в случае уравнения x = cy + d говорят о регрессии x на y.
В нашем примере каждая из переменных, как x, так и y, может быть
объявлена независимой. Возможны ситуации, когда независимая
переменная определяется однозначно. Например, можно исследовать
растворимость некоторого вещества (переменная y) в зависимости от
температуры растворителя (переменная x). Здесь x – независимая
переменная, ее значение можно установить заранее, а y – статистически
зависимая переменная. Исследуется только зависимость y от x.
Допустим, мы хотим подобрать коэффициенты уравнения y = ax + b
так, чтобы это уравнение наилучшим образом соответствовало
экспериментальным данным (xi, yi); i = 1,2,…,n. Но ведь понятие
«наилучшим образом» не является строгим. Между точками на рис. 3.1
можно провести бесконечно много «хороших» прямых. Какая же из них
«лучшая»?
Общепринятым способом определения неизвестных коэффициентов
уравнения
регрессии
является
метод
наименьших
квадратов,
разработанный А. Лежандром (1806 ) и К. Гауссом (1821 ). Идея метода
наименьших квадратов такова. Пусть нужно подобрать неизвестные
коэффициенты a1, a2,…,ak уравнения регрессии y = f(a1,a2,...,ak, х).
Рассмотрим экспериментальную точку (xi,yi) и вычислим отклонение
ординаты уi точки от теоретического значения f(a1,a2,...,ak, хi) (рис.3.4).
Рис. 3.4
di= уi – f(a1,a2,...,ak, хi) , i = l,2,...,n.
Неизвестные значения a1,a2,...,ak подберем из условия минимизации
суммы квадратов отклонений di:
n
n
S = ∑d i = ∑[ yi − f (a1, a2 ,...ak , xi )] ⎯
⎯→min .
i=1
2
2
i=1
Необходимое (здесь и достаточное) условие существования экстремума
функции нескольких переменных − равенство нулю всех частных
производных.
Если приравнять нулю частные производные
∂S
∂S
,…,
, получится
∂ a1
∂ak
система из k уравнений для определения k неизвестных чисел a1,a2,...,ak.
Составим эту систему и решим ее в случае линейного уравнения
регрессии. Нужно определить два неизвестных коэффициента а и b
уравнения прямой y = ax + b. Имеем
n
S = ∑[ yi − (axi + b)] ⎯
⎯→min;
2
i =1
n
n
∂S
∂S
= −2∑ xi [ yi − (axi + b)] = 0;
= −2∑ [ yi − (axi + b)] = 0.
∂a
∂
b
i=1
i=1
Раскрывая скобки, получаем:
n
n
⎧ n 2
⎪a∑x i + b∑xi = ∑xi yi ,
⎪ i =1
i =1
i =1
⎨ n
n
⎪a x + bn = y .
∑
i
i
⎪⎩ ∑
i =1
i =1
Разделим второе уравнение системы на n. Уравнение примет вид
y = a x + b, откуда b = y – a x .
Разделим на n первое уравнение системы и подставим в него
полученное выражение b через a. После несложных преобразований
имеем:
2
aSx = Sxy ⇒ a =
S xy
Sx
2
.
Итак,
b= y –ax .
a = Sxy / S x2 ;
Уравнение y = ax + b можно переписать в виде
S xy
( y − y ) = 2 (x − x ) ,
Sy
следовательно, наша прямая проходит через точку ( x ; y ) .
Аналогично определяют коэффициенты c и d линейного уравнения
регрессии x на y, x = cy + d.
c = Sxy / S y2 d = x – c y .
Само уравнение можно записать так:
S xy
(x − x ) = 2 ( y − y ) .
Sy
В этом случае минимизируется сумма квадратов отклонений по
координате x:
n
n
[
]
S = ∑di = ∑ x i − (cyi − d ) ⎯
⎯→min .
i =1
2
i =1
2
Найдем коэффициенты линейных уравнений регрессии y на x и x на y
для примеров с текстом и монетами. Все необходимые расчеты уже были
сделаны при вычислении коэффициентов корреляции (см. пункт 4.3).
Пример с текстом:
1 10
y =146,1;
x =27,4;
∑ x i y i = 6593,3;
10 i =1
Sx2 = 453,44; Sy2 = 15270,9.
Тогда
Sxy = 6593,3 – 27,4 * 146,1 = 2590,3;
S xy
2590 ,16
a=
=
= 5,71;
2
453 ,44
Sx
b = y – a x = 146,1 – 5,71 * 27,4 = -10,42.
Уравнение регрессии y на x таково: y = 5,71x –10,42.
Вычислим несколько значений y для разных x.
х
10
20
30
40
50
60
70
у
46,7
103,8
160,9
218,0
275,1
332,2
389,3
Найдем коэффициенты c и d уравнения регрессии x на y.
S xy
2590 ,16
c= 2 =
= 0,17; d = x – c y = 2,56.
15270 ,9
Sy
Тогда x = 0,17y + 2,56.
Вычислим несколько значений x для разных y.
y
10
50
100
200
300
400
x
4,3
11,1
19,6
36,6
53,6
70,6
Эти прямые приведены на рис. 4.1. Прямые почти совпадают – еще
одно доказательство сильной линейной зависимости между числом слов и
числом букв в предложении.
Пример с монетами.
1 10
x i y i = 75,353; Sx2 = 228,76; Sy2 =
∑
10 i =1
0,00129;
S xy
− 0,45
a
=
=
= − 0,002 ;
Sxy = 75,353 – 27,2 * 2,787 = -0,45;
2
228 ,76
Sx
b = y – a x = 2,787 + 0,002 * 27,2 = 2,84. Тогда y=-0,002x + 2,84.
Коэффициент a отрицателен и очень мал. Несколько значений y:
x =27,2
; y =2,787;
х
y
5
2,83
20
2,80
35
2,77
50
2,74
c=
S xy
2
=
− 0, 45
= − 348 ,84 ; d = x – c y = 999,4.
0,00129
Sy
Уравнение регрессии x на y: x = -348,84y + 999,4.
Несколько значений х:
у
2,85
2,80
2,79
2,78
2,77
2,75
х
5,2
22,6
26,1
29,6
33,1
40,1
Эти прямые показаны на рис. 3.2. Прямые не так близки, как в случае с
текстом, масса монеты не столь жестко связана с ее возрастом, как число
слов и букв в предложении.
3.5. ДРУГИЕ УРАВНЕНИЯ РЕГРЕССИИ
3.5.1. Парабола второго порядка
Уравнение имеет вид y = ax2 + bx + c.
Метод наименьших квадратов дает такую систему линейных уравнений
относительно неизвестных коэффициентов а, b, c:
⎧
4
3
2
2
⎪a∑ x i + b∑ x i + c∑ x i = ∑ x i y i ;
i
i
i
⎪ i
⎪
3
2
⎨a∑ x i + b∑ x i + c∑ x i =∑ x i y i ;
i
i
i
⎪ i
⎪a x 2 + b x + cn = y .
∑i i
∑i i
i
⎪⎩ ∑
i
3.5.2. Показательная функция
Уравнение имеет вид y = bxa.
Прологарифмируем левую и правую части, для определенности
вычислим натуральные логарифмы
ln(y) = a·ln(x) + ln(b).
Обозначим ln(y) через y1, ln(x) через x1, ln(b) через b1. Получаем
уравнение относительно неизвестных коэффициентов а и b1:
y1 = ax1 + b1
Определив по методу наименьших квадратов числа a и b1, найдем
b = eb1.
3.5.3. Степенная функция
Уравнение имеет вид y = bax.
Прологарифмировав левую и правую части, получим линейное
уравнение относительно неизвестных параметров
y1 = a1x + b1,
где y1 = ln(y), a1 =ln(a), b1 = ln(b).
После определения параметров a1 и b1 находим числа a и b:
a = ea1,
b = eb1.
3.5.4. Гиперболическая функция
Уравнение имеет вид y =
1
.
ax + b
1
, получим линейное уравнение относительно а и b:
y
y1 = ax + b.
О более сложных уравнениях регрессии можно прочитать в
специальной литературе по корреляционному и регрессионному анализу.
Положив y1 =
3.5.5. О квазилинейном уравнении регрессии
Уравнение регрессии будем называть квазилинейным, если оно
имеет вид
y (a1 , a 2 ,..., a k , x) = a1 f1 ( x) + a 2 f 2 ( x) + ... + a k −1 f k −1 ( x) + a k .
Здесь a1 , a 2 ,..., a k − неизвестные параметры уравнения регрессии, f1(x),
f 2 ( x), ..., f k −1 ( x) − заданные функции аргумента x.
Это уравнение линейно относительно неизвестных параметров,
метод наименьших квадратов дает такую линейную систему уравнений для
определения значений a1 , a 2, ..., a k
⎧a ∑ f 2(x ) + a ∑ f (x ) f (x ) +L+ a ∑ f (x } f
2 1 i 2 i
k −1 1 i k −1(xi ) + ak ∑ f1(xi ) = ∑ f1(xi ) yi;
⎪1 1 i
i
i
i
i
⎪ i
⎪a ∑ f (x ) f (x ) + a ∑ f 2(x ) +L+ a ∑ f (x ) f (x ) + a ∑ f (x ) = ∑ f (x ) y ;
2
2 i
2 i k−1 i
2 i
2 i i
k−1
k
⎪1i 1 i 2 i
i
i
i
i
⎪⎪
⎨........................................................................................................................................
⎪
2
⎪a1∑ f1(xi ) fk−1(xi ) + a2∑ f2(xi ) fk−1(xi ) +L+ ak−1∑ fk−1(xi ) + ak ∑ fk−1(xi ) = ∑ fk−1(xi ) yi ;
i
i
i
i
⎪ i
⎪a f (x ) + a f (x ) +L+ a
2∑ 2 i
k−1∑ fk−1(xi ) + akn = ∑yi.
⎪ 1∑ 1 i
i
i
i
⎪⎩ i
)
Обозначим теоретические значения у (a1 , a 2 , L , a k , xi ) через y i ( xi )
)
или просто у i .
Левая часть последнего уравнения системы − сумма теоретических
значений величины y, правая часть этого уравнения − сумма выборочных
(экспериментальных) значений этой величины. Таким образом, в случае
квазилинейного уравнения регрессии, суммы теоретических и эксперименn
n
)
∑ yi = ∑ yi .
тальных значений величины y равны,
i =1
i =1
Умножим теперь первое уравнение системы на a1, второе − на a2,…,
последнее, k-е уравнение, умножим на ak. и сложим все уравнения. В
результате получим равенство
n
)2 n
)
∑ yi = ∑ yi yi или
i =1
i =1
n
) )
∑ y i ( y i − y i ) = 0.
i =1
)
)
Рассмотрим разность y i − y = ( y i − y i ) + ( y i − y ). Обозначим через
)
)
ui разность y i − y i . Из доказанных свойств величин y i вытекает, что
n
1 n
)
) 1 n )
u
=
0
;
u
(
y
−
y
)
=
0
;
y
= ∑ y i = y.
∑ i
∑ i i
n i =1
n i =1
i =1
Отсюда следует равенство
1
1
1
)
( y i − y ) 2 = ∑ u i2 + ∑ ( y i − y ) 2 .
∑
n i
n i
n i
u=
Другими словами
s 2y = s u2 + s 2y) ,
где s 2y − дисперсия экспериментальных значений yi;
s 2y) − дисперсия
)
теоретических значений y i . Она называется объясненной дисперсией,
)
ведь значения y i однозначно определяются уравнением регрессии и
обладают дисперсией только в том смысле, что разным значениям
)
аргумента x соответствуют разные значения функции у i ( x) . Число s u2
называется остаточной (необъясненной) дисперсией. Это − дисперсия
)
разностей (остатков, отклонений)
y i − y i . Эти разности не имеют
никакого отношения к уравнению регрессии и поэтому не могут быть
объяснены с точки зрения уравнения регрессии. Чем сильнее
экспериментальные значения отклоняются от теоретических, тем больше
число
s u2 ,
тем
хуже
уравнение
регрессии
соответствует
экспериментальным данным (объясняет экспериментальные данные).
Из сказанного вытекает, что всегда s 2у ≥ s 2у) , и равенство достигается,
)
если у i = у i , i = 1,2, L , n.
3.5.6. Пример построения
нелинейного уравнения регрессии
В качестве примера рассмотрим данные из табл. 3.4, где указаны
объемы производства (xi, 1000т) и фермерская цена (уi долл. за 1т),
скорректированная на индекс потребительских цен вишни в США в 1954 1969 гг.
Таблица 3.4
Год 1954 1955 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969
xi
204 260 168 239 192 218 185 266 276 150 344 248 200 198 228 278
yi
267 174 228 208 225 243 227 217 163 345 154 165 299 325 294 188
Как правило, зависимость между ценой и объемом производства товара
нелинейна. Диаграмма рассеяния для данного примера показана на рис.
3.5. Какой-либо отчетливой зависимости между значениями величин x и y
на диаграмме рассеяния не видно. Но о приблизительно линейной или
параболической зависимости сказать все же можно. Подкрепим эти
рассуждения расчетами.
350
330
310
290
270
250
230
210
190
170
150
150
y 2(x)
y1 (x)
170
190
210
230
250
270
290
310
330
350
Рис. 3.5
Если вычислить по этим данным выборочный коэффициент
корреляции, то получим, что r = -0,738, а это достаточно близко к 1. Ниже
мы постараемся обосновать, почему парабола все-таки несколько лучше
описывает эти данные, чем прямая. Коэффициенты системы линейных
уравнений таковы:
∑ xi = 3654;
n = 16;
∑ xi
4
= 560635921000;
∑ xi
∑ xi = 870918; ∑ xi = 216509904;
∑ yi = 3722;
∑ xi yi = 817695;
2
2
3
yi = 187221051.
Система для определения коэффициентов a, b, c параболического
уравнения регрессии у = ах2 + bx + с получилась такой:
⎧56063921000a + 216509904b + 870918c = 187221051;
⎪
⎨216509904a + 870918b + 3654c = 817659;
⎪870918a + 3654b + 16c = 3722.
⎩
Решение этой системы:
a = 0,00173;
b = -1,723;
c = 532,00.
2
Следовательно, у = 0,00173x – 1,723х + 532.
Коэффициент а близок к нулю, это означает, что полученная парабола
не слишком отличается от прямой линии.
Линейное уравнение регрессии, полученное по методу наименьших
квадратов, таково: у = -0,887х +435,18.
Графики функций y1(x) = -0,00173x2 – 1,723x + 532 и
y2(х) = -0,887х + 435,18 показаны на рис. 3.5.
Если теперь рассчитать суммы квадратов отклонений:
16
S1 = ∑[y1(x i ) − yi ] ,
1
2
16
S2 = ∑[y2 (xi ) − yi ] ,
1
2
которые минимизируются при использовании метода наименьших
квадратов, то, после округления, S1 = 23953; S2 = 23481. Разница, конечно,
невелика, но рассеяние экспериментальных точек вокруг параболы все таки меньше, чем вокруг прямой.
3.6. РАСЧЕТ КОЭФФИЦИЕНТОВ ЛИНЕЙНОГО УРАВНЕНИЯ
РЕГРЕССИИ ПО СГРУППИРОВАННЫМ ДАННЫМ
При большом объеме n двумерной выборки ее группируют, получая
т.н. корреляционную таблицу (табл. 3.5). Каждый из диапазонов значений
составляющих двумерной выборки разбивают на несколько интервалов,
как правило, одинаковой ширины. Затем подсчитывают частоты nij
каждого из получившихся прямоугольников группировки – число пар
двумерной выборки, попавших в данный прямоугольник.
Обозначения:
k – число интервалов группировки по составляющей x двумерной
выборки;
xi – середина i-го интервала группировки по составляющей x;
ni – частота i-го интервала группировки по составляющей х, i = 1,2,..,k;
m - число интервалов группировки по составляющей у;
yj – середина j-гo интервала группировки по составляющей y;
lj – частота j-го интервала группировки по составляющей у, j = 1,2,...,m;
nij – частоты прямоугольников группировки;
n – объем двумерной выборки.
Таблица 3.5
Середины интервалов xi
Середины интервалов yi
y1 y2 … yj … ym
Сумма частот
x1
n11 n12 … n1j … n1m
n1
x2
n21 n22 … n2j … n2m
n2
……………..
……………..
……………..
xi
ni1 ni2 … nij … nim
ni
……………..
……………..
……………..
xk
nk1 nk2 … nkj … nkm
nk
Сумма частот
l1 l2 … lj … lm
n
Следующие соотношения очевидны:
∑n = ∑l
i
i
j
j
= ∑∑ n ij = n; ∑ nij = ni ;
i
∑n
j
j
ij
= lj.
i
Расчеты, выполненные по сгруппированной выборке, отличаются,
конечно, от расчетов, выполненных непосредственно по исходным
данным. Разница получается вследствие перехода к серединам интервалов.
Но она, как правило, невелика, а вычисления по сгруппированной выборке
получаются намного проще.
3.7. ИНДЕКС КОРРЕЛЯЦИИ
Выборочный коэффициент корреляции r является мерой линейной
связи между составляющими двумерной выборки. Если такая связь
существует, но не является линейной, значение r не может служить ее
мерой.
Чтобы
оценить,
насколько
хорошо
соответствует
экспериментальным данным некоторое квазилинейное уравнение
регрессии у = f(x), используют индекс корреляции Ryx,, определяемый
формулой
)
∑( y(xi ) − y)2
i
Ryx =
∑( yi − y)
i
2
=
s 2y)
s 2y
=
⎞
) 2 ⎛⎜
n∑ y(xi ) − ∑ yi ⎟
⎜
⎟
i
⎝i ⎠
⎛
⎞
⎜
n∑ yi − ∑ yi ⎟
⎜
⎟
i
⎝i ⎠
2
2
.
2
Если экспериментальные числа уi совпадают с теоретическими
значениями у(хi) (точки (хi, уi) на диаграмме рассеяния лежат на кривой y =
=f(x)), то Ryx = 1.
Так как всегда s 2y ≥ s 2y) , то 0 ≤ R ≤ 1.
Чем ближе к 1 число Ryx , тем точнее уравнение регрессии
соответствует экспериментальным данным, тем сильнее связь между
значениями составляющих двумерной выборки.
Пример. Найдем индекс корреляции между объемом производства
вишни и ценой вишни (пункт 3.5.5) при описании зависимости
многочленом второго порядка. Расчетные данные:
2
n = 16;
∑y = 3722;
i
j
y = 232,625;
⎞
⎛
⎜ ∑ yi ⎟ =
⎟
⎜
⎝ j ⎠
13853284;
∑y
j
2
i
= 918446;
n ∑(y( x i ) − y ) = 471442,88;
2
j
Ryx=0,748, что несколько больше, чем модуль выборочного
коэффициента корреляции r (r = -0,738). Мы получили подтверждение, что
параболическое уравнение лучше соответствует опытным данным, чем
линейное.
Индекс корреляции не позволяет определить, положительной или
отрицательной является корреляция между величинами у и x (растут или
убывают значения у с ростом x). Это можно сделать по виду диаграммы
рассеяния и графика соответствующего уравнения регрессии.
В заключение отметим, что, построив уравнение регрессии x на у (x =
=g(y)), можно рассчитать индекс корреляции Rxy ≠ Ryx, т.е. оценить, как x
зависит от у.
3.8. ИНДЕКС ФЕХНЕРА И КОРРЕЛЯЦИОНННОЕ
ОТНОШЕНИЕ
Здесь будут описаны два способа оценки степени связи между
составляющими двумерной выборки без использования уравнения
регрессии. Прежде всего, постараемся уточнить, что подразумевается под
термином «связь». Ведь если нет уравнения у = f(x), связывающего
аргумент x и зависимую переменную у, понятие «связь» становится
расплывчатым. Будем говорить, что между составляющими двумерной
выборки существует положительная корреляция (связь), если с ростом
значений x значения y проявляют тенденцию к возрастанию.
Соответственно говорят об отрицательной корреляции между x и у, если с
ростом значений x значения у проявляют тенденцию к убыванию. Конечно,
и формулировку «проявлять тенденцию к» нельзя назвать строгой. Но на
интуитивном уровне она представляется понятной.
Г.Фехнер (1801 - 1887), немецкий психолог, предложил очень
простой способ оценки степени такого рода связи. Для определения
индекса Фехнера вычисляют средние x , y , а затем для каждой пары (xi,
уi) определяют знаки отклонений хi – x , уi – y . Для каждой пары (xi, yi)
возможны четыре сочетания знаков: + +; + —; — +; — —. Обозначим
через V количество совпадений, через W – количество несовпадений
знаков. Половину случаев хi = x или уi = y относят к V, половину – к W.
Индекс Фехнера i определяется формулой i = (V-W)/(V+W).
Ясно, что -l ≤ i ≤ l и что при i > 0 имеем положительную корреляцию,
при i < 0 – отрицательную, при i = 0 связь в указанном нами смысле
отсутствует. Найдем индексы Фехнера для примеров из §3.1.
Пример с текстом. Пары знаков получаются такими:
(- -), (- -), (- -), (+ +), (- -), (- -) (+ +) (- -) (++), (++).
Отсюда V = 10, W = 0, i1 = l.
Пример с монетами. Пары знаков следующие:
(- +), (- +), (- +), (- +), (- +), (+ -), (+ -) (+ +), (+ -), (+ -).
Значит V = 1, W = 9, i2 = -0,8.
Пример с кубиками. Последовательность пар знаков:
(0 +), (+ -), (+ -), (- -), (- +), (+ -), (- -). (+ +), (+ -), (+ +).
Если просто не учитывать первую пару (x1 = x = 4), то V = 4, W = 5,
i3 = -0,11. Если поделить единицу пополам, то V = 4,5 ; W = 5,5, i3 = -0,1.
Корреляционное отношение как мера тесноты связи между
составляющими двумерной выборки было предложено К. Пирсоном. Оно
вычисляется по корреляционной таблице, а расчетная формула аналогична
формуле для индекса корреляции. В дополнение к обозначениям §3.6
введем еще одно. Через y i обозначим т.н. частное среднее значений у для
i-го значения х:
1 m
yi =
∑ y j n ij , i = 1,2, … , k.
ni j =1
По аналогии с индексом корреляции, корреляционное отношение ηyx
вводится так:
2
⎞
⎛m
2
⎟
⎜
n
y
n
y
l
−
( yi − y) ni
∑
i i
∑
⎜∑ j j ⎟
i =1
⎠ .
⎝ j=1
ηyx = im=1
=
2
m
m
2
⎛
⎞
(y j − y) l j n∑ y j 2l j − ⎜ ∑ y j l j ⎟
∑
⎜
⎟
j =1
j =1
⎝ j=1
⎠
k
n
2
Напомним, что
k – число интервалов группировки по составляющей x двумерной
выборки;
xi – середина i-го интервала группировки по составляющей x;
ni – частота i-го интервала группировки по составляющей х, i = 1,2,..,k;
yj – середина j-гo интервала группировки по составляющей y;
m - число интервалов группировки по составляющей у;
lj – частота j-го интервала группировки по составляющей у, j =1,2,...,m;
nij – частоты прямоугольников группировки;
n – объем двумерной выборки.
Если все точки на диаграмме рассеяния сгруппированной выборки
лежат на горизонтальной прямой, то все частные средние y i равны y .
y i = y , i = 1,2, … , k
⇒
ηyx = 0.
Тогда говорят об отсутствии связи между значениями x и у. Если все
точки на диаграмме рассеяния сгруппированной выборки лежат на
некоторой прямой (кроме горизонтальной), то ηyx = 1. В остальных случаях
0 < ηyx < 1.
Величина ηyx зависит от группировки. Как правило, с ростом числа
интервалов группировки по переменной x корреляционное отношение
растет. По аналогии с числом ηyx можно рассчитать число ηxy ≠ ηyx, если
считать x зависимой переменной, а у – независимой переменной.
Пример. На металлообрабатывающем заводе у 60 марок стали
провели замеры предела текучести F(x, кг/мм2) и предела прочности σв (y,
кг/мм2). В итоге получили 60 пар значений, представленных в табл. 3.6.
Предполагается, что большие значения F обуславливают большие
значения σв; марки стали с низким пределом текучести имеют и низкий
предел прочности. Для обоснования гипотезы о высокой положительной
корреляции между пределом прочности и пределом текучести
сгруппируем выборку (табл. 3.7) и рассчитаем числовые характеристики.
F
xi
154
133
58
145
94
113
86
121
119
112
85
41
96
45
99
σв
yi
178
164
75
161
107
141
97
127
138
125
97
72
113
88
109
F
xi
51
101
169
87
88
83
106
92
85
112
98
103
99
104
107
σв
yi
95
114
209
101
139
98
III
104
103
118
102
108
119
128
118
F
xi
98
97
105
71
39
122
33
78
114
125
73
77
47
68
137
σв
yi
140
115
101
93
69
147
52
117
138
149
76
85
61
85
142
F
xi
44
92
141
155
136
82
136
72
66
42
113
42
133
153
85
Таблица 3.6
σв
yi
69
116
157
193
155
81
163
79
81
61
123
85
147
179
91
Внешний вид табл. 3.7 несколько отличается от вида табл. 3.5,
иллюстрирующей двумерную группировку. Табл. 3.7 построена так, чтобы
можно было легко вообразить диаграмму рассеяния, не строя ее саму.
Имеем:
n = 60;
k = 7; m = 8; hx = hy = 20 (длины интервалов группировки).
1
y =
(200*2 + 180*2 + 160*5 + 140*9 + 120*13 + 100*14 + 80*10
60
+ 60*5) = 114,7;
Таблица 3.7
Предел текучести [xi-1, xi], кг/мм
Предел
прочности,
кг/мм2
[190 – 210)
[170 – 190)
[150 – 170)
[130 – 150)
[110 – 130)
[90 – 110)
[70 – 90)
[50 – 70)
ni
yj
200
180
160
140
120
100
80
60
2
[30 – [50 – [70 – [90 – [110 – [120 – [150 –
50)
70)
90)
110) 130 )
150)
170)
xi
40
60
80
100
120
140
160
2
2
5
1
1
5
2
1
8
4
1
7
6
3
3
4
5
8
4
13
15
9
7
4
mj
2
2
5
9
13
14
10
5
60
1
1
(60*5 + 80*3) = 67,5; y 2 = (80*4 + 100) = 105;
8
4
1
y3 =
(160 + 120 + 100*7 + 80*4) = 100; y 4 = 113,3;
13
y 5 = 131,1;
y 6 = 154,3;
y 7 = 190;
y1 =
7
∑ (y
i =1
i
− y
)2 n i
= 8*(67,5 – 114,7)2 + 4*(105 – 114,7)2 + 13*(100 – 114,7)2 +
+15*(113,3–114,7)2 + 9*(131,1–114,7)2 +7*(154,3–114,7)2 +4*(190 – 114,7)2 =
= 57115,8;
∑ (y
8
i =1
− y ) l j = 2*(200 – 114,7)2 + 2*(180 – 114,7)2 + 5*(160 – 114,7)2 +
2
j
+9*(140 – 114,7)2 + 13*(120 – 114,7)2 + 14*(100 – 114,7)2 +10*(80 – 114,7)2 +
+5*(60 – 114,7)2 = 69493,4;
ηyx = 0,82.
Для справки: коэффициент корреляции r = 0,92, предел прочности и
предел текучести связаны сильной линейной зависимостью.
3.9.ЗАДАЧИ
1. Как выражаются коэффициенты линейного уравнения регрессии
через выборочный коэффициент корреляции r ?
2. Показать, что выборочный коэффициент корреляции r не изменится,
если значения хi, уi подвергнуть преобразованию: хi = хi + a; уi = уi + b;
i = 1,2, ... , n. Как изменится выборочный коэффициент корреляции r, если
все числа хi умножить на одно и то же число d, все числа y умножить на
одно и то же число b, i = 1,2, ..., n?
3. В соответствии с методом наименьших квадратов составить систему
уравнений для определения коэффициентов следующих уравнений
регрессии:
у = a + bex,
y = a + b·sinωx + с·cosωx
b
.
(ω – заданное число), y = a +
x
В задачах 4 - 19 нужно найти числовые характеристики выборки и
определить (если r ≥ 0,7) коэффициенты линейного уравнения регрессии х
на у, если у можно принять за независимую переменную.
4. Результаты тестирования (баллы) 10 студентов. Первый тест
проверяет память (x), второй - способность к логическому мышлению (у):
xi
yi
5
8
7
10
4
7
9
6
8
6
7
9
6
9
6
7
10
7
6
8
5. Оценка за тест по способностям (х) шести продавцов–практикантов и
результаты их работы за первый год (у) в сотнях фунтов проданного
товара:
xi
25
42
33
54
29
36
yi
42
73
50
90
45
48
6. Снашивание (х) и твердость (у) резины в условных единицах:
21
15
12
22
5
xi
5
6
7
4
8
yi
7. Масса поросят (у) в килограммах в зависимости от возраста (х) в
неделях:
1
2
3
4
5
6
7
8
xi
yi 2,5 3,9 5,2 6,3 7,5 9,0 10,8 13,1
8. В книге «Основы химии» Д.И.Менделеева приводятся данные о
растворимости азотнокислого натрия NaNO3 в зависимости от
температуры воды. Указывается, сколько условных частей NaNO3 (у)
растворяется в 100 частях воды при соответствующих температурах в oС
(х):
0
4
10
15
21 .
29
36
51
68
xi
yi 66,7 71,0 76,3 80,6 85,7 92,9 99,4 113,6 125,1
9. Средняя температура января в г. Саратове (х) и в г. Алатыре
(Чувашия) (у) измерялась в течение 13 лет:
Год
xi
yi
Год
xi
yi
1891
-19,2
-21,8
1899
-4,9
-7,4
1892
-14,8
-15,4
1911
-13,9
-15,1
1893
-19,6
-20,8
1912
-9,4
-14,4
1894
-11,1
-11,3
1913
-8,3
-4,1
1895
-9,4
-11,6
1914
-7,9
-10,5
1896
-16,9
-19,2
1915
-5,3
-7,2
1897
-13,7
-13,0
―
―
―
10. Средняя температура июня в г. Москве (х) и в г. Ярославле (у)
измерялась в течение 40 лет:
xi
12,0
12,0
12,0
12,0
12,8
13,8
13,1
13,0
yi
10,8
11,3
12,0
13,0
10,9
10,0
11,5
13,0
xi
13,9
11,2
14,0
14,0
13,0
15,0
14,9
15,9
yi
10,1
10,0
10,0
12,0
12,4
11,0
13,0
14,2
xi
15,0
15,0
15,5
15,9
16,0
15,9
16,0
16,9
yi
13,8
16,0
13,9
14,7
13,0
15,0
16,0
12,9
xi
17,2
16,9
16,9
17,0
16,8
17,5
18,0
18,0
yi
13,9
14,8
15,0
16,0
17,0
16,0
14,0
14,0
xi
18,1
18,4
19,2
19,3
20,0
20,1
14,0
14,0
yi
16,0
17,8
15,0
16,1
17,0
17,7
14,8
15,2
11. Объем продажи (х) в миллиардах долларов и чистый доход (у) в
миллионах долларов 20 фирм в США:
xi
yi
xi
yi
8,9
441
4,4
454
8,4
278
4,2
291
7,4
456
4,2
321
7,2
934
4,1
51
7,0
89
3,8
111
6,1
611
3,8
2
5,9
770
3,6
356
5,8
53
3,5
150
5,5
243
3,3
237
4,8
217
3,2
151
Определяется ли доход объемом продажи?
12. Среднегодовые уровни воды в озере Виктория - Ньянза (х)
относительно некоторого фиксированного значения и числа солнечных
пятен (у) за 1902 - 1921 гг.:
Год
1902
1903
1904
1905
1906
1907
1908
1909
1910
xi
-10
13
18
15
29
21
10
8
1
yi
5
24
42
63
54
62
49
44
19
Год
1912
1913
1914
1915
1916
1917
1918
1919
1920
xi
-11
-3
-2
4
15
35
27
8
3
yi
4
1
10
47
57
104
81
64
38
1911
-7
6
1921
-5
25
13. Число айсбергов, наблюдавшихся помесячно к
Ньюфаундленда (х) и к югу от Большой отмели (у) за 1920 г.:
xi
3
10
36
83 130 68
25
13
9
4
3
2
yi
0
1
4
9
3
2
1
0
0
0
18
13
югу
от
14. Число разводов на 1000 жителей в 20 штатах США (у), средний
доход на семью (x1) в тыс. долл.; процент городского населения (х2):
x1 i
4,9
6,3
6,4
6,2
5,8
6,2
4,2
4,9
5,0
4,6
yi
1,2
1,1
0,4
2,4
2,7
2,1
1,2
1,5
1,9
1,6
х2i
38,5
83,6
85,4
73,4
62,4
73,4
39,3
54,3
55,8
62,9
x1 i
4,9
5,2
5,9
5,8
5,4
5,9
4,9
6,2
5,9
6,7
yi
3,6
3,9
4,0
2,7
3,0
2,4
1,2
3,3
3,2
3,1
х2i
75
47,5
56,8
73,7
65,7
74,9
51,3
68,1
62,2
86,4
15. На сталелитейном заводе обследовали 15 плавок определенного
сорта стали. Учитывался угар кремния (х), измеряемый в процентах, и
выход стали (у), также измеряемый в процентах.
xi
yi
xi
yi
7,9
70,3
4,6
68,2
0,9
85,0
9,7
92,1
3,7
100,0
1,0
91,2
8,1
78,1
6,9
77,9
0,8
98,4
6,0
59,2
7,2
86,8
8,8
70,1
10,2
42,2
11,2
81,9
0,5
97,1
16. Продолжительность послеоперационного лечения в клинике (у)
днях и возраст больных (х) в годах, оперировавшихся по поводу грыжи:
xi
78
60
68
62
76
76
64
64
yi
9
4
7
35
9
7
5
19
xi
68
79
80
48
35
58
40
19
yi
7
11
4
9
2
4
3
4
xi
79
51
57
51
48
48
66
71
yi
3
5
8
8
3
5
8
2
xi
75
02
65
42
54
43
04
52
yi
7
0
16
3
2
3
3
8
в
17. При исследовании некоторой химической реакции через каждые 5
минут определялось количество вещества (у) в %, оставшееся в системе.
Подобрать коэффициенты уравнения у = а + bх + сх2, где х – время после
начала реакции в минутах.
0
100
xi
yi
7
87,3
12
72,9
17
63,2
22
54,7
27
47,5
32
41,4
37
36,3
18. Барометрическое давление связано с высотой следующим
−k
z
T
соотношением: p / p0 = e ,
где р - барометрическое давление на высоте z;
Т - температура;
p0 и k - параметры.
По методу наименьших квадратов оценить значения параметров k/T и
р0 по результатам наблюдений, проведенных при постоянной температуре:
ZI,М
pi, мм рт. ст.
1000
640
1100
595
1200
504
1400
363
1500
310
1600
267
19. Для исследования зависимости давления р насыщенного пара
(Н/см2) от удельного объема V (м3/кг) составлена таблица опытных
данных:
Vi
pi
3,334
0,482
1,630
1,034
0,866
2,027
0,423
4,247
0,265
7,164
0,170 0,115
11,480 17,600
Подобрать коэффициенты функциональной зависимости p = aVb.
20. Функциональная зависимость удельного сопротивления
кристаллического кварца ρ (Ом·см) от абсолютной температуры Т (K)
1
a +b
T
имеет вид ρ =10 .
Используя опытные данные, оценить значения параметров а и b.
ρi
Тi
5*1016
335
4*1015
365
3*1014
400
2*1013
445
2*1012 1,5*1011
500
570
21. Получена выборка наблюдений переменных х и у:
xi
yi
1
62,1
2
87,2
3
5
6
7
8
109,3 127,3 134,3 136,2 136,9
1010
670
Для представления этих данных предлагается выбрать лучшую из
предложенных моделей:
x
. 2) y = ba x . 3) y = bx a . 4) y = a ln( x) + b .
1) y =
a + bx
Оценить значения параметров а и b.
22. На заводе производят некоторый материал, твердость которого
хотят повысить. Для этого увеличивают содержание некоторого
химического вещества. Ниже приведены данные для 20 случайно
отобранных образцов. Значения у – твердость образца (условные
единицы), значения х – процентное содержание химического вещества
относительно некоторого уровня.
xi
yi
xi
yi
18
72,2
19
79,1
18
80,1
14
56,4
18
69,8
22
82,4
6
20
9
11
22
58,2 79,7 45,6 58,6 85,4
8
22
11
24
14
55,2 107,8 34,4 115,4 73,5
17
80,1
24
99,5
17
66,7
5
56,8
Подобать коэффициенты линейного и параболического уравнений
регрессии. Какое из уравнений больше соответствует экспериментальным
данным?
6. ПРОВЕРКА ГИПОТЕЗЫ О ЗАКОНЕ РАСПРЕДЕЛЕНИЯ
ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ ПО КРИТЕРИЮ ПИРСОНА
(КРИТЕРИЮ χ2)
Те, что веруют слепо, - пути не найдут.
Тех, кто мыслит, - сомнения вечно гнетут.
Опасаюсь, что голос раздастся однажды:
«О, невежды! Дорога не там и не тут?»
О. Хайям (перевод Г. Плисецкого)
6.1. ПРИМЕР
Рассмотрим такую ситуацию. 200 электронных ламп, выбранных
наудачу из большой партии, испытывались на продолжительность работы.
Результаты (в часах) таковы (табл. 6.1):
[xi-1;xi)
ni
[xi-1;xi)
ni
Таблица 6.1
[0;300)
[300;600) [600;900) [900;1200) [1200;1500) [1500;1800)
53
41
30
22
16
12
[1800;2100) [2100;2400) [2400;2700) [2700;3000) [3000;3300) ⎯
9
7
5
3
2
⎯
Хотелось бы дать разумный ответ на такие вопросы: какую
продолжительность работы следует ожидать, если взять наудачу лампу из
этой же партии? Какова вероятность, что лампа проработает не менее 1000
часов? Какова вероятность того, что лампа проработает менее 200 часов?
Ответить на эти вопросы легко, если известен закон распределения
случайной величины Х – времени работы лампы. Но его-то мы не знаем.
Мы располагаем только выборкой (правда, достаточно большой, n = 200)
из генеральной совокупности X. Попробуем, пользуясь этой выборкой,
подобрать подходящий закон распределения.
Построим прежде всего гистограмму (рис. 6.1).
h i , f(x)
0,0012
0,001
0,0008
0,0006
0,0004
0,0002
X
0
300
600
900 1200 1500 1800 2100 2400 2700 3000 3300
Рис. 6.1
Высоты прямоугольников таковы:
53
53
41
41
h1 =
=
= 0,00088 ; h2 =
=
= 0,00068 ;
n ∗ h 60000
n ∗ h 200 ∗ 300
30
30
h3 =
=
= 0,0005 ; h4 = 0,00037; h5 = 0,00027; h6 = 0,0002;
n ∗ h 60000
h7 = 0,00015; h8 = 0,00012; h9 = 0,00008; h10 = 0,00005; h11 = 0,00003.
Гистограмма – аналог графика функции плотности вероятности. В
нашем случае гистограмма очень похожа на график функции плотности
показательного закона. Мы вправе предположить, что большая выборка
хорошо представляет генеральную совокупность и что если гистограмма
похожа на график экспоненты, то это означает, что выборка извлечена из
генеральной совокупности, распределенной по показательному закону с
функцией плотности вероятности
f(x) = λe-λx.
Однако показательный закон зависит от одного параметра – числа λ.
Чтобы полностью описать закон, нужно знать, чему равно λ. Подберем
значение λ по выборке, причем поступим самым бесхитростным способом.
Как известно, математическое ожидание случайной величины, имеющей
показательное распределение, М(Х) = 1/λ. Если наша выборка хорошо
представляет генеральную совокупность, мы вправе полагать, что значение
выборочного среднего x не слишком отличается от М(Х). Поэтому найдем
x и положим λ=1/ x .
1
(150 ⋅ 53 + 450 ⋅ 41 + 750 ⋅ 30 + 1050 ⋅ 22 + 1350 ⋅ 16 + 1650 ⋅ 12 +
200
+1950⋅9 +2250⋅7 + 2550 ⋅ 5 + 2850 ⋅ 3 + 3150 ⋅ 2) = 871,5(ч) .
Тогда λ = 1/ x ≈ 0,00115, f(x) = 0,00115e -0,00115x ,x ≥ 0.
Вычислим значения f(х) на границах интервалов (табл. 1.2) и построим
график функции плотности вероятности прямо на гистограмме
(см. рис. 6.1).
x=
xi
f(xi)
xi
f(хi)
0
0,00115
1800
0,000115
300
0,00081
2100
0,0001
600
0,00058
2400
0,00007
900
0,00041
2700
0,00005
1200
0,00029
3000
0,000037
Таблица 6.2
1500
0,0002
3300
0,000026
Не следует увлекаться слишком большим количеством значащих цифр,
ведь все наши данные достаточно приближенные.
Кривая функции плотности вероятности f(х) очень «ладно» легла на
гистограмму. Такое хорошее совпадение гистограммы и графика f(х)
прибавляет уверенности в том, что закон распределения генеральной
совокупности Х выбран достаточно точно.
Попробуем
теперь
оценить
числом
расхождение
между
экспериментальными данными и тем, что должно быть «по теории».
Мы можем вычислить теоретическую вероятность рi попадания
случайной величины X, распределенной по показательному закону с
функцией плотности f(x) = 0,00115е-0,00115x, x ≥ 0 в интервал [xi-1, xi).
р(хi-1 < X < xi) = e − λxi −1 − e − λxi = e −0,00115 xi −1 − e −0,00115 xi .
Зная вероятность pi, можно вычислить математическое ожидание числа
попаданий случайной величины Х в интервал [xi-1, xi) в результате n
независимых испытаний, оно равно nрi. Теперь можно найти разность
ni - nрi между числом вариант выборки, попавших в интервал [хi-1, хi), и
ожидаемым числом попаданий. Чтобы оценить суммарное расхождение
между теоретическими и опытными данными, нужно сложить все
полученные разности. Чтобы положительные и отрицательные разности не
уничтожили друг друга, возведем их в квадрат. Кроме того, важно не
абсолютное значение ni - nрi, а относительное (ni,- npi)/npi. Действительно,
если ni = 0, nрi = 1, это совсем не одно и то же, что в случае, когда ni = 10,
nрi = 11. Относительное отклонение в первом случае равно 1, а во втором −
только 1/11.
Итак, вычислим прежде всего вероятности рi.
р1 = P(0 < X < 300) = e-λ*0 - e-λ*300 = e 0 - e –0,345 = 1- 0,708 = 0,2918;
p2 = P(300 < X < 600) = e-λ*300 - e-λ*600 = 0,7082 – 0,5016 = 0,2066;
р3 = P(600 < X < 900) = e-λ*600 - e -λ*900 = 0,1464;
р4 = 0,1036; р5 = 0,0734; р6 = 0,052; р7 = 0,0368; р8 = 0,0261;
р9 = 0,0185; р10 = 0,0131; р11 = 0,0092.
Дальнейшие вычисления приведены в табл. 6.3.
Таблица 6.3
[xi-1; xi)
pi
npi
ni
ni - npi
[0;300)
[300;600)
[600;900)
[900;1200)
[1200;1500)
[1500;1800)
[1800;2100)
[2100;2400)
[2400;2700)
[2700;3000)
[3000;3300)
0,2918
0,2066
0,1464
0,1036
0,0734
0,0520
0,0368
0,0261
0,0185
0,0131
0,0092
∑pi = 0,9775
58,36
41,32
29,28
20,72
14,68
10,40
7,36
5,22
3,70
2,62
1,84
∑npi = 195,5
53
41
30
22
16
12
9
7
5
3
2
∑ni = 200
-5,36
-0,32
0,72
1,28
1,32
1,60
1,64
1,78
1,30
0,38
0,16
–
–
(ni - npi ) 2
npi
0,490
0,002
0,018
0,079
0,119
0,246
0,365
0,607
0,457
0,056
0,014
χ2 = 2,45
Сумма вероятностей pi равна 0,9775. Это значит, что интервал [0; 3300)
охватывает практически все возможные значения выбранного нами
теоретического закона. Сумма чисел последнего столбца традиционно
обозначается буквой χ2 (читается «хи - квадрат»). В нашем случае
11
χ2 =∑
i =1
(ni − np i ) 2
= 2,45 .
np i
Много это или мало?
6.2. НЕМНОГО ТЕОРИИ
Только что мы находили число χ2.
(ni − np i ) 2
χ =∑
,
np
i
i =1
где k – число интервалов; ni – частота i-го интервала;
рi – теоретическая вероятность попадания случайной величины Х
(генеральной совокупности) в i-й интервал;
n – число независимых испытаний (объем выборки);
nрi – математическое ожидание числа попаданий случайной величины
Х в i-й интервал
Но на приведенную формулу можно посмотреть и по-другому. Вместо
числа ni рассмотрим случайную величину ni (в математической статистике
случайные величины и их значения часто обозначаются одними и теми же
маленькими буквами). Случайная величина ni - это число появлений
2
k
«успеха» в n независимых испытаниях, где под «успехом» понимается
попадание случайной величины Х в i-й интервал. Таким образом,
вероятность «успеха» равна рi, а случайная величина ni имеет
биномиальное распределение с параметрами n и рi. В частности, M(ni) =
npi. Рассмотрим теперь случайную величину χ2, функцию от случайных
величин n1, n2, …, nk, определяемую формулой
χ
2
=
k ( n − np ) 2
i
i
∑
i =1
np i
.
Еще раз подчеркнем, что в этой формуле n и рi – это числа, а ni – это
случайные величины. Имея выборку, мы можем найти значения случайных
величин ni, которые они приняли в результате n независимых испытаний, и
вычислить затем значение χэксп – экспериментальное значение случайной
величины χ2. Можно доказать, что если закон распределения генеральной
совокупности Х подобран правильно, то с ростом n случайную величину χ2
можно считать распределенной по так называемому закону распределения
χ2. Это непрерывное распределение, формулу функции плотности
вероятности которого мы не будем здесь приводить. Распределение
зависит от одного параметра r, который называется числом степеней
свободы. В нашем случае
r = k-1-S,
где k – число интервалов;
S – число параметров закона распределения, вычисленных по выборке.
Возникает естественный вопрос: каким должно быть число n, чтобы его
можно было считать «достаточно большим» и пользоваться
распределением χ2? Желательно, чтобы n было таким большим, чтобы все
произведения npi были не меньше 5 (рекомендация всех учебников по
статистике). На самом деле, как показывает практика, вполне достаточно
выполнения неравенств nрi ≥ 1, n ≥ 50.
Примерный график функции плотности вероятности случайной
величины χ2 показан на рис. 6.2.
Рис.6.2
Если закон распределения генеральной совокупности Х подобран
правильно, экспериментальное значение χэксп, вычисленное на основании
выборки, не может быть слишком большим. Зададимся достаточно
большой вероятностью β (β = 0,9; 0,95; 0,99), так что события с
вероятностью α = 1 - β будем считать практически невозможными.
Вероятность α называют уровнем значимости.
С точки зрения подтверждения выдвинутой нами гипотезы о законе
распределения генеральной совокупности Х мы должны считать
практически невозможными большие значения случайной величины χ2.
Мы считаем практически невозможными значения случайной величины χ2
из интервала (χ2кр, ∞), где число χ2кр определяется из условия (см. рис.6.2)
p(χ2 > χ2кр) = α .
χ2 составлены
специальные
таблицы
Для
распределения
2
(приложение 3). По ним можно найти число χ кр, зная α и число степеней
свободы r. Число χ2кр сравнивают с числом χ2эксп. Если оказывается, что
χ2эксп <χ2кр, то говорят, что с точки зрения принятия выдвинутой гипотезы
о законе распределения генеральной совокупности Х произошло
достоверное событие. Гипотеза считается не противоречащей опытным
данным и принимается. Если же оказывается, что χ2эксп > χ2кр, то
выдвинутая гипотеза отвергается, считается, что она противоречит
опытным данным.
В нашем случае k = 11, r = 11 - 1- 1 = 9 (по выборке был определен
один параметр - λ). Если положить β = 0,95 (α = 0,05 - наиболее
употребительное значение уровня значимости), то по таблице
распределения χ2 находим, что χ2кр = 16,92. Между тем χ2эксп = 2,45 < χ2кр.
Так что мы можем считать, что случайная величина Х имеет показательное
распределение с параметром λ = 0,00115. Если бы мы объединили три
последних интервала в один, то имели бы: r = 9 - 1 - 1 = 7; χ2кр = 14,07;
χ2эксп = 2,33 < χ2кр.
Случайная величина χ2 называется критерием χ2. Критерий χ2 был
предложен Карлом Пирсоном в 1900 г. До этого времени совпадение
экспериментальных результатов с теоретическими оценивалось по тому,
как они выглядят на графике.
Нам осталось ответить на вопросы, поставленные в пункте 6.1. Мы
считаем справедливым показательный закон с параметром λ = 0,00115.
Следовательно, М(Х) =1/λ ≈ 870 (ч).
р(Х > 1000) = е-λ*1000 - е-∞ = е-1,15 ≈ 0,32;
р(Х < 200) = е0 - е-λ*200 = 1 - е-0,23 ≈ 0,21.
1.3. ДРУГИЕ ПРИМЕРЫ
6.3.1. Проверка гипотезы о
нормальном законе распределения
Заказчику необходимы валы с допустимым отклонением диаметра от
номинального размера ±0,1 мкм. Прежде чем покупать партию из 1000
валов, он приобрел партию из 200 валов, чтобы оценить ожидаемую долю
неподходящих ему изделий. Результаты измерений представлены в
табл. 6.4.
Таблица 6.4
200 отклонений диаметра вала от номинального размера (мкм)
Середина интервала
Частота
Середина интервала
Частота
-0,14
3
0,00
18
-0,12
8
0,02
17
-0,10
11
0,04
17
-0,08
20
0,06
8
-0,06
27
0,08
4
-0,04
36
0,10
1
-0,02
29
0,12
1
Здесь h = 0,02 мкм; n = 200; nh = 4.
Гистограмма показана на рис.6.3. Высоты гистограммы таковы:
h1 = 0,75; h2 = 2; h3 = 2,75; h4 = 5; h5 = 6,75; h6 = 9; h7 = 7,25; h8 = 4,5;
h9 = h10 = 4,25; h11 = 2; h12 = 1; h13 = h14 = 0,25.
Числовые характеристики: x = - 0,028 (мкм); S = 0,05 (мкм).
Судя по гистограмме, можно заключить, что случайная величина Х –
отклонение диаметра вала от номинального – имеет нормальное
распределение. Функция плотности нормального закона зависит от двух
параметров – а и σ : f ( x) =
9
8
7
6
5
4
3
2
1
0
1
σ⋅
e
2π
−( x − a ) 2
2⋅σ 2
.
hi, f(x)
X
-0,15 -0,13 -0,11 -0,09 -0,07 -0,05 -0,03 -0,01 0,01
Рис. 6.3
0,03 0,05 0,07 0,09 0,11 0,13
Как известно, М(Х) = а, σ (Х) = σ. Для определения а и σ положим, что
а = x , σ = S. Отсюда a = - 0,03; σ = 0,05 (значение x округлено, исходя
из соображений здравого смысла). Тогда
f ( x) =
1
e
−( x + 0,03) 2
− 200( x + 0,03) 2
.
2⋅0,0025 = 8 ⋅ e
0,05 ⋅ 2π
Значения функции плотности вероятности на границах интервалов
таковы (табл. 1.5):
-0,15
0,45
0,01
5,81
xi
f(xi)
хi
f(xi)
-0,13
1,08
0,03
3,89
-0,11
2,22
0,05
2,22
-0,09
3,89
0,07
1,08
-0,07
5,81
0,09
0,45
Таблица 6.5
-0,03
-0,01
8,00
7,38
0,13
–
0,05
–
-0,05
7,38
0,11
0,16
График функции плотности вероятности показан на рис. 6.3.
Вычислим теоретические вероятности попадания в интервалы.
Формула вычисления вероятности попадания в интервал [xi-1; xi)
нормально распределенной случайной величины Х такова:
⎛x −a⎞
⎛x −a⎞
p( xi −1 < X < xi ) = Ф⎜ i
⎟ − Ф⎜ i −1
⎟,
σ ⎠
⎝ σ ⎠
⎝
где Ф(х) – функция Лапласа.
Значения функции Лапласа приведены в приложении 1. Отсюда:
⎛ − 0,13 + 0,03 ⎞
⎛ − 0,15 + 0,03 ⎞
p1 (−0,15 <X< − 0,13) = Ф⎜
⎟ − Ф⎜
⎟ = −0,477 − (−0,492) = 0,015 ;
0,05
0,05
⎝
⎠
⎝
⎠
⎛ − 0,11 + 0,03 ⎞
⎛ − 0,13 + 0,03 ⎞
p 2 (−0,13 <X< − 0,11) = Ф⎜
⎟ − Ф⎜
⎟ = −0,445 − (−0,477) = 0,032 .
0,05
0,05
⎝
⎠
⎝
⎠
Дальнейшие вычисления приведены в табл.6.6.
Из-за того, что значение параметра a случайно совпало с одной из
границ, значения вероятностей Рi оказались симметричны относительно
интервала (-0,05; -0,01). Два последних интервала [0,09; 0,11) и [0,11; 0,13)
объединены ввиду их малочисленности.
Положим α = 0,05. Число степеней свободы r = 13 - 2 - 1 = 10, χ2кр =
=18,3 > χ2эксп = 8,06. Нет оснований отвергнуть выдвинутую нами гипотезу
о нормальном законе распределения отклонений диаметра вала от
номинального значения.
Таблица 6.6
[хi-1; xi)
−
⎛ xi − a ⎞
⎜
⎟
⎝ σ ⎠
-2,4
⎛x −a⎞
Ф⎜ i
⎟
σ
⎝
⎠
pi
npi
ni
ni -npi
(ni − np i ) 2
np i
-0,492
−
−
−
−
−
[-0,15;-0,13)
[-0,13;-0,11)
[-0,11; -,09)
[0,09;-0,07)
[-0,07,-0,05)
[-0,05;-0,03)
[-0,03;-0,01)
[-0,01;0,01)
[0,01;0,03)
[0,03;0,05)
[0,05;0,07)
[0,07;0,09)
[0,09;0,10
[0,11;0,13)
-2
-1,6
-1,2
-0,8
-0,4
0
0,4
0,8
1,2
1,6
2
2,4
2,8
3,2
-0,477
-0,445
-0,387
-0,288
-0,155
0,000
0,155
0,288
0,387
0,445
0,477
0,492
0,497
0,499
0,015
0,032
0,058
0,099
0,133
0,155
0,155
0,133
0,099
0,058
0,032
0,015
0,005
0,002
∑
–
–
0,991
3
6,4
11,6
19,8
26,6
31
31
26,6
19,8
11,6
6,4
3
1,0 ⎫
⎬
0,4⎭
198,2
3
8
11
20
27
36
29
18
17
17
8
4
1⎫
⎬
1⎭
200
0
1,6
-0,6
0,2
0,4
5
-2
-8,6
-2,8
5,4
1,6
1
0
0,4
0,03
0,002
0,006
0,81
0,13
2,78
0,4
2,51
0,4
0,33
0,6
0,26
–
8,06
Оценим долю валов, подходящих заказчику. Вероятность того, что
диаметр вала соответствует требованиям заказчика равна p (−0,1<X<0,1) =
⎛ 0,1 + 0,03 ⎞
⎛ − 0,1 + 0,03 ⎞
= Ф⎜
⎟ − Ф⎜
⎟ = Ф(2,6) + Ф(1,4) = 0,495 + 0,419 = 0,914.
0
,
05
0
,
05
⎝
⎝
⎠
⎠
В среднем около 9 % валов окажутся непригодными для заказчика.
6.3.2. Проверка гипотезы о равномерном
законе распределения
В течение 10 часов регистрировали время прибытия машин к
бензоколонке (табл. 6.7).
Таблица 6.7
Время
прибы[8-9) [9-10) [10-11) [11-12) [12-13) [13-14) [14-15) [15-16) [16-17) [17-18)
тия
(часы)
22
30
22
16
28
13
17
20
17
15
ni
При уровне значимости α = 0,05 проверить гипотезу о том, что время
прибытия машин – случайная величина, имеющая равномерное
распределение.
Построим гистограмму. Так как n = 200, h = 1, то высоты гистограммы
таковы:
22
30
h1 =
= 0,11 ; h2 =
= 0,15 ; h3 = 0,11; h4 = 0,08; h5 = 0,14; h6 = 0,065;
200
200
h7 = 0,085; h8 = 0,1; h9 = 0,085; h10 = 0,075.
Гистограмма приведена на рис. 6.4.
Если мы считаем, что время прибытия машин имеет равномерное
распределение, мы должны определить два параметра (a и b) равномерного
закона. Как известно, функция плотности вероятности f(х) равномерного
закона такова:
⎧ 1
, a⟨ x ⟨ b
⎪
f ( x) = ⎨ (b − a)
.
⎪⎩ 0, x ∉ (a, b)
0,16
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
h i, f(x)
________________________________________________________
X
8
9
10
11
12
13
14
15
16
17
18
Рис.6.4
(b − a ) 2
b−a
a+b
; σ( x ) =
.
; D( x) =
2
12
2 3
Так что для определения а и b можно записать два уравнения:
⎧a + b
⎪ 2 = x;
⎨b − a
⎪
= S,
2
3
⎩
откуда a = x − S 3 ; b = x + S 3 .
Но мы поступим проще и разумнее. Наша выборка расположена на
интервале (8,18), поэтому положим: a = 8, b = 18, f(x) = 0,1 (x∈(8,18)).
График функции плотности вероятности f(x) также показан на
h
рис.6.4.Все теоретические вероятности рi одинаковы и равны
= 0,1.
(b − a )
Дальнейшие расчеты представлены в табл.6.8.
Таблица 6.8
При этом M ( x) =
[хi-1; xi)
pi
npi
ni
ni - npi
[8;9)
[9;10)
[10;11)
[11;12)
0,1
0,1
0,1
0,1
20
20
20
20
22
30
22
16
2
10
2
-4
(ni − np i ) 2
np i
0,2
5
0,2
0,8
[12,13)
[13;14)
[14;15)
[15,16)
[16;17)
[17;18)
–
0,1
0,1
0,1
0,1
0,1
0,1
∑pi = l
20
20
20
20
20
20
∑npi = 200
28
13
17
20
17
15
∑ni = 200
8
-7
-3
0
-3
-5
–
3,2
2,45
0,45
0
0,45
1,25
2
χ эксп = 14
Итак, χ2эксп = 14. Найдем χ2кр. Мы не определяли по выборке
параметров закона - время работы бензоколонки задано заранее. Поэтому
число степеней свободы r = 10 - 1 = 9. Тогда χ2кр = 16,9 > χ2эксп.
Выдвинутую гипотезу можно принять.
6.3.3. Проверка гипотезы о биномиальном
законе распределения
Семь монет подбрасывались 1536 раз. Каждый раз отмечалось число Х
выпавших гербов (табл. 6.9).
Таблица 6.9
xi
0
1
2
3
4
5
6
7
ni
12
78
270
456
386
252
69
13
При уровне значимости α = 0,05 проверить гипотезу о том, что монеты
правильные.
Если все монеты правильные, то вероятность выпадения герба для
каждой из них равна р = 0,5. Тогда случайная величина Х – число
выпавших гербов при бросании семи монет – имеет биномиальное
распределение с параметрами n = 7 и р = 0,5. Биномиальное распределение
дискретно, поэтому нужно вычислить теоретические вероятности рi
каждого из 8 возможных значений случайной величины X. Эти
вероятности считают по формуле Бернулли:
p(X = 0) = C70p0q7 = 0,57 = 0,0078; p(X = 1) = C71p1q6 = 7*0,57 = 0,055;
p(X = 2) = C72p2q5 = 21*0,57 = 0,164; p(X = 3) = C73p3q4 = 35*0,57 = 0,273;
p(X = 4) = C74p4q3 = 35*0,57 = 0,273; p(X = 5) = C75p5q2 = 21*0,57 = 0,164;
p(X = 6) = C76p6q1 = 7*0,57 = 0,055; p(X = 7) = C77p7q0 = 0,57 = 0,0078.
Теперь можно вычислить математические ожидания чисел появлений
каждого из значений случайной величины Х при 1536 бросаниях семи
монет, сравнить их с экспериментальными данными и вычислить χ2эксп.
Результаты сведены в табл. 6.10.
Таблица 6.10
хi
pi
npi
ni
ni - npi
0
0,0078
12
12
0
(ni − np i ) 2
np i
0
1
2
3
4
5
6
7
–
0,055
0,164
0,273
0,273
0,164
0,055
0,0078
∑pi = l
84
252
420
420
252
84
12
∑npi = 1536
78
270
456
386
252
69
13
∑ni = 1536
-6
18
36
-34
0
-15
1
–
0,43
1,29
3,09
2,75
0
2,68
0,08
χ2эксп = 10,32
Найдем χ2кр. В случае дискретной случайной величины при подсчете r
вместо числа интервалов берут число различных значений хi. В нашем
случае r = 8 - 1 = 7, так как ни одного параметра по выборке мы не
находим. Тогда χ2кр = 14,l > χ2эксп = 10,32. Нет оснований опровергнуть
гипотезу о правильности монет.
6.3.4. Проверка гипотезы о законе распределения Пуассона
В таблице приведены числа ni участков равной площади (0,25 км2)
южной части Лондона, на каждый из которых приходилось по хi
попаданий самолетов-снарядов во время второй мировой войны
(табл. 6.11).
Таблица 6.11
хi
ni
0
229
1
211
2
93
3
35
4
7
5 и больше
1
Всего n = 576 участков. При уровне значимости α = 0,05 проверить
гипотезу о том, что случайная величина Х – число самолетов-снарядов,
попавших на участок, имеет распределение Пуассона.
Вероятность того, что случайная величина X, имеющая распределение
Пуассона, примет значение i, равна
λi −λ
e ,
i!
где λ > 0 - параметр закона, i = 0,1,2, ….
Оценим значение параметра λ по выборке. Так как М(Х) = λ, то
1
(0 ⋅ 229 + 1 ⋅ 211 + 2 ⋅ 93 + 3 ⋅ 35 + 4 ⋅ 7 + 5 ⋅ 1) = 0,93 .
положим λ = x , x =
576
Положим λ = 0,93. Теперь можно найти вероятности рi = р(Х = i),
i = 0,1,2,3,4,5.
p( X = i) =
p0 = p ( X = 0) =
p 2 = p ( X = 2) =
λ0
0!
λ
2
2!
−λ
e = 0,395 ;
−λ
e = 0,170 ;
p1 = p ( X = 1) =
p3 = p ( X = 3) =
λ1
1!
−λ
e = 0,367 ;
λ3
3!
−λ
e = 0,053 ;
p4 = p( X = 4) = 0,012 ; p5 = p( X ≥ 5) = 1 − po − p1 − p2 − p3 − p4 = 0,003 .
Остальные вычисления сведены в табл. 6.12.
Таблица 6.12
i
pi
npi
ni
ni - npi
0
1
2
3
4
≥5
0,395
0,367
0,170
0,053
0,012
0,003
227,5
211,4
97,9
30,5
6,9⎫
⎬
1,7 ⎭
229
211
93
35
7⎫
⎬
1⎭
1,5
-0,4
-4,9
4,5
(ni − np i ) 2
np i
0,01
0,001
0,25
0,66
-0,6
0,04
–
∑pi = 1
∑npi = 576
∑ni = 576
–
χ2эксп = 0,96
Два последних значения n4 и n5, nр4 и nр5 объединены, чтобы
обеспечить выполнение условия nрi ≥ 5. Таким образом, осталось 5 разных
значений случайной величины: 0, 1, 2, 3 и все, что больше или равно 4.
Число степеней свободы равно r = 5 - 1 - 1 = 3, так как по выборке было
определено значение параметра λ. Тогда χ2кр = 7,8 > χ2эксп = 0,96. И в этом
случае можно считать справедливой выдвинутую гипотезу.
6.3.5. Последний пример
Согласно закону Геллина, предложенному им в 1855 г., вероятности
рождения двоен, троен и четверней есть соответственно р, р2, р3, где р –
число, постоянное для данной группы населения. На основании
приведенных ниже данных проверить, выполняется ли закон Геллина для
многоплодных рождений среди японцев и белого населения США. В
табл.6.13 через ν2, ν3, ν4 обозначены относительные частоты рождений
двоен, троен и четверней соответственно за указанные периоды.
Таблица 6.13
Годы
1922-1936
1926-1931
Население
Белые США
Японцы
Число рождений
27939615
1226106
ν2
0,01129
0,00697
ν3
0,0001088
0,0000473
ν4
0,00000177
–
Прежде всего оценим по нашим выборкам неизвестные значения р.
Положим, что сумма частот ν2 + ν3 + ν4 равна сумме
p (1 − p 3 )
p
p + p 2 + p3 =
≈
, так как ясно, что р – очень маленькое
1− p
1− p
число. Для белого населения США имеем:
p
= 0,01129 + 0,0001088 + 0,00000177 = 0,01140057 ≈ 0,0114 ;
1− p
0,0114
≈ 0,0113 ; p 2 ≈ 0,000128 ; p 3 ≈ 0,000001 .
1 + 0,0114
Теперь можно воспользоваться критерием χ2. Нужно определить,
извлечена ли выборка из генеральной совокупности X, имеющей такой
закон распределения (табл. 6.14).
Таблица 6.14
p=
1
1- p - p2 - p3
xi
pi
2
3
4
p
2
p3
p
Здесь р = 0,0113.
Все вычисления сведем в табл. 6.15. Частоты n1, n2, n3, n4 равны
соответственно:
n1 = nν1 = 27939615* (1 - ν2 - ν3 - ν4) = 27621087,5;
n2 = nν2 = 27939615*0,01129 = 315438,25; n3 = nν3 = 3039,8; n4 = nν4 =
=49,45.
Таблица 6.15
xi
pi
npi
ni
ni – npi
(ni − np i ) 2
np i
1
2
3
4
–
0,988571
0,0113
0,000128
0,000001
∑pi = l
27620293
315717
3576
28
∑npi = 27939615
27621088
315438
3040
49
∑ni = 27939615
795
-279
-536
–
–
0,02
0,25
80,34
15,75
2
χ эксп = 96,4
Число степеней свободы r равно r = 4 - 1 - 1 = 2, χ2кр = 6,0 << χ2эксп.
Расхождение велико, предложенный закон должен быть отвергнут.
Проделаем те же вычисления в случае с японцами.
ν2 + ν3 + ν4 ≈ 0,00702.
0,0070
Тогда p =
≈ 0,00697 ; р2 = 0,0000486; р3 = 0,00000034;
1 + 0,0070
n1 = nν1 = 1226106*(1 - ν2 - ν3 - ν4) = 1217502; n2 = nν2 = 8545,96;
n3 = nν3 = 57,99; n4 = nν4 = 0.
Найдем χ2эксп (табл. 6.16).
Таблица 6.16
xi
pi
npi
ni
ni -npi
(ni − np i ) 2
np i
1
2
3
4
0,993
0,007
0,0000486
0,00000034
1217502
8544
⎧59,54
⎨
⎩ 0,41
1217502
9545,96
⎧57,99
⎨
⎩ 0
0
1,96
-1,96
0
0
0,06
–
∑pi = 1
∑npi = 27939615
∑ni = 27939615
–
χ2эксп = 0,06
χ2кр = 3,8 > χ2эксп = 0,06. В этом случае гипотеза не отвергается.
6.4. ЗАДАЧИ
Во всех задачах на проверку гипотезы о законе распределения
генеральной совокупности принять уровень значимости α = 0,05, если не
оговорено противное.
1. 100 раз подбрасывались 4 монеты. Каждый раз отмечалось число хi
выпавших цифр:
xi
0
1
2
3
4
ni
8
20 42 22 8
Можно ли считать, что случайная величина Х – число выпавших
цифр при бросании 4-х монет – имеет биномиальное распределение?
2. В библиотеке случайно отобрано 200 выборок по 5 книг в каждой.
Регистрировалось число поврежденных книг (подчеркивания, помарки,
вырванные страницы и т.п.):
xi
0 1
2
3
4
5
ni
1 2
72
77
34 14
Проверить гипотезу о том, что случайная величина Х – число
поврежденных книг в выборке из 5 книг − имеет биномиальное
распределение.
3. На некотором заводе были обследованы рабочие, получившие на
производстве незначительные увечья. За 52 недели результаты оказались
такими:
Число рабочих, получивших увечья за неделю (хi )
Число недель, в течение которых увечья получили хi рабочих
0 1 2 3
31 17 3 1
Можно ли эти данные аппроксимировать законом распределения
Пуассона?
4. Было проверено 500 одинаковых контейнеров со стеклянными
изделиями. В каждом контейнере нашли число поврежденных изделий:
xi
0
1
2
3
4 5 6 7
ni
199
169
87
31
9 3 1 1
Можно ли утверждать, что случайная величина Х – число
поврежденных изделий в контейнере – имеет распределение Пуассона?
5. Ниже приводятся ставшие классическими данные Борткевича о
числе лиц, убитых ударом копыта в 10 прусских армейских корпусах за 20
лет (1875-1894):
Число смертей в одном корпусе за год (i)
Число случаев, когда произошло i смертей
0
109
1
65
2
22
3 4
3 1
Проверить гипотезу о том, что число смертей в одном корпусе за год
подчиняется закону Пуассона.
6. По данным шведской статистики, в Швеции в 1935 г. родилось 88273
ребенка, причем распределение рождений по месяцам таково:
Месяц
Январь
Число рождений в
7280
этом месяце
Месяц
Июль
Число рождений в
7585
этом месяце
Февраль
Март
Апрель
Май
Июнь
6957
7883
7884
7892
7609
Август
Сентябрь
Октябрь
Ноябрь
Декабрь
7393
7203
6903
6552
7132
Совместимы ли эти данные с гипотезой о том, что день рождения
наудачу выбранного человека с равной вероятностью приходится на любой
из 365 дней года?
7. Ниже приводятся результаты опыта с подбрасыванием костей.
Количество граней с 6 очками при 4096 подбрасываниях 12 костей:
Число выпадений 6 очков
ni
0
447
1
1145
2
1181
3
796
4
380
5
115
6
24
7 и более
8
Проверить гипотезу о правильности костей.
В задачах 8 - 16 проверить по критерию Пирсона одну из трех гипотез
о законе распределения генеральной совокупности: равномерном,
нормальном или показательном законе.
8. Регистрировалось время прихода 800 посетителей выставки (начало
отсчета – момент открытия выставки). Результаты указаны в таблице; в
первой строке – интервалы времени, во второй – количество посетителей,
пришедших в течение данного интервала времени:
[xi-1; xi)
ni
[0-1)
368
[1-2)
212
[2-3)
109
[3-4)
51
[4-5)
23
[5-6)
18
[6-7)
13
9. Результаты обследования роста 1000 человек:
Роcт, см
(143 -146)
[146-149)
[149- 152)
ni
1
2
8
Рост, см
[158-161)
[161 -164)
[164 -167)
ni
120
181
201
Рост, см
[173-176)
[176 -179)
[179 -182)
ni
64
28
10
[7-8)
6
[152-155)
[155-158)
26
65
[167-170)
[170-173)
170
120
[182-185)
[185-188)
3
1
10. Результаты испытаний прочности партии стальной проволоки
диаметром 1,4 мм:
Предел прочности,
кг/мм2
[45 -150)
[150 155)
[155 –160)
[160-165)
Число мотков
проволоки
10
24
28
22
Предел прочности,
кг/мм2
[165 -170)
[170-175)
[175 -180)
Число мотков
проволоки
12
7
5
11. Результаты взвешивания 800 стальных шариков:
Масса, граммы
[20,0-20,5)
[20,5-21,0)
[21,0-21,5)
[21,5-22,0)
[22,0-22,5)
Частота
91
76
75
74
92
Масса, граммы
[22,5-23,0)
[23,0-23,5)
[23,5-24,0)
[24,0-24,5)
[24,5-25,0)
Частота
83
79
73
80
77
1.4.12. При изготовлении стального листа для автомобильных корпусов
некоторые места, подверженные ржавчине и коррозии, следует
гальванизировать, т.е. обычный стальной лист целиком покрыть тонким
ровным слоем цинка. Заказчику необходимо найти металлургический
завод, который имеет возможность провести гальванизацию таким
образом, чтобы плотность слоя покрытия была не меньше 91,5 г/м2. На
одном заводе собраны следующие данные о цинковом покрытии стальных
листов:
Плотность
покрытия, г/м2
[84-99)
[99-114)
[114-129)
[129-144)
Число стальных
листов
4
10
18
18
Плотность
покрытия, г/м2
[144 -159)
[159-174)
[174-189)
[189-204)
Число стальных
листов
10
4
1
1
Оценить долю листов, которая не будет удовлетворять требованиям
заказчика.
13. Результаты наблюдения за среднесуточной температурой воздуха в
течение 320 суток:
Температура воздуха, ° С
[- 40…-30)
[-30…-20)
[-20…-10)
[-10…0)
Частота
5
11
25
42
Температура воздуха, ° С
[0…20)
[20…30)
[30…40)
[40…50)
Частота
81
36
20
8
[0…10)
88
[50…60)
4
14. Результаты испытаний 1000 элементов на время безотказной
работы (часы):
Время работы
Частота
[0-10)
365
Положить α = 0,01.
[10-20)
245
[20-30)
150
[30-40)
100
[40-50)
70
[50-60)
45
[60-70)
25
15. Цифры 0,1,2,…,9 среди 800 первых десятичных знаков числа π
появились 74, 92, 83, 79, 80, 73, 77, 75, 76, 91 раз соответственно.
Согласуются ли эти данные с утверждением, что цифры в десятичном
представлении числа π распределены равномерно?
16. Для проверки точности хода специальных маятниковых часов в
выбранные наудачу моменты времени фиксировались углы отклонения
оси маятника от вертикали. Амплитуда колебаний поддерживалась
равной А = 15°. Результаты 1000 таких измерений, разбитые на интервалы
в 3°, приведены в таблице.
Середина интервала -13,5
Частота
188
-10,5
88
-7,5
64
-4,5
86
-1,5
62
1,5 4,5
74 76
7,5
81
10,5
100
13,5
181
Проверить гипотезу о согласии наблюдений с законом
распределения арксинуса. Функция плотности этого закона имеет вид
1
f ( x) =
; -a < x < a.
2
2
π a −x
Download