a = 0

advertisement
«Разные люди под «статистикой» понимают совершенно разные
вещи, и, конечно, она вызывает самое разное отношение к себе:
от полного неприятия через приятие с подозрительностью,
а затем с осторожностью до необузданного восхищения.
Подобным же образом характер ее применения меняется
от вредного злоупотребления до скрытой фальсификации».
Р.Ф. Чини (Шотландский геолог).
Литература:
Основная:
Поротов Г.С.
Математические методы моделирования в геологии.
Санкт-Петербургский государственный горный институт
(технический университет). СПб, 2006.
Дополнительная:
Дж. С. Дэвис
Статистический анализ данных в геологии (в двух книгах).
Москва «Недра», 1990 г.
Р. Ф. Чини
Статистические методы в геологии.
Решение задач в поле и лаборатории
Москва «Мир», 1986 г.
Математическая модель – это совокупность представлений,
предположений, гипотез и аксиом, отражающих существо изучаемого
геологического объекта или явления, выраженная в математической форме
Математическое моделирование геологических объектов можно разделить на несколько
последовательных операций:
1. Определение системы.
2. Измерение характеристик свойств геологических объектов, входящих в систему.
3. Создание геологического представления (геологической модели) о существе изучаемой
системы и формулировка геологической задачи.
4. Выражение геологических представлений в математической форме, (математическая
постановка задачи).
5. Исследование математической модели, которое чаще всего сводится к решению
составленных формул и уравнений и вычислению прогнозных значений свойств или параметров
явлений.
6. Проверка соответствия полученных результатов фактическим данным. Проверка может
дать ответ на вопрос, какая из моделей лучше соответствует действительности.
Математическая модель – это приближённое
описание какого-либо класса явлений внешнего мира,
выраженное с помощью математической символики.
Пример математической модели.
В рудах полиметаллического месторождения пробы проанализированы на цинк и кадмий.
Эта зависимость должна быть пропорциональной:
однако в действительности
она оказывается линейной:
Y = bx
Cd
Y = a +bx
a
с возрастанием содержаний цинка
растет содержание кадмия
0
Zn
Геологическая модель:
Зависимость между содержаниями цинка и кадмия вызвана тем, что оба компонента входят в состав
одного минерала – сфалерита
Математическая модель:
сводится к составлению уравнения зависимости между содержаниями цинка и кадмия
Свойства геологических объектов.
Качественные
Количественные
(выражаются словами)
(выражаются числами)
спайность
простирание, падение, мощность
гематит
цвет, прозрачность
химический состав породы
аметист
текстура
линейность в конгломерате
Для измерения свойств геологических объектов
используются 4 шкалы измерений:
для качественных характеристик –
номинальная и порядковая
для количественных –
интервальная и относительная.
Номинальная шкала имеет только 2 значения (0 – нет, 1 – да).
Номер Однородная Вкрапленная Полосчатая Пятнистая
пробы
1
2
3
4
Брекчиевидная
5
Номер
пробы
Текстура
1
0
0
0
1
0
1
4
2
1
0
0
0
0
2
1
3
0
1
0
0
0
3
2
4
0
0
0
0
1
4
5
5
0
1
0
0
0
5
2
Требуется формализация свойств – классификация и критерии различия.
Порядковая – качественное ранжирование.
2500
Диаграмма для определения окатанности зёрен
2000
1500
1000
500
0
0
1
2
3
4
5
1
2
3
4
5
6
7
8
9 10
12000
10000
8000
6000
4000
2000
0
0
6
7
8
9 10
Интервальная – шкала с произвольным началом отсчёта
x
528419.15
524261.09
523548.92
530206.71
526200.79
536728.92
533164.4
534228.55
530155.65
547722.03
553399.15
552935.46
559394.21
547422.06
561364.79
552330.41
557591.18
547928.3
540251.27
540468.93
555544.54
537612.37
Номер
зоны
Смещение
False easting
y
6729270.15
6725362.24
6733733.35
6712242.86
6719450.78
6729891.29
6725142.33
6695476.41
6704200.6
6737847.01
6726479.61
6744742.06
6737482.76
6749465.49
6748568.31
6738076.28
6745233.52
6733507.23
6713996.09
6690899.29
6757764.7
6741422.13
Кровля
-1345.4
-1331.5
-1361.9
-1275
-1308.5
-1358.3
-1334.3
-1197
-1243.3
-1405.4
-1385.9
-1453.8
-1444
-1455
-1473.4
-1420
-1458.8
-1394.4
-1307
-1180.5
-1484.8
-1412.9
Относительная – шкала с физически существующим началом отсчёта.
Мощность пласта
Содержания химических элементов
Номинальная – кодировка (гранит – Г, диорит – Д или гранит – 1, диорит – 2 и
т.д.). Допускается только сравнение равно - не равно. Шкала имеет только 2
значения (0 – нет, 1 – да).
Порядковая – качественное ранжирование (редковкрапленные – 1,
средневкрапленные – 2, густовкрапленные – 3; шкала Мооса). Допускается
сравнение больше, меньше, равно.
Интервальная – шкала с произвольным началом отсчёта (температура C,
координаты). Допускается количественное сравнение (на сколько больше или
меньше). Деление не имеет смысла.
Относительная – шкала с физически существующим началом отсчёта.
Допускаются все математические операции.
К какому типу относится стратиграфическая шкала?, шкала абсолютного возраста?
Номинальная и порядковая шкалы – дискретные,
интервальная и относительная – непрерывные.
Шкала
Математические и статистические величины, вычисление которых допустимо.
Номинальная
Мода, процентные частоты = доли, корреляция (есть-нет)
Порядковая
Мода, медиана, квартили, коэффициент корреляции, дисперсионный анализ
Интервальная
Мода, медиана, квартили, коэффициент корреляции, ранговые критерии,
средняя, дисперсия, стандартное отклонение, коэффициент корреляции
Относительная
Все арифметические операции, все понятия и методы математической
статистики
Количественные свойства объектов можно перевести в качественные группировкой:
(напр.,хромитовые руды высокохромистые (Cr2О3 > 50%), среднехромистые (45-50%) и
низкохромистые (<45%)
Выбор шкалы измерений: чем выше уровень шкалы, тем она информативнее и тем
больше затрат труда и времени требуется как при измерениях, так и при математической
обработке.
Определения:
Кардинальный способ избежать путаницы –
строгость в употреблении терминов
Наблюдение (индивидуум, событие) - обособленный базовый элемент или объект
исследования, например одна галька на пляже, один образец породы из геологической формации, один
ископаемый остаток из осадочного слоя и т.п.
Выборка - конечное множество наблюдений, отобранных в соответствии с некоторым
планом («выборочным планом»), например, ведро гальки, собранной на пляже; мешок образцов
пород, отобранных из одной геологической формации.
Генеральная совокупность - все множество возможных в данном исследовании
наблюдений: все гальки на пляже; все горные породы, слагающие геологическую формацию;
Измерение - присвоение наблюдению числового или символьного значения
(процесс определения численного значения некоторой величины путем сравнения с эталоном).
Выборочный метод:
Решения, полученные по выборке распространяются на генеральную совокупность.
На результаты выводов влияют два типа погрешностей.
Погрешности измерений
Методические погрешности
(погрешности распространения)
Случайные
Систематические
Представление данных.
Табличная форма
№
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
X
534410.00
534421.50
534433.00
534444.50
534456.00
534468.40
534480.80
534493.20
534505.60
534518.00
534532.80
534547.60
534562.40
534577.20
534592.00
534602.80
534613.60
534624.40
534635.20
Y
7388051.00
7388029.25
7388007.50
7387985.75
7387964.00
7387943.60
7387923.20
7387902.80
7387882.40
7387862.00
7387844.00
7387826.00
7387808.00
7387790.00
7387772.00
7387750.40
7387728.80
7387707.20
7387685.60
Cu
2.00
2.00
2.50
2.50
3.00
2.50
3.00
3.00
3.00
3.00
2.00
2.00
2.00
2.50
2.50
2.50
2.00
2.00
2.50
Zn
5.00
6.00
6.00
6.00
10.00
8.00
10.00
8.00
8.00
8.00
6.00
6.00
4.00
6.00
8.00
8.00
6.00
8.00
8.00
Pb
1.00
1.20
8.00
20.00
30.00
1.20
1.50
50.00
1.50
8.00
6.00
6.00
5.00
3.00
4.00
20.00
8.00
6.00
6.00
Ni
150.00
150.00
200.00
150.00
200.00
200.00
300.00
200.00
300.00
200.00
150.00
150.00
100.00
150.00
200.00
150.00
150.00
150.00
150.00
Co
20.00
25.00
30.00
45.00
40.00
30.00
40.00
30.00
40.00
30.00
20.00
20.00
12.00
20.00
25.00
20.00
15.00
20.00
20.00
Cr
250.00
200.00
250.00
200.00
600.00
600.00
800.00
600.00
500.00
600.00
400.00
500.00
200.00
500.00
400.00
500.00
300.00
400.00
400.00
V
4.00
3.00
3.00
4.00
5.00
4.00
6.00
5.00
5.00
5.00
4.00
4.00
3.00
5.00
5.00
5.00
5.00
5.00
5.00
Если имеется n геологических объектов (или
пунктов измерений) и у каждого объекта
измерено k свойств, то результаты могут быть
сведены в таблицу размером n  k клеток.
Такая таблица может быть выражена матрицей.
x11
x21

xn1
x12
x22

xn 2


X37

x1k
x2 k

xnk
Матрица может быть дополнена координатами
пунктов измерений x, y, z, а при изучении
геологических процессов и временем t.
В компьютере таблицы хранятся изолировано или в базах данных
Куб данных Кателла
Представление данных.
Графическая форма.
Гистограмма
№ Габбро
Гранит
№
Порода
Известняк
1
0
01
Габбро
1
0
2
1
02
0
Известняк
0
Песчаник
Количество наблюдений в каждом классе
( Частота )
(состав гальки)
N=20
Частота интервала (ni) - количество наблюдений в
интервале.
Сумма всех частот равна объему выборки
8
8
6
Частость (fi) или относительная частота
интервала - отношение частоты
интервала к объему выборки. fi=ni/N
Сумма всех частостей равна 1 (100%).
4
4
0
площадь (!) каждого прямоугольника
пропорциональна числу наблюдений в
соответствующем классе, т. е. частоте
данного класса.
2
Габбро
Гранит
Известняк Песчаник
Классы
(Типы пород)
Измерения
в номинальная шкале
Измерения
в порядковой шкале
Эмпирические формулы рассчёта количества
интервалов для группирования данных, измеренных
в относительной шкале.
8 выборки, N
Объём
Число интервалов, k
25 - 40
40 - 60
60 - 100
4 100 - 200
Больше 200
5-6
6-8
7 - 10
8 - 12
10 - 15
Измерения
в относительной шкале
Формулы Брукса и Каррузера: k=5*lgn;
(рекомендуемое соотношение k=n1/2).
20  L < 30
L< 10
Классы
(густота окраски)
10  L< 20
Классы
(тип породы)
Тёмный
Ширина интервала h = (xmax-xmin)/k
Средний
Песчаник
Сланец
Известняк
Формула Стерджеса
0
(Sturge's
Rule) k = 1 + 3,322·lg N
Светлый
k = 16*[0.4*ln(N)-1]
Классы
(длина, мм)
Для равновероятных интервалов
k≃ 4*21/5(n/t)0,4, где t - квантиль стандартного нормального
распределения для заданного уровня значимости.
Для построения гистограммы по данным, измеренным в относительной шкале надо
провести группировку данных. Нижняя граница первого интервала выбирается так,
чтобы xmin попадал примерно в середину этого интервала: xmin-h/2.
Сгенерируйте в MS EXEL 200 чисел и постройте гистограмму,
используя формулу Стерджеса для определения размера
интервала группирования.
Функции распределения
и вероятности.
N=2000
800
0,4
0,4
Частость
600
0,3
0,3
400
0,2
0,2
2000
200
0
Габбро
400
0,1
0,1
Гранит
Известняк Песчаник
0
Габбро
Гранит
Классы
(Типы пород)
Гистограмма позволяет определять вероятности
Вероятность оценивается как отношение
количества исходов, благоприятствующих данному событию,
к общему числу равновозможных исходов.
Известняк Песчаник
Для переменной, измеренной в непрерывной шкале
из гистограммы можно получить другой тип графика –плавную кривую.
Кривая распределения частот
N=20
N=20
8
8
8
0,4
4
0,2
4
4
Частость
Частота
Частота
6
2
0
10
20
30
40
0
Мощность слоя, мм
10
20
30
40
0
Площадь под этой кривой, ограниченная двумя ординатами (вертикальными прямыми),проходящими, например, через
границы класса 10 - 20 мм, будет такой же, как и площадь соответствующего прямоугольного столбика на гистограмме.
Площадь можно посчитать для любого диапазона значений переменной совершенно независимо от первоначальной
классификации, т.е. можно выполнить полный анализ распределения частот в выборке.
Другое название кривой распределения частот — функция плотности вероятности.
N=20
8
8
8
0,4
4
0,2
Частота
Частота
6
4
4
2
0
10
20
30
40
0
10
20
30
27
40
Плотность вероятности
N=20
0
Если предположить, что графики отражают всю генеральную совокупность, то не существует слоев, мощность которых
больше 40 мм. Если выбрать любой отдельный слой из этой генеральной совокупности, можно быть уверенным, что его
мощность будет находиться в диапазоне от 0 до 40 мм
Событие, исход которого абсолютно достоверен, имеет вероятность (исхода), равную единице.
Вероятность обнаружения слоя, мощность которого лежит в интервале от 10 до 20 мм, можно вычислить как
отношение площади выделенного прямоугольника к площади всей гистограммы: 4 / 20 = 0.2.
Тем же свойством обладает и функция плотности вероятности (ФПВ).
Наибольшая плотность вероятности (соответствующая вершине кривой ФВП) означает, что наиболее частая
мощность слоя около 27 мм.
Для определения вероятностей более удобной является интегральная гистограмма.
Интегральная функция распределения
Интегральная гистограмма
Интегральная функция распределения
20
20
1,00
0,8
15
0,75
10
0,50
14
8
0,3
6
0,25
5
4
20
30
40
10
20
30
40
0,00
10
20
30
Медиана
10
Квартиль
0
Квантиль 0,8
0,1
2
40
Вероятность встретить слой, мощностью
менее 10 мм равна 0,1;
менее 20 мм – 0,3;
в интервале 10 – 20 мм - 0,2 (0,3-0,1)
Для определения вероятностей более удобной является интегральная гистограмма.
Функции плотности вероятности и интегральные функции вероятности характеризуются
положением (на оси Х) и формой.
Мерами положения являются
мода,
медиана,
среднее значение.
Мерами формы –
меры рассеяния (размах, интерквартильная широта, дисперсия, стандартное
отклонение, коэффициент вариации),
асимметрия, эксцесс.
Положение функции плотности вероятности (и интегрированной функции), или, точнее,
центральное значение переменной, распределение которой нас интересует, может быть
определено одним из трех параметров: мода, медиана, среднее.
Плотность вероятности
Интегральная вероятность
1,00
0,4
0,75
0,50
0,2
0,25
20
30
0,00
40
Мода — значение переменной, соответствующее
максимуму функции плотности вероятности.
(Обычно оценивается графически)
Среднее значение – это среднеарифметическое
1 n
из всех измеренных значений x 
xi
n i 1

10
20
30
40
Медиана
= 24
10
Мода
= 27
0
Медиана — значение переменной, делящее исследуемую
выборку так, что одна половина выборочных значений
меньше медианного значения, а другая половина больше.
(значение центрального члена ранжированного ряда).
Исходный ряд:
Ранжированный ряд:
7 3 5 1 9 10 2
1 2 3 5 7 9 10
медиана
Среднее
Медиана
Мода
12
4
3
Проведите вычисления описательных статистик (среднего значения, моды
и медианы) для любимой около-экономическими кругами задачи – «расчёта среднего
дохода» на предприятии, в регионе, в стране. Для эксперимента возьмите выборку,
представленную на рисунке. Будем условно считать, что вышли на улицу и спросили
первых 12 попавшихся нам человек о размере их дохода (в условных денежных
единицах) предполагая, что 12 наблюдений – это репрезентативная выборка и её
вполне достаточно для формулировки выводов.
Форма графиков распределения частот описывается параметрами
рассеяния, асимметрией и эксцессом
Рассеяние характеризует, насколько далеко в обе стороны от центрального значения (среднего значения, медианы
или моды) разбросаны наблюдаемые значения. Мерами рассеяния являются размах, интерквартильная широта,
дисперсия, стандартное отклонение, коэффициент вариации.
Размах - разность между максимальным и минимальным наблюдаемыми значениями.
Интерквартильная широта (IQR) – разность между третьей и первой квартилью.
1,00
Дисперсия – число, равное среднему квадрату
отклонений случайной величины от её среднего значения.
0,75
Стандартное отклонение (среднеквадратичное
отклонение, стандарт) – число, равное квадратному корню
из дисперсии.
0,50
Коэффициент вариации – отношение стандартного
отклонения к среднему значению.
0,25
0,00
Первая
квартиль
2
10
20
30
Интерквартильная
широта (31-18=13)
(размах 50% средней части
выборки)
40
Третья
квартиль
2
1n
 2   ( xi  x ) 2 .
n i1
  2
V

x
Асимметрия
Асимметрия характеризует положение моды относительно среднего значения. Если мода смещается в сторону либо
малых, либо больших значений переменной коэффициент асимметрии принимает значения отличные от 0.
Формулы для вычисления коэффициента асимметрии
A
A=
Верхняя квартиль + Нижняя квартиль — 2 X медиана
Интерквартильная широта
A=
Стандартное отклонение
Зх Среднее значение — Медиана
A
n

xi
x
1
n
n
3
3
 ( xi  x )
i 1
А<0
А>0
А=0
- объём выборки
- стандартное отклонение
- значение i-го наблюдения
- среднее значение
Графики плотности вероятности с различной асимметрией
Эксцесс
Эксцесс – степень остро- или плосковершинности распределения значений случайной величины
относительно нормального закона распределения
1 n
4
E
(
x

x
)
3

i
4
n i 1
n

xi
x
- объём выборки
E>0
E=0
E<0
- стандартное отклонение
- значение i-го наблюдения
- среднее значение
Графики плотности вероятности с различными эксцессами
Моменты случайной величины.
1
n
   ( x  a) .
k
n i 1
k
i
Если a = 0, моменты называются начальными.
Если a = среднему значению ( ), моменты называются центральными.
x
x  m1 ;
Срреднее значение – первый начальный момент
2  2 ;
Дисперсия – второй центральный момент
  2 ;
Стандартное отклонение
V   / x;
Коэффициент вариации
А>0
A   3 / 3 ;
E   4 /   3.
4
А<0
А=0
Асимметрия
Эксцесс
E>0
E=0
E<0
Распределения,
вероятность.
Статистические гипотезы
и их проверка.
Будем бросать монету
101
номер броска
г
I
р
г
III
IV
n=21
р
г
II
количество
вариантов
р
г
г
р
г
р
г
г
р
г
р
г
р
г
р
г
р
г
р
4
3
3
2
3
2
2
1
3
2
2
1
Подсчитаем количество гербов при 4 бросаниях монеты
и вероятность их выпадения:
Кол-во
гербов
Частота
Частость
(вероятность)
0
1
1/16
0.0625
1
4
4/16
0.25
2
6
6/16
0.375
3
4
4/16
0.25
4
1
1/16
0.0625
n=22
р
г
2
р
n=23
р
г
р
1
1
0
n=24
Вероятность выпадения R гербов при N бросаниях =
C NR 
N!
R!*(N  R)!
C *Г *P
R
N
R
N R
- биноминальный коэффициент
R – количество гербов
N – количество бросков (или монет)
Г – вероятность выпадения герба в единичном эксперименте (=0.5)
Р – вероятность выпадения решки в единичном эксперименте (=1-Г=0.5)
Кол-во
гербов
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Вычисления для 22 бросаний:
Вероятность
(частость)
0.000000238
0.000005245
0.000055074
0.000367164
0.001744031
0.006278514
0.017789125
0.040660858
0.076239109
0.118594169
0.154172420
0.168188095
0.154172420
0.118594169
0.076239109
0.040660858
0.017789125
0.006278514
0.001744031
0.000367164
0.000055074
0.000005245
0.000000238
Кумулятивная
вероятность
0.000000238
0.000005483
0.000060558
0.000427722
0.002171754
0.008450269
0.026239395
0.066900253
0.143139362
0.261733531
0.415905952
0.584094047
0.738266468
0.856860637
0.933099746
0.973760604
0.991549730
0.997828245
0.999572277
0.999939441
0.999994516
0.999999761
1.000000000
Если монета правильная (т.е. вероятность Г = вероятности Р), то количество выпадающих гербов и
решек должно быть примерно одинаковым. Если же выпадает очень мало или очень много
«гербов», можно сделать следующие выводы:
(а) предположение Г = Р = 1 / 2 верно, но произошло редкое событие;
(б) предположение Г = Р = 1 / 2 неверно, в действительности, Г>Р, если выпало очень
много гербов или Р>Г, если выпало очень много решек.
Чтобы выбрать один из вариантов, надо определить такое значение R (количество гербов), при
котором мы считаем возможным отвергнуть гипотезу о том, что Г равно Р, и принять альтернативную
гипотезу, что Г не равно Р. Такое значение называется критическим значением . (поскольку является
критерием принятия того или иного решения)
Математических способов выбора критического значения не существует.
Оно выбирается как маловероятное и с учётом последствий принятия ошибочного решения.
В статистике для определения критического значения обычно выбирают вероятность 0,05 – 0,01.
Критические значения для проверки гипотезы о «правильности» монеты при 22 бросаниях
Кол-во
гербов
Вероятность
(частость)
Кумулятивная
вероятность
0
0.000000238
0.000000238
1
0.000005245
0.000005483
2
0.000055074
0.000060558
3
0.000367164
0.000427722
4
0.001744031
0.002171754
5
0.006278514
0.008450269
6
0.017789125
0.026239395
0,025
7
0.040660858
0.066900253
8
0.076239109
0.143139362
9
0.118594169
0.261733531
10
0.154172420
0.415905952
11
0.168188095
0.584094047
12
0.154172420
0.738266468
13
0.118594169
0.856860637
14
0.076239109
0.933099746
15
0.040660858
0.973760604
0,975
16
0.017789125
0.991549730
17
0.006278514
0.997828245
18
0.001744031
0.999572277
19
0.000367164
0.999939441
20
0.000055074
0.999994516
21
0.000005245
0.999999761
22
0.000000238
1.000000000
Используя формулу вычисления вероятностей биноминального распределения,
составьте в MS EXEL таблицу вероятностей выпадения n (n= 0..100) гербов при
35 бросаниях и на её основе проверьте правильность вашей монеты.
Кол-во
гербов
p (X=R)= C
C RN 
N
R
N!
R!*(N  R)!
Вероятность
(частость)
*Г
R
*P
Кумулятивная
вероятность
N R
вероятность выпадения R
гербов при N бросаниях
- биноминальный коэффициент
R – количество гербов
N – количество бросков (или монет)
Г – вероятность выпадения герба в единичном эксперименте (=0.5)
Р – вероятность выпадения решки в единичном эксперименте (=1-Г=0.5)
Последовательность действий при проведении статистического анализа.
Формулировка «нулевой» и «альтернативной» гипотез. Нулевая гипотеза (обычно обозначаемая
Н0 ) —это гипотеза об отсутствии различий. Иногда ее специально выдвигают для того, чтобы
отвергнуть в пользу альтернативной гипотезы (обозначаемой H1), которая может быть
формулировкой «рабочей гипотезы» исследователя.
В нашем примере нулевая гипотеза – монета правильная (Г=Р), альтернативная Г>Р
Выбор статистического критерия.
В рассмотренном примере мы построили наш собственный статистический критерий,
базирующийся на исследовании биномиального распределения. Однако в дальнейшем будем
применять «стандартные» критерии
Установление объема выборки N и определение «малой вероятности» а.
Объём выборки определяет выбор критерия и наоборот.
Величина малой вероятности – это вероятность допустить ошибку определения редкого события.
Определение статистики критерия.
Статистика критерия - это число, которое наблюдается или рассчитывается по завершении
эксперимента.
В рассмотренном примере статистикой критерия является число «гербов» R, определяемое
путем подсчета.
Для того чтобы решить, какие значения статистики критерия «обычны», а какие «редки» при
условии справедливости нулевой гипотезы, надо знать распределение частот (или функцию
плотности вероятности) статистики критерия или по меньшей мере ее «критическое значение» на
границе между «обычным» и «редким» значениями. В нашем примере вероятность появления
всех возможных значений статистики критерия была вычислена и представлена графически
Определение «критической области» (или «области непринятия» гипотезы).
Критическая область — это область распределения частот
статистики критерия, содержащая крайние значения статистики
критерия, вероятность появления которых при условии
справедливости гипотезы H0 равна или меньше малой
вероятности а.
Малая вероятность а, выбранная для того, чтобы найти размер
критической области, называется уровень значимости.
Решение.
Если эксперимент дает значение статистики критерия внутри критической области, то Н0
отвергается. При этом возможны два объяснения:
а) Н0 на самом деле справедлива, но произошло редкое событие;
б) Н0 ложна.
Статистический метод проверки гипотез не доказывает чего-либо!
Статистика ничего не доказывает!.
В статистике всегда допускается, что выводы ошибочны, но всегда можно оценить
вероятность этого допущения.
При принятии решения возможны 4 варианта:
Нулевая гипотеза верна
Принимается
Правильное решение.
Отвергается
Ошибка первого рода, a
(ложное срабатывание).
Вероятность ошибки известна
(задаётся исследователем)
Нулевая гипотеза не верна
Отвергается
Правильное решение.
Принимается
Ошибка второго рода, β
(пропуск события).
Вероятность ошибки в общем
случае неизвестна
Парадокс Монти Холла
В поисках автомобиля игрок выбирает дверь 1.
Тогда ведущий открывает 3-ю дверь, за которой
находится коза, и предлагает игроку изменить
свой выбор на дверь 2.
Стоит ли ему это делать?
Монти Холл – ведущий американского телешоу «Let’s Make a Deal»
Для переменной, измеренной в непрерывной шкале
из гистограммы можно получить другой тип графика –плавную кривую.
Кривая распределения частот
N=20
N=20
8
8
8
0,4
4
0,2
4
4
Частость
Частота
Частота
6
2
0
10
20
30
40
0
Мощность слоя, мм
10
20
30
40
0
Площадь под этой кривой, ограниченная двумя ординатами (вертикальными прямыми),проходящими, например, через
границы класса 10 - 20 мм, будет такой же, как и площадь соответствующего прямоугольного столбика на гистограмме.
Площадь под кривой равна суммарной площади прямоугольных столбиков гистограммы и пропорциональна объёму выборки.
В интервале от 10 до 20 мм содержится 4 слоя, доля которых составляет 4//V = 4/20 = 0,2 полного объема выборки.
Подобное упражнение можно выполнить для любого диапазона значений переменной совершенно независимо от
первоначальной классификации, т.е. можно выполнить полный анализ распределения частот в выборке.
Download