Теория вероятностей Основные сведения

advertisement
Теория вероятностей
Основные сведения
Вероятность
●
●
●
P(A ∪ B) = P(A) + P(B) – P(A ∩ B)
0 ≤ P(A) ≤ 1
P(Ω)=1
Задача 1
●
●
●
●
●
●
Пусть P(A)=0,6 и P(B)=0,7
Чего из следующего НЕ может быть?
P(A ∩ B) = 0,5
P(A ∪ B) = 0,9
P(A ∩ B) = 0,2
P(A ∪ B) = 0,4
P(A ∩ B) = 0,7
∪ = или
∩=и
Условная вероятность
●
●
●
●
A и B называются независимыми, если
P(A ∩ B) = P(A)⋅P(B)
P(A | B) = P(A ∩ B)/P(B)
P(A | B) = доля A в B
A и B независимы 
P(A|B)=P(A)
Полная вероятность
●
P(A) =
P(A|H1)P(H1) +
P(A|H2)P(H2) + …
P(A|Hn)P(Hn)
H1, H2, … Hn – полная система взаимоисключающих событий
H1
Hn
A
H2
Формула Байеса
●
●
P(A) – априорная (a priori) вероятность
P(A|B) – апостериорная (a posteriori)
вероятность
Задача 2
Предположим, что определенный тест на наркозависимость
обладает 99% чувствительностью и 98% специфичностью, то есть
тест правильно идентифицирует потребителя наркотиков в 99%
случаев, и будет правильно определять не-потребителя наркотиков
в 98% случаев. Предположим, некая корпорация решает проверить
своих сотрудников для потребление опиума и 0,5% сотрудников
используют наркотики. Для некоторого сотрудника тест дал
положительный результат. Какова вероятность того, что этот
сотрудник на самом деле употребляет наркотики?
Задача 3
Представьте, что вы стали участником игры, в которой вам нужно
выбрать одну из трех дверей. За одной из дверей находится
автомобиль, за двумя другими дверями — козы. Вы выбираете
одну из дверей, например, номер 1, после этого ведущий, который
знает, где находится автомобиль, а где — козы, открывает одну из
оставшихся дверей, например, номер 3, за которой находится коза.
После этого он спрашивает вас, не желаете ли вы изменить свой
выбор и выбрать дверь номер 2. Увеличатся ли ваши шансы
выиграть автомобиль, если вы примете предложение ведущего и
измените свой выбор?
Случайные величины
●
●
Дискретные (равномерные, биномиальные,
Пуассоновские, геометрические, гипергеометрические,
отрицательно биномиальные,…)
Непрерывные (равномерные, нормальные,
экспоненциальные, гамма, хи-квадрат, Стьюдента,
Фишера, Дирихле,…)
Дискретные распределения
Poisson
Непрерывные распределения
Beta distribution
Биномиальное распределение
Биномиально распределённая случайная величина = число
успехов в n независимых испытаниях, р = вероятность
успеха в одном испытании
0.6
0.35
0.35
0.5
0.3
0.3
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0.4
0.3
0.2
0.1
0
0
0
1
2
3
p=0.1
4
5
6
0
0
1
2
3
p=0.3
4
5
6
0
1
2
3
p=0.5
4
5
6
Задача 4
Вероятность того, что некая машина будет
производить неисправный элемент,
составляет 0,2. Если с выхода этой машины
взять 6 случайных элементов, то какова
вероятность того, что 5 или более
элементов будут неисправными?
Задача 5
Есть 10 пациентов в местной больнице, которые
наблюдаются 2 сестрами. Пусть в любой момент времени с
вероятностью 0,3 пациенту нужна помощь. Предполагая, что
потребность в помощи у разных пациентов возникает
независимо, определите вероятность того, что персонала в
какой-то момент не хватит. Сколько персонала необходимо,
чтобы гарантировать помощь в любом случае? Сколько
персонала необходимо, чтобы обеспечить помощь всем с
вероятностью 10-5?
Интегральная вероятность
X = случайная величина
F(x) = P(X ≤ x)
Большинство инструментов
анализа данных имеют
встроенную функцию
для интегральной вероятности
биномиального распределения.
Свойство интегральной
вероятности
●
●
●
Если x – случайная величина, то любая
функция φ(x) от x – тоже случайная величина.
Например, F(x), где F – интегральная функция
распределения – тоже случайная величина.
Для любой непрерывной с.в. x с.в. F(x)
распределена равномерно на [0;1]
Математическое ожидание
x
x1
x2
…
…
xn
p
p1
p2
…
…
pn
E(X) = Σ xi pi = не случайная величина
x
0
1
y
0
1
X+Y
0
1
2
P
1/2
1/2
P
1/3
2/3
P
1/6
1/2
1/3
E(X) =0 ∙1/2+1∙1/2=1/2
E(Y) =0 ∙1/3+1∙2/3=2/3
E(X+Y) =1∙1/2+2∙1/3=
= E(X)+E(Y)
Дисперсия
Var(X) = E[ (X-E(X))2 ] = E(X2)-(E (X))2
x
0
1
p
1/3
2/3
E(X)=2/3
x-E(X)
-2/3
1/3
(x-E(X))2
4/9
1/9
p
1/3
2/3
p
1/3
2/3
E(X-E(X)) =-2/9+2/9 = 0
x2
0
1
P
1/3
2/3
E(X2)=2/3
Var(X)=4/9*1/3+1/9*2/3=2/9
Var(X)=E(X2)-E2(X)=2/3 – 4/9 = 2/9
Математическое ожидание и
дисперсия
X = случайная величина








E(X+Y) = E(X) + E(Y)
E(cX) = cE(X)
E(c) = c
если X и Y независимы, то E(XY) = E(X)E(Y)
Var(X) = E(X2) – E2(X)
Var(cX)=c2Var(X)
если X и Y независимы, то Var(X+Y) = Var(X)+Var(Y)
Для общего случая X и Y, Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y)
X и Y независимы  X=a и Y=b независимые события
Упражнения

Используя свойства E(X), докажите, что
●
Var(X) = E[ (X – E(X))2 ] = E(X2) – (E (X))2
●
Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y)
●
●

где
Cov(X,Y)=E[ (X – E(X))⋅(Y – E(Y)) ]
Cov(X,Y)=E(XY) – E(X)⋅E(Y)
Приведите пример X и Y таких, что X и Y зависимы, но
Cov(X,Y)=0
Задача 14

Компания Атилла делает штанги для тяжёлой атлетики. Веса штанг
независимы и распределены нормально со средним значением 18
кг и стандартным отклонением 100 г. Штанги упаковываются в для
продажи в ящики по 10 шт. Веса пустых ящиков распределены
нормально со средним 8 кг и стандартным отклонением 200 г.
Ожидается, что вес полного ящика нормально распределен со
средним значением 188 кг. Чему равно стандартное отклонение?
Распределение Пуассона
Пуассоновская случайная
величина = количество редких
событий в единицу времени
0.4
k −λ
λ e
f (k , λ )=
k!
0.2
0.18
0.35
0.16
0.3
0.14
0.25
0.12
0.2
0.1
0.15
0.08
0.06
0.1
0.04
0.05
0.02
0
0
0
1
2
3
4
5
6
7
λ=1.5
8
9
10
11
12
13
0
1
2
3
4
5
6
λ=5
7
8
9
10
11
12
13
Задача 6
Маркетинг-менеджер компании отметил, что
он обычно получает 10 жалоб в течение
недели (состоящий из пяти рабочих дней), и
что вызовы происходят случайным образом.
Найти вероятность того, что он получает пять
таких звонков в один день.
Задача 7
Частота, с которой появляется конкретный
дефект длинной пластиковой пленки составляет
4,2 дефекта на 75 метров длины. Выбрали
случайный отрезок пленки и установили, что
длина пленки в образце составляла 25 метров.
Какова вероятность того, что в образце будет не
более 2 дефектов?
Нормальное распределение
Таблица стандартного нормального распределения N(0; 1)
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
-7
-7
-7
-6
-6
-6
-6
-6
-5
-5
–5 2,9∙10 4,8∙10 7,9∙10 1,3∙10 2,1∙10 3,4∙10 5,4∙10 8,5∙10 1,3∙10 2,1∙10
–4 0,00003 0,00005 0,00007 0,00011 0,00016 0,00023 0,00034 0,00048 0,00069 0,00097
–3 0,0013 0,0018 0,0025 0,0034 0,0046 0,0062 0,0082 0,0107 0,0139 0,0178
–2 0,0227 0,0287 0,0359 0,0445 0,0548 0,0668 0,0807 0,0968 0,1151 0,1356
–1 0,1586 0,1840 0,2118 0,2419 0,2742 0,3085 0,3446 0,3821 0,4207 0,4601
Число в каждой клетке равно вероятности с.в. принять значение,
меньшее суммы чисел в заголовках строки и столбца.
Другие нормальные
распределения

Z = N(0,1)



X = N(μ, σ)



Mean = 0
Variance = 1
Mean = μ
Variance = σ2
Z = (X – μ)/σ
Задача 8

Диаметры стальных дисков, производящихся на заводе,
как правило, распределены нормально со средним 2,5
см и стандартным отклонением 0,02 см. Какова
вероятность того, что диск, взятый наугад, имеет
диаметр более 2,54 см?
Задача 9

Высота взрослого мужчины, как известно, имеет
нормальное распределение со средним значением 173
см и стандартным отклонением 6,25 см. Какова должна
быть высота дверного проема, что 96% взрослых
мужчин могли пройти через него без того, чтобы
наклониться?
Задача 10

Долголетие людей, проживающих в определенной
местности имеет стандартное отклонение 14 лет. Чему
равна средняя продолжительность жизни, если 30%
людей живут дольше, чем 75 лет? Предположим
нормальное распределение для продолжительности
жизни.
Нормальное приближение для
биномиального распределения
•
•
•
•
•
•
X = Binom(n,p)
n = число испытаний
p = вероятность индивидуального успеха
X = N(μ, σ)
μ = np
σ2 = np(1-p)
n>40
np>5
n(1-p)>5
Задача 11
Уровень безработицы в одном городе
составляет 8,5%. Сделали случайную выборку
из 100 человек из состава рабочей силы. Найти
оценку вероятности того, что выборка содержит
по меньшей мере десять безработных.
Поправка на непрерывность
Нормальное приближение – это всего лишь приближение
Задача 12
Компания заинтересована в исследованиях
демографии слушателей радио программ,
которые они организуют. Радиостанция
установила, что только 20% слушателей
звонивших в программу утром – мужчины. В
некоторую неделю было принято 200 звонков.
Какова оценка вероятности того, что по крайней
мере 50 из абонентов составляют мужчины?
Приближение Пуассона для биномиального
распределения
•
X = Binom(n,p)
•
n = число испытаний
p = вероятность индивидуального успеха
•
•
•
X = Poisson(λ)
λ = np
n→∞
p→0
np=λ=const
Задача 13
Некоторая генетическая характеристика
проявляется в 0,001 населения. В выборке из n =
3000 объектов в k = 7 случаев наблюдаются
указанная характеристика, в то время как
ожидаемое значение только три. Насколько
вероятно, что наблюденное значение (или
большее!) появилось просто случайно?
Download