Uploaded by Aliy_smi

Тема 02. Описательная статистика ЦНО

advertisement
Наблюдение
Описательная
статистика
Определение связей
между переменными
Корреляционная
техника
Эксперимент
Критерии
различий
Наблюдение
Описательная
статистика
Определение связей
между переменными
Корреляционная
техника
Эксперимент
Критерии
различий
Методы и способы,
используемые для
«суммирования», организации и
«уменьшения» большого
количества наблюдений
(статистических опытов).
•Частотные распределения и
графики
•Меры центральной тенденции
•Меры изменчивости
•Меры формы
•…
Предположим, мы спрашивали студентов,
насколько их провал на экзамене зависел от
причин, которые они никак не могли
контролировать.
Ответы даются по шкале от 1 до 7
(1 - совсем не зависел, 7 - полностью зависел)
Гипотетические данные опроса 25 студентов:
3,5,6,5,2,3,6,4,6,7,6,4,5,5,1,2,5,4,4,5,5,7,3,3,4
Она возникает в результате того, что
индивидуальные значения складываются под
совместным влиянием разнообразных условий
(факторов), по разному сочетающихся в каждом
отдельном случае.
Вариация, которая не зависит от факторов,
положенных в основу выделения групп,
называется случайной вариацией.



построение вариационного ряда (ряда
распределения);
графическое изображение;
исчисление основных характеристик
распределения: показателей центра
распределения; показателей вариации;
показателей формы распределения.
Распределение вероятностей — это закон, описывающий
область значений случайной величины и соответствующие
вероятности появления этих значений.
Гипотетические данные опроса 25 студентов:
3,5,6,5,2,3,6,4,6,7,6,4,5,5,1,2,5,4,4,5,5,7,3,3,4
1,2,2,3,3,3,3,4,4,4,4,4,5,5,5,5,5,5,5,6,6,6,6,7,7
1,2,2,3,3,3,3,4,4,4,4,4,5,5,5,5,5,5,5,6,6,6,6,7,7
ответ
1
2
3
4
5
6
7
частота
1
2
4
5
7
4
2
ответ частота накопленная
частота
1
1
1
%
накопленный
процент
4
4
2
3
4
2
4
5
3
7
12
8
16
20
12
28
48
5
6
7
7
4
2
19
23
25
28
16
8
76
92
100
Столбчатая диаграмма
7
6
5
4
3
2
1
0
1
2
3
4
5
6
7
Гистограмма
ПОЛИГОН
8
7
6
5
4
3
2
1
0
1
2
3
4
5
6
7
КУМУЛЯТА
30
25
20
15
10
5
0
1
2
3
4
5
6
7
А если значений много?
40, 48, 11, 16, 52, 64, 21, 33, 39, 69, 45,
8,35, 22, 57, 74, 13, 25, 47, 27, 38, 43, 15,
33, 66, 52, 47, 37, 0, 24, 43, 61, 35, 29,
52, 40, ….
Частотная таблица получается большой:
балл
f
балл
f
балл
f
0
1
1
0
8
9
2
0
15
16
3
1
2
0
10
0
17
4
3
5
1
0
11
12
0
1
18
19
5
2
6
7
1
1
13
14
2
0
…
74
1
Тогда стоит сгруппировать значения переменной в
интервалы
4.
2. Следующий
Разделить
3. К1.самому
Найти
ответ
интервал
маленькому
разницу
на число
между
начинается
значению
выбранных
наибольшим
с переменной
числа,
интервалов
икоторое
следует
и округлить
за наибольшим
наименьшим
до ближайшего
прибавить
значением
значением
i-1нечетного
предыдущего
числа
и прибавить
0+i-1=0+7-1=6
интервала
к ней
i=75/10=7.5
7 1
Первый интервал
7+i-1=7+7-1=13
(74-0)+1=75
будет от 0 до 6
Второй интервал будет от 7 до 13
возраст
f
возраст
f
0-6
7-13
2
4
50-56
57-63
14
4
14-20
21-27
5
7
64-70
71-77
5
3
28-35
10
36-42
13
43-49
17
126
125,5
125
IQ 124,5
124
123,5
123
женщины
мужчины
140
120
100
80
IQ
60
40
20
0
женщины
мужчины
100
90
80
100
70
80
60
60
50
40
40
20
30
0
A
B
C
20
10
0
A
B
C
Lie factor – отношение разницы в размере
элементов графика к разнице величин,
которые они представляют
Наиболее информативные («честные»)
графики имеют Lie factor =1
Следует избегать соединения
изменений в оформлении графика
с изменениями в данных
Еще одна проблема – многомерные
изменения, т.е. изменения сразу по
нескольким размерностям, например,
по высоте и ширине.
Если масштабирование ведется сразу
по двум измерениям, площадь
изменяется пропорционально
квадрату изменений!
Основные понятия
Выборочной совокупностью или просто
выборкой называют совокупность
случайно отобранных объектов.
Генеральной совокупностью называют
совокупность объектов, из которых
производится выборка.
Основные понятия
Параметры – это меры описания,
полученные при сплошном описании
(описании генеральной совокупности).
Статистики (или оценки параметров) –
это те же меры, но полученные при
выборочном наблюдении (т.е. параметры
описывают генеральную совокупность, а
статистики – ее выборку).
Генеральная совокупность
Выборка
Параметр
Статистика
Выборки бывают разные!
Классификация Л.Мюллера и К. Шусслера
По критерию методов отбора выборки бывают
1) Не случайные
2) Случайные (вероятностные, пробабилистские)
Классификация Л.Мюллера и К. Шусслера
1) Не случайные – не имеют теоретиковероятностного обоснования и, следовательно, не
соответствуют критерию репрезентативности, т.е.
статистики не могут выступать оценками
генеральной совокупности
Классификация Л.Мюллера и К. Шусслера
1) Не случайные
1.1) Бессистемная выборка
1.2) Доступная выборка
1.3) Целенаправленная выборка
Классификация Л.Мюллера и К. Шусслера
1.1) Бессистемная выборка
Отбор любых случайно встретившихся прохожих,
согласившихся принять участие в исследовании.
Может использоваться только для самого первого
ознакомления с проблемной ситуацией
Классификация Л.Мюллера и К. Шусслера
1.2) Доступная выборка
Формируется из числа лиц, которые по
субъективным и объективным факторам могут быть
включены в число респондентов, т.е. доступны
физически.
Используется для накопления данных о латентных
или аномальных явлениях
Классификация Л.Мюллера и К. Шусслера
1.3) Целенаправленная выборка
Преднамеренный отбор определенной категории
респондентов, которые по оценке исследователя в
наибольшей степени информированы по проблеме
или заинтересованы в ее изучении
Используется в экспертных опросах, лабораторных
исследованиях и социальных экспериментах
Классификация Л.Мюллера и К. Шусслера
2) Случайные
2.1) Простая случайная
2.2) Серийная
2.3) Систематическая (интервальная)
2.4) Стратифицированная
2.5) Комбинированная
Классификация Л.Мюллера и К. Шусслера
2.1) Простая случайная – формируется путем
случайного отбора единиц наблюдения из
однородной генеральной совокупности (жребий,
таблицы случайных чисел, компьютерное
моделирование)
.
Классификация Л.Мюллера и К. Шусслера
2.2) Серийная – единицами отбора являются
статистические серии (таксоны, гнезда) –
территориальные общности, коллективы, семьи и
т.д. Серии выбираются по методике простой
случайной выборки
Классификация Л.Мюллера и К. Шусслера
2.3) Систематическая (интервальная) – отбор
единиц производится через один и тот же интервал,
при этом начало отсчета определяется случайным
образом
Классификация Л.Мюллера и К. Шусслера
2.4) Стратифицированная выборка на основе
предварительного выделения в генеральной
совокупности однородных частей, типических
групп (страт). В каждой страте производится
случайный отбор единиц наблюдения, как правило,
пропорционально их доле в генеральной
совокупности.
Классификация Л.Мюллера и К. Шусслера
2.5) Комбинированная – выборка, в которой
используются различные способы отбора.
Например: Гнездовая выборка – по два предприятия
из типичных групп (сильных, средних и слабых).
Далее отбор респондентов осуществляется
интервальным методом.


Поскольку англоязычный вариант теста жизнестойкости состоит всего
из 18 пунктов, и при прямом переводе опросника у нас не было
уверенности, что число пунктов не сократится, то при русификации мы,
исходя из теоретической структуры конструкта жизнестойкости,
предложили дополнительные пункты. Первая русская версия
представляла собой опросник, по структуре аналогичный оригиналу, но
содержащий 119 утверждений. Третья, окончательная версия,
полученная в результате апробации, включает 45 пунктов, содержащих
прямые и обратные вопросы всех трех шкал опросника (вовлеченность,
контроль и принятие риска).
Представленные ниже результаты основаны на исследованиях, в
которых к настоящему времени приняло участие 727 мужчин и женщин
разного возраста, имеющих различное образование, профессии и
проживающих в разных регионах РФ (Москва, Кемерово,
Петропавловск-Камчатский); как здоровых, так и страдающих
психическим заболеванием (шизофрения).
Показатель До тренинга
Сразу после тренинга Два месяца спустя
Жизнестойкость
17,00
20,53
19,68
135,54
147,04
144,89
2,17
7,00
Удовлетворенность работой
Шесть месяцев спустя
149,03
Психическое напряжение
Тревожность
4,54
2,19
2,05
Депрессия 8,31
3,62
2,99
3,21
Обсессивность
7,27
3,38
3,26
3,27
Межличностная тревожность
6,38
2,42
2,64
Соматизация
4,15
4,13
4,03
41,15
19,58
122/80
123/78
7,15
Общая оценка психического напряжения
Физическое напряжение
Артериальное давление 130/82
120/77
2,50
21,22
20,96
Меры центральной тенденции
Среднее арифметическое (М или х)
 Медиана Me или срединное значение
 Мода Md (наиболее вероятное
значение)

Меры центральной тенденции
1,2,2,3,3,3,3,4,4,4,4,4,5,5,5,5,5,5,5,6,6,6,6,7,7
Среднее арифметическое
M=(x1+…+xN)/N
М=(1+2+2+3+3+….+6+7+7)/25=4,4
Меры центральной тенденции
1,2,2,3,3,3,3,4,4,4,4,4,5,5,5,5,5,5,5,6,6,6,6,7,7
Медиана Me
прибавляем 1 к числу значений (размеру
выборки) и делим на 2. Затем определяет
значение, которое соответствует
вычисленной позиции в
последовательности значений.
Me=5
(25+1)/2=13
Меры центральной тенденции
1,2,2,3,3,3,3,4,4,4,4,4,5,5,5,5,5,5,5,6,6,6,6,7
А что же делать, когда у нас четное число
значений? В этом случае медиана - это
значение, которое приходится как раз
посередине двух срединных значений.
(24+1)/2=12,5
значит, значение медианы будет между 12-й
и 13-й позицией
Me=(4+5)/2=4,5
Меры центральной тенденции
1,2,2,3,3,3,3,4,4,4,4,4,5,5,5,5,5,5,5,6,6,6,6,7,7
Мода
Мd=5
Точечной оценкой называется число, которое используется в
качестве оценки параметра генеральной совокупности.
Например, среднее значение выборки является точечной
оценкой среднего значения генеральной совокупности.
Доля признака, рассчитанная по выборке, может
рассматриваться как оценка доли признака в генеральной
совокупности.
μ
Оценка
Параметр
-
разность между оцениваемым параметром
генеральной совокупности и оценкой,
рассчитанной на основе выборки. Ошибка
оценки обычно неизвестна, поскольку
неизвестен параметр.
Ошибка оценки = Параметр – Оценка
Несмещенность оценки означает, что ее математическое
ожидание равно значению оцениваемого параметра
генеральной совокупности.
Эффективность оценки означает, что статистика,
используемая в качестве точечной оценки параметра
генеральной совокупности имеет минимальную стандартную
ошибку.
Состоятельность оценки означает, что по мере увеличения
объема выборки ее значение приближается к значению
оцениваемого параметра генеральной совокупности.
Доверительный интервал – вычисленный на основе выборки
интервал значений признака, который с известной
вероятностью содержит оцениваемый параметр
генеральной совокупности.
«Мы на 95% уверены, что доля людей которым известна наша
торговая марка находится где-то между 23,2% и 38,0%».
«Параметр находится где-то здесь
с 95% вероятностью»
0,232
0,380
Доверительная вероятность (или уровень доверия,
confidence level) – это вероятность того, что
доверительный интервал содержит значение
оцениваемого параметра.
Доверительную вероятность принято устанавливать на
уровнях 90%, 95% и 99%. Чем выше доверительная
вероятность, тем более широкий и менее полезный
интервал мы получим.
90% 95% 99%
Используется наиболее часто
Доверительный интервал
Доверительный интервал
(95% confidence limits of mean)
для среднего представляет интервал
значений вокруг оценки, где с данным
уровнем доверия находится «истинное»
(неизвестное) среднее генеральной
совокупности.
Доверительный интервал
Если среднее выборки равно 23, а
нижняя и верхняя границы
доверительного интервала с уровнем
p=.95 равны 19 и 27 соответственно, то
можно заключить, что с вероятностью
95% интервал с границами 19 и 27
накрывает среднее генеральной
совокупности.
 Размах
 Дисперсия
 Стандартное (среднеквадратичное) отклонение
 Стандартная ошибка
Средний вес команды = 95 кг
Средний вес команды тоже = 95 кг
 Размах R = Xmax- Xmin
1,2,2,3,3,3,3,4,4,4,4,4,5,5,5,5,5,5,5,6,6,6,6,7
R = Xmax– Xmin=7-1=6
Квартиль - это значения признака, которые делят
ранжированный ряд на четыре равные по
численности части.
 Таких величин будет три:
первая квартиль(Q1),
вторая квартиль (Q2),
третья квартиль (Q3).
 Вторая квартиль является медианой.
N Q1
n 1

4
N Q2
n 1
n 1

*2 
4
2
N Q3
n 1

*3
4


В дискретном ряду по накопленным частотам
определяют численное значение.
В интервальном ряду распределения сначала
указывают интервал, в котором лежит квартиль,
затем определяют ее численное значение по
формуле:
Q  xQ  i
N Q  S Q 1
fQ
 Дисперсия
s
2

 Xi  X
N 1

2
Пример. Вычислить дисперсию
для следующей выборки:
5, 6, 3, 8, 5, 9
Вычисляем среднее арифметическое: =
(5+6+3+8+5+9)/6=6
№
1
2
3
2
4s 
5
6
хі-х
(хі-х)2
5-6=-1
Подставляем
в формулу: 1
6-6=0
0
2
3-6=-3
9

 Xi X
 24/(6 - 1)4 4,8
8-6=2
N 1
5-6=-1
1
9-6=3
9
∑
24


 Другая формула для дисперсии:
( X)
X 

2
N
s 
N 1
2
2
 Стандартное отклонение
s 
(X  X )
N 1
2
Стандартная ошибка среднего значения это стандартное отклонение, деленное на
квадратный корень из объема выборки.
SЕ( X ) 
s
N 1
В диапазоне удвоенной стандартной ошибки по обе
стороны от среднего значения с вероятностью
примерно 95% находится среднее значение
генеральной совокупности.
Меры формы
Асимметрия является мерой
несимметричности распределения. Если этот
коэффициент значительно отличается от 0,
распределение является асимметричным
 ( x x)
3
А=
Ns
3
Меры формы
Х=Ме=Md
Симметричное распределение (А=0)
Когда распределение симметрично,
среднее, мода и медиана совпадают
Меры формы
Md Ме Х
Левостороннее, положительное распределение
Если среднее больше медианы, то
распределение называется левосторонним или
положительно асимметричным (по знаку
числовой характеристики А>0).
Меры формы
Х Ме Md
Отрицательное, правостороннее распределение
Если среднее меньше медианы, то
распределение называется правосторонним или
отрицательно асимметричным (A<0).
Меры формы
Эксцесс измеряет остроту пика
распределения
Е=
 ( x x)
Ns
4
4
3
Меры формы
Положительный эксцесс
Меры формы
Отрицательный эксцесс
Нормальное распределение
Нормальное распределение:
f(x)=(1/2)exp{(x-m)2/22}
cреднее значение m
дисперсия 2
асимметрия А = 0
эксцесс Е = 3
Стандартное нормальное распределение
имеет нулевое среднее и единичную
дисперсию
f(x)
-5
-4
-3
-2
-1
0
x
1
2
3
4
5
Нормальное распределение
68.26%
95.44%
99.74%
Количество
абитуриентов
Коррупционный
всплеск
Баллы теста
Нормальное распределение
Нормальная кривая человеческих достижений:
2 года – не писать в штаны
10 лет – иметь много друзей и много тусоваться
20 лет – иметь сексуальные отношения
30 лет – много зарабатывать и иметь крутую тачку
50 лет – много зарабатывать и иметь крутую тачку
60 лет – иметь сексуальные отношения
70 лет – иметь много друзей и много тусоваться
78 лет – не писать в штаны
Какую меру выбрать?
Шкала
Мера
Интервальная или
отношений
Среднее
Стандартное
отклонение
Медиана
Внутриквартильный
размах
Мода
Порядка
Наименований
Какую меру выбрать?
Медиана используется когда
1) распределение асимметрично
2) есть опасность перекоса из-за
экстремальных значений. Медиана не
чувствительна к экстремальным
значениям, в то время как среднее очень
чувствительно.
3)медиану можно вычислять для данных
шкалы порядка и выше.
Что мы должны знать?
1) Как строить частотные таблицы и
графики
2) Меры центральной тенденции
3) Меры изменчивости
4) Меры формы
5) Свойства нормального распределения
Download