Многомерная средняя

advertisement
ТЕМА 2
- Признаки единиц статистической совокупности
- Статистические показатели
- Абсолютные и относительные статистические показатели
- Понятие признака объекта
- Классификация и группировка
- Понятие кластерного анализа
- Средние величины
- Вариации массовых явлений
- Структурные характеристики вариационного ряда
- Показатели размера и интенсивности вариации
- Моменты распределения и показатели его формы
- Многомерные средние
ЦЕЛЬ
ЭТОГО
ЦИКЛА
ЛЕКЦИЙ-
сообщить
начальные сведения о математическом аппарате
статистики
Признаки единиц статистической совокупности
Признак - количественное выражение какого - либо свойства
единицы совокупности .
ПРИЗНАКИ
Описательные
( номинальные
и порядковые )
Количественные
Прямые
( непосредственные )
Косвенные
Первичные
( учитываемые )
Вторичные
( расчетные )
Моментные
Интервальные
Альтернативные
Непрерывные
Дискретные
Статистические показатели
Статистический показатель - обобщающая характеристика какого то свойства совокупности.
Индивидуальное значение - признак.
Абсолютные и относительные статистические показатели.
Абсолютные величины - имеют размерность, относительные величины
- отношения абсолютных величин.
Виды относительных показателей:
- характеризующие структуру объекта
- характеризующие динамику процесса
- характеризующие взаимосвязь между различными признаками
объекта
- характеризующие соотношение разных признаков одного и того же
объекта между собой
- выражающие отношение фактических величин признака к его
плановому,
оптимальному,
максимальному,
нормативному
значению
- полученные в результате сравнения разных объектов по одному
признаку.
Показатели бывают первого порядка и высших порядков.
Показатели высших порядков - это комбинации показателей первого
порядка.
Признак объекта
{F}
{Y}
{M}
1
a c
b
2 2
2
c
a
a b
1
2
{ F } - предъявляемые объекты
3
2
4
c
b
1
a
Y  y1 , y 2 , y 3
b
a
c
3
3•5
3
, где
b
{ Y } - признаки
c
1
2
5
5
2
2
{M } - данные измерений
3
y1 = a , y2 = b , y3 = c
M 1  2,2, 2, M 2  1,2, 5,M 3  1,2, 3...
Объект
Вектор
Желтый
Красный
Есть
косточки
Вишня
x1
x2
x3
Есть
семечки
x11 = 0
x21 = 1
x31 = 1
x12 = 1
x22 = 1
x32 = 0
x13 = 0
x23 = 1
x33 = 0
x14 = 1
x24 = 0
x34 = 0
Яблоко
Банан
x  x1 , x 2 , x 3 
x 1T
x 2T
x 3T
0
1
0
1
1
1
1
0
1
0
0
0
Классификация объектов
Процедура классификации состоит в том , чтобы отнести
предъявляемый объект к тому или иному классу .
Понятие расстояния между классами:
P  X 0 , X 0  X ; где X 
метрическое пространство.
Расстояние между точкой и классом :
d 1  P , X 0   inf  d  P , M  , M  X 0  ,
Расстояние между классами
X1  X , X 2  X :
d 2  X1 , X 2   inf d  P , M  P  X1 , M  X 2  ,
Способы определения расстояния
Евклидово расстояние
2

d e  x i , x j     x ik  x jk 
 k 1

n
1
2
расстояние по Манхэттену (метрика городских кварталов)
n
d m  x i , x j    x ik  x jk
k 1
Чебышевское расстояние
d ch  x i , x j   max x ik  x jk
расстояние по Камберру
n
x ik  x jk
k 1
x ik  x jk
d k  xi , x j   
Классификация по минимальному расстоянию.
Ri i  1 , 2 , ... , k 
множество векторов ,
характеризующих эталонные образы
d  x m , ck   min .
x m  ck
, если
Понятие о кластерном анализе.
- вычисляются расстояния между всеми точками в пространстве
признаков.
- две точки (с минимальным расстоянием между ними) объединяются
в класс.
- вычисляются расстояния от всех точек до класса.
- к классу присоединяется новая точка (с минимальным расстоянием до
класса).
- процесс прерывается, когда расстояние от точек до класса превысит
rкрит..
Группировка - частный случай классификации.
Группировка - это распределение единиц по группам в соответствии
с принципом: различия между единицами, отнесенными к одной
группе меньше чем между единицами другой группы.
Для решения задачи группировки нужно установить правила отнесения
единицы к той или иной группе:
- определяются (группировочные) признаки, по которым будет
проводиться группировка
- определяются значения отделяющие одну группу от другой
(интервалы группировки).
Группировка называется простой, если для ее построения используется
один группировочный признак. Если группировка проводится по
нескольким признакам - она называется сложной (политетической).
Комбинационная группировка:
группы выделенные по одному признаку подразделяются на подгруппы
по другому признаку.
Интервалы: открытые и закрытые.
Закрытые интервалы: равные и неравные.
Неравные интервалы определяются как равнонаполненные.
Виды группировок
Типологическая группировка служит для выделения классификации
типов явлений
Этапы проведения типологической группировки:
- выделяются те типы явлений, которые должны быть
проанализированы,
- выбираются группировочные признаки, формирующие описание
типов,
- устанавливаются границы интервалов,
- группировка оформляется в таблицу, выделенные группы
объединяются в намеченные типы, определяется численность
каждого из них.
Структурная группировка характеризует структуру совокупности
по какому - либо одному признаку.
Позволяет изучать:
- интенсивность вариации группировочного признака
- динамику структуры совокупности.
Средние величины
Средняя величина обобщает качественно однородные значения
признака.
Виды средних:
n
x
x
i
i 1
средняя арифметическая
n
n
x
/
x
 i  fi
i 1
взвешенная средняя арифметическая
n
f
i
i 1
Возраст
17 - 20
20 - 30
30 - 40
40 - 50
50 - 65
Число больных f i
48
120
75
62
54
12408
X=
Xi / f i
888
3000
2625
2790
3105
12408
= 34.56 года
359
Середина инт. Xi /
18.5
25
35
45
57.5
n
2
x
 i
xк в 
i 1
n
средняя квадратическая
n
xс т 
k
k
x
 i
i 1
средняя степенная
n
n
средняя гармоническая
x г ар м  n
1

i 1 x i
x г е о м n x 1  x 2  ...  x n средняя геометрическая
Правило мажорантности средних величин:
xгарм  xгеом  xариф  xкв  xст
Вариации массовых явлений
Вариацией значений какого - либо признака в совокупности
называется различие его значений у разных единиц данной
совокупности в один и тот же период или момент времени .
Вариационный ряд - упорядоченное распределение единиц
совокупности по возрастающим / убывающим значениям признака и
подсчет числа единиц с тем или иным признаком.
Вариационный ряд ( ряд распределения )
Ранжированный
Дискретный
Интервальный
Число койко-дней в
кардиологических
Наименование больницы
отделениях больниц
города
Больница N3
14.9
Железнодорожная клиника
16.0
Больница N1
18.6
Больница N2
25.2
Число забитых мячей , X i
0
1
2
3
4
5
6
7
Число игр с таким кол - вом X i
21
41
41
37
19
10
6
2
50
Число 40
боль ниц 30
региона, 20
f
10
0
5
10 15 20 25 30 35 40 45 50 55
Сме ртность по тубе ркуле зу,
(на тыс. боль ных)
Как определить число требуемых интервалов в интервальном
вариационном ряду?
Формула Стержеса :
k = integer 1 3.32 lg( n )
тогда, ширина интервала:
x max  x min

k
Структурные характеристики вариационного ряда
Медиана распределения
Медиана - это численное значение признака у той единицы изучаемой
совокупности, которая находится в середине ранжированного ряда.
Медиана делит совокупность на две равные части. Первая половина
единиц статистической совокупности (после ранжирования!) имеет
значение варьирующего признака меньше, чем медиана, элементы из
второй половины совокупности - больше.
Пример: группа из 7 студентов в возрасте от 17 до 23 лет сидят в
аудитории за семью столами. Вариационный признак - возраст
студента.
Первичные данные
Номер
1
стола
Возраст
21
студента
2
3
4
5
6
7
17
19
22
18
20
23
Строим ранжированный (по возрасту) вариационный ряд
Номер
2
5
3
6
1
4
стола
Возраст
17
18
19
20
21
22
студента
7
23
Медиана равна 20 годам. Т.е. возраст четвертого (в ранжированном
вариационном ряду) студента делит совокупность на две равные части.
Трое студентов моложе его, трое - старше.
Если число единиц наблюдения (число элементов статистической
совокупности) четное, то медианой считается средняя арифметическая
из значений признака у двух серединных членов совокупности.
Рассмотрим абсолютно аналогичный пример, но для случая, когда
наблюдается группа из 8 студентов.
Первичные данные
Номер
1
2
стола
Возраст
21
17
студента
3
4
5
6
7
8
19
22
18
20
23
20.5
1
4
7
21
22
23
Ранжированный вариационный ряд (по возрасту)
Номер
2
5
3
6
8
стола
Возраст
17
18
19
20
20.5
студента
В этом случае медиана равна
20  20.5  20.25
2
Определение медианы по интервальному ряду
Предположим, что первичные данные обработаны, и по ним построен
интервальный вариационный ряд. Пример: статистическому
наблюдению подвергаются больницы области. Число больниц - 143.
Вариационный признак - число коек. Строится интервальный ряд:
Группы
больниц по
числу коек
Xi
10-15
15-20
20-25
25-30
30-35
35-40
40-45
45-50
50-55
ИТОГО:
Число
больниц
fi
Середина
Интервала
Xi'
Xi' f i
Накопленная
частота
f i'
6
9
20
41
26
21
14
5
1
143
12,5
17,5
22,5
27,5
32,5
37,5
42,5
47,5
52,5
75
157,5
450
1127,5
845,5
787,5
595
237
52,5
4327,5
6
15
35
76
102
123
137
142
143
Предположим, что у нас нет в нашем распоряжении первичных
данных. В этом случае мы не можем построить ранжированный
вариационный ряд, как это было сделано в предыдущем примере.
В нашем распоряжении есть только обработанные до нас данные,
которые уже сведены к интервальному ряду. Например, интервальный
ряд (в виде гистограммы) был взят нами из периодической литературы.
Сами исходные данные не публиковались.
Медиана распределения вычисляется с использованием интервального
ряда по формуле:
k

fi /
i 1
M e  X0 
2
 f M/ e  1
fM e

Xo - низшая граница интервала, в котором находится медиана;
f
'
(Me
-1)
- накопленная частота в интервале, предшествующем
медианному; fMe - частота в медианном интервале;  - величина
интервала; k - число групп
Вычислим медиану по приведенной выше формуле:
1) 143/2~ 72
->
медиана находится в четвертом интервале (т.к.
полученное число 72 ближе всего к 76 в столбце накопленных
частот). Этот интервал отмечен значком в таблице.
2) в четвертом интервале: низшая граница Xo =25, частота fMe=41
3) в предшествующем (третьем) интервале накопленная частота равна
f '(Me -1) = 35
4) ширина каждого интервала = 5 (см. первый столбец интервалов)
5) Окончательно, Me=25+[(72-35)/ 41]* 5 = 29.5 коек.
Квартили распределения
Вычисляются абсолютно аналогично медиане по формулам:

 k



/ 
/
f
4

f
j 


Q1 1

 j 1

Q1  x0 
  
f Q1


35.75  35  5  25.09

 25 

41

Q2  M e


 k



/ 
/

f j 4  f Q 1
3
3

 j 1


Q3  x0 
  
f Q3



107.25  102
 35 
 5  36.25

21



Общее название для вышеприведенных структурных характеристик
вариационного ряда - квантили. Если ряд делится на 4 части то в
этом случае квантили называются квартилями (см. формулы выше), на
5 частей - квинтили ; на 10 - децили ; на 100 - перцентили .
Мода распределения .
Модальный интервал - интервал с наибольшей частотой .
Мода:
f M 0  fM 0 1
M0  X0 

f M 0  fM 0 1  f M 0  fM 0 1

по-прежнему,
fM 0 
 

X 0  нижняя граница модального интервала,
частота в модальном интервале.
Рассмотрим пример с обследованием 143 больниц.
Модальный интервал - четвертый. Наибольшая частота (41)
относится к этому интервалу. Т.е., в рассматриваемом
примере модальный и медианный интервалы совпали. Это
часто встречается, но так бывает не всегда!
Частоты в интервалах в предшествующем (число 20) и
следующим (это число 26) за модальным интервалом
отмечены в таблице бирюзовой заливкой.
Вычислим моду:

41  20
M 0  25 
 5  27.9
41  20  41  26
M0 < Me < x
для нормального распределения. 7.
Моменты распределения и показатели его формы
Центральные моменты:
N
M
1
 i 1
N
M

N

2
 i 1
N



x   x
2
2
второго порядка
x  x 
3
 i 1
3
i
третьего порядка
N
x  x 
4
 i 1
первого порядка
2
N
M
= 0 (всегда!)
=
 xi  x
N
M

 xi  x
4
i
четвертого порядка
N
Коэффициенты ассиметрии
M
A
d
s

3
Левосторонняя
ассиметрия
3
и
As
Пирсона

x  Mo

Правосторонняя
ассиметрия
Эксцесс
E
x

M
d
4
4 3
Эксцесс
Показатели размера и интенсивности вариации
Размах или амплитуда вариации
R  x max  x min
Средний модуль отклонений
1 n
a   xj  x
n j1
Среднее линейное отклонение - взвешенное по частоте
отклонение по модулю середин интервалов от средней
арифметической величины:
k

a
x /j  x f j
980.2

 6.85
143
j 1
k
f
j
j 1
Среднеквадратичное отклонение :
n
2


x

x
j


j 1
n
для ранжированного ряда
Среднее квартильное расстояние :
Q

q
3
 M e    M e  Q1  Q3  Q1

2
2
Относительные показатели вариации :
  R :x
Относительный размах вариации
m  a :x
Относительное отклонение по модулю
   :x
Относительное СКО
d  q :x
Относительное квартильное расстояние
Предельно возможные значения показателей
вариациии и их применение .
n - число единиц совокупности; x - средняя величина
признака; Тогда x • n - общий объем признака:
x max  x  n
x min  0
Максимальное значение амплитуды ( размах вариации ) :
Rmax  x  n  0  x  n ;  
Rmax
n
x
Среднее линейное отклонение :
a max
2x  n  1
2

 2x  x
n
n
Среднее квадратическое отклонение
 max 


x 2 n  12  n  1
 x n 1
n
Относительное модульное ( линейное ) отклонение
m max
2
 a max : x  2 
n
Коэффициент вариации
Vmax   max : x  n  1
Многомерная средняя
Используется при построении многомерных группировок.
Это средняя величина нескольких признаков для одной единицы
совокупности.
Многомерная средняя вычисляется по относительным (безразмерным)
величинам.
k
p
ij
pi 
j 1
k

k

j 1
 xij

 xj

pi - многомерная средняя для i - единицы,
x ij
- значение признака
xj
- среднее значение признака
k
i
- число признаков,
xj
j
для i - единицы,
xj,
- номер признака,
- номер единицы совокупности.

 : k,


Download