Систематизация и обобщение данных

advertisement
Систематизация и обобщение данных
ПАРАМЕТРЫ РЯДОВ РАСПРЕДЕЛЕНИЙ
Виды средних и методы их расчета
Статистический ряд распределения характеризуется несколькими постоянными
величинами, которые называются параметрами распределения. Обычно это средние значения
случайной величины и дисперсия.
Средние величины — это обобщающие параметры, которые выражают общие, типичные,
наиболее характерных свойства изучаемого процесса.
Статистические средние рассчитываются на основе массовых данных правильно
статистически организованного наблюдения. Статистическая средняя будет объективна и
типична, если она рассчитывается по массовым данным для качественно однородной
совокупности (массовых явлений). Пример не типичной средней хорошо показан в рассказе
Глеба Успенского “ Живые цифры “. Там средний доход определялся сложением 1 млн.
миллионера Колотушкина и 1 гроша просвирни Кукушкиной, и получалось, что он составил
0,5 млн. руб. Например, если рассчитывать среднюю заработную плату сотрудников банка,
частных коммерческих предприятиях и фирм и госпредприятий, и результат распространить на
всю совокупность, то средняя фиктивна, т.к. рассчитана по неоднородной совокупности. Такая
средняя теряет всякий смысл.
При помощи средней происходит как бы сглаживание различий в величине признака,
которые возникают по тем или иным причинам у отдельных единиц наблюдения.
Например, средняя выработка продавца зависит от многих причин: квалификации, стажа,
возраста, формы обслуживания, здоровья и т.д. Средняя выработка отражает общее свойства
всей совокупности.
Средняя отражает то общее, что складывается в каждом отдельном, единичном объекте.
Благодаря этому средняя получает большое значение для выявления закономерностей
присущих массовым общественным явлениям и незаметных в единичных явлениях.
Отклонение индивидуального от общего – проявление процесса развития. В отдельных
единичных случаях могут быть заложены элементы нового, передового. В этом случае именно
конкретный фактор, взятый на фоне средних величин, характеризует процесс развития.
Поэтому в средней и отражается характерный, типичный, реальный уровень изучаемых
явлений. Характеристики этих уровней и их изменений во времени и в пространстве являются
одной из главных задач средних величин. Так, через средние проявляется, например, изменение
благосостояния населения: в средних показателях заработной платы, доходов семьи в целом и
по отдельным социальным группам, уровня потребления продуктов, товаров и услуг.
Однако нельзя (например в маркетинговой деятельности) ограничиваться лишь средними
цифрами, т.к. за общими благоприятными средними могут скрываться крупные серьезные
недостатки в деятельности отдельных подразделений предприятия, акционерного общества.
В практике статистической обработки материала возникают различные задачи, связанные
с особенностями изучаемых явлений, и поэтому для их решения требуется применение
различных статистических характеристик.
Средняя, рассчитанная по совокупности в целом называется общей средней. Средние,
вычисленные для
групп, представляющих качественно однородные
совокупности,
–
групповыми средними. Общая средняя отражает общие черты изучаемого явления, групповая
средняя дает характеристику размера явления, складывающуюся в конкретных условиях данной
группы.
Например, статистическое изучение рождаемости и среднего количества детей в семье на
территории бывшего СССР проводилось в региональном аспекте (по союзным республикам).
Традиционно более высокая рождаемость была в Средней Азии и Закавказье по сравнению с
Центральными районами России. Среднее количество детей в семье, исчисленное по каждому
региону – это групповые средние, а соответственно исчисленное по всей территории СССР –
общая средняя.
Сравнительный анализ групповых и общих средних используется для характеристики
социально-экономических типов изучаемого общественного явления. В частности, при
изучении рождаемости большое значение имеет характеристика этого процесса по
общественным группам населения региона.
Чаще всего в статистике используют три вида средних характеристик: среднее значение, а
также медиана и мода (структурные средние).
Выбор того или иного вида средней производится в зависимости от цели исследования, от
конкретного типа усредняемых исходных данных.
Среднее арифметическое (или просто среднее, выборочное среднее) для дискретного
рядя распределения представляет собой сумму значений ряда (выборки), деленную на длину
ряда:
n
 Xi
X  i 1
n
.
Если ряд распределения интервальный или дискретный группированный, то применяют
формулы для средней взвешенной:
k
X
 mi X i
i 1
n
k

 mi X i
i 1
k
 mi
i 1
,
или X 
X 1m1  X 2 m2  ...  X n mn
,
m1  m2  ...  mn
k
X   Pi X i ,
или
i 1
где Xi – срединное значение интервала, mi – частота градации (в данном случае – вес), Рi –
относительная частота градации, k – число градаций (или число различных значений СВ в
дискретном группированном ряду).
Разность между средней и взвешенной средней будет небольшой, если число наблюдений
велико.
Свойства средней:
1). Постоянный множитель a можно выносить за знак средней
aX  aX .
2). Среднее суммы равно сумме средних
X Y  X Y .
3). Среднее константы равно самой константе
a  a.
4). a  X  a  X .
5). Среднее произведения равно произведению средних, если события независимы
X Y  X Y .
Если выборочный ряд состоит из нескольких частей длиной m1, m2, …, mn , то общая
средняя равна средней из частных средних, взвешенной по численности соответствующих
частей совокупности:
X 
X 1 m1  X 2 m2  ...  X n mn
,
m1  m2  ...  mn
mn
m1
где
X 1
 X i,1
i 1
m1
, ...,
X n
X
i 1
mn
i ,n
.
Средняя больше всего чувствительна к экстремальным значениям случайной величины,
полученным в результате наблюдения. Поэтому она меньше всего пригодна для случайных
величин, экстремальные отклонения которых от типичной (характерной) величины встречаются
довольно часто и только в одном направлении.
Структурные средние: медиана и мода
Медианой называется значение ряда, стоящее в центре ранжированного ряда (т.е.
выстроенного в порядке возрастания или убывания случайной величины). При этом число
единиц совокупности с большим и меньшим, чем медиана, значением одинаково.
Если всем единицам ранжированного ряда придать порядковые номера, то номер медианы
в ряду с нечетным числом членов n определяется как (n+1)/2. Так, в ряду из 81 члена номер
медианы (81+1)/2, т.е. медианой является значение ряда, стоящее под номером 41.
Me  X n 1 , если n – нечетное.
2
Если число членов ряда четное, то медиану приходится определять как среднюю двух
центральных значений ранжированного ряда, порядковые номера которых n/2 и n/2+1. Так,
если в ряду 80 значений, то центральными будут ранжированные значения с порядковыми
номерами 80/2=40 и 80/2+1=41. При большой длине ряда (n > 100) выбирают значение
медианы как Xi с порядковым номером n/2.
Xn  Xn
Me 
2
2
2
1
, если n – четное.
В случае неточных или экстремальных крайних значений ряда среднее арифметическое
становится ненадежным, в то время как медиана от величины крайних значений ряда при
условии его ранжирования не зависит. Поэтому медиану рекомендуется определять как
дополнение к среднему арифметическому при асимметричных распределениях.
Медиана может определяться графически из интегральной кривой распределения:
она будет равна абсциссе точки, где величина накопленной вероятности  pi = 50%, т.е
Р(Х<Me) = P(X>Me). На медиану, определяемую как значение переменной, которому
соответствует средняя точка на кривой распределения накопленных частот, влияет не величина
экстремальных значений СВ, а их число в распределении случайной величины.
Мода – это наиболее часто встречающееся (т.е. наиболее вероятное) значение случайной
величины. Экстремальные значения СВ не оказывают влияния на моду, которая определяется
как наиболее вероятное значение случайной величины. Моду рекомендуется определять при
резко асимметричных распределениях, для которых среднее арифметическое не является
типичным значением СВ в том смысле, что наибольшая повторяемость не приходится на
интервалы значений СВ, близкие к среднему.
Модальный интервал – это интервал с наибольшей повторяемостью. Внутри интервала
мода определяется по формуле
Mo  X Mo  x 
(m Mo
m Mo  m Mo1
,
 m Mo1 )  (m Mo  m Mo1 )
где Mo – мода, XMo – нижняя граница модального интервала, x – величина интервала, mMo –
частота модального интервала, mMo-1 – частота интервала, предшествующего модальному, mMo+1
– частота интервала, следующего за модальным. Формула пригодна только для расчета моды в
рядах с равными интервалами.
В качестве приближенного значения моды наиболее часто используют середину
интервала с наибольшей повторяемостью ряда распределений. Тогда мода может определяться
графически по дифференциальной кривой распределения, как абсцисса максимума этой кривой.
Более точно мода может определяться графически по гистограмме распределения.
Для этого используются три соседних столбца гистограммы: самый высокий и два
прилегающих к нему слева и справа. Модой является абсцисса точки пересечения крест-накрест
отрезков, соединяющих верхние граничные точки самого высоко столбца гистограммы с
границами соседних столбцов гистограммы.
Гистограм
м
а
30,0
25,0
Отн. повт-ть, %
25,0
21,7
18,3
20,0
15,0
8,3
5,0
31-34
28-31
25-28
22-25
19-22
0,0
16-19
5,0
3,3
37-40
10,0
8,3
34-37
10,0
Возраст
Для не очень асимметричных и одновершинных распределений связь между средней,
медианой и модой определяется соотношением
Mo  X  3( Me  X ) .
Download