Статистическая обработка данных

advertisement
Статистическая
обработка данных
Основные статистические характеристики
Статистика знает все.
Точно учтено количество пахотной земли в СССР с подразделением
на чернозем, суглинок и лесс. Все граждане обоего пола записаны в
аккуратные толстые книги, так хорошо известные Ипполиту Матвеевичу
Воробьянинову - книги загсов. Известно, сколько какой пищи съедает в
год средний гражданин республики. Известно, сколько этот средний
гражданин выпивает в среднем водки, с примерным указанием
потребляемой закуски. Известно, сколько в стране охотников, балерин,
револьверных станков, собак всех пород, велосипедов, памятников,
девушек, маяков и швейных машинок.
Как много жизни, полной пыла, страстей и мысли, глядит на нас со
статистических таблиц!
…
От статистики не скроешься никуда. Она имеет точные сведения не
только о количестве зубных врачей, колбасных, шприцев, дворников,
кинорежиссеров, проституток, соломенных крыш, вдов, извозчиков и
колоколов, но знает даже, сколько в стране статистиков.
И.Ильф, Е.Петров
Двенадцать стульев
Статистическая
обработка данных
Основные статистические характеристики
Основные этапы
статистической обработки данных
Ответ
0
1
2
3
4
5
6
7
8
9
10
Кол-во
ответов
Пример
В ходе некоторого анкетирования были получены
следующие ответы: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 0, 1, 2, 3, 4, 5,
6, 7, 8, 9, 1, 2, 3, 4, 5, 6, 7, 8, 9, 1, 3, 4, 5, 7, 9, 1, 5, 7, 9, 3, 5, 3, 5,
3, 5, 3, 5, 5, которые занесли в таблицу
2
5
3
9
4
10
3
5
3
5
1
Основные этапы
статистической обработки данных
Каждый ответ (0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10) называется варианта измерения.
Если все варианты записать по порядку (например, по времени
и т.п.) то получится ряд данных.
0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 1, 2, 3, 4, 5, 6, 7,
8, 9, 1, 3, 4, 5, 7, 9, 1, 5, 7, 9, 3, 5, 3, 5, 3, 5, 3, 5, 5
Если же все варианты записать в порядке неубывания, то
получится сгруппированный ряд данных.
0, 0, 1, …, 1, 2, 2, 2, 3, …, 3, 4, …, 4, 5, …, 5, 6, 6, 6, 7, …, 7, 8, 8, 8, 9, …, 9, 10
2
5
3
9
4
10
3
5
3
5
Если среди всех данных одна из вариант встретилась k раз, то
число k называют кратностью этой варианты.
1
Основные этапы
статистической обработки данных
Таким образом, таблица распределения данных имеет вид:
Варианта
Кратн
ость
0
1
2
3
4
5
6
7
8
9
10
Сум
ма
2
5
3
9
4
10
3
5
3
5
1
50
Сумма (50) всегда равна сумме кратностей (2+5+3+9+4+10+3+5+3+5+1)
Основные этапы
статистической обработки данных
Варианта
Кратн
ость
0
1
2
3
4
5
6
7
8
9
10
Сум
ма
2
5
3
9
4
10
3
5
3
5
1
50
По таблице распределения данных строят три вида диаграмм
12
12
10
10
8
8
6
6
4
4
2
2
0
10
9
1
2
3
4
5
6
7
8
9
10
1
8
2
7
3
6
0
0
0
5
0
1
2
3
4
5
6
7
8
9
10
4
Основные этапы
статистической обработки данных
Варианта
Кратн
ость
0
1
2
3
4
5
6
7
8
9
10
Сум
ма
2
5
3
9
4
10
3
5
3
5
1
50
Многоугольник распределения
12
10
8
6
4
2
0
0
1
2
3
4
5
6
7
8
9
10
Основные этапы
статистической обработки данных
Варианта
Кратн
ость
0
1
2
3
4
5
6
7
8
9
10
Сум
ма
2
5
3
9
4
10
3
5
3
5
1
50
Гистограмма распределения
12
10
8
6
4
2
0
0
1
2
3
4
5
6
7
8
9
10
Основные этапы
статистической обработки данных
Варианта
Кратн
ость
0
1
2
3
4
5
6
7
8
9
10
Сум
ма
2
5
3
9
4
10
3
5
3
5
1
50
Круговая диаграмма
10
9
0
1
8
2
7
3
6
5
4
Основные этапы
статистической обработки данных
1. Упорядочивание и группировка
2. Составление таблицы распределения данных
3. Построение графиков распределения данных
(многоугольник, гистограмма, круговая диаграмма)
4. Получение паспорта данных измерения
•
•
•
•
•
•
Объём измерения
Размах измерения
Мода измерения
Среднее измерения
Медиана измерения
Частота варианты
меры центральной тенденции
Числовые характеристики измерения
Объём измерения – количество значений измерения.
Размах измерения – разность между наибольшим и
наименьшим результатами измерения.
Мода измерения – наиболее часто встречающийся результат
измерения.
Среднее измерения – среднее арифметическое всех значений.
Медиана измерения – средняя варианта в сгруппированном
ряде данных (если количество значений нечётно) или
полусумма двух средних вариант (если количество значений
чётно).
Частота варианты – отношение кратности варианты к объёму
измерения; может быть числовой и процентной.
Дисперсия
Числовую характеристику данных измерения,
отвечающую за разброс (рассеивание)
данных вокруг их среднего значения,
называют дисперсией (от лат. disperses –
рассыпанный, разогнанный, рассеянный) и
обозначают буквой D; число σ =
называют
средним квадратическим отклонением.
Чем меньше дисперсия D или среднее
квадратическое отклонение σ, тем плотнее
группируются данные измерения вокруг
своего среднего значения.
Алгоритм вычисления дисперсии
Для нахождения дисперсии D данных х1, х2, …, хn
измерения следует вычислить:
1)Среднее значение М=(х1+х2+…+хn)/n
2)Отклонения данных от М, т.е. х1-М, х2-М, …, хn-М
3)Квадраты (хi-М)2 отклонений, найденных на
предыдущем шаге
4)Среднее значение всех квадратов отклонений
D=[(х1-М)2+ (х2-М)2+…+(хn-М)2]/n
это и есть дисперсия.
σ=
среднее квадратическое отклонение
Статистические функции MS Excel
МОДА(число1; число2;…) – возвращает значение моды для
массива или диапазона значений
СРЗНАЧ(число1; число2;…) – возвращает среднее
арифметическое своих аргументов, которые могут быть
числами, именами, массивами или ссылками на ячейки с
числами
МЕДИАНА(число1; число2;…) – возвращает медиану
исходных чисел
ЧАСТОТА(массив_данных;массив_интервалов) – вычисляет
распределение значений по интервалам и возвращает
вертикальный массив, содержащий на один элемент больше,
чем массив интервалов
ДИСП(число1; число2;…) – оценивает дисперсию по выборке
Download