Анализ данных

advertisement
Использование надстройки
«Анализ данных»
Надстройка «Анализ данных»
В состав Microsoft Excel входит набор средств
анализа
данных
(так
называемый
пакет
анализа),
предназначенный
для
решения
сложных статистических и инженерных задач.
Для
анализа
данных
с
помощью
этих
инструментов следует указать входные данные и
выбрать параметры.
Анализ будет выполнен с помощью подходящей
статистической или инженерной макрофункции, а
результат будет помещен в выходной диапазон.
Команда «Данные» - «Анализ данных». Если
этой команды нет в меню, необходимо загрузить
надстройку
Пакет
анализа
(аналогично
надстройке «Поиск решения»).
Добавление надстройки
«Поиск решения»
Если в меню «Данные» отсутствует вкладка
«Анализ», необходимо:
 Выбрать кнопку «Офис»
 Выбрать «Параметры Excel»
 Выбрать «Надстройки»
 Управление: «Надстройки Excel»
 В основном окне выбрать «Пакет анализа»
 Выбрать кнопку «Перейти»
 В окне «Доступные надстройки» выбрать
«Пакет анализа», ОК
 Подтвердить установку нового компонента
Вкладка «Анализ» (Analysis) появится в режиме
«Данные» на ленте в конце.
Корреляционный анализ

Одна из наиболее распространенных
задач статистического исследования
состоит в изучении связи между
выборками. Обычно связь между
выборками носит не функциональный,
а вероятностный (или стохастический)
характер. В этом случае нет строгой,
однозначной зависимости между
величинами. При изучении
стохастических зависимостей
различают корреляцию и регрессию.
Корреляционный анализ
Корреляционный анализ состоит в
определении степени связи между двумя
случайными величинами X и Y.
В качестве меры такой связи используется
коэффициент корреляции.
Коэффициент корреляции — параметр,
который характеризует степень
линейной взаимосвязи между двумя
выборками.
Коэффициент корреляции изменяется от
-1 до 1. При значении 0 линейной
зависимости между двумя выборками
нет.
Функция корреляции
В MS Excel (кроме пакета анализа) для
вычисления парных коэффициентов
линейной корреляции используется
специальная функция
КОРРЕЛ (массив1; массив2)
где
массив1 – ссылка на диапазон ячеек
первой выборки (X);
массив2 – ссылка на диапазон ячеек
второй выборки (Y).
Пример 1
№ испытуемых
X
Y
1
19
17
2
32
7
3
33
17
4
44
28
5
28
27
6
35
31
7
39
20
8
39
17
9
44
35
10
44
43
10 школьникам были даны
тесты на нагляднообразное и вербальное
мышление. Измерялось
среднее время решения
заданий теста в секундах.
Исследователя интересует
вопрос: существует ли
взаимосвязь между
временем решения этих
задач?
Переменная X —
обозначает среднее время
решения нагляднообразных, а переменная
Y— среднее время
решения вербальных
заданий тестов
Решение:
Для выявления
степени
взаимосвязи,
прежде всего,
необходимо ввести
данные в таблицу
MS Excel. Затем
вычисляется
значение
коэффициента
корреляции. Для
этого курсор
установите в
Технология работы:
В меню нажмите кнопку Формулы.
В появившейся вкладке - выберите
категорию Статистические и функцию
КОРРЕЛ, после чего нажмите кнопку ОК.
Указателем мыши введите диапазон
данных выборки Х в поле массив1
(А1:А10). В поле массив2 введите
диапазон данных выборки У (В1:В10).
Нажмите кнопку ОК. В ячейке С1
появится значение коэффициента
корреляции — 0,54119.
Далее необходимо по статистическим
таблицам определить критические
значения для полученного
коэффициента корреляции
ккрит=0,63 > 0,54 , следовательно, связь
между временем решения нагляднообразных и вербальных заданий теста не
доказана.
Пример 2
Имеются ежемесячные данные наблюдений за состоянием погоды
и посещаемостью музеев и парков.
Необходимо определить,
существует ли взаимосвязь между состоянием погоды и
посещаемостью музеев и парков.
Число ясных
дней
8
Количество
посетителей музея
495
Количество
посетителей парка
132
14
503
348
20
380
643
25
305
865
20
348
743
15
465
541
Пакет анализа
Для выполнения корреляционного анализа введите в диапазон A1:G3
исходные данные. Затем в меню Данные выберите пункт Анализ
данных (Data analysis) и далее укажите строку Корреляция
(Corelation).
Получение результатов
В появившемся диалоговом окне укажите Входной интервал (А7:С12).
Укажите, что данные рассматриваются по столбцам. Укажите выходной
диапазон (А14) и нажмите кнопку ОК.
Результаты вычислений:
На рисунке видно, что корреляция
между состоянием погоды и
посещаемостью музея равна -0,92, а
между состоянием погоды и
посещаемостью парка — 0,97, между
посещаемостью парка и музея —
-0,92.
Таким образом, в результате анализа
выявлены зависимости: сильная
степень обратной линейной
взаимосвязи между посещаемостью
музея и количеством солнечных дней и
практически линейная (очень сильная
прямая) связь между посещаемостью
парка и состоянием погоды.
Между посещаемостью музея и парка
имеется сильная обратная
взаимосвязь.
Практическая часть:
1. Определите, имеется ли взаимосвязь между рождаемостью и
смертностью (количество на 1000 человек) в Санкт-Петербурге.
(Использовать функцию Корелл). Вывод записать в тетрадь.
Годы
Рождаемость
Смертность
1991
9,3
12,5
1992
7,4
13,5
1993
6,6
17,4
1994
7,1
17,2
1995
7,0
15,9
1996
6,6
14,2
1997
7,1
16
1998
8,2
13,4
Практическая часть:
2. 10 менеджеров оценивались по методике экспертных оценок
психологических характеристик личности руководителя.
15 экспертов производили оценку каждой психологической характеристики по
пятибальной системе (см. табл.)
Психолога интересует вопрос, в какой взаимосвязи находятся эти
характеристики руководителя между собой.
Использовать пакет анализа. Вывод записать в тетрадь.
Испытуемые п/п
1
2
3
4
5
6
7
8
9
10
тактичность требовательность
70
18
60
17
70
22
46
10
58
16
69
18
32
9
62
18
46
15
62
22
критичность
36
29
40
12
31
32
13
35
30
36
Download