Решение задач описательной статистики средствами MS Excel Выполнил: Тема: Решение задач описательной статистики средствами MS Excel ЗАДАНИЕ 1. Даны результаты наблюдения за уровнем шумов приемника: 1,9 2,5 3,4 4,1 5,8 6,6 7,2 8,0 9,2 0,1 2,4 3,5 4,8 D:\681469793.doc 2 5,6 6,3 7,3 8,1 1,4 3,0 4,7 5,2 6,3 7,0 4,8 5,9 6,1 3,4 4,3 5,2 6,1 7,2 4,8 5,3 6,4 4,9 5,1 6,2 5,0 5,7 Выполнить расчет описательной статистики, сформировать таблицу частот, построить гистограмму распределения, полиномиальный тренд второго порядка с указанием аппроксимирующего уравнения и коэффициента достоверности аппроксимации. Выдвинуть предположение о модели распределения и проверить гипотезу по критерию хи-квадрат. ОПИСАНИЕ МЕТОДИКИ ИССЛЕДОВАНИЯ Анализ данных проведен в рамках описательной статистики с использованием средств Вставка функций и Мастер диаграмм MS Excel. Расчеты указанных в статистической таблице параметров описательной статистики, выполнены при помощи средства Вставка функции. Применяемые расчетные формулы показаны на Рис.1: Рисунок 1. Формулы для расчета характеристик описательной статистики. СРЕДНЕЕ СРЗНАЧ(A2:C14) СРЕДНЕКВАДРАТИЧНОЕ ОТКЛОНЕНИЕ СТАНДОТКЛОН(A2:C14) ДИСПЕРСИЯ ДИСПА(A2:C14) МЕДИАНА МЕДИАНА(A2:C14) МОДА МОДА(A2:C14) АССИМЕТРИЯ СКОС(A2:C14) ЭКСЦЕСС ЭКСЦЕСС(A2:C14) НАИМЕНЬШЕЕ МИН(A2:C14) НАИБОЛЬШЕЕ МАКС(A2:C14) РАЗМАХ G10-G9 КВАРТИЛЬ 1 КВАРТИЛЬ(A2:C14;1) КВАРТИЛЬ 3 КВАРТИЛЬ(A2:C14;3) КОЛ-ВО ВЫБОРОК 39 Далее была сформирована таблица частот исследуемой величины, выполнена группировка данных и расчеты с помощью средства выполнен расчет минимального числа Вставить функцию: интервалов по формуле ОКРУГЛ(5*LOG10(G14);0). вставлена формула для расчета ширины интервала группирования методом непосредственного ввода: G11/K2. 3 аналогично введены формулы для вычисления правых границ интервалов: J7+$K$3. вставлена формула для расчета частот с применением функции массивов: выделяем диапазон ячеек K7:K14; выбираем функцию ЧАСТОТА из категории Статистические; выделяем мышью диапазон ячеек исходных данных А1:С14; выделяем мышью диапазон ячеек интервалов J7:J14 (клавиши Ctrl+Shift+Enter для фиксации функции массива). Далее была построена гистограмма для исследуемой величины с применением мастера диаграмм: выделили диапазон ячеек с таблицей частот J6:L14. Используем инструмент Мастер диаграмм / на вкладке Нестандартные в поле Тип выбираем вариант График/Гистограмма 2. Проведена аппроксимация и сглаживание построенной в задании гистограммы при помощи построения линий полиномиального тренда второго порядка. Полиномиальный тренд для ряда Частоты добавлен на гистограмму следующим образом: выделяем Гистограмму / щелчок правой кнопкой мыши по одному из столбиков ряда Частоты / Добавить линию тренда контекстного меню / в окне Линия тренда на вкладке Тип выбираем образец Полиномиальная /. Далее на вкладке Параметры устанавливаем флажки показывать уравнение на диаграмме, поместить на диаграмму величину достоверности аппроксимации. Далее проведен анализ данных в рамках задачи проверки гипотезы о распределении при помощи критерия согласия хи-квадрат с использованием средств Вставка функций и Анализ данных MS Excel. Используя построенную таблицу частот и рассчитанные среднее и среднеквадратичное, а также стандартные встроенные функции, сформируем таблицу для расчета статистики хи-квадрат. В столбцах скорректированных теоретических и эмпирических частот выполнено объединение тех карманов, где значение теоретических частот менее 5. Это условие правильного применения критерия. Расчетная формула 4 для числа степеней свободы распределения хи-квадрат определяется разностью числа карманов (с учетом их объединения) и числа 3. РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ И ИХ ИНТЕРПРЕТАЦИЯ. 5 6 7 Тема: Проверка гипотез в MS Excel. Параметрические и непараметрические методы. ЗАДАНИЕ 2. Пробы из чистого железа, полученного двумя различными методами, имели следующие точки плавления: 1-й ме- 1493 1519 1518 1512 1512 1514 1489 1508 1508 1494 тод 2-й ме- 1509 1494 1512 1483 1507 1491 тод Проверить нулевую гипотезу, согласно которой оба метода дают железо, имеющую одну и ту же точку плавления. ОПИСАНИЕ МЕТОДИКИ ИССЛЕДОВАНИЯ. Для решения поставленной задачи, сначала был проведен анализ данных в рамках проверки гипотезы о принадлежности двух дисперсий одной генеральной совокупности (следовательно, их равенстве) по критерию Фишера с использованием средства Анализ данных MS Excel. Для этого была использована процедура проверки гипотезы: Сервис / Анализ данных / Двухвыборочный тест для дисперсии. В одноименном окне были указаны диапазоны ячеек для 1 и 2 выборок (B2:K2 и B3:G3). Введен уровень значимости 0,05 в поле Альфа. Указана верхняя левая ячейка размещения результатов в поле Выходной интервал (A6). Далее полученные результаты были проанализированы исходя из того, что по условиям критерия нулевая гипотеза отвергается, если значение F статистики Фишера больше верхнего критического или меньше нижнего. Далее, с учетом полученных результатов для дисперсии был проведен анализ данных в рамках задачи проверки гипотезы о равенстве средних при неравных дисперсиях и объемах выборок по критерию Стъюдента с использова- 8 нием средства Анализ данных MS Excel. Для этого была использована процедура проверки гипотезы: Сервис / Анализ данных / Двухвыборочный t-тест с различными дисперсиями. В одноименном окне были указаны диапазоны ячеек для 1 и 2 выборок (B2:K2 и B3:G3). Введен уровень значимости 0,05 в поле Альфа. Указана верхняя левая ячейка размещения результатов в поле Выходной интервал (A21). Далее полученные результаты были проанализированы исходя из того, что по условиям критерия нулевая гипотеза отвергается, если значение t-статистики Стъюдента по абсолютной величине больше верхней точки распределения или критического значения. 9 РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ И ИХ ИНТЕРПРЕТАЦИЯ. ВЫВОД. Окончательно можно сказать о том, что оба метода дают железо, имеющую одну и ту же точку плавления. 10 Тема: Регрессионный анализ в MS Exсel. ЗАДАНИЕ 3. Проверить гипотезу о наличии статистически значимой связи между затратами на рекламу и объемом реализации продукции. Исходные данные приведены в таблице: Объем реализации 126 137 148 191 274 370 432 445 367 367 321 307 331 Затраты на рекламу 4 4,8 3,8 8,7 8,2 9,7 14,7 18,7 19,8 10,6 8,6 6,5 12,6 Сформировать линейную регрессионную модель и оценить ее адекватность. ОПИСАНИЕ МЕТОДИКИ ИССЛЕДОВАНИЯ. Для решения задачи сначала был проведен линейный регрессионный анализ: Сервис / Анализ данных / Регрессия / в одноименном окне указываем входные диапазоны B2:B12 для X и A2:A12 для Y, устанавливаем флажок метки / устанавливаем все флажки в разделах Остатки и Нормальная вероятность, указываем начальную ячейку выходного диапазона A17. Далее анализируем полученные результаты: в бланке расчета модели указаны значения оценок свободного члена (столбец Коэффициенты, строка Y-пересечение) и коэффициента пропорциональности (столбец Коэффициенты, строка X). Оцениваем информативность построенной линейной модели посредством анализа коэффициента множественной корреляции Множественный R в таблице Регрессионная статистика бланка результатов. Его значимость оценивается по критерию Фишера. Далее находим расчетное значение статистики, приведенное в таблице Дисперсионный анализ в столбце F строки Регрессия. Находим критическое значение по расчетной формуле FРАПОБР(0,05; 1;11). Если критическое значение меньше расчетного, коэффициент множественной корреляции счита- 11 ется значимым. Модель считается информативной, если расчетная статистика не менее, чем в 10 раз больше табличного значения критерия Фишера. Далее оцениваем качественно адекватность построенной модели посредством анализа сравнительного графика кривой модели и исходной кривой (График подбора) и поведения остатков (разности между предсказанными моделью значениями у и входными значениями из выборки). РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ И ИХ ИНТЕРПРЕТАЦИЯ. 12 13 14 ВЫВОДЫ. 1. Уравнение для линейной регрессионной модели данной задачи имеет вид: y 136 15,53 x 2. Коэффициент множественной корреляции является значимым, так как расчетное значение статистики F 12,35 больше критического значения Fkr 4,84 . Данную модель нельзя считать информативной, потому что расчетная статистика только в 3 раза больше табличного значения критерия Фишера. 3. Считаю, что построенная модель не является адекватной, что видно посредством анализа о графика кривой модели и исходной кривой (График подбора) и поведения остатков (разности между предсказанными моделью значениями у и входными значениями из выборки). Визуально степень отклонения модели от реального графика довольно значительна. Также сравнивая график остатков и график нормального распределения видно, что остатки не принадлежат к нормальному закону.