Document 2716495

advertisement
УДК 378(075):
ББК 40.3я73
М55
Рекомендовано Учебно-Методическим Советом по почвоведению
при УМО классических университетов Российской Федерации
в качестве учебного пособия для студентов высших учебных заведений,
обучающихся по направлению 020700 – «почвоведение»
Рецензенты:
Е.В. Шеин – доктор биологических наук
Ю.Н. Благовещенский – доктор физико-математических наук
Ю.Л. Мешалкина, В.П. Самсонова.
М55
Математическая статистика в почвоведении: Практикум.- М.: МАКС
Пресс, 2008. – 84с.
ISBN 978-5-317-02231-0
В пособии представлены задачи, выполняемые студентами ф-та почвоведения МГУ им. М.В.Ломоносова в ходе компьютерных практических занятий
по курсу «Математическая статистика». Базовый статистический пакет –
STATISTICA 6. Рассматриваются описательные статистики, проверка гипотез
о типе распределения, сравнение средних, двухфакторный дисперсионный
анализ, регрессионный анализ, кластерный анализ, метод главных компонент,
дискриминантный анализ. Включены определения статистических терминов и
пояснения выполняемых процедур. Приведены ход решения задач и примеры
оформления отчетов, ответы на вопросы семинарских занятий.
Для студентов, аспирантов и научных работников, занимающихся вопросами
почвоведения, агрохимии и экологии.
УДК 378(075):
ББК 40.3я73
ISBN 978-5-317-02231-0
© Мешалкина ЮЛ., Самсонова В.П., 2008
2
Занятие 1. Ввод данных. Описательная статистика (анализ единичной
выборки). Анализ распределений. Гистограммы
ЦЕЛЬ занятия - рассчитать статистические характеристики и исследовать распределения для одного из почвенных свойств (в зависимости от варианта - мощности пахотного горизонта, его влажности, гидрологической кислотности, содержания гумуса, глубины нижней границы горизонта Е), полученных на двух участках дерново-подзолистой (серой лесной, черноземной
или др.) почвы, расположенных на разных элементах рельефа.
НАЧАЛО. Получите у преподавателя свой вариант данных, внимательно ознакомьтесь с ним. Войдите в систему, под именем кафедры. Имя группы
и пароль спросите у преподавателя. Запомните их или запишите. Создайте
свой каталог на диске Y в каталоге своей кафедры (biol4, geogr4 и т.д.). Назовите каталог своей фамилией латинскими буквами. В своем каталоге с помощью программы EXCEL создайте файл для записи результатов анализа. Назовите его RES1.…..(вместо точек поставьте начальные буквы фамилии, не
более 4). Для записи результатов последующих занятий необходимо будет
создать аналогичные по названию файлы, отличающиеся только номером занятия.
ЗАПУСК ПРОГРАММЫ СТАТИСТИКА. Современный статистический
пакет STATISTICA позволяет всесторонне анализировать статистические данные. Его интерфейс соответствует среде Windows. Программа запускается
щелчком по значку
на рабочем столе или из меню ПУСК –
ПРОГРАММЫ – STATISTICA. После запуска программы STATISTICA появляется пустая таблица или появятся последние данные, с которыми работала
программа. Для открытия нового файла выберите в меню File, затем пункт
New. В появившемся окошке нажмите OK.
ВВОД ДАННЫХ. По умолчанию строится пустая таблица с десятью пе-
Переменные
Номера наблюдений
3
ременными и десятью наблюдениями. После активизации переменной (или
ячейки) можно добавлять, удалять (и т.п.) переменные, щелкнув по кнопке
Переменные (Variables, сокращенно VARS).
После щелчка открывается меню, выбрав в котором, например, Удалить
(DELETE) и щелкнув по соответствующей кнопке, получим следующее меню, в котором надо указать, с какой и по какую переменную нужно удалить.
Аналогичным образом осуществляется и добавление переменных.
4
Результат удаления переменных:
Потренируйтесь добавлять и удалять переменные. Изменение числа Наблюдений (Case) производится аналогичным образом:
Добавьте необходимое количество наблюдений.
Результат добавления наблюдений
5
РАБОТА С ПЕРЕМЕННЫМИ. Назвать переменную, изменить ее тип,
ввести текстовые метки или формулы можно, дважды щелкнув левой кнопкой
по имени переменной (например, по VAR1). В результате появляется новое
окно. Щелкнув два раза левой кнопкой в окошке Имя (Var), можно вести новое имя, например, Pole1_Ivanov. Назовите переменные. Во избежание всяких
недоразумений имена переменных лучше задавать латинскими буквами. Появившееся окно дает возможность изменить тип переменной, число десятичных
знаков, ввести коды пропущенных значений и т.п. Убедитесь, что для ваших
переменных указан Тип Двойной (Double).
После того, как введены имена переменных и определены их свойства,
можно заполнять таблицу данными. Сохранить ее можно стандартным способом, щелкнув Файл – Сохранить и указав папку и имя своего нового файла
латинскими буквами. Имя файла должно быть не более 8 знаков, должно легко запоминаться и ассоциироваться с данными. Лучше всего выберите свои
инициалы или сокращение от фамилии. Запомните или запишите это имя!
Файлы данных STATISTICA имеют расширение .sta. Сохраните свои данные
на диске в СВОЕЙ ДИРЕКТОРИИ (будьте внимательны!). Выйдите из программы STATISTICA. Вновь запустите программу.
6
ПРЕДУПРЕЖДЕНИЕ!!!
После запуска программы STATISTICA появятся последние
данные, с которыми работала программа.
Для открытия собственного файла выберите в меню Файл (File), затем пункт
Открыть (Open Data). Далее стандартным образом указывается, откуда будут
взяты данные.
ПЕРВИЧНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ. Для выполнения различных видов статистического анализа нужно щелкнуть по кнопке Анализ
(Analyses).
7
Щелчок по кнопке Переменные (Variables) открывает список переменных, для которых мы хотим провести анализ. Выделение необходимых переменных производится обычным для Windows способом. Кроме того, можно
просто ввести номера переменных в окошке, причем, если они идут подряд, то
просто вводят номер начальной и конечной переменной через дефис. В противном случае номера вводятся через запятую или щелчками по имени переменной при нажатой кнопке Ctrl.
Для задания необходимых статистик нужно щелкнуть по кнопке Дополнительно (Advanced) и поставить галочки в окошках требуемых показателей. Затем нажать ОК.
Отметьте следующие статистики: объем выборки (Valid N), среднее
(Mean), доверительный интервал для среднего (Conf. limits for means), медиана
(Median), минимум (Minimum), максимум (Maximum), нижний квартиль
(Lower Quartile), верхний квартиль (Upper Quartile), дисперсия (Variance),
стандартное отклонение (Std.Dev.), ошибка среднего (Standard Error), асимметрия (Skewness), ошибка асимметрии (Std.Err. Skewness), эксцесс (Kurtosis),
ошибка эксцесса (Std.Err. Kurtosis).
Для нормального распределения характерно совпадение характеристик
центра распределения: среднего арифметического, моды и медианы. Если медиана больше среднего, то для распределения случайной величины характерна
правосторонняя асимметрия. Доверительный интервал для среднего может
быть рассчитан для любой вероятности. Чем меньше значение вероятности,
тем доверительный интервал будет уже.
8
Нажмите ОК. Результаты вычислений размещаются в рабочую книгу
(Workbook):
В нижнем левом углу экрана находится значок текущего анализа. Для продолжения щелкните левой кнопкой по этому значку.
ДИАГРАММА РАЗМАХА. Нажав кнопку Быстрый (Quick), можно
получить доступ к Диаграмме размаха (Box&Wiskers Plot) для всех переменных. Такие диаграммы называются также «Коробочки с усиками».
Закладка Опции (Options)позволяет задать тип диаграмм размаха. Выберите 2 опции: 1) Медиана/Квартиль/Размах (Median-Quart-Range) и 2)
Среднее/Стандартное отклонение/95% доверительные интервалы для значений случайной величины, исходя из предположения о ее нормальности
(Mean/SD/1.96*SD).
9
Так выглядит диаграмма размаха. На диаграмме размаха в виде точки
показан центр распределения (медиана или среднее) и характеристики варьирования (квартили, стандартные ошибки или стандартные отклонения). Также
могут быть изображены крайние точки (минимум и максимум) или выбросы
(исходя из идеи нормального распределения). В правом нижнем углу дана легенда, где показано, что обозначено символами на графике.
Содержимое
рабочей
книги
ГИСТОГРАММЫ. Аналогичным образом постройте Гистограммы
(Histograms).
10
Гистограмма - это графическое представление распределения сгруппированной переменной, на котором для каждого класса рисуется столбец. Его
высота пропорциональна наблюдаемой частоте для данного класса. Линией
показано ожидаемое нормальное распределение, имеющее то же среднее и
дисперсию, что и изучаемая переменная.
НОРМАЛЬНЫЙ ВЕРОЯТНОСТНЫЙ ГРАФИК. Для качественной проверки нормальности распределения можно нажать кнопку Диаграммы (Prob.
&Scatter plots) и затем Нормальные вероятностные графики (Normal
Probability plot):
11
Ниже приведен результат работы модуля Нормальные вероятностные
графики (Normal Probability plot):
Нормальный вероятностный график называют еще Графиком на нормальной вероятностной бумаге. Он может быть использован для визуальной
оценки близости распределения к нормальному. Нормальный вероятностный
график строится следующим образом. Сначала все значения переменной упорядочиваются. Каждому значению присваивается ранг. Берется стандартизованное нормальное распределение. По этому распределению для рангов рассчитываются значения z, которые затем откладываются по оси Y графика. Если наблюдаемые значения (откладываемые по оси X) распределены нормально, то все значения на графике должны попасть на прямую линию. Если значения не являются нормально распределенными, они будут отклоняться от
линии. На этом графике можно легко обнаружить выбросы. В программе Statistica реализованы еще два типа графиков. Полунормальные вероятностные
графики используют в анализе только положительную часть нормальной кривой, а нормальные вероятностные графики с исключенным трендом удаляют
из данных линейный тренд.
На графике, на предыдущей странице, точки на концах и в центре распределения не лежат на прямой и, следовательно, распределение отличается
от нормального распределения.
СОЗДАНИЕ ОТЧЕТА. Скопируйте необходимые результаты из рабочей
книги (Workbook) в предварительно открытый файл Excel, где будут храниться результаты первого занятия. Копирование графиков производится
стандартным способом: правая кнопка мыши – Копировать график (Copy
12
graf). Переходите в окно программы Excel, правая кнопка Вставить (в файле
Excel). Еще лучше вставить график через Специальную вставку и выбрать
Метафайл или Рисунок, тогда связи между программой Excel и Statistica сохранены не будут и график будет занимать существенно меньше места. Пользуйтесь последним способом для вставки рисунов в отчет.
Таблицы предпочтительнее копировать через меню Правка (выделить
таблицу (Select all) – Правка (Edit)- Копировать с заголовками (Copy With
Headers) – Вставить (в файле Excel). Для того, чтобы удобно разместить
таблицу статистик, ее нужно еще раз скопировать уже в программе Excel и
вставить через Специальную вставку, поставив галочку в окошке транспонирование. Отчет отредактировать в соответствии с формой отчета. Показать
отчет преподавателю и с его разрешения распечатать. Подписать отчет у преподавателя.
1.
2.
3.
4.
5.
6.
7.
8.
Вопросы к занятию 1
Что характеризуют данные? В чем отличие первой переменной от второй
переменной?
Насколько близки различные характеристики центра распределений для
показателей? О чем может свидетельствовать их совпадение? О чем может
свидетельствовать их значительное расхождение?
Сравните представление Median-Quart-Range (Медиана- Квартили- Размах) и Mean/SE/1,96*SE (Среднее- Стандартное отклонение – 1,96 * на
стандартное отклонение.). Какую информацию можно получить, используя
каждое из этих представлений?
Какие отличия для исследуемых переменных выявили диаграммы размаха
(Box&Wiskers Plot)?
В каких случаях можно использовать "Нормальные вероятностные графики" (Normal probability plot)? Какие из показателей имеют распределения,
близкие к нормальному?
Что характеризует гистограмма? Что на рисунке гистограммы обозначено
тонкой непрерывной линией?
Отличаются ли гистограммы для каждого из свойств?
Используя данные из таблицы статистических характеристик, покажите,
как рассчитывается доверительный интервал для среднего.
13
Занятие 2. Проверка гипотез о типе распределения. Сравнение средних
ЦЕЛЬ занятия – проверить, можно ли каждую из изучаемых переменных аппроксимировать нормальным, логнормальным, равномерным и гамма
распределениями. Провести сравнение средних двух участков.
ПРОВЕРКА ТИПА РАСПРЕДЕЛЕНИЯ. Войдите в пакет STATISTICA,
загрузите свои данные (см. занятие №1). Щелкните по кнопке Анализ
(Statistics) и выберите Подгонка распределений (Distribution Fitting).
Открывается новое окно, в котором можно выбрать разные Непрерывные распределения (Continuous Distributions) и Дискретные (Discrete Distributions) распределения. Выберите непрерывные распределения (Continuous Distributions).
14
Щелкнув по кнопке ОК, переходим к новому окну, где нужно выбрать
переменную. Пока она не выбрана, параметры (заставка Параметры (Parameters)) распределения обнулены.
Выбрав переменную и снова щелкнув по кнопке ОК, увидим, что в
окошках появились параметры распределения переменной. Они указаны по
умолчанию и их можно при желании изменить.
15
Перейдите на вкладку Быстрый (Quick). Здесь можно построить таблицу подгонки распределения с помощью клавиши Наблюдаемые и ожидаемые частоты (Summary: Observed and Expected distribution).
Появится результирующая таблица подгонки распределения:
Обратите внимание, что для критерия хи-квадрат и уровня значимости
указаны прочерки. В этом случае, измените, например, уменьшите, число
классов (заставка Parameters) так, чтобы прочерки заменились цифрами.
ПРЕДУПРЕЖДЕНИЕ!!! В программе STATISTICA буквой p обозначается статистическая значимость (т.е. уровень значимости для проверки нулевой гипотезы).
Как правило, если р≥0,05
=> Но - принимается,
если р<0,05
=> Но - отвергается
однако величину 0,05 можно заменять исходя из целей исследования
Более низкий p-уровень соответствует более высокому уровню доверия
к нулевой гипотезе. Если в качестве критического значения вместо 0,05 взять
значение 0,01, то надежность результатов возрастает, то есть статистическая
16
значимость (p-уровень) находится в убывающей зависимости от надежности
результата.
Щелкнув по вкладке Опции (Options), можно добавить проверку по
критерию Колмогорова – Смирнова (К.-С.): для сгруппированных данных
(Categorized) и для данных без группировки (Continuous). Если для критерия
хи-квадрат указать условие – составные интервалы (Combine Categories), тогда
будут объединены классы, у которых ожидаемые частоты менее 5. Можно
также выбрать вид графика: Гистограмма, т.е. распределение частот по классам (Frequency distribution) или кумулятивное распределение (Cumulative distribution). Также можно указать единицы оси ординат: абсолютные/ исходные
частоты (Raw frequencies) или относительные частоты (Relative frequencies).
Поставьте опции как на рисунке выше: критерий КолмогороваСмирнова – нет, составные интервалы – отмечено, график распределения –
гистограмма и график частот – исходные частоты.
17
Если критерий хи-квадрат не будет значимым при любом числе классов,
то есть в шапке графика (гистограммы) будут стоять прочерки, – снимите
значок с опции Составные интервалы (Combine Categories). Щелкнув по
вкладке Быстрый (Quick), можно построить графики распределений. Напомним, что все результаты записываются в рабочую книгу (Workbook).
Постройте одну таблицу подгонки нормального распределения для
любой переменной. Для двух переменных постройте гистограммы, на которых указана проверка по критерию хи-квадрат, для Нормального (Normal),
Логнормального (Lognormal), Равномерного (Rectangular) и Гамма
(Gamma) распределений. Оформите страницу отчета.
СРАВНЕНИЕ СРЕДНИХ. Щелкните по кнопке Анализ (Statistics) и
выберите окно Основные статистики и таблицы (Basic Statistics / Tables).
В меню второго уровня выберите пункт t-тест для независимых переменных (t-test for independent variables).
Теоретически, t-критерий может применяться только в том случае, если
переменные нормально распределены. Если это условия не выполнено, следу18
ет использовать непараметрические альтернативы t-критерия, например, критерий Вилкоксона.
Укажите сравниваемые переменные. Нажмите ОК.
Перейдите на вкладку Опции (Options). Отметьте опции сравнения как
сравнение при раздельном расчете дисперсий, т.е. когда дисперсии неоднородны, для этого отметьте галочкой строку t-критерий с разделенными
оценками дисперсий (t-test with separate variance estimates).
Равенство дисперсий в двух группах можно проверить с помощью Fкритерия, он включен в таблицу вывода t-критерия. В качестве опций возможен расчет t-критерия как с объединением дисперсий (по умолчанию), так и
с раздельным их расчетом (t-test with separate variance estimates). Первый из
этих случаев возможен, когда дисперсии обеих выборок однородны, а второй
– когда неоднородны. Так же опции позволяют отображать длинные имена
переменных, задавать уровень значимости и использовать два критерия до19
полнительных критерия для сравнения дисперсий – Левена (Levene’s test) и
Брауна – Форсайта (Brawn & Forsythe test).
Щелкните по вкладке Быстрый (Quick), и проведите расчеты, нажав на
клавишу T-критерий (Summary: t-test) . В результате расчетов появится таблица:
На этой таблице указано два варианта расчета числа степеней свободы и
уровней значимости для проверки гипотезы о равенстве средних – для случая
однородных (t-value, df, p) и неоднородных дисперсий (t sep.-value, df, p 2sided). В первом случае число степеней свободы равно сумме объемов двух
выборок минус два, во втором число степеней свободы будет тем меньше, чем
больше отличаются дисперсии. Если гипотеза о равенстве средних отвергается с заданным в опциях уровнем значимости, то цифры в таблице будут показаны красным цветом,. Уровень p-значимости для t-критерия равен вероятности ошибочно отвергнуть гипотезу о равенстве средних двух выборок, когда в
действительности эта гипотеза имеет место.
Скопируйте получившиеся результаты в файл Excel по образцу оформления отчета. На практике часто приходится сравнивать более двух выборок
данных (например, например, сравнивать свойства нескольких опытных площадок). В таких случаях следует использовать дисперсионный анализ, который можно рассматривать как обобщение сравнения с помощью t-критерия.
1.
2.
3.
4.
5.
6.
7.
Вопросы к занятию 2
Какими распределениями можно (а какими нельзя) аппроксимировать
распределения изучаемых показателей? (по своим данным)
Какие из показателей имеют распределения, близкие к нормальному?
(по данным всей группы).
Как влияет выбор уровня значимости на результат принятия или отвержения гипотезы о типе распределения?
Как влияет отличие распределений свойств от нормального на результаты сравнения средних?
Можно ли считать дисперсии свойств однородными? Как влияет признание дисперсий неоднородными на конечные выводы проверки гипотезы о равенстве средних?
Принимается или отвергается гипотеза о равенстве средних для двух
участков? Как влияет уровень значимости на результаты проверки гипотезы о равенстве средних?
Чему равно число степеней свободы для критерия сравнения средних
при равенстве дисперсий? В случае неравенства дисперсий?
20
Занятие 3. Двухфакторный дисперсионный анализ
ЦЕЛЬ занятия - оценить влияние разных доз удобрений и средств защиты растений на урожайность сельскохозяйственной культуры. Выявить оптимальные дозы удобрений и гербицидов.
ВВОД ДАННЫХ. Войдите в пакет STATISTICA (см. занятие №1). После запуска программы STATISTICA появятся последние данные, с которыми
работала программа. Закройте эти данные. Для этого просто закройте соответствующее окно, нажав крестик в верхнем правом углу.
Создайте новый файл, для чего войдите в меню Файл (File) и выберите
раздел Создать (New)
на открывшейся панели.
Появится
следующее
окно:
Укажите
количество
переменных – 3, а
количество объектов –
32.
Нажмите
OK.
Вообще-то число рядов
и строк может быть
любым, главное, чтобы
оно было не меньше,
чем это требуется для
задачи.
Сохраните
получившийся
файл.
Для этого выберите в
меню
Файл (File) Сохранить как (Save
as).
В появившемся
диалоговом окне выберите свою директорию, введите имя своего нового
файла латинскими буквами.
Данные представляют собой результаты полевого эксперимента. Урожай сельскохозяйственной культуры (картофеля, свеклы, кукурузы, пшеницы,
ячменя, сорго и т.п.) был собран на делянках, которые отличались дозой гербицида (4 варианта) и дозой удобрения (4 варианта). Получается двухфакторная модель дисперсионного анализа. Каждый из факторов имеет по 4 градации. Комплекс выполнен в двукратной повторности. Таким образом, общее
число наблюдений – 32. Дайте имена переменным (например, 1-ю переменную можно назвать gerb или Herbicids или как-то еще, вторую – udobr или
Fertilizer , последнюю – urozaj или yield). При этом первая и вторая переменные должны быть закодированы. Например, для переменной Herbicids дозам
21
гербицида 0, 10, 20, 30 г/га могут соответствовать значения 1, 2, 3, 4 или 0, 10,
20, 30. Вторая переменная также может принимать значения 1, 2, 3 и 4, что
соответствует дозам удобрения 0, 30, 60, 90 кг д.в./га. В третью колонку занесите данные урожайности. Введенные данные могут, например, выглядеть
так:
ХОД АНАЛИЗА. Щелкните по кнопке Анализ (Statistics) и выберите
Дисперсионный анализ (ANOVA).
В открывшемся окне выберите вид анализа Факторный Дисперсионный Анализ (Factorial ANOVA) и раздел Диалог (Quick specs dialog).
Нажмите OK.
22
Во вновь открывшемся окне щелкните по кнопке Переменные (Variables), в появившемся окне выберите Зависимые переменные (Dependent
variable list). В качестве зависимой переменной укажите урожай. Также выберите Независимые предикторы (Categorical predictors- factors) – это факторы, в данном случае - удобрения и гербициды. Нажмите OK.
На этой же заставке укажите используемые в анализе градации факторов, для этого нажмите клавишу Коды факторов (Factor codes). Выберите
все градации Все (All) для обоих факторов. Проверьте, что градации факторов указаны правильно. НЕ нажимайте ОК, а перейдите на закладку Дополнительно (Options).
23
В окне, соответствующем закладке Дополнительно (Options) можно
выбрать разные модели дисперсионного анализа. В разделе Параметризация
(Parameterization) поставьте галочку напротив надписи Без свободного члена (No intercept). Свободный член обычно включается в более сложные модели дисперсионного анализа. Снимите галочку с Сигма-ограниченная
(Sigma-restricted) параметризация. Сигма - ограниченная модель предполагает, что для кодирования градаций фактора используются целые значения,
сумма которых равна нулю. Например, наличие известкования участка можно
было бы закодировать как +1, а в случае, если известкование не проводилось –
как -1.
Нажмите OK.
24
Откроется основная первая панель, где можно выбрать результаты анализа. Обратите внимание, что внизу этой панели можно задать доверительные
пределы и уровень значимости для проверок гипотез. По умолчанию он составляет 0,05.
Щелчок по кнопке Все эффекты (All effects) открывает панель c основной таблицей дисперсионного анализа. В данной таблице для каждого
фактора и для взаимодействия приведены результаты проверки гипотезы о
равенстве средних (по градациям) фактора. Эта же гипотеза может быть
сформулирована как равенство нулю всех отклонений средних по градациям
фактора от генерального среднего. В данном примере проверяется три нулевых гипотезы: для различных доз удобрения, для доз гербицида и их взаимодействия. В следующей таблице для фактора – гербицид и для взаимодействия
принимается нулевая гипотеза. Для фактора удобрения нулевая гипотеза отклоняется, а выполняется альтернативная гипотеза, то есть хотя бы один из
средних урожаев для какой-либо дозы удобрения достоверно отличается от
других средних.
Скопируйте таблицу вместе с заголовками в отчет в программе Excel.
25
Для того чтобы продолжить анализ, нужно нажать на клавишу Результаты анализа (Anova Results…), находящуюся в нижнем левом углу окна, в
котором открыта программа Statistica.
Появится панель с предыдущей страницы. В левом нижнем углу этого
диалогового окна нажмите клавишу Больше (More results), перейдя, таким
образом, к развернутому представлению результатов. На открывшейся панели
убедитесь, что выбран ярлычок Средние (Means) и стоит галочка в нижнем
левом углу, напротив Показать стандартные ошибки (Show standard
errors).
Выберите в окошке Показать средние эффекта: (Plot or show means
for effect) – для сочетания факторов – гербицид и удобрение. И постройте рисунок, нажав на верхнюю кнопку с подписью рисунок График (Plot), расположенную в верхнем ряду, рядом с кнопкой Наблюдаемые, невзвешенные
(Observed, unweighted). Появится панель выбора расположения факторов.
Нажмите ОК.
Появится следующий график, на котором показаны средние значения
взаимодействия по сочетанию градаций факторов. Рамочками показаны 95%
доверительные интервалы для средних. Скопируйте график в отчет. В общем
26
случае взаимодействие между факторами описывается в виде изменения одного эффекта под воздействием другого. В рассмотренном примере двухфакторное взаимодействие можно описать как изменение урожая, получаемого
при разной дозе удобрений, под воздействием обработок гербицидом. На
графике по оси абсцисс отложены коды, соответствующие градациям первого
фактора (дозы удобрения), по оси ординат отложен урожай. Символами закодированы разные дозы гербицида. Всего имеется 16 средних урожаев, соответствующих сочетаниям взаимодействия. Они получены усреднением каждой из двух повторностей, соответствующих сочетанию дозы удобрения и
гербицида.
Выберите в окошке Показать средние эффекта: (Plot or show means
for effect) по очереди каждый из факторов. Постройте аналогичные графики
для средних по градациям фактора удобрения и гербицида. Скопируйте графики в отчет.
Для того чтобы построить таблицу, соответствующую графику, нажмите кнопку Наблюдаемые, невзвешенные (Observed, unweighted). Постройте
таблицы, соответствующие действию гербицида и удобрения. Так как каждый
из этих факторов имеет по 4 градации, то средние по градациям каждого из
факторов получены путем усреднения 8 повторностей. В таблице приведены
средние, ошибки среднего и 95% доверительные интервалы для средних. Скопируйте таблицы в отчет.
27
ПРОВЕРКА ОТЛИЧИЯ СРЕДНИХ ПО ГРАДАЦИЯМ ФАКТОРА. Перейдите на вкладку Апостериорные (Post-hoc). В окошке Эффект (Effect)
укажите фактор – доза гербицида. Проверьте, что в качестве зависимой переменной указан урожай. Выберите опцию Значимые разности (Significant
differences). Здесь также можно построить таблицы, где средние сгруппированы в однородные группы или построить для них доверительные интервалы.
Сравнение средних можно провести по 8 различным тестам. Выберите
сначала Фишера НЗР- наименьшая значимая разность (Fisher LSD- less significance distance). В других источниках этот тест называется НСР – наименьшая существенная разница. С помощью НСР оценивается разность между
средними. Если разность d между любыми двумя оценками среднего превышает или, по крайней мере, равна НСР, то средние значения различаются с вероятностью 1-α. НСР равна произведению ошибки среднего Sx на tα*√2.
28
Использование критерия НСР приводит к некоторому завышению различий
между средними по сравнению с другими критериями.
Нажмите соответствующую кнопку.
Появится следующая таблица, скопируйте ее в отчет. Цифрами 1, 2, 3, 4
обозначены средние значения урожая в зависимости от дозы гербицида. Эти
средние приведены в шапке таблицы. В ячейке таблицы, на пересечении
столбца и строки показан уровень значимости (p) для проверки гипотезы о равенстве двух средних, находящихся на пересечении столбца и строки. Нулевая
гипотеза формулируется для двух средних и утверждает, что эти средни раны
между собой. Красным показаны случаи, где нулевая гипотеза о равенстве
средних отвергается.
Аналогичным образом постройте таблицу, соответствующую тесту
Ньюмана-Кеулса (Newman-Keuls). Постройте аналогичные таблицы для
фактора – тип удобрения.
ПРОВЕРКА ДОПУЩЕНИЙ. В программе Statistica можно проверить
выполнение основных предположений, оправдывающих применение дисперсионного анализа. Наиболее важными из них являются два: 1) нормальность
распределений по градациям факторов и 2) однородность (или гомогенность)
дисперсий. Для проверки дисперсий на однородность перейдите к вкладке
Предположения (Assumptions).
Проверьте, что в качестве зависимой переменной указана переменная
урожая. В окошке Эффект (Effect) укажите фактор – доза гербицида. Нажми-
29
те на кнопку , где указан тест Кохрена С, Хартли, Бартлетта (Cohran C,
Hartley, Bartlett).
Появится следующая таблица. Скопируйте ее в отчет. Как видно из таблицы, проверка дисперсий на однородность осуществляется одновременно по
3 тестам.
Так как уровень значимости p больше 0,05, то принимается нулевая гипотеза, и дисперсии подвыборок, сформированных по градациям фактора (в
данном случае – дозе гербицида) – однородны. Если дисперсии неоднородны,
то дисперсионный анализ исходных данных проводить не стоит. В таких
случаях применяются различные нелинейные преобразования исходных значений, например, извлечение квадратного корня или логарифмирование.
Аналогичным образом проведите тест для фактора – вид удобрения и
для взаимодействия факторов. Оформите отчет и подпишите его у преподавателя.
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Вопросы к занятию 3
Опишите изменения средних по градациям факторов и по взаимодействию для своего случая. По таблице исходных данных приведите значения, по которым получены эти средние.
Сформулируйте исходную гипотезу дисперсионного анализа для каждого из факторов и для взаимодействия.
Соблюдаются ли эти гипотезы для ваших данных по урожайности?
Влияет ли взаимодействие факторов на средние значения урожайности?
Какой из факторов значимо влияет на урожай с/х культур? (по данным
всей группы)
Что такое НСР? Какой способ сравнения средних обнаруживает больше различий между средними?
Какие группы средних можно признать однородными?
Однородность каких дисперсий проверяется? Зачем это нужно?
Что нужно делать в случае, если дисперсии неоднородны?
Какие преобразования исходных данных допустимы, если распределения положительно асимметричны и условие однородности дисперсий не
выполняется?
Какие выводы о влиянии различных доз гербицида и удобрений можно
сделать по результатам проведенного дисперсионного анализа?
30
Занятие 4. Регрессионный анализ
ЦЕЛЬ занятия - провести множественный линейный регрессионный
анализ данных зависимости урожайности от почвенных признаков; определить переменные, влияющие на урожайность; оценить степень влияния каждой из переменных; исследовать качество аппроксимации зависимости.
Войдите в пакет STATISTICA (см. занятие №1).
В программе
STATISTICA создайте новый файл данных для своего варианта (см. занятие
№3). Введите данные как показано на картинке ниже. Признаки – это столбцы, строки – это наблюдения.
Каждому наблюдению (точке на поле), соответствует урожай сельскохозяйственной культуры, указанный в пересчете на ц/га, (здесь переменная
Yield) и почвенные свойства, измеренные в почвенном образце, в данном случае – это содержание гумуса, рН , содержание подвижного фосфора, калия и
нитратов.
Щелкнув на кнопке Анализ (Statistics) откройте меню и затем выберите раздел Множественная регрессия (Multiple Regression).
31
Назначение множественной регрессии состоит в анализе связи между
несколькими независимыми переменными (называемыми также регрессорами
или предикторами) – в данном случае, почвенными свойствами и зависимой
переменной – урожаем.
Выберите закладку Дополнительно (Advanced).
Щелкните по кнопке Переменные (Variables), задайте зависимые и независимые переменные. В нашем случае зависимой переменной (Dependent)
будет урожай сельскохозяйственной культуры (Yield), независимые переменные (Independent)- почвенные свойства (например, P2O5, hum, pH, K2O, NO3).
Обратите внимание, что вообще Файл данных (Input file) может содержать
данные как в исходном виде, так и в виде корреляционной матрицы. Нажмите
ОК, запустив тем самым анализ.
В результате работы программы появляется новая панель с расчетными
характеристиками (см. стр. 33). На появившейся панели отображается множественный коэффициент корреляции (R), его квадрат (коэффициент детерминации), “скорректированный” коэффициент детерминации. Коэффициент
множественной корреляции R определяет степень тесноты связи результирующего признака Y со всем набором независимых признаков X1,...,Xk. В случае парной регрессии (т.е. при наличии всего одного признака X1) R совпадает
с коэффициентом корреляции Пирсона. По значению R-квадрат можно определить, насколько хорошо модель описывает данные, так как значение R рав32
но отношению дисперсии признака Y, объясненной регрессионной моделью,
к общей дисперсии признака Y. Значение R-квадрат близкое к 1,0 показывает,
что с помощью модели объясняется почти вся изменчивость Y.
На панели также приведены результаты дисперсионного анализа для
проверки гипотезы об адекватности модели: величина F-критерия, соответствующее число степеней свободы для уравнения и уровень значимости (р),
стандартная ошибка оценки (Standart error estimate), оценка свободного члена (intercept) и значение t-критерия для него с соответствующим уровнем
значимости (р). Значимые (отличные от нуля) оценки высвечиваются красным цветом.
Для каждого признака приведены стандартизованные коэффициенты
регрессии (см. далее), обозначенные бета (beta). Красным цветом обозначены
значимые коэффициенты.
Результаты расчетов можно вывести в виде таблиц. На вкладке Дополнительно (Advanced) нажмите кнопку Дисперсионный анализ (ANOVAoverall goodness of fit).
В появившейся таблице дисперсионного анализа уравнение регрессии
выступает в качестве влияющего фактора. Скопируйте таблицу в отчет в программе Excel.
33
Для продолжения анализа в нижнем левом углу нажмите на свернутую
панель Множественная регрессия (Multiple Regression). На вкладке Дополнительно (Advanced) нажмите кнопку Итоговая таблица регрессии (Summary: regression results). Появится таблица, где суммированы результаты
регрессионного анализа для каждой из независимых переменных. Скопируйте
шапку и таблицу в отчет. Оцените отличие обычного и скорректированного
коэффициентов детерминации.
Аппроксимирующая модель подбирается в виде:
Y=const+B1*X1+B2*X2 + …+ Bk*Xk,
где В1, В2 … Bk служат оценками генеральных параметров β1, β2…βk . Величина
Вj показывает, насколько в среднем изменяется урожай (признак Y) при увеличении соответствующего независимого признака Xj на единицу (шкалы его
измерения) при фиксированных значениях других признаков, входящих в
уравнение регрессии. Эти коэффициенты – величины размерные. В таблице
для каждого коэффициента B приведены их стандартные ошибки (Std. Err. of
B), а также значения критерия Стьюдента (в скобках указано число степеней
свободы) и уровень значимости (обозначен как p-уровень) для проверки гипотезы о равенстве коэффициентов нулю. Проверьте по скопированной таблице,
какие из коэффициентов равны нулю, а какие отличны от нуля.
Исходя из этих данных, можно рассчитать доверительные интервалы
для коэффициентов регрессии.
B
Bi ± S Bi * tαν R , i = 1,2,...k
Термином БЕТА (Beta) в таблице названы стандартизованные коэффициенты, связанные с обычными коэффициентами через соотношение:
Bi = Beta i *
34
σi
σy
Как видно из уравнения коэффициенты бета - это безразмерные величины. По их значениям можно сравнивать вклады независимых переменных в
урожай. Например, из таблицы видно, что наибольший вклад в урожай вносит
фосфор, следующий по значению признак – гумус и т.п. Для значения рН уровень значимости для проверки гипотезы о равенстве коэффициента нулю
больше значения 0,05, и, следовательно, нулевая гипотеза принимается. Коэффициент для значения рН неотличим от нуля. Вклад нитратов в данном
случае практически тоже равен нулю.
Проверьте по скопированной таблице, какие из коэффициентов отличны
от нуля. Выпишите окончательное уравнение регрессии. Например, в данном
случае:
Yield [ц/га] = 4,29 [ц/га] + 0,91[ц/(га*%)] *Humus [%] + 0, 52 [(ц/га)/ мгэкв. / 100 г. почвы] * P2O5[мг-экв. / 100 г. почвы] + 0,31 [(ц/га)/ мг-экв. / 100 г.
почвы] *K2O[мг-экв. / 100 г. почвы].
Рассчитайте 95% доверительные интервалы для коэффициентов полученного уравнения. Например, для 90% -доверительного интервала и числа
степеней свободы, равного 16 (число наблюдений 20 минус число переменных
4), значение двухстороннего t- критерия будет равно 1,75. Коэффициент регрессии для гумуса будет с вероятностью 90% изменяться в следующих пределах: от 0,38 (0,91 – 0,30*1,75) до 1,44 (0,91 + 0,30*1,75), где точечная оценка
коэффициента регрессии и его ошибки равны соответственно 0,91 и 0,30.
АНАЛИЗ НАЛИЧИЯ МУЛЬТИКОЛЛИНЕАРНОСТИ. Под термином
мультиколлинеарность понимают наличие взаимосвязей между так называемыми независимыми признаками, по которым строиться регрессионное уравнение. При ее наличии снижается точность оценок регрессионных коэффициентов. Кроме того добавление небольшого числа наблюдений может привести
к сильным сдвигам в значениях регрессионных коэффициентов.
Для продолжения работы перейдите на вкладку Остатки/ предсказанные/ наблюдаемые значения (Residuals/assumptions/ prediction). Для построения коэффициентов корреляции нажмите на кнопку Описательные
статистики (Descriptive Statistics).
35
На появившейся панели перейдите на вкладку Дополнительно (Advanced) и выберите кнопку Корреляции (Correlations) для построения корреляционной таблицы между признаками. При построении таблицы корреляций выберите все признаки. Скопируйте таблицу в отчет. При анализе результатов нужно учесть, что при числе степеней свободы ν=19 значимыми (то
есть отличными от нуля) можно считать коэффициенты, превышающие по
модулю 0,45. А при ν=14 – 0,53. Если независимые переменные окажутся тесно связанными между собой (коэффициенты корреляции по модулю равны
или более 0,85), то следует исключить коррелированные признаки, оставив
один из них. Затем можно использовать алгоритмы пошаговой регрессии.
Humus
P2O5
K2O
Yield
36
Другой вариантом при наличии большего числа коррелированных признаков является проведение факторного анализа (метод главных компонент) и
переход к новому набору переменных, которые будут не связаны между собой. Множественная регрессия строиться для этих новых переменных (компонент).
Для построения попарных графиков между переменными выберите
кнопку Матричный график (Matrix plot of correlations). Сначала выберите
все переменные и урожай. Рассмотрите график. Затем постройте график только для значимых переменных и для урожая. Для выделения нужных переменных используйте клавишу Ctrl. Скопируйте график в отчет.
АНАЛИЗ ОСТАТКОВ. Отклонение отдельной точки от линии регрессии (от предсказанного значения) называется остатком. Анализ остатков важная составляющая регрессионного анализа, позволяющая проверить, насколько хорошо выполняются основные предположения множественной регрессии. Наличие выбросов (т.е. экстремальных наблюдений) может вызвать
смещение оценок, "сдвинуть" линию регрессии и тем самым, вызывать смещение регрессионных коэффициентов. Часто исключение лишь одного экстремального наблюдения приводит к изменению результата.
Для того чтобы выполнить анализ остатков, в нижнем левом углу нажмите на свернутую панель Множественная регрессия (Multiple
Regression). Появится размещенная выше таблица Просмотра описательных статистик (Review Descriptive Statistics). Чтобы подняться в меню на
более высокий уровень, нажмите кнопку Отмена (Cancel).
Появится следующее меню. Выберите закладку Остатки/ предсказанные/ наблюдаемые значения (Residuals/assumptions/ prediction).
Нажмите кнопку Анализ остатков (Perform residual analysis). Появится меню:
37
Выберите закладку Остатки (Residuals) и нажмите кнопку Гистограмма остатков (Histogram of residuals). В множественной регрессии предполагается, что остатки распределены нормально. Оцените, насколько это допущение выполняется в Вашем случае. Появившийся график скопируйте в отчет.
Вернитесь к меню.
Выберите закладку Диаграмма рассеяния (Scatterplots).
Для построения графика зависимости наблюдаемых значений урожая от
предсказанных значений урожая используйте клавишу Предсказанные и наблюдаемые (Predicted vs. Observed). Скопируйте этот график в отчет. Чем
лучше модель оценивает данные урожайности, тем ближе точки располагаются к прямой.
38
Для построения графика зависимости остатков от предсказанных значений используйте клавишу Предсказанные и остатки (Predicted vs. residuals). Скопируйте график в отчет. Чем меньше разброс значений вдоль линии, тем, очевидно, лучше прогноз. В случае хорошей аппроксимации остатки
не должны зависеть от наблюдаемых и предсказанных величин.
39
Для построения нормального вероятностного графика остатков выберите закладку Вероятностные графики (Probability plots) и нажмите клавишу
Нормальный (Normal plot of residuals). Скопируйте график в отчет. В случае
хорошей аппроксимации остатки должны иметь нормальное распределение.
ПОШАГОВАЯ РЕГРЕССИЯ. Существует две схемы пошаговой регрессии: «с исключением» признаков и «с включением».
Первый алгоритм состоит в том, что после построения уравнения регрессии и оценки значимости всех коэффициентов из модели исключают тот
признак, коэффициент при котором незначим и имеет наименьшее значение t .
После этого получают новое уравнение множественной регрессии и снова
производят оценку значимости всех оставшихся коэффициентов регрессии.
Если среди них опять окажутся незначимые, то опять исключают признак с
наименьшим значением t -критерия. Процесс исключения признаков останавливается на том шаге, при котором все регрессионные коэффициенты значимы. При использовании этой схемы негативные последствия мультиколлинеарности могут сказаться.
При реализации второго алгоритма первым в уравнение включается
признак, наиболее тесно коррелирующий с Y, вторым в уравнение включается
тот признак, который в паре с первым из отобранных дает максимальное значение множественного коэффициента корреляции, и т.д. На каждом шаге получают новое значение множественного коэффициента корреляции (большее,
чем на предыдущем шаге); тем самым определяется вклад каждого отобранного признака в объясненную дисперсию Y.
Нажмите в нижнем левом углу на свернутую панель Множественная
регрессия (Multiple Regression). Чтобы вернуться назад, несколько раз нажимайте Отмена (Cancel) до тех пор, пока не появится следующее меню:
40
Выберите закладку Дополнительно (Advanced). В появившемся окне
поставите галочку в окне Пошаговая или гребневая регрессия (Advanced
options- stepwise or ridge regression). Проверьте, правильно ли заданы зависимые и независимые переменные. Нажмите ОК.
В появившемся меню перейдите на вкладку Пошаговый (Stepwise).
Выберите процедуру Пошаговая с включением (Forward stepwise). В окне
Отображение результатов (Display results) укажите пункт На каждом шаге
(At each step). Нажмите ОК.
Появится панель, суммирующая результаты анализа. На нулевом шаге
не будет выбрано ни одной переменной. Значения коэффициентов R и R2 будут равны нулю.
Нажмите Далее (Next). Появиться новая итоговая таблица, соответствующая первому шагу, на которой, показаны данные для уравнения с одной
переменной, выделенной красным цветом.
41
На той же вкладке Дополнительно (Advanced) выберите клавишу Итоговая таблица регрессии (Summary: regression results). Появится таблица,
аналогичная таблице, полученной при проведении стандартной процедуры
регрессионного анализа, но содержащая одну переменную (в данном случае –
это фосфор) и свободный член.
Вернитесь к меню. На той же вкладке Дополнительно (Advanced) выберите клавишу Итоги по шагам (Stepwise regression summary). В результате будет построена таблица с итогами 1-го шага. Обратите внимание, что
квадрат множественного коэффициента регрессии в данном случае много
меньше полученного для стандартной процедуры. (см. стр.33-34).
Вернитесь к меню и нажмите Далее (Next). Появиться итоговая таблица
для двух переменных (шаг 2). Постройте для уравнения, включающего две
переменные, Итоговую таблицу регрессии (Summary: regression results) и
Итоги по шагам (Stepwise regression summary). Скопируйте таблицы в отчет.
Повторите процедуру несколько раз, следя за изменениями итоговой
таблицы и итогов по шагам до тех пор, пока процедура пошаговой регрессии
не закончиться. Копируйте таблицы в отчет. Убедитесь, что информация в
таблицах дублируется. Оставьте таблицы, соответствующие последнему шагу.
42
Напишите новое уравнение регрессии. В данном случае оно будет выглядеть следующим образом:
Yield [ц/га] = 3,93 [ц/га] + 0,86 [ц/га*%] *Humus [%] + 0, 51 [(ц/га)/ мгэкв. / 100 г. почвы] * P2O5[мг-экв. / 100 г. почвы] + 0,31 [(ц/га)/ мг-экв. / 100 г.
почвы] *K2O[мг-экв. / 100 г. почвы] .
Из результирующей таблице итогов по шагам видно, что на первом этапе в уравнение регрессии был включен подвижный фосфор, на втором - калий,
на третьем шаге – гумус. При включении признаков коэффициент множественной корреляции возрастает на втором шаге и практически не изменяется на
третьем.
Вопросы к занятию 4
1. Существует ли линейная зависимость между урожайностью и свойствами почвы?
2. Какие из почвенных свойств влияют на урожайность?
3. Что такое регрессия в стандартизованном (нормализованном) виде? Зачем используются стандартизированные коэффициенты?
4. Что такое коэффициент множественной корреляции? Чему он равен в
вашем случае?
5. Чему равен коэффициент детерминации? Сильно ли он отличается от
скорректированного коэффициента детерминации?
6. Что такое Intercept? Чему он равен в Вашем случае?
7. Каковы требования к качеству аппроксимации? Как соблюдаются эти
требования в случае множественной линейной регрессии для исследуемых данных?
8. Что такое «остатки»?
9. Можно ли считать остатки нормально распределенными?
10. О чем свидетельствует корреляция между признаками? Что нужно в
этом случае делать?
11. Наблюдается ли мультиколлинеарность для исследуемых данных?
12. Какова связь между дисперсионным и регрессионным анализами?
13. В чем задача пошаговой регрессии?
14. Оцените вклад каждой из независимых переменных в урожай.
15. Выпишите уравнение регрессии, полученное по стандартной процедуре.
Укажите единицы для коэффициентов регрессии и переменных. Посчитайте доверительные интервалы для коэффициентов регрессии.
16. Выпишите уравнение регрессии, полученное при пошаговом анализе
Можно ли считать, что получены разные уравнения?
43
Занятие 5. Кластерный анализ
ЦЕЛИ данного занятия: провести иерархическую классификацию горизонтов методами одиночной связи и Варда, используя Евклидово расстояние;
провести классификацию переменных этими же методами; выполнить два варианта классификации объектов методом k-средних, задав в первом случае 3
класса, во втором - 5 классов.
Войдите в пакет STATISTICA (см. занятие №1).
В программе
STATISTICA создайте новый файл данных для своего варианта (см. занятие
№3). Введите данные так же, как они даны в таблице данных. Данные представляют собой результаты анализов образцов горизонтов, отобранных из 5
разрезов дерново-подзолистых почв Московской области. Сохраните данные.
Щелкнув на кнопке Анализ (Statistics), откройте меню и затем выберите раздел Многомерный разведочный анализ (Multivariate Exploratory
Technique), затем перейдите в раздел Кластерный анализ (Cluster Analysis).
Кластерный анализ – это группа методов, используемых для классификации объектов в относительно однородные группы (кластеры). Эти методы
не являются строгими со статистической точки зрения. Кластерный анализ
используется обычно на начальной стадии исследования, когда не существует
еще гипотез относительно классов, в которые объединяются объекты. Выделяют аггломеративные и итеративные дивизивные методы кластерного анализа. Аггломеративные методы кластеризации – это иерархические методы, при
которых на начальном этапе каждый объект находится в отдельном кластере.
44
На следующих этапах происходит объединение объектов в более крупные
кластеры на основании понижения некоторого порога, например, увеличения
расстояния между объектами. Иными словами, чем выше уровень агрегации,
тем меньше сходства между членами в соответствующем классе. Итеративные
дивизивные методы кластеризации состоят в том, что выполняется разбиение
объектов, объединенных в один или несколько крупных кластеров, на фиксированное число кластеров, как правило, более мелких. При этом образуются
новые кластеры так, чтобы они были настолько различны, насколько это возможно.
Выберите пункт Иерархическая классификация (Joining –tree clustering) дендрограммы. Нажмите ОК. Для выполнения второй части задания
нужно будет в этом же меню выбрать пункт Кластеризация методом - kсредних (K-means clustering)).
ИЕРАРХИЧЕСКАЯ КЛАССИФИКАЦИЯ. Выберите закладку Дополнительно (Advanced). Выберите переменные (Variables), по которым будет
проводиться анализ (C, PHS, IL, G, V). Обратите внимание, что Файл данных
(Input file) может содержать данные как в исходном виде, так и в виде матрицы расстояний (distance matrix). В поле Объекты (Cluster) выберите Наблюдения-строки (Cases -rows).
45
Выберите правило объединения (Amalgamation –linkage rule) и подходящую Меру близости между объектами (Distance measure).
В таблице приведены возможные варианты перевода названий методов
объединения и мер расстояния.
Joining ruleМетоды объединения
Single linkage
Метод одиночной связи (ближайшего соседа)
Complite linkage
Метод полной
связи (дальнего
соседа)
Unweighted pair
Невзвешенный
group average
метод “средней
связи”, невзвешенное попарное
среднее
Weighted pair
Взвешенный меgroup average
тод средней связи
Weighted centroid Взвешенный ценpair group (mетроидный метод
dian)
Distance measure –
Меры расстояния
Squared Euclidean Квадрат Евклиdistances
дова расстояния
Euclidean distances
Евклидово расстояние
City (Manchattan)-block
Манхэттенское
расстояние
Chebyshev distance metric
Power
Percent disagreement
Расстояние Чебышева
Степенное
Процент несовпадений (используется для
качественных
признаков)
Коэффициент
корреляции (1-r
Пирсона)
Pearson r
Ward method
Метод Уорда
(Варда)
Проведите иерархический кластерный анализ Методом одиночной
связи (Single Linkage) с использованием Евклидового расстояния (Euclidean distances). Задав начальные установки, нажмите ОК.
46
Евклидово расстояние – это геометрическое расстояние в многомерном
пространстве, то есть аналог физического расстояния. Метод одиночной связи (ближайшего соседа) предполагает, что расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами
(ближайшими соседями) в сравниваемых кластерах. В результате формируются кластеры, представленные длинными "цепочками" объектов.
Следующая панель дает информацию о выбранных ранее условиях (число случаев, число переменных, число пропусков, способ присоединения и мера близости).
Появляется возможность построить горизонтально (Horizontal hierarchical tree plot) или вертикально (Vertical icicle plot) расположенную дендрограмму. Нажмите соответствующую кнопку, чтобы построить каждую из дендрограмм. Посмотрите рисунки.
Для продолжения анализа в нижнем левом углу нажмите на свернутую
панель кластерного анализа (Joining results). По умолчанию дендрограмма
строится с ветвями, соединяющимися под прямыми углами Прямоугольные
ветви (Rectangular branches). Посмотрите, что получится, если значок выбора снять (дерево получится с острыми углами). Вторая галочка позволяет
масштабировать ось расстояния на рисунке дендрограммы, то есть перейти к
процентам от максимального расстояния (Scale tree to dlink/dmax *100%).
Постройте вертикально расположенную дендрограмму с прямоугольными ветвями и с масштабированным расстоянием.
47
На графике по оси абсцисс отложены объекты (наблюдения). В данном
случае – это 30 горизонтов, соответствующие 5 разрезам дерново- подзолистой почвы. По оси ординат отложено Евклидово расстояние между объектами и группами объектов, рассчитанное по свойствам объектов (наблюдений).
В группы объединяются объекты (и/или их группы), находящиеся на самом
близком расстоянии.
Дважды щелкнув по графику можно перейти в режим оформления, где
можно заменить номера объектов (наблюдений) на их имена. Для этого в появившемся меню выберите вкладку Единицы, заданные пользователем (Custom Units). Для сохранения имени горизонта в строке используйте клавишу
Enter. Замените порядковые номера наблюдений названиями горизонтов. Нажмите OK. Сохраните график в файле результатов Excel.
48
Проведите иерархический кластерный анализ методом Варда с использованием Евклидового расстояния. Этот метод отличается от всех других методов, поскольку он использует методы дисперсионного анализа для оценки
расстояний между кластерами. Метод Варда минимизирует сумму квадратов
для любых двух кластеров, которые могут быть сформированы на каждом шаге. При использовании данного метода получаются кластеры малого размера.
Результаты сохраните в файле Excel.
На этой же панели меню, где строятся дендрограммы (см. стр. 47), можно сохранить в виде таблицы порядок объединения объектов - схема объединения (Amalgamation schedule), график схемы объединения (Graph of Amalgamation schedule), матрицу расстояний между объектами (Distance matrix),
а также среднее и стандартное отклонение для полученных классов – Описательные статистики (Descriptive statistics).
СРАВНЕНИЕ ПЕРЕМЕННЫХ. Кластерный анализ позволяет также
оценивать близость переменных между собой. Для этого на первой панели в
поле Объекты (Cluster) выберите Variables (Columns)..
Для 5 переменных проведите иерархический кластерный анализ методом одиночной связи и методом Варда с использованием Евклидового расстояния. Графики (2 шт.) сохраните в файле Excel.
49
МЕТОД K-СРЕДНИХ. Вернитесь в самое начало анализа и выберите
Кластеризацию методом к-средних (K-means clustering).
По методу K средних будет построено K кластеров, расположенных на возможно больших расстояниях друг от друга. Расчеты начинаются K кластеров,
в которые объекты объединены случайным образом. Процедура состоит в изменении принадлежности объектов к кластерам так, чтобы: изменчивость
внутри кластеров сделать минимальной, изменчивость между кластерами максимальной. Эта оценка производиться с помощью дисперсионного анализа. Выберите закладку Дополнительно (Advanced).
Необходимо произвести выбор переменных (Variables), по которым будет проводиться анализ (C, PHS, IL, G, V) и выбор типа анализа (для объектов
или для самих переменных) в окошке Объекты (Cluster), - точно такой, как и
при иерархической классификации.
Укажите переменные: C, PHS, IL, G, V, и выберите анализ объектовнаблюдений (Cases (row)). Затем нужно задать Число кластеров (Number of
clusters) и число итераций для расчетов (Number of iterations). Кроме этого,
можно разным способом задать Начальные центры кластеров (Initial cluster centers).
Для ваших данных проведите кластеризацию методом k-средних, задав
3 кластера. Число итераций возьмите по умолчанию, равное 10. Начальные
центры классов задайте через одинаковые интервалы в ранжированном ряду
расстояний Сортировать расстояния и выбрать наблюдения на постоянных интервалах (Sort distances and take observations at constant intervals).
Нажмите ОК.
50
Результирующая панель содержит информацию о заданных ранее условиях кластерного анализа. Она позволяет оценить качество классификации с
помощью таблицы Дисперсионного анализа (Analysis of variance), получить
таблицу средних значений признаков для кластеров и таблицу расстояний между кластерами – Средние кластеров и Евклидовы расстояния (Cluster
means & Euclidean distances), построить графики средних значений для кластеров – График средних (Graph of means), получить описательные статистики для каждого класса (Descriptive statistics for each cluster), получить
таблицу принадлежности объектов к каждому классу Элементы кластеров и
расстояния (Members of each cluster & distances).
Проанализируйте результаты, оценив качество классификации при помощи таблицы дисперсионного анализа (Analysis of variance).
Метод K-средних
3 кластера
Analysis of Variance (pc_kla.sta)- Дисперсионный анализ
Признаки
Between
Within
SS
df
SS
df
Число ст.
Сумма кв. Число ст. Общая
между
свободы сумма кв. свободы
классами
внутри
классов
C
41,253422
2 89,541245
27
PHS
0,4869745
2 1,8676891
27
IL
2881,6445
2 291,72192
27
G
2422,0554
2 256,64453
27
V
0,5615084
2 0,5753129
27
51
F
6,219717
3,519941
133,3537
127,4048
13,17607
signif.
p
Уровень
значимости
0,0060027
0,0438099
1,015E-14
1,774E-14
0,0001016
Например, из данной таблицы видно, что для всех почвенных свойств
уровень значимости меньше 0,05 и, следовательно, нулевая гипотеза о равенстве средних по выделенным кластерам отвергается. Варьирование между выделенными кластерами превышает внутриклассовое варьирование. Значения
F-статистики, полученные для каждого признака, являются индикатором того,
насколько хорошо соответствующий признак разделяет кластеры.
Постройте график средних и таблицу принадлежности объектов к каждому классу. Результаты сохраните в файле Excel.
При копировании в отчет таблиц принадлежности объектов к кластерам
их необходимо транспонировать и заменить порядковые номера объектов на
названия горизонтов.
Повторите анализ, задав 5 классов. Результаты сохраните в файле Excel.
Распечатайте отчет.
52
Вопросы к занятию 5
1. Что такое кластерный анализ?
2. Что такое аггломеративные методы кластеризации? Приведите примеры.
3. Что такое итеративные дивизивные методы кластеризации? Приведите
примеры.
4. Что такое расстояние между объектами? Какие виды расстояния между
объектами вы знаете?
5. Какие виды расстояний используются для качественных признаков?
6. Какие методы объединения реализованы в программе STATISTICA?
7. Что такое дендрограмма и как она строится?
8. Для каких случаев, на Ваш взгляд, удобнее вертикальная дендрограмма,
а для каких горизонтальная дендрограмма?
9. На каждой из сохраненных в отчете дендрограмме проведите по 3 сечения. Опишите, как происходит процесс объединения горизонтов в классы. Какие горизонты попадают в один, а какие в разные кластеры?
10. Чем отличаются кластеры, выделенные методом одиночной связи и методом Варда?
11. Какие признаки оказались «ближе», а какие «дальше» для данного множества горизонтов?
12. В чем заключается принцип работы метода k-средних? К какому типу
методов кластеризации он относится?
13. Как соотносятся результаты работы алгоритма по методу k-средних для
3 и 5 классов?
14. Одинаковое ли разбиение дают разные методы кластеризации для одних
и тех же объектов?
15. Какой метод, на ваш взгляд, дает лучшее разбиение для ваших данных?
53
Занятие 6 . Метод главных компонент и дискриминантный анализ
ЦЕЛЬ занятия: провести анализ данных методом главных компонент
(МГК); выполнить дискриминантный анализ совокупности данных о горизонтах дерново-подзолистой почвы, оценить качество классификации; сравнить
результаты анализов.
МЕТОД ГЛАВНЫХ КОМПОНЕНТ осуществляет переход от исходных
признаков Х1,...,Хp к новой системе координат Y1,...,Yр, называемых главными
компонентами (ГК). ГК представляют собой линейные нормированные комбинации исходных признаков. Они выбираются таким образом, что среди всех
возможных линейных нормированных комбинаций исходных признаков первая главная компонента Y1 обладала наибольшей дисперсией. Вторая главная
компонента имеет наибольшую дисперсию среди всех оставшихся линейных
преобразований, некоррелированных с первой главной компонентой и перпендикулярных первой главной компоненте. Следующие главные компоненты
определяются по аналогичной схеме.
Войдите в пакет STATISTICA (см. занятие №1).
В программе
STATISTICA откройте файл данных для 5-6 задания для своего варианта (см.
занятие №3). Данные представляют собой результаты анализов образцов горизонтов, отобранных из 5 разрезов дерново-подзолистых почв Московской
области.
Щелкнув на кнопке Анализ (Statistics), откройте меню и затем выберите раздел Многомерный разведочный анализ (Multivariate Exploratory
Technique), перейдите в раздел Анализ главных компонент и классификация (Principal Components& Classification Analysis).
На следующей появившейся панели щелкните по кнопке Переменные
(Variables). В разделе Переменные анализа (Variable for analysis) задайте
признаки, по которым будет производиться анализ МГК, - в нашем случае –
54
гумус, рН, содержание ила и глины, а также степень ненасыщенности. В качестве Группирующей переменной (Grouping variable) задайте переменную, где закодировано название горизонта (в данном случае Horizon).
Группирующая переменная (Grouping variable- labeling) используется
для задания имен/ меток/обозначений для наблюдений. C помощью группирующей переменной можно также разделить все наблюдения на основные наблюдения, по которым проводится анализ, и на вспомогательные наблюдения,
в анализе не участвующие. Для этого нужно одно из значений группирующей
переменной использовать в качестве кода для задания основных наблюдений.
Остальные наблюдения будут считаться вспомогательными наблюдениями.
Здесь же можно задать Вспомогательные переменные (Supplementary
variables), которые не будут участвовать в анализе, но их можно спроектировать на подпространство главных компонент (ГК), чтобы сделать какие-либо
выводы об этих вспомогательных переменных. В нашем случае – таких переменных нет.
Перейдите на закладку Дополнительно (Advanced).
55
После того, как переменные заданы, важно принять решение, будет ли
анализ проводится на основе ковариаций, либо корреляций. При анализе, основанном на матрице ковариаций, на вычисляемые факторы будут влиять различия вариабельности (изменчивости) переменных, включенных в анализ. В
большинстве случаев, эти различия связаны с различными единицами измерений. В нашем случае анализ будет проводиться на основе корреляционной
матрицы. Поэтому выберите опцию Анализ основан на (Analysis based on)
Корреляциях (Correlations).
Нажмите кнопку OK. Появится новое меню. В информационном поле
диалога представлена общая информация о текущем анализе.
В диалоговом окне установите Число факторов (Numbers of factors)
равным 2. Если в результате, Качество представления (Quality of representation) получилось меньше 70%, то нужно увеличивать число факторов, пока
качество представления не станет больше или равным 70%.
Перейдите на закладку Переменные (Variables). Выберите клавишу
Факторные координаты (Factor coordinates of variables).
56
Появится таблица Факторных координат переменных на основе корреляций (Factor coordinates of the variables, based on correlations), в которой показаны координаты исходных переменных в пространстве главных
компонент (факторов). Так как текущий анализ производится на основе корреляционной матрицы, выводимые результаты можно интерпретировать как
корреляции соответствующих переменных с каждой ГК (с каждым фактором).
В данном случае, первая ГК (фактор 1) наиболее сильно коррелирует с
переменными Humus, iL, Glina, V; а вторая - с pH.
Нажмите клавишу Собственные значения (Eigenvalues), чтобы построить таблицу собственных значений (собственных чисел). Собственные
значения – это доля от общей дисперсии, соответствующая каждой из компонент. В этой таблице для каждого собственного значения также представлен
процент объясненной дисперсии, кумулятивное собственное значение и кумулятивный процент объясненной дисперсии. Собственные значения представлены в порядке убывания, отражая тем самым степень важности соответствующих выделенных факторов для объяснения вариации исходных данных.
Когда анализируются корреляционные матрицы, сумма собственных
значений равна числу переменных, для которых рассчитаны ГК (факторы),
при этом "среднее ожидаемое" собственное значение равно 1. На практике
применяется много критериев для правильного выбора количества ГК. Наиболее простой из них - оставить только те факторы, собственные значения которых больше или близки к 1. В данном примере, только первые два собственных значения близки 1 и они объясняют почти 75% общей дисперсии.
57
Нажмите кнопку График каменистой осыпи (Screeplot). Построенный
график скопируйте в отчет.
Название графика произошло от геологического термина «осыпь», означающего каменные осколки (лом), лежащие у подножия скал. Этот график
служит для определения числа ГК. На нем отображена последовательность
собственных значений. Нужно определить на этом графике собственное значение, начиная с которого "горка" теряет свою кривизну и выходит на примерно постоянный уровень. Такое значение и будет искомым числом ГК.
Нажмите кнопку 2М график факторов перем. (Plot var. Factor coordinates, 2D), чтобы построить проекцию переменных на плоскость 2 выбранных
ГК. Скопируйте график в отчет. Так как текущий анализ основан на корреляциях, максимальное значение координаты исходной переменной в пространстве главных компонент (факторной координаты) не может превысить 1. Кроме того, квадраты всех факторных координат для всех переменных (т.е., квадраты корреляций между переменной и всеми факторами) не могут превысить
значения 1. Таким образом, все факторные координаты должны попасть в
единичный круг, выведенный на график. Этот круг является визуальным индикатором того, насколько хорошо каждая переменная воспроизводится текущим набором выбранных ГК (чем ближе переменная к единичной окружности, тем лучше она воспроизведена в найденной системе координат).
58
Перейдите на вкладку Наблюдения (Cases). Нажмите кнопку Факторные координаты наблюдений (Factor coordinates of cases).
Появится таблица, где указаны координаты наблюдений на ГК. Интерпретация факторных координат наблюдений делается с помощью их вкладов в
дисперсию. Первым шагом выделяют наблюдения, которые имеют наибольшие значения вкладов для каждого выбранного фактора. Затем можно вы59
брать подмножество таких наблюдений, чей вклад больше среднего вклада и
т.п. Скопируйте полученную таблицу в отчет.
В этой же вкладке выберите Метки групп (Grouping labels) в группе
опций Опции графиков (Optio ns for plot of factor coord.). Затем нажмите
кнопку 2М графики факторные наблюдения (Plot case factor coordinates,
2D) . Выберите 1-ую и 2-ю ГК. Нажмите ОК.
60
Появится график, на котором показаны все наблюдения (в данном случае горизонты) в пространстве первых двух ГК. При интерпретации результатов рассматриваются подмножества точек с отрицательными координатами и
с положительными координатами по каждой из осей. Такое разбиение показывает различия, которые существуют между наблюдениями, следовательно,
раскрывает скрытую структуру данных в наблюдениях. В данном случае видно, что первая ГК разделяет верхние и нижние горизонты.
С помощью вкладки Описательные (Descriptive) можно оценить основные параметры распределения для наблюдений, построить корреляционную и ковариационную матрицы и обратные к ним, различные графики для
основных и вспомогательных переменных.
61
ДИСКРИМИНАНТНЫЙ АНАЛИЗ. Щелкнув на кнопке Анализ (Statistics) откройте меню и выберите раздел Многомерный разведочный анализ
(Multivariate Exploratory Technique), затем перейдите в раздел Дискриминантный анализ (Discriminant Analysis).
Целью анализа в данном примере является изучение дискриминации
(различий) между основными горизонтами дерново-подзолистых почв, основываясь на имеющихся физико-химических свойств. На стандартной панели
нажмите кнопку Переменные (Variables).
Отобразится стандартное диалоговое окно Выбрать группирующую и
независимые переменные (Select one grouping var. and independent variable
62
list). В этом окне укажите группирующую переменную (переменная Horizon)
и независимые переменные (гумус, рН, содержание ила и глины).
Для идентификации того, к какой совокупности принадлежит каждый
образец, необходимо указать коды, которые были использованы при группировке переменных. Нажмите на кнопку Коды для группирующей переменной (Codes for grouping variable), или нажмите на кнопку Все (All), или используйте звездочку (*), соответствующую отбору всех кодов.
Альтернативным образом, вы можете нажать кнопку OK на стартовой
панели, и система STATISTICA автоматически просмотрит группирующую
переменную(ые), и определит все коды для этих переменных.
Нажмите ОК. Появится панель, в верхней части которого отражены
общие результаты дискриминантного анализа: Число переменных в модели и
63
статистика лямбда Уилкса (Wilk’s Lambda). Статистика Уилкса лямбда является статистикой, используемой для оценки мощности дискриминации в текущей модели. Ее значение меняется от 1,0 (нет никакой дискриминации) до
0,0 (полная дискриминация).
Статистика Уилкса лямбда может быть преобразована к стандартному F
значению, для которого можно вычислить соответствующее p-значение.
Нажмите на кнопку Переменные в модели (Summary: Variables in the
model). Появится таблица результатов для текущих переменных в модели. В
шапке таблицы повторены характеристики для модели в целом.
Каждое значение в первой колонке таблицы является значением статистики Уилкса лямбда для каждой переменной в модели. Чем меньше ее значении, тем сильнее вклад данной переменной в дискриминацию. Частная лямбда
Уилкса - это статистика для одиночного вклада соответствующей переменной
в дискриминацию между совокупностями за вычетом влияния других переменных. Это значение можно рассматривать как аналог частного коэффициента корреляции, отличие только в том, что лямбда с величиной 0,0 обозначает
полную дискриминацию (т. е. соответствует коэффициенту корреляции, равному 1,0). Чем меньше ее значение в этом столбце, тем больше одиночный
64
вклад соответствующей переменной в дискриминацию. Видно, что «главными
переменными» являются гумус и степень ненасыщенности.
Значение толерантности определяется как 1 минус R-квадрат для соответствующей переменной со всеми другими переменными в модели. Оно дает
представление об избыточности данной переменной. Если бы в модель входила каждая переменная по отдельности, то значение ее равнялось бы 1,0.
Одна из целей анализа дискриминантной функции - дать исследователю
возможность провести классификацию объектов. Посмотрим, насколько хорошо построенные дискриминирующие функции классифицируют горизонты.
Для этого перейдите на вкладку Классификация (Classification).
Нажмите клавишу Функции классификации (Classification functions).
Появится следующая таблица.
65
Функции классификации вычисляются для каждой совокупности и могут непосредственно применяться для классификации объектов. Наблюдение
(горизонт в данном случае) будет попадать в ту совокупность, для которой
вычислен наибольший классификационный вес. Скопируйте таблицу в отчет.
Нажмите теперь на кнопку Матрица классификации (Classification
Matrix). В таблице показан процент правильной классификации и дана расшифровка, к каким классам (горизонтам) были отнесены при классификации
наблюдения. Вторая линия в заголовке каждой колонки приводит априорные
вероятности классификации.
Можно вычислить вероятность того, что наблюдение принадлежит определенной совокупности (классу). Поскольку эта вероятность вычисляется по
результатам классификации, она называется апостериорной вероятностью
(т.е. вероятностью, полученной после проведенной обработки). Нажмите на
кнопку Апостериорные вероятности (Posterior probabilities).
66
В таблице приведены вероятности отнесения каждого объекта к одной
из групп. Строки, отмеченные звездочкой (*), указывают на неправильно
классифицированные образцы.
Скопируйте полученные таблицы в отчет. Оформите отчет в соответствии с образцом (см. стр. 79-81).
Вопросы к занятию 6
1. Что такое собственные числа?
2. Какую долю общей дисперсии учитывает каждая компонента по отдельности? Какую долю общей дисперсии суммарно учитывают 1-ая и
2-ая компоненты? Какую долю – суммарно 1-ая, 2-ая и 3-я компоненты?
3. Какие признаки вносят наибольший вклад в каждую из компонент?
4. Зачем были построены проекции переменных на 1-ую и 2-ую ГК?
5. Что такое график «каменной осыпи»?
6. Какая информация может быть получена при проектировании объектов
на 1-ую компоненту и на 2-ую компоненту?
7. Какие два объекта находятся на максимальном расстоянии при проекции объектов на 1-ую компоненту?
8. Каковы итоги анализа дискриминантных функций?
9. Что такое классифицирующая функция?
10. Выпишите классифицирующие функции для принятия решения об отнесении объекта к каждому из классов?
11. Укажите, в скольких случаях происходит ошибочная классификация?
Какие объекты правильно, а какие неправильно классифицируются?
12. Выпишите объекты, которые классифицируются правильно с вероятностью более 95%, с вероятностью более 70%, с вероятностью менее 70%?
67
Пример оформления отчета
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ им.
М.В.ЛОМОНОСОВА
ФАКУЛЬТЕТ ПОЧВОВЕДЕНИЯ
КАФЕДРА ГЕОГРАФИИ ПОЧВ
ОТЧЕТ ПО ПРАКТИЧЕСКИМ ЗАНЯТИЯМ
ПО КУРСУ «МАТЕМАТИЧЕСКАЯ СТАТИСТИКА»
Работа выполнена студентом 4 курса
Ивановым Иваном Ивановичем
Допускаю к сдаче зачета:
Преподаватель.
Дата:
Москва 2008
68
Подпись.
69
7,41
3,30
6,72
3,32
6,52
12,83
4,98
6,78
5,18
12,60
12,07
10,49
12,35
7,62
10,10
7,53
10,44
15,90
15,54
8,13
4,64
8,25
16,55
9,03
6,34
7,93
12,03
11,93
5,72
7,47
среднее
8,99
8,79
8,83
12,42
11,57
5,55
4,95
3,17
7,83
25,01
19,08
6,04
5,45
9,00
10,22
7,70
4,65
1,89
14,89
10,18
14,83
4,27
10,22
6,63
10,74
10,61
7,36
9,87
5,04
4,22
4,94
6,64
участок участок
1
2
Занятие 1-2
Р2О5, мг/100 г
NPK60
1
2
196
171
185
183
226
204
188
196
193,6
Регрессионный анализ (занятие 4)
Урожайность ячменя
pH
K2O,
hum,% P2O5,
NO3, урожай
мг/100г мг/100г
ц/га
мг/100г
3,97
18,89
7,14
12,75
8,36
20,64
4,09
13,61
6,61
13,34
8,98
18,19
4,26
17,61
6,31
8,09
9,08
18,91
4,26
15,17
6,98
12,00
8,91
19,12
3,95
10,51
6,67
12,17
9,55
16,48
3,65
20,85
7,27
14,73
9,16
21,99
3,85
14,50
7,17
10,76
9,13
17,85
3,87
17,01
7,07
9,94
7,76
18,68
3,87
15,15
6,62
12,25
8,65
18,34
4,22
17,54
6,93
10,44
8,65
19,58
4,16
15,18
7,66
13,54
8,74
19,61
4,14
17,09
7,18
13,13
9,58
20,27
4,20
13,90
7,51
12,26
8,57
18,50
4,05
17,34
7,45
10,79
8,79
19,64
4,15
14,84
6,64
12,00
8,47
18,90
4,00
12,48
6,63
17,78
8,70
19,20
3,92
16,04
7,35
10,48
8,02
18,78
3,86
17,75
7,06
10,74
8,81
19,46
3,81
14,24
7,35
11,77
9,00
17,88
4,29
9,61
6,62
13,35
8,31
16,57
среднее
4,03
15,47
7,01
12,12
8,76
18,93
NPK30
1
2
162
190
192
161
173
191
177
154
175,0
Данные в
заданиях 5-6
представляют
собой
результаты
исследований на
дерновоподзолистых
почвах
Московской
области.
Данные в
заданиях1-4
представляют
собой
результаты
исследований на
серых лесных
почвах
NPK90
1
2
197
185
225
211
261
257
234
236
225,8
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
1
1
1
1
1
2
2
2
2
2
3
3
3
3
3
4
4
4
4
4
5
5
5
5
5
6
6
6
6
6
A1
A2
A2B
B
C
A1
A2
A2B
B
C
A1
A2
A2B
B
C
A1
A2
A2B
B
C
A1
A2
A2B
B
C
A1
A2
A2B
B
C
№
Гори№
объек- разреза зонт
та
Урожайность кукурузы, ц/га
Гербицид
г/га
Контроль
1
2
0
136
185
10
135
141
20
132
109
30
134
113
среднее
135,6
4,0
1,5
0,3
0,6
0,1
3,4
0,7
0,8
0,3
0,2
1,9
0,9
0,4
0,4
0,3
5,0
0,5
0,4
0,3
0,4
5,9
2,4
0,2
0,1
0,1
9,5
1,5
0,6
0,1
0,1
4,0
4,1
4,5
4,0
4,2
4,0
4,2
4,7
4,1
4,1
3,5
4,4
4,4
4,7
3,8
3,8
4,2
4,1
4,0
5,6
3,9
3,9
3,8
4,8
4,8
4,0
4,1
3,5
3,1
4,5
9
14
23
39
36
11
7
17
14
28
10
12
9
25
38
19
8
16
36
30
12
10
26
31
31
26
8
34
38
33
35
27
56
45
70
36
28
44
43
72
30
27
30
46
59
40
33
41
57
58
36
36
45
54
63
34
27
42
56
57
21
33
8
7
0
68
46
31
21
6
29
42
10
6
4
45
46
26
21
13
56
62
29
12
0
15
53
39
23
5
Гумус, рН соле- Содерж Содер. Степень
%
ненавой
ание
физ.
ила
глины сыщ., %
Кластерный, дискриминантный анализы, МГК (занятия 5-6)
Подпись преподавателя
Дисперсионный анализ (занятие 3)
Практические занятия по курсу "Математическая статистика"
Номер
19
Кафедра
Студент
Отчет 1. Описательная статистика. Гистограммы.
Студент Неизвестный Н.Н. Кафедра географии почв.
Вариант 120.
Подпись преподавателя:
Дата проверки:
Таблица 1. Статистические характеристики для распределения гумуса на
водоразделе (H1) и в нижней части склона (H2)
Гистограмма Н1
H is togram: H 1
K-S d=,08650, p> .20; Lilliefors p> .20
Ex
ted N ormal
H pec
is togram:
H1
16
K-S d=,08650, p> .20; Lilliefors p> .20
Ex pec ted N ormal
14 16
12
14
10 12
8
6
4
10
8
6
2
4
0
3,5
2
4,0
4,5
5,0
5,5
6,0
6,5
X <= C ategory Boundary
0
3,5
4,0
4,5
5,0
5,5
Гистограмма Н2
6,0
6,5
H isXtogram:
H 2 Boundary
<= C ategory
K-S d=,15579, p> .20; Lilliefors p<,10
Ex pec ted N ormal
9
His togram: H 2
K-S d=,15579, p> .20; Lilliefors p<,10
Ex pec ted N ormal
8
7 9
6 8
5 7
4 6
3 5
2
4
No. of obs .
30
3,99
3,93
4,05
3,99
3,71
4,21
3,86
4,15
0,02
0,16
0,03
-0,07
0,43
-1,38
0,83
No. of obs .
Valid N
Mean
Confid. -95.000%
Confid. +95.000%
Median
Minimum
Maximum
Lower
Quartile
Upper
Quartile
Variance
Std.Dev.
Standard Error
Skewness
Std.Err. Skewness
Kurtosis
Std.Err. Kurtosis
H2
No. of obs .
No. of obs .
Объем выборки
Среднее
Доверительный
интервал для среднего
Медиана
Минимум
Максимум
Нижн. квартиль
Верхний квартиль
Дисперисия
Стандартное отклонение
Ошибка среднего
Асимметрия
Ошибка асимметрии
Эксцесс
Ошибка эксцесса
H1
30
5,10
4,93
5,26
5,06
4,09
6,05
4,78
5,34
0,19
0,44
0,08
0,06
0,43
0,27
0,83
1
0
3
2
3,6
3,7
3,8
3,9
4,0
4,1
4,2
4,3
X <= C ategory Boundary
1
0
3,6
Нормальные вероятностные графики
2,5
2,0
2,0
1,5
1,5
1,0
1,0
0,5
0,5
0,0
- 0,5
- 0,5
- 1,0
- 1,0
Exp ecte d No rma l Val ue
Exp ecte d No rmal Valu e
0,0
- 1,5
- 2,0
3,7
3,8
3 ,9
3,8
3,9
4,0
4,1
4,2
4,3
5, 6
5,8
6,0
X <= C ategory Boundary
N orma l P-P lot: H1
N orma l P- Plot: H2
2,5
- 2,5
3, 6
3,7
4 ,0
4, 1
4,2
4,3
Valu e
- 1,5
- 2,0
- 2,5
4,0
4,2
4,4
4 ,6
4,8
5,0
5,2
V alue
5 ,4
переменная H2
переменная H1
Диаграммы размаха (коробочки с усиками)
Box & W hiske r Plo t
Bo x & W his ker P lot
6,2
6,2
6,0
6,0
5,8
5,8
5,6
5,6
5,4
5,4
5,2
5,2
5,0
5,0
4,8
4,8
4,6
4,6
4,4
4,4
4,2
4,2
4,0
4,0
3,8
3,6
3,4
H1
H2
Me an
±S D
±1 ,96* SD
3,8
3,6
точка- среднее, коробочка- ст. откл
усики- 95% инт. для случ. вел.
H1
H2
Media n
25%- 75%
Min-Max
точка - медиана, коробочка - квартили
усики - минимум и максимум
70
6 ,2
Отчет 2. Проверка гипотез о типе распределения и о равенстве средних
Студент Неизвестный Н.Н. Кафедра географии.
Вариант 100.
Дата проверки:
Подпись преподавателя:
Проверка гипотез о типе распределения
1. Ho: переменная Н1 подчиняется нормальному распределению
Variable: Pole1, Distribution: Normal (Example_for_book.sta) Chi-Square = 0,56717, df = 3, p = 0,90391
Переменная Pole1 ; распределение: Нормальное
Критерий хи-квадрат : 0,57, число ст.св. = 3, p = 0,90
Верхняя
граница
классов
%
эмпир. накопл.эмп.
частота
част.
Observed Cumulative
<= 4,23333
4,66667
5,10000
5,53333
5,96667
< Infinity
(Бескон.)
накопл.%
Percent
ожид.
частота
ожид.
накоп.
част.
Cumul. % Expected Cumulative
%
накопл. % разность
(ожидэмп)
Percent
Cumul. % ObservedExpected
2,5
0,3
16,4
-0,2
50,2
0,8
83,9
-0,1
97,6
-1,1
1
4
11
10
3
1
5
16
26
29
3,3
13,3
36,7
33,3
10,0
3,3
16,7
53,3
86,7
96,7
0,7
4,2
10,2
10,1
4,1
0,7
4,9
15,1
25,2
29,3
2,5
13,9
33,8
33,7
13,7
1
30
3,3
100,0
0,7
30,0
2,4
100,0
0,3
p =0,90 > 0,05 => принимается Ho
Вывод: распределение перем. Pole1 можно аппроксимировать нормальным распределением
Участок 1
2. Проверка на нормальность
Участок 2
Variable: H2, Distribution: Normal
Chi-Square test = 5,47515, df = 1 (adjusted) , p = 0,01929
9
8
8
7
7
6
6
No. of observations
No. of observations
Variable: H1, Distribution: Normal
Chi-Square test = 0,48530, df = 1 (adjusted) , p = 0,48603
9
5
4
5
4
3
3
2
2
1
1
0
0
3,90
4,16
4,42
4,68
4,94
5,20
5,46
5,72
5,98
6,24
3,6562
6,50
3,7375
3,8187
3,9000
3,9812
4,0625
4,1437
4,2250
4,3062
Category (upper limits)
Category (upper limits)
p =0,48 > 0,05 => принимается Ho
p =0,01< 0,05 => Ho отвергается
3. Проверка на логнормальность
Variable: H2, Distribution: Log-normal
Chi-Square test = 5,44993, df = 1 (adjusted) , p = 0,01957
Variable: H1, Distribution: Log-normal
Chi-Square test = 0,23387, df = 1 (adjusted) , p = 0,62867
10
9
9
8
8
7
No. of observations
No. of observations
7
6
5
4
6
5
4
3
3
2
2
1
1
0
0
3,7813
4,1250
4,4688
4,8125
5,1563
5,5000
5,8438
6,1875
3,6562
6,5313
p =0,63 > 0,05 => принимается Ho
3,7375
3,8187
3,9000
3,9812
4,0625
4,1437
Category (upper limits)
Category (upper limits)
p =0,02< 0,05 => Ho отвергается
71
4,2250
4,3062
Отчет 2. (продолжение) Проверка гипотез о типе распределения и о равенстве средних
Студент Неизвестный Н.Н. Кафедра географии.
Вариант 100.
Дата проверки:
Подпись преподавателя:
Участок 1
Участок 2
4. Проверка на возможность аппроксимации равномерным распределением
Va riable: H1, Distribution: Rectangu lar
Chi- Squar e test = 10,15408, df = 1 ( adjus ted) , p = 0,00 144
Var iable: H2, Distr ibution: Rectangular
Chi- Square test = 1,12596, df = 1 (adjusted) , p = 0,28864
9
10
8
9
8
7
7
6
6
5
5
4
4
No. of observations
N o. of obs erv ations
3
2
1
3
2
1
0
3, 90
4,1 6
4,42
4,68
4,94
5 ,20
5, 46
5,72
5,98
6,24
0
6,50
3,8125
3,8750
3,9375
Catego ry ( up per limits)
4,0000
4,0625
4,1250
4,1875
4,2500
4,3125
Category ( upper limits)
p =0,00 < 0,05 => Ho отвергается
p =0,28 > 0,05 => принимается Ho
5. Проверка на возможность аппроксимации гамма распределением
Var iab le: H1 , Distribution: Gamma
Chi- Squar e test = 0,34286, d f = 1 (adjust ed) , p = 0,558 18
Variable: H2, Distribution: Gamma
Chi- Square test = 1,51017, df = 1 ( adjusted) , p = 0,21911
9
8
8
7
7
6
6
5
5
4
4
3
No. of observations
N o. of obs erv ations
3
2
2
1
1
0
0
3, 90
4,1 6
4,42
4,68
4,94
5 ,20
5, 46
5,72
5,98
6,24
6,50
3,80
3,85
3,90
3,95
p =0,56 > 0,05 => принимается Ho
Сравнение средних
Переменные
H1 vs. H2
Сред- Среднее
нее Н1
Н2
Mean
5,10
Mean
3,99
4,00
4,05
Valid N
30
Std.Dev.
0,44
4,15
4,20
4,25
4,30
p =0,22 > 0,05 => принимается Ho
Ho: генеральное среднее для Н1 = генер-му среднему для Н2
t-значение
число
ст. св.
ур. значимости
t-value
13,01
df
58,00
p
0,00
t separ.
df
p
13,01
36,11
0,00
если дисперсии однородны
если дисперсии неоднородны
p =0,00 < 0,05 => Ho отвергается
Среднее Н1 не равно Среднему Н2
Проверка дисперсий на однородность Но: дисперсии однородны
Объем
Объем Ст. откл. Ст. откл. F- отно- ур. знавыборки выборк
Н1
Н2
шение чимоН1
и Н2
сти
Valid N
30
4,10
Category ( upper limits)
Catego ry ( up per limits)
Std.Dev.
0,16
p =0,00 < 0,05 => Ho отвергается =>
F-ratio
8,03
p
0,00
дисперсии неоднородны
72
Отчет 3. Дисперсионный анализ
Студент Неизвестный Н.Н. Кафедра географии.
Вариант 100.
Подпись преподавателя:
Дата проверки:
Результаты дисперсионного анализа
Нулевая гипотеза: Средние по градациям фактора равны
Составля Сумма
Число ст. Средний
Уровень
ющие
квадратов свободы квадрат F-критерий значимости
SS
Degr. of
MS
F
p
freedom
Фактор 1 Herbicids
4246
3
1415
3,146
0,064199
33039
3
11013
24,475
Фактор 2 Fertilizer
0,000003
Взаимо- Herbicids*F
4186
9
465
1,034
0,455866
действие ertilizer
Случ.
Error
7200
16
450
составл.
Выводы: На урожай влияет доза удобрения
Доза
гербицида
Herb icids ; Unw eight ed Me ans
Cu rrent effec t: F(3, 16)= 3,145 5, p= ,0542 0
Effec tive h ypoth esis decom pos ition
Ve rtical bars deno te 0,9 5 co nfiden ce in terva ls
2 40
Herbicids
2 30
2 10
2 00
Но:
Н1:
Но:
Ошибка 95% Доверительный
интервал для
среднего
среднего
Maize yeilds Maize yeilds Maize yeilds Maize yeilds
0
10
20
30
2 20
Средний
урожай
кукурузы
Принимается:
181,5
186,8
211,9
190,6
7,5
7,5
7,5
7,5
165,6
170,9
196,0
174,7
197,4
202,7
227,8
206,5
1 90
Ma ize ye ilds
1 80
1 70
1 60
1 50
0
10
20
30
H erbic ids
Доза
удобрения
Fertil izer; U nwe ighted Mea ns
Cur rent e ffect : F(3, 16)=2 4,475 , p=, 00000
E ffect ive hypothe sis d ecom posi tion
Ve rtical bars denot e 0,9 5 con fiden ce in terval s
28 0
Fertilizer
26 0
22 0
20 0
Ошибка 95% Доверительный
среднего
интервал для
среднего
Maize yeilds Maize yeilds Maize yeilds Maize yeilds
0
1
2
3
24 0
Средний
урожай
кукурузы
147,7
182,6
204,6
235,9
7,5
7,5
7,5
7,5
131,8
166,7
188,7
220,0
163,6
198,5
220,5
251,8
18 0
Maiz e ye ilds
16 0
14 0
12 0
10 0
0
1
2
3
Fert ilizer
Сравнение средних по градациям Herbicids
Но: среднее по градации 0 и среднее по градации
фактора гербицид 10 - равны
LSD test -НЗР
Herbicids
{1}
{2}
{3}
{4}
отличаются средние 1 и 3,
1
0
0,628631 0,011394 0,404136 Выводы:
2
10
0,628631
2 и 3, 3 и 4
0,031016 0,720759
0,062661
3
20
0,011394 0,031016
4
30
0,404136 0,720759 0,062661
Newman-Keuls test -Критерий Ньюмена-Койлса
Herbicids
1
2
3
4
0
10
20
30
{1}
{2}
{3}
0,628774 0,050390
0,628774
0,075298
0,050390 0,075298
0,674219 0,720889 0,062788
{4}
0,674219
0,720889
0,062788
73
Выводы:
отличаются средние 1 и 3,
3и4
Отчет 3 (продолжение). Дисперсионный анализ
Студент Неизвестный Н.Н. Кафедра географии.
Вариант 100.
Подпись преподавателя:
Дата проверки:
Но: среднее по градации 0 и среднее по градации
Сравнение средних по градациям Fertilizer
LSD test -НЗР
фактора удобрение 1 равны
{1}
{2}
{3}
{4}
0
1
2
3
147,7
182,6
204,6
235,9
1
0
отличаются средние 1 и 2,
0,004592 0,000063 0,000000 Выводы:
2
1
0,004592
0,054756 0,000126
1 и 3, 1 и 4, 2 и 4, 3 и 4
0,009488
3
2
0,000063 0,054756
4
3
0,000000 0,000126 0,009488
Newman-Keuls test -Критерий Ньюмена-Койлса
Fertilizer
{1}
{2}
{3}
0
1
2
147,7
182,6
204,6
1
0
0,004733 0,000319
2
1
0,004733
0,054889
3
2
0,000319 0,054889
4
3
0,000186 0,000484 0,009645
{4}
3
235,9
0,000186
0,000484
0,009645
Выводы:
отличаются средние 1 и 2,
1 и 3, 1 и 4, 2 и 4, 3 и 4
Изменение средних значений по взаимодействию градаций факторов
Her bicids *Fer tilizer ; LS Means
Current effect: F( 9, 16)=1,0337, p=,45587
Eff ectiv e hypothes is decomposition
V ertical bars denote 0,95 confidence intervals
320
300
280
260
240
220
200
180
Maize yeilds
160
140
120
100
80
0
10
20
30
Her bicids
Fertiliz er
0
Fertiliz er
1
Fertiliz er
2
Fertiliz er
3
Условия применимости дисперсионного анализа:
Проверка однородности дисперсий
Но: дисперсии однородны по градациям фактора …
Харлета Кохрена Бартлетт Число ст. Уровень
а
свободы значимости
Hartley
Cochran Bartlett
df
Effect: "Herbicids" - фактор гербициды
Maize yeilds 2,849967 0,387237 3,045968
Effect: "Fertilizer" - фактор удобрение
Maize yeilds 2,502890 0,380452 1,862968
Effect: "Herbicids"*"Fertilizer" - взаимодействие
Maize yeilds 43261,21 0,428664 23,54733
p
3
0,384592 Но:
3
0,601329 Но:
15
0,073190 Но:
74
Отчет 4. Регрессионный анализ
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Дата проверки:
Подпись преподавателя:
Результаты дисперсионного анализа. Регрессия как фактор.
Источник варьироСумма
числ.ст. средний
F-критерий уровень
Но: предсказание Y по регресвания
значим.
квадр.
свободы. квадрат
сионной модели не лучше
Sums of
df
Mean
F
p-level
Squares
Squares
предсказания Y по его среднему
145,76
0,000
42,541
5
8,50816
Регрессия Regress.
Residual
0,817
14
0,05837
Остатки
Total
43,358
Сумма
Вывод: Но - отвергается, модель можно считать адекватной и использовать для предсказания Y
Результаты расчета регрессии для переменной : Yield (Example_for_n4)
R= ,99468326 RІ(коэф. детерминации)= ,98939479 скорректированный RІ= ,98740631
F(3,16)=497,56 p<,00000 Стандартная ошибка: 0,18699
стандартизир. перем. обычные перем.
коэфф.
станд.ош. коэфф.
станд.ош.
Intercpt Св.член
Humus
P2O5
pH
K2O
NO3
Humus
P2O5
pH
K2O
NO3
Yield
BETA
BETA
t-крит.
уровень
B
коэфф-тов В t(16)
4,298
1,676
2,564
0,122
0,0399
0,906
0,297
3,048
1,140
0,0437
0,517
0,020
26,099
-0,020
0,0396 -0,077
0,155
-0,493
0,580
0,0445
0,308
0,024
13,055
-0,001
0,0395 -0,002
0,139
-0,016
Yield= 4,29+0,91 * Humus + 0,52 * P2O5 + 0,31*K2O
Коэффициенты корреляции между переменными
Humus P2O5
pH
K2O
NO3
1,00
-0,08
0,31
0,06
0,23
-0,08
-0,16
0,11
1,00
-0,50
1,00
0,31
-0,16
0,21
0,01
0,06
0,21
0,17
-0,50
1,00
1,00
0,23
0,11
0,01
0,17
0,06
-0,04
0,02
0,25
0,84
значим.
0,022
0,009
0,000
0,629
0,000
0,987
Но:
bo=0
b1=0
b2=0
b3=0
b4=0
b5=0
Ho
Ho
Ho
Ho
Ho
Ho
Yield
0,06
0,84
-0,04
0,02
0,25
1,00
Correlations (data_zan_4_a.sta 6v*20c)
Hu m u s
P 2O5
K2 O
Yield
75
-> H1
-> H1
-> H1
-> H1
Отчет 4 (продолжение). Регрессионный анализ
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Дата проверки:
Гистограмма для остатков
Подпись преподавателя:
Остатки на нормальном вероятностном графике
Distr ibu tion of Raw r esiduals
Ex pecte d Nor ma l
Nor mal Pr obability Plot of Re siduals
2,0
7
1,5
6
1,0
5
0,5
4
0,0
Expe cted Normal Valu e
No of obs
- 0,5
3
2
1
0
-0 ,4
- 0,3
-0 ,2
- 0,1
0,0
0, 1
0,2
0 ,3
- 1,0
- 1,5
- 2,0
- 0,3
- 0,2
- 0,1
0,0
0,1
0, 2
0,3
0,4
Re siduals
0,4
График зависимости наблюдаемых значений урожая
(ось y) от предсказанных значений (ось x)
График зависимости остатков (ось у) от предсказанных
значений (ось x)
Pr edic ted v s. O bser ve d V alue s
Pr edic ted vs. Residual Sc or es
Depend ent var iab le: Y ield
Depen dent var iab le: Yield
19
0,4
18
0,3
17
0,2
16
0,1
15
R esidu als
O bserved Valu es
14
13
0,0
- 0,1
- 0,2
12
- 0,3
11
11
12
13
14
15
16
17
18
11
19
12
13
14
15
Pred icted V alues
95 % conf idenc e
Pr ed icte d V alue s
Результаты пошаговой регрессии с включением (Forward)
БЕТА
Св.член
P2O5
K2O
Humus
P2O5
K2O
Humus
1,141
0,577
0,116
Стд.Ош.
БЕТА
B
Стд.Ош. B
t(17)
p-уров.
3,937
1,153
3,413
0,004
0,000
0,040
0,517
0,018
28,550
0,040
0,306
0,021
14,459
0,000
0,004
0,035
0,863
0,259
3,332
Yield= 3,94 + 0,52 * P2O5 + 0,31* K2O + 0,86 * Humus
Шаг +в /- Множест.
ис
R
1
0,8450
2
0,9836
3
0,9904
Итоги по шагам
R-квадр.
Множест.
измен.
R-квадр.
0,7140
0,7140
0,9675
0,2536
0,9808
0,0133
Fвкл/искл
44,9294
132,7081
11,0999
76
p-уров.
0,0000
0,0000
0,0042
Перем.
включ.
1
2
3
16
17
18
95% c onf idence
19
Дата проверки:
Подпись преподавателя:
Отчет 5. Кластерный анализ
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
1. Иерархическая классификация
Tree Diagram for 30 Cas es
Single Link age
Euclidean dist ances
10
8
6
4
L in k a g e D is ta n c e
2
0
C
C
B
C
C
C
B
C
B
C
A2B
B
B
A2B
A1
A2
A2
A2
A1
A1
A2B A2B A2B
A1
A1
A2
A2
A2B
A2
A1
Tree Diagram for 30 Cases
Ward`s method
Euclidean distances
250
200
150
100
Lin ka ge D is tan ce
50
0
C
C
C
C
B
C
B
B
C
A2B
B
A2B
B
A2B A2
A2 A2B A2
A1
A1
B A2B A2B A2
A2
A2
A1
A1
A1
A1
Tree Diagram for 5 Variables
Single Linkage
Euclidean distances
Tree Diagram for 5 Variables
Ward`s method
Euclidean distances
120
350
100
300
250
80
200
60
150
20
0
G
IL
PHS
V
C
Linkage D ista nce
L in ka ge D ista nce
40
77
100
50
0
G
IL
PHS
V
C
Дата проверки:
Отчет 5 (продолжение). Кластерный анализ
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Метод K-средних
3 кластера
Analysis of Variance (pc_kla.sta)- Дисперсионный анализ
Признаки
Between
Within
SS
df
SS
df
F
Сумма кв. Число ст. Сумма кв. Число ст.
между
свободы между
свободы
классами
классами
C
PHS
IL
G
V
41,253422
0,4869745
2881,6445
2422,0554
0,5615084
2
2
2
2
2
89,541245
1,8676891
291,72192
256,64453
0,5753129
Объекты 1-го кластера
N=8
C_4
B раз.1
C_5
C раз.1
C_19
B раз.4
C_20
C раз.4
C_24
B раз.5
C_25
C раз.5
C_29
B раз.6
C_30
C раз.6
27
27
27
27
27
signif.
p
6,219717
3,519941
133,3537
127,4048
13,17607
70
60
60
50
50
40
40
30
30
20
20
10
IL
G
V
0
-10
Variables
5 кластеров
Analysis of Variance (pc_kla.sta)
Between
SS
df
C
122,03867
PHS
0,5546677
IL
2947,4778
G
2455,95
V
0,5645458
Cluster 1
N=9
A2B раз.1
A2B раз.2
B раз.2
C раз.2
B раз.3
C раз.3
A2B раз.4
A2B раз.5
A2B раз.6
C_3
C_8
C_9
C_10
C_14
C_15
C_18
C_23
C_28
Cluster
No. 1
Cluster
No. 2
Cluster
No. 3
Cluster
No. 4
10
Cluster
No. 1
Cluster
No. 2
Cluster
No. 3
0
PHS
Members of Cluster 3
N=13
A1 раз.1 C_1
A2 раз.1 C_2
A1 раз.2 C_6
A2 раз.2 C_7
A1 раз.3 C_11
A2 раз.3 C_12
A2B раз.3C_13
A1 раз.4 C_16
A2 раз.4 C_17
A1 раз.5 C_21
A2 раз.5 C_22
A1 раз.6 C_26
A2 раз.6 C_27
Plot of Means for Each C lust er
Plot of Means for E ach Cluster
C
Уровень
значимости
0,0060027
0,0438099
1,015E-14
1,774E-14
0,0001016
Members of Cluster 2
N=9
A2B раз.1 C_3
A2B раз.2 C_8
C_9
B раз.2
C_10
C раз.2
C_14
B раз.3
C_15
C раз.3
A2B раз.4 C_18
A2B раз.5 C_23
A2B раз.6 C_28
70
-10
Подпись преподавателя:
C
P HS
IL
G
V
Variables
4
4
4
4
4
Cluster 2
N=8
B раз.1
C раз.1
B раз.4
C раз.4
B раз.5
C раз.5
B раз.6
C раз.6
Within
SS
df
8,7559967
1,7999959
225,88867
222,75
0,5722755
C_4
C_5
C_19
C_20
C_24
C_25
C_29
C_30
25
25
25
25
25
Cluster 3
N=3
A1 раз.1
A1 раз.2
A1 раз.4
signif.
F
p
87,11078 2,655E-14
1,925934 0,1373336
81,55228 5,694E-14
68,90993 3,928E-13
6,165581 0,0013542
C_1
C_6
C_16
78
Cluster 4
N=2
A1 раз.5
A1 раз.6
C_21
C_26
Cluster 5
N=8
A2 раз.1 C_2
A2 раз.2 C_7
A1 раз.3 C_11
A2 раз.3 C_12
A2B раз.3C_13
A2 раз.4 C_17
A2 раз.5 C_22
A2 раз.6 C_27
Cluster
No. 5
Отчет 6. Метод главных компонент
Дата проверки:
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
1
2
3
4
5
Кумулятивые
Собствен. % общей Собствен. % общей
значения дисперсии значения дисперсии
Eigenvalue % Total
Cumulati- Cumulative
%
ve eigenv.
2,804818 56,09637 2,804818
56,0964
0,930753 18,61505 3,735571
74,7114
0,728369 14,56737 4,463940
89,2788
0,420163
8,40325 4,884102
97,6820
0,115898
2,31795 5,000000
100,0000
Проекция переменных на 1-у и 2-ю ГК
Projection of the variables on the factor-plane ( 1 x
Факторные координаты переменных
на основе корреляций
Factor 1
Factor 2
ГК1
ГК2
Humus 0,621709 -0,144134
pH
-0,377633 0,904197
iL
-0,927706 -0,245346
Glina
-0,870322 -0,162209
V
0,810919 0,076803
1,0
2)
pH
0,5
V
0,0
Humus
Glina
iL
Factor 2 : 18,62%
-0,5
-1,0
-1,0
-0,5
0,0
0,5
1,0
Factor 1 : 56,10%
График каменной осыпи
Eigenvalues of correlation matrix
Active variables only
3,5
3,0
56,10%
2,5
2,0
1,5
Eigenvalue
Координаты наблюдений
при проекции на ГК
ГК1
ГК2
Горизонт
Horizon
Factor 1
Factor 2
1
1,02216
-0,47805
A1
2
0,82514
0,88702
A2
3
-0,22044
-0,46713
A2B
4
-1,29634
-0,85073
B
5
-2,08427
-0,19385
C
6
2,03219
0,30616
A1
7
1,30108
0,14997
A2
8
0,62423
1,76254
A2B
9
-0,19439
-0,81788
B
10
-0,34215
-0,58350
C
11
1,59913
-0,15137
A1
12
1,21859
1,19874
A2
13
-0,17538
1,26837
A2B
14
-2,35219
1,30557
B
15
-2,53471
-0,59746
C
16
1,14668
-0,35424
A1
17
2,36850
-0,40942
A2
18
0,44697
-0,51262
A2B
19
-1,43035
-1,37522
B
20
-1,67325
2,15893
C
21
2,87122
-0,98677
A1
22
1,79848
1,32774
A2
23
-0,66253
-0,32805
A2B
24
-1,40778
-1,28481
B
25
-2,18431
0,17789
C
26
2,22900
-0,41996
A1
27
1,89510
-0,08779
A2
28
-0,29709
0,24098
A2B
29
-1,36040
-1,73988
B
30
-3,16288
0,85479
C
Подпись преподавателя:
18,62%
1,0
14,57%
8,40%
0,5
2,32%
0,0
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
Eigenvalue number
79
4,0
4,5
5,0
5,5
6,0
Отчет 6 (продолжение). МГК и Дискриминантный анализ
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Дата проверки:
Подпись преподавателя:
Проекция наблюдений на ГК1 И ГК2
Projection of the cases on the factor-plane ( 1 x 2)
Cases with sum of cosine square >= 0,00
Labelling variable:Horizon
4
3
C
A2B
2
B
A2B
A2
C
1
C
Factor 2: 18,62%
B
B
B
-1
A1
A2
A1A2
A2BA2B
A1
A2
A1
A1
A2B
C
B
A2B
C
C
0
A2 A2
A1
B
-2
-3
-4
-5
-4
-3
-2
-1
0
1
2
Factor 1: 56,10%
Результаты дискриминантного анализа
Итоги анализа дискриминантной функции
Число переменных в моделе: 5; Группирующая Horizon (5 grps)
Лямбда Уилкса: ,03214 прибл.. F (20,70)=6,4221 p< ,0002
Уилкса
лямбда
Wilks'
Lambda
Humus 0,104428
pH
0,038698
iL
0,043655
Glina
0,040627
V
0,049667
Частная
Уровень Толерантност 1-Толер.
лямбда
F-исключ. значимости
ь
(R-кв.)
Partial
F-remove
p-level
Toler.
1-Toler.
Lambda
-4,21
(R-Sqr.)
0,307773
11,80802
0,000035
0,83096
0,16904
0,830533
1,07124
0,395549
0,925299
0,074701
0,736232
1,88091
0,151337
0,617279
0,382721
0,791097
1,38635
0,272695
0,608977
0,391023
0,647108
2,86302
0,048736
0,837269
0,162731
80
3
4
5
Отчет 6 (продолжение). Дискриминантный анализ
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Дата проверки:
Классификационная функция
Classification Functions; grouping: VAR2 (pc_kla.sta)
B
A1
A2
A2B
p=,20000 p=,20000 p=,20000
p=,20000
C
0,7
4,0
1,9
1,1
PHS
89,8
85,3
87,2
91,4
IL
1,4
-0,6
-1,0
0,4
G
2,1
2,3
2,3
2,1
V
41,7
72,5
76,9
55,7
Consta -265,3
-232,1
-232,1
-254,0
Подпись преподавателя:
C
p=,20000
0,6
95,0
1,8
2,1
35,2
-301,8
Классификационная матрица
Classification Matrix (pc_kla.sta)
Rows: Observed classifications - строки : Наблюдаемая классификация
Columns: Predicted classifications - предсказания
Percent
B
A1
A2
A2B
C
Correct
p=,20000 p=,20000
p=,20000
p=,20000
p=,20000
Процент правильной классификации
B
66,7
4
0
0
1
1
A1
66,7
0
4
2
0
0
A2
100,0
0
0
6
0
0
A2B
100,0
0
0
0
6
0
C
83,3
1
0
0
0
5
Total
83,3
5
4
8
7
6
Апостеририорные вероятности
Posterior Probabilities (data_zan_5_6)
Incorrect classifications are marked with *
Observed
A1
A2
A2B
B
C
1
A1
0,999084
0,000666
0,000247
0,000003
0,000000
2
A2
0,006776
0,930802
0,062290
0,000106
0,000025
3
A2B
0,000001
0,001540
0,583571
0,313252
0,101636
4
B
0,000000
0,000001
0,025817
0,721818
0,252364
5
C
0,000000
0,000000
0,006276
0,335943
0,657782
6
A1
0,646745
0,353186
0,000069
0,000000
0,000000
7
A2
0,000120
0,991941
0,007922
0,000015
0,000001
8
A2B
0,000203
0,381981
0,617606
0,000115
0,000096
* 9
B
0,000002
0,002368
0,484000
0,453401
0,060229
* 10
C
0,000000
0,000240
0,568432
0,335546
0,095782
* 11
A1
0,310134
0,294119
0,395648
0,000095
0,000004
12
A2
0,000487
0,949403
0,050101
0,000007
0,000001
13
A2B
0,000002
0,005073
0,971755
0,007574
0,015596
* 14
B
0,000000
0,000000
0,008140
0,062747
0,929113
15
C
0,000000
0,000000
0,000348
0,402088
0,597565
16
A1
0,774727
0,196370
0,028784
0,000116
0,000003
17
A2
0,000224
0,989558
0,010217
0,000001
0,000000
18
A2B
0,000070
0,004454
0,976331
0,017791
0,001354
19
B
0,000000
0,000001
0,006878
0,887244
0,105877
20
C
0,000000
0,000107
0,097017
0,041255
0,861621
21
A1
0,999998
0,000002
0,000000
0,000000
0,000000
22
A2
0,002868
0,995681
0,001452
0,000000
0,000000
* 23
A2B
0,000005
0,001086
0,438781
0,470973
0,089154
24
B
0,000000
0,000000
0,005690
0,821646
0,172664
25
C
0,000000
0,000000
0,000971
0,216701
0,782328
26
A1
1,000000
0,000000
0,000000
0,000000
0,000000
27
A2
0,063304
0,931947
0,004747
0,000001
0,000000
28
A2B
0,000242
0,019863
0,883921
0,079929
0,016046
29
B
0,000000
0,000000
0,004779
0,924543
0,070678
30
C
0,000000
0,000000
0,000444
0,076238
0,923319
81
Вопросы к теоретическому курсу
1. Понятие об испытании в многомерном статистическом анализе.
2. Многомерные случайные величины. Представление данных в формальном виде.
3. Этапы анализа исследуемой реальной системы.
4. План сбора исходной информации в почвоведении.
5. Первичная обработка данных.
6. Случайный вектор. Понятие ковариации.
7. Классификация типов данных и выбор способа анализа зависимостей.
8. Исследование зависимостей в случае многомерных данных.
9. Обобщение одномерных дисперсионных моделей на многомерный случай.
10. Разложение дисперсий при многомерном дисперсионном анализе.
11. Обобщение одномерных регрессионных моделей на многомерный случай.
12. Пошаговая регрессия
13. Статистическая значимость параметров регрессии и ее оценка.
14. Множественный и частный коэффициент корреляции.
15. Сходство и различие почвенных объектов.
16. Понятие расстояния между объектами. Виды расстояний.
17. Кластерный анализ. Иерархические схемы классификации.
18. Понятие о дискриминантном анализе.
19. Метод главных компонент.
20. Визуализация многомерных наблюдений.
82
ОГЛАВЛЕНИЕ:
Занятие 1. Ввод данных. Описательная статистика (анализ единичной
выборки). Анализ распределений. Гистограммы
3
Вопросы к занятию 1
13
Занятие 2. Проверка гипотез о типе распределения. Сравнение средних
14
Вопросы к занятию 2
20
Занятие 3. Двухфакторный дисперсионный анализ
21
Вопросы к занятию 3
30
Занятие 4. Регрессионный анализ
31
Вопросы к занятию 4
43
Занятие 5. Кластерный анализ
44
Вопросы к занятию 5
53
Занятие 6 . Метод главных компонент и дискриминантный анализ
54
Вопросы к занятию 6
67
Пример оформления отчета
68
Вопросы к теоретическому курсу
82
83
Юлия Львовна Мешалкина, Вера Петровна Самсонова
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
В ПОЧВОВЕДЕНИИ
Практикум
84
Download