МНОГОМЕРНЫЕ МЕТОДЫ АНАЛИЗА ДАННЫХ

advertisement
МНОГОМЕРНЫЕ
МЕТОДЫ
АНАЛИЗА ДАННЫХ
Условия нашей работы:
(где и как можно получить
МАТЕРИАЛЫ К КУРСУ)
• http://www.bio.pu.ru/edu/
• bachelor/courses/
• mathmeth.php
http://www.bio.pu.ru/
•
•
•
•
•
http://www.bio.pu.ru/
-> edu/
-> bachelor/
-> courses/
-> mathmeth.php
Практические занятия
?????
• Начнутся с ноября (компьютерный
класс на Среднем пр.)
• Всего (!) 6 занятий
• На основе пакета STATISTICA for
Windows vers.7
• В отчетах к результатам анализа нужно
будет добавить свои содержательные
комментарии
Материал для практики
(Лучше приготовить свой!!!)
• Признаков: не меньше 6-7
• Групп: не меньше 3-4
• Объем элементарной выборки: не меньше (5)
– 10
• Желательно – реальные данные! Можно – из
публикации или работы «старших коллег»
• Альтернатива: выбрать на сайте (будут
выложены позже)
Методы анализа результатов
научных исследований развиваются
бурными темпами...
Для подготовки студентов на современном
уровне необходимо:
• Понимание «классических методов» проверки
надежности результатов («проверка гипотез» =
статистика)
• Знакомство с возможностями многомерного
анализа и других методов «создания гипотез» ,
ресамплинга...
• Возможность понимать и оценивать
опубликованные работы (в том числе –
зарубежные!)
• Практическая реализация анализа – пакеты
компьютерных программ: STATISTICA for
Windows, SPSS…
• «Теперь не нужно учить – В КОМПЬЮТЕРЕ
ВСЕ ЕСТЬ!!!»
• ОДНАКО
1) Необходимо понимать, ЧТО именно нужно
2) В программах тоже есть ОШИБКИ и
РАЗНЫЕ ВАРИАНТЫ АНАЛИЗА (иногда
приводящие к «СТРАННЫМ»
РЕЗУЛЬТАТАМ)
• Есть еще и ОШИБКИ ВВОДА
ПРИМЕР 1
• Данные по 21 пробе – 210 видов
• Данные ПОДГОТОВЛЕНЫ в виде
компьютерной таблицы
• Однако таблицу сделали в Word’e
• Перенос содержимого такой таблицы в
любую другую программу для анализа
приводит к искажениям или к долгой и
трудоемкой возне
• Программа для работы с таблицами –
Excel ! Именно из нее можно быстро
перейти в самые разные программы (а
также сделать некоторые простые
вычисления, сортировки и пр.)
ПРИМЕР 2
• При разных настройках компьютера могут быть
приняты разные принципы записи числовых
величин. Например, десятичная часть от целой
отделяется точкой (принято в большинстве
стран) или – запятой.
• Если Ваш ввод не совпадает с форматом
настройки и Вы никак не указали тип
вводимых данных – программа может,
например, воспринять числа как текстовые
обозначения (коды) и дать им порядковые
номера (которые и будут участвовать в
анализе).
• У меня был такой случай!
• Возможны разные ошибки...
• Например, вводя данные, полученные из
разных источников, студент не заметил,
что один из признаков записан в них с
разной размерностью. Можно
представить, какие замечательно четкие и
достоверные различия между этими
частями данных получились в
результате!!!
• В другом случае незамеченные
исследователем грубые ошибки в данных,
переданных для анализа, позволили
сделать вывод о резком изменении
структуры корреляций (в вариантах, где
были эти ошибки).
Что есть сейчас
• Среди студенческих работ, поданных на
конкурс Общества
Естествоиспытателей, ~1/3 – с
ошибками в анализе
• На защитах квалификационных работ
для полученных результатов часто не
указывают степень их надежности и не
могут сказать – что именно еще нужно
было бы сделать.
В большинстве случаев позиция студентов –
отражение мнения их научных руководителей
• Ничего измерять и считать не нужно: я и так
все вижу!
(...настоящий исследователь формирует
«образ» в своем сознании...)
•
НО: как передать этот «образ» другим?
ВСЕ ЯСНО: этот – круглый, а тот –
квадратный... И считать здесь НЕЧЕГО!!!
Нарисуем картинку...
• НО: а если есть переходы («СЛАБО
•
ЗАКРУГЛЕННЫЙ»?)
На самом деле «образ»
формируется как комплексная (=
многомерная) характеристика
• Существующие методы многомерного
анализа помогают создать такие
характеристики и сравнивать разные
«образы»,
• а также наглядно и убедительно
показать результаты такого анализа.
Для анализа не обязательно
иметь результаты измерений
или подсчетов
(т.е. количественное =
«интервальное» или «счетное»
выражение признаков)
Очень важный этап работы –
отбор признаков и способ их
«выражения»
Губки сем. Lubomirskiidae;
С.М.Ефремова
• Особенности структуры скелета и
составляющих его спикул
• Разработка системы признаков
• Анализ корреляций между признаками –
их группировка - метод главных
компонент
• Группировка губок (соответствие
предполагаемой)
• Поправки в кодировку признаков
Исходные материалы: фотографии
Губки сем. Lubomirskiidae;
С.М.Ефремова
Признаки (всего 14)
Баллы
Всего
SP1
Форма конца спикул (заостренные - закругленные)
1-4
4
O1
Шипы на основной части спикулы
0-2
3
O2
Шипы на концах спикулы
0-2
3
Ol
Длина шипов
1-3
3
SPl
Длина спикул
измерения
SPw
Ширина спикул
измерения
T1
Упорядоченность главных (вертикальных) тяжей
1-6
6
T2
Расположение спикул в вертик. тяжах
1-3
3
T3
Упорядоченность и толщина поперечных тяжей
1-5
5
BR
Щетки на концах тяжей (есть-нет)
0-1
2
F
Форма губки (корковые - глобулярные)
1-3
3
Con
Консистенция (мягкая - жесткая)
1-4
4
OSC
Форма оскулюма (округл. - радиальн.каналы)
1-3
3
Q
Окраска губки (зеленая - другая)
1-2
2
Организация главных (вертикальных)
тяжей - T1
1 – Тонкие, плохо прослеживаются
2 – Тонкие, упорядоченные
3 – Более толстые, плохо прослеживаются
от основания до поверхности
4 – Средней толщины, регулярные
5 – Широкие, регулярные
6 – Главные пучки преобладают
Расположение спикул в вертикальных
тяжах – Т2
1 – параллельное
2 – спиральное
3 – елочковидное
Организация поперечных тяжей – Т3
1 – тонкие, нерегулярные
2 – более широкие, нерегулярные
3 – «сеточка»
4 – регулярные тонкие перекладины
5 – широкие пучки
BR
0.8
0.6
Osize
O1
0.4
CON
SPend T2
OSC
O2
T1
Factor 2
0.2
Шипы
0.0 на концах и – на
осн.части спикул
F
-0.2
ПРИЗ НА КИ
спикулы и шипы на них
-0.4
тя жи
эк стерье рны е
-0.6
-0.8
0.8
T3 SPw
SPl
0.6
0.4
Выраженность
тяжей
0.2
0.0
-0.2
Factor1
-0.4
-0.6
-0.8
-1.0
2.0
11
111
1
1.5
1.0
0.5
FACTOR2
0.0
1
1
2
2
2
2 2
2 2
22
2 2
2
2
2
10
10
22
-0.5
10
13
55 13
12
1212
12
12
12 12
12
11
11 13
11
11
16
2
4
-1.0
Baikalospongia
bacillifera
-1.5
-2.5
-1.5
4
3
10
10
10 10
10
10
10
10
10
10 10
10 10
10
10
10
7 10
10 15
10
97 7
7 9 7
7 15
7
7
77
7
7
7
8 7
87
8 7
7
6 7
6
8
8
Lubomirskaja
baikalensis
4
3
-2.0
-3.0
-2.0
Baikalospongia
intermedia
10
3 34
33
4 4
4
4
14
14
-1.0
-0.5
0.0
FACTOR1
0.5
1.0
1.5
2.0
Rezinkovia
echinata
Gen.nov.,sp.nov
.
Rezinkovia
arbuscula
Gen.nov.,sp.nov.
Lubomirskia
incrustans
sp.nov.
Lubomirskia
abietina
Baikalospongia
recta
Baikalospongia
martinsoni
sp.nov.
sp.nov.
Морские звезды р. Trophodiscus
А.В. Смирнов (ЗИН)
T. almus Djakonov
T. uber Fisher
• T. uber Форма тела –
звездообразная; R/r=1.85-2.28
Маргинальные пластинки покрыты
игольчатыми гранулами, поэтому
контур лучей имеет резкую
пиловидную зазубренность.
• T. almus Форма тела – пятигранник;
R/r=1.47-1.80
Гранул нет, контур лучей гладкий.
F
1.0 1
R1
Id
Iu R/R
R2
N
WuWd
Lu
0.5
Q
n1
0.0
L/W
n2
W/IdW/I
W/dR
-0.5
N/dR
-1.0
-0.4
-0.2
0.0
0.2
0.4
0.6
0.8
F2
Распределение особей
T. almus Djakonov
T. uber Fisher
- other
2
1
*
*
*
*
* *
*
*
0
*
*
* *
*
*
*
* *
*
*
*
*
* *
-1
*
-2
-2
-1
0
1
2
3
Распределение выборок по координатам
1.00
0.95
G1
0.90
0.85
0.80
0.75
2.3
2.4
2.5
2.6
G2
2.7
2.8
Гистограммы
Рис. 1 Гистограммы распределения некоторых признаков
40
30
30
20
20
10
10
0
0
(1,2;1,3]
(1 ,4;1 ,5 ]
(1,6;1,7]
(1 ,8;1,9 ]
( 2;2,1]
(2 ,2 ;2,3 ]
(2,4]
( ,5;,6]
Отношение максимального радиуса к минимальному
(,7;,8]
(,9;1,]
(1,1;1,2]
(1,3;1,4]
Ширина верхней маргинальной пластинки(м м)
60
30
Число экземпляров
50
40
20
30
20
10
0
Нет даже намека на двувершинность
кривых!!!
10
0
(1,5;2]
( 2,5;3]
(3,5;4]
(4,5;5]
Длина верхней маргинальной пластинки
9
10
11
12
13
14
15
16
17
18
19
Общее число игл
20
21
22
23
24
25
26
• П.В. Терентьев – о разделении
«длинного ряда»:
• ПРИ ДОСТАТОЧНО ШИРОКОМ
ВАРЬИРОВАНИИ РАЗДЕЛЕНИЕ
НЕПРЕРЫВНОГО РЯДА НА ЧАСТИ ДАЕТ
ФОРМАЛЬНЫЕ ОСНОВАНИЯ СЧИТАТЬ
РАЗЛИЧИЯ МЕЖДУ СОСЕДНИМИ
ЧАСТЯМИ – ДОСТОВЕРНЫМИ
• Разумеется, в каждой такой части
должно быть «приличное» число
объектов (большое «n»)
Ходорова Н.В. Строение перикарпия видов рода
Corydalis DC. (Fumariaceae DC.)
ВКР Бакалавра, 2004.
• Не только морфология и/или
систематика...
• При расшифровке структуры
молекулы антител –
применение несимметричных
мер отношений (для
присоединяющихся элементов)
привело к гипотезе
нелинейности
(«закрученности») этой
молекулы.
• Альгофлора водоемов окрестностей
Сочи
Е. Николаева (22 пробы, 210 видов)
Квалификационная работа магистра,
2006
р.Битха
19
1
р.Битха
В.Дагомыс
9
р.Битха
2
4
8
11
7
Агур.вод
Мацеста
6
р.Битха
3
10
20
5 р.Битха
22
17
MST
(Минимальное
16
Покрывающее
18
13
Дерево)
12
15
14
Естественные
21
Искусственные 20
Анализ главных компонент
Агур.вод.
0.6
0.5
7
11
10
2
В.Дагомыс
0.4
6
16
17
1
9
22
0.3
3
Битха
0.2
PC1
Мацеста
8
0.1
13
5
0.0
1-5
6
7-9
10-11
12-16
17-18
19-20
21-22
Битха
Мацеста
В.Дагомыс
Агур.в.
Лужи
Басс.-1
Басс.-2
Басс.-3
14 12
21
15
4
20
19
18
-0.1
-0.2
-0.3
-0.4
-0.8
-0.6
-0.4
-0.2
0.0
PC2
0.2
0.4
0.6
Группировка обследованных территорий по составу
бриофлоры (А. Немыкин, магистерская квал.работа,
2006)
Дендрограмма
Ward`s method
Ст
Казацк
ЛесВ
СтИзг
ОстрЯры
ЯмСтеп
ЛысГоры
Барка
БукрБ
0.70
0.75
0.80
0.85
0.90
0.95
Linkage Distance - Jaccard coefficient
1.00
1.05
Граф сходства, построенный на основе MST (Minimum
Spanning Tree)
В области АНАЛИЗА ДАННЫХ наряду с
разнообразными методами многомерного
анализа формируются и принципиально
новые направления:
• Новые подходы к оценке надежности
получаемых результатов –
РЕСАМПЛИНГ
• Новые подходы к анализу формы и
ее изменений –
ГЕОМЕТРИЧЕСКАЯ МОРФОМЕТРИЯ
Отношения между
БИОМЕТРИЕЙ
и
АНАЛИЗОМ ДАННЫХ
«БИОМЕТРИЯ»
Основа: ТЕОРИЯ ВЕРОЯТНОСТИ
Объект: ВЫБОРКА И
ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ
Задача: ОЦЕНКА НАДЕЖНОСТИ
РЕЗУЛЬТАТОВ =
ПРОВЕРКА ГИПОТЕЗ
•ПРОВЕРКА ГИПОТЕЗ
«БИОМЕТРИЯ»
«АНАЛИЗ ДАННЫХ»
Основа: МАТРИЧНАЯ АЛГЕБРА
Объект: ВЫБОРКИ
= множество многомерных
описаний
Задача: ПОСТРОЕНИЕ ГИПОТЕЗ:
Как группируются объекты (ординация)?
Насколько согласованы изменения
признаков?
• Использование методов многомерного
анализа позволяет выявить
изменчивость (и/или группировку)
множества объектов по комплексным
характеристикам (НАГЛЯДНОСТЬ)
• Это не исключает возможность оценки
надежности полученных результатов
методами классической статистики, но
также добавляет использование для
этого специальных методов
ресамплинга
Download