МЕДИЦИНСКАЯ СТАТИСТИКА

Высшее образование к.с. Жижин МЕДИЦИНСКАЯ СТАТИСТИКА Учебное пособие РОСТОВ-НА-ДОНУ 'l>еникс 2007 УДК ББК КТК 3 11 :614(075.8) 51.1 (2)я73 300 Ж70 Рецензенты: Чернецкий О.Е., д. м. Н., профессор РостГМУ; Соловьев М.Ю., К. М. Н., главный государственный сани тарный врач по Ростовской области Жижии К.С. Ж Медицинская статистика: Учебное пособие 70 к.с. ЖиЖИН. - - Ростов Н/Д: Феникс, / 2007. - 160 с. (Высшее образование) в пособии подробно описаны алгоритмы традиционных (и не ставших еше традиционными) приемов обработки экспери ментальной медико-биологической информации с ПО~lOшью по- пулярных статистических пакетов: SPSS и Statistica. . Материал книги изложен простым языком, не содержит сложных математических абстракций и носит прикладной ха рактер. В ней подробно разобраны примеры из практики, кото рые позволяют каждому исследователю по аналогии не только скомпоновать собственные данные без помощи профессиона ла-статистика, но и с первых же этапов эксперимента самосто ятельно осуществить их обработку на достаточно квалифици рованном. уровне. Учебное пособие будет полезно не только врачам и биоло гам всех профилей, но любому, кто постоянно или периодичес ки работает с большими массивами разнообразной информа ции и использует для этой цели персональную ЭВМ. УДК 311:614(075.8) ББК 51.1(2)я73 ISBN 5-222-10063-4 © © Жижин К.с., 2006 Оформление: изд-во «Феникс&, 2006 ГлаВа 1--------- ВВЕДЕНИЕ В ТЕОРИЮ ИЗМЕРЕНИЙ Необходимой состамяющей направленного, специаль но организованного медико-биологического эксперимента (или обычного эмпирического исследования) является измерение, позволяющее перейти от качественного уров ня анализа к выявлению количественных соотношений и закономерностей. Иногда в медицине встречаются и су губо качественные переменнные, но они, как правило, имеют спорадическую основу и появляются по сути пред варительным, подготовительным этапом для перехода на более высокий уровень - количественный. Объясняется такой подход к статистическому анализу совокупностей клинических и гигиенических данных во многом тем, что сегодняшняя медицина - это медицина третьего, надо сказать, самого низкого уровня диагности ки и профилактики - нозОЛогического. Она изначаЛьно ориентирована на количественные данные, а их надо бьmо накопить, чтобы принять то или иное обоснованное реше ние .. Качественные же характеристики до сих пор в таких СитУациях (особенно экстренных) большей частью оказы вались малопригодны, так как их очень сложно формали зовать и перевести на язык математических формул. До сих пор основные понятия, используемые в меди цине, биологии, - признак и переменная. Это измеримые явления и до некоторой степени взаимозаменимы [1, 2]. 4 Медицинская статистика С математической точки зрения переменные, извлекаемые из больших статистических массивов, обязательно случай ные величины, конечно, если не нарушается условие рав ной вероятности каждого 'случая попасть в изучаемую со вокупность данных, которых заранее не известно, какое именно значение они будyr иметь в данном конкретном опыте. Понятие измерения является глубоко дискуссионным, но эта проблема, во-первых, не цель данной книги, а во вторых, вряд ли очередная дискуссия на тему измерений что-либо существенное добавит к сyrи обсуждаемых во просов. Логически шкала необходимый, обязательный эле - мент измерительной процедуры. Основными типами из мерительных шкал, прим.еняемых в медико-биологичес ких исследованиях, являются следующие: • номинальная, или шкала наименований, - призва на классифицировать свойства объекта, присваивать им числовые, буквенные и иные символьные харак- . теристики; • порядковая, или ранговая, - упорядочивает значе ния признака; • интервальная - показывает «размах» отдельных из мерений признака; • шкала отношений - выявляет соотношение изме ренных значений признака. Часто o~eHЬ серьезной проблемой медико-биологичес ких (диагностических, гигиенических) исследований яв ляется фактическое отсyrствие естественных ИlfГервальных шкал и тем более шкал отношений для оцениваемых пе ременных. Специалистами в вопросах математической статистики Д1Iя этих целей разработаны специальные про иeдypы~ позволяющие построить интервальные шкалы. И несмотря на то, что· такие приемы имеют искусственное происхождение, эти издержки перекрываются обилием математических методов, имеющих глубокое теоретичес- Глава 1. Введение в теорию измерений 5 кое обоснование. В современной статистике наиболее ис пользуемы такие: • - десятка): десятибалльная Х = 5,5 и стандартным ,отклоне шкала стэнов (от англ. шкала со средним нием (j • = 2; шкала стэнайнов (от англ. - девятка): девятибалль 5, и приблизительно равное 2; ная шкала, имеющая среднее значение, равное стандартное отклонение, • r процентилыJяя шкала. Примечание: последняя шкала давно используется для оценки роста, массы, окружности груди индивида. Благодаря ей врачу не требуется суть закона распреде~ \,.ления изучаемых признаКО8. ~ Врач, биолог, химик обычно имеют дело с выборкой (частью или долей, значительно большей по численности группы, называемой reверальвой совокупностью). Конеч ной целью любого исследования и анализа является пере ложение выводов, полученных в выборке, на изучаемую генеральную -совокупность. И, естественно, в таком деле нельзя обойтись без статистических методов. Выборки бывают везависимые (весвязавн:ые), если про цедура оценки результатов измерения в них не оказыва ется взаимопроникающей, H~ влияет на результаты дру гой выборки. В том случае, когда такое влияние имеет место, выборки называются зависимыми (связанными) [20]. Выборка должна быть репрезентативной, т. 'е. обладать способностью адекватно представлять генеральную сово купность и· позволять переложить на последнюю выводы, по~енные на ограниченном экспериментальном мате-' , риале. И хотя выборка обычно всегда значительно меньше по размеру, чем генеральная совокупность, но она не может не быть близкой по статистическим характеристикам генераль ной совокупности: среднее значение признакз, стандарт ное orклонение (старое название - среднеквадратическое ), стандартная ошибка среднего значения признака и др. • Медицинская статистика Добиться репрезентативности в силу разных причин очень трудно. Для облегчения ситуации разработан ряд приемов: - представленность основных признаков в выборке должна быть в том же соотношении, что и генераль ная совокупность. Трудности здесь состоят в том, что практически всегда отсутствует информация о том, какие признаки являются важными дЛя изучаемого явления, а какие нет, и, самое существенное, - том, этих каковы закономерности распределения о признаков в генеральной совокупности; - рандомизация (перемешивание) - случайный ОТ,,: бор наблюдений, фактов из генеральной совокуп ности. При случайном отборе в выборку с равной вероятностью должны попадать буквально все ком поненты совокупности (пациенты, лабораторные животные и т. д.): имеющие и не имеющие суще. ственных дЛя изучаемого явления признаков. Это. достаточно сложное дело, поскольку необходимо следить за тем, чтобы объем выборки при таком от боре признаков не оказался равным генеральной со вокупности. Необходимо также априорное знание закона распределения основных (изучаемых) при знаков в генеральной совокупности. Получить та кую информацию заранее подчас очень сложно, если вообще возможно. Из всего сказанного должно стать ясным, что ни один из способов обеспечения репрезентативности выборки не свободен от недостатков, и тем не менее включение этих вопросов в планирование эксперимента необходимо, в противном случае исследование любого уровня теряет вся кий смысл, и особенно, если во главу угла ставятся жизнь и здоровье человека ... Итак, с позиций классической математической стати стики измеряемые признаки обязателltНО ДОJIЖIIЫ бьпь слу чайными величинами, только тогда дЛя изучения законо мерных изменений таких величин смогут использоваться Глава 1. Введение 8 теориlO измерений 7 хорошо себя зарекомеНдовавшие законы распределения вероятностей. Таким образом, наиболее важным законом распреде ления является нормальный закон (закон Гаусса) в кото ром плотность распределения вероятностей задается сле дующей формулой, а графически выражается колоколо образной, или «нормальной» кривой j(x) = 1 [23, 88]: [х-х] 2 .е - 202 , .J21t·cr где f(x) - тей, cr - функция плотности распределения вероятнос -. стандартное ОТЮIонение, х среднее значение признака х. Кстати, слово «нормаль» и обозначает кривую, поэто.... _--- ~ - '. , му выражение «нормальная кривая» - в некотором роде тавтология, но оно укоренилось в теории вероятностей и математической статистике, и мы, отдавая дань традиции, " не будем этот факт ревизовать и оспаривать. Исторически, когда-то на заре возникновения теории вероятностей как науки, с помощью нормального рас пределения совокупностей люди пытались рассчитать шанс наибольшего выигрыша в азартные игры (игральные карты, кости), но потом оказалось, что если игра честная, то как выигрыш, так и проигрыш равновероятны - 50·: 50. Важным и интересным оказалось другое: закону Гаус са подчиняются распределения в различных отраслях зна ний, далеких от азартных игр. Оказалось, закон «(работа ет» в любых ситуациях, где оперируют большим количе ством разнородных и независимых факторов. Хотя «(НОр'малЬНЫЙ закон» имеет богатую историю, од нако до сих пор не утихают дискуссии о правомерности использования его в медицинских, биологических гума нитарных и социально-экономических науках. На практике значение нормального закона для врача, биолога состоит в следующем: коль скоро полученные дан ные подчиняются нормальному закону, то для их обработ- Медицинская статистика 8 ки можно применять широкий спектр статистических ме тодов (описательная, конструктивная статистика, методы параметрические, непараметрические, методы проверки гипотез и планирования эксперимента и т. д.), В против ном случае класс допустимых математических методов су щественно сужается и риск получения некорректного вы вода вырастает в большую методологическую проблему. Мы не ставили в данной работе цель .охватить неохват ное из арсенала современных статистических методов и методик и поэтому отсылаем заинтересованного читателя к библиографии в конце книги, которая позволит подроб но ознакомиться практически со 8семи вариантами обра ботки эмпирического материала. Часть литературных ис точников, приведенных нами, не содержит сложных математических выкладок и рассчитана на «математика любителя» с подготовкой на уровне средней школы. Дру гая часть - это серьезные систематические исследования в статистике, требующие основательной математической подготовки и хорошего .владения постановкой научного эксперимента. А сейчас самая парадоксальная фраза, способная по разить педанта от математики:-.для поиимаиия материала данной книги матемаТll'lеская подготовка в прииципе может не понадобиться вообще: во-первых, все примеры даны в «рецептурном» плане с четким алгоритмом действий - от постановки задачи до, ее завершения. Во-вторых, нами предлагаются к использованию ста тистические пакеты уже готовых программ обработки дан ных, освоив которые любой человек, заинтересованный в качественной обработке собственных данных, сможет опосредован но (по ходу работы) вникнуть и в их матема- . , . тическую суть, если у него, конечно, возникнет такая по- требность. И все же не стоит рассматривать нашу работу как «по варенную книгу» для дилетантов: чтобы понять изложен ное в ней, надо все же разбираться в азах и математики, и статистики. Но куда важнее то, что вам самому надо четко Глава 1. Введение в теориlO иsмерений I понимать, какую информацию вы хотите «выжать» из соб ственных экспериментальных данных. В чем вы видите cyrb своих исследований, потому что, кроме вас, на эти вол рось. не ответит и самый распрекрасный специалист-ста тистик, если, конечно, он дополнительно к своей профес сии не владеет еще и вашей ... , Построили же свою работу ~Ы так сознательно, по скольку личный опыт убеждает в том, что, если матема тические «навороты» «обрушиваются» на читателя с пер вых же страниц, ТО они в конечном счете сослужат авто рам книги медвежью услугу, отбивая всякую охоту у читателя-нематематика к освоению пропагандируемых приемов обработки статистических данных. ГлаВа 2 СТАТИСТИЧЕСКИЕ ГИПОТЕЗbI л юбое исследование начинается с формирования ста тистической гипотезы. Огрвариваются особенности ста тистических закономерностей при получении результатоц экспери мента, анализируется допустимость распростране ния результата отдельных выборок на всю генеральную совокупность. В медицинской статистике различают следующие виды гипотез: Но - нулевая, гипотеза отсyrствия различий, измене ний, эффектов воздействия на совокупность; Н1 - альтернативная, гипотеза о наличии различий, изменений, эффектов при воздействии на совокупность. Эти так называемые дuxоm()мuческuе гипотезы наибо лее часто составляют суть медицинских и биологических исследований. Редко, но не сказать об этом нельзя, гипо теза может включать и более двух возможных вариантов решения. В подавляюшем же большинстве случаев в медико биологических исследованиях исследователи пытаются выявить различия в уровне, динамике, характере распре деления показателей в экспериментальной и контрольной (фоновой) группах испытуемых, пациентов, лабораторных животных, анализов и т. д., т. е. пытаются сформировать классический тандем: контроль-опьп. Глава 1. Статистические rипоте1Ы " и если исследование правильно спланировано" то ре зультат практически всегда будет безупречным. Валид ность r - главное определяющее серьезности исследования. 8anидность - способность при меняемого метода" отражать именно те качества, на выявление которых дан ный метод и был наllравлен. И если условия опыта не ме нять кардинально, то выбранный метод будет давать иден тичный результат и на других совокупностях. для проверки статистических гипотез используются: 1. Пара.метрuческuе методы. (Требуют знания закона распределения вероятностей как в выборке, так и в генеральной совокупности.) 2. Неnара.меmрuческuе .методы. (Не требуют знания за конов распределения вероятностей ни в выборке, ни в генеральной совокупности.) Если исследователь серьезно относится к результату своего труда, он априори, до проведения статистической обработки данных и даже до начала проведения экспери мента, за письменным столом должен продумать, будет ли анализируемая им совокупность данных отвечать требо ваниям нормальности, соответствовать закону Гаусса. Дело в ТОМ, что математическая статистика и теория __ проверки статистических гипотез, как ее ветвь, ориенти .E.~aHЫ на специфику нормального закона распределения. И для корректного применения параметрических методов действительно обязательно выполнение ряда условий, ко торыми начинающие аналитики и статистики пренебре га ют. Большей частью эксперимент строится по такой при митивной схеме: сначала соберем как можно больше данных, а уже потом с помощью профессионала-статистика как-ни будь обработаем. Увы, при таком подходе иной раз с эксперименталь ным материалом сделать ничего серьеЗНОГQ уже нельзя (в плане получения аналитических результатов И, самое главное, нельзя никак исправить сам эксперимент. Медицинская статистика 12 Если планируется ответственная-исследовательская ра бота и столь же серьезная обработка ее данных, то алго ритм действий исследователя должен содержать обязатель ные ответы на такие вопросы: 1) как близки распределения экспериментальных дан ных к нормальному закону; 2) какая шкала измерений наиболее применима в его исследованиях, как минимум это должна быть ин'--~---.-. тервальная шкала; 3) - . каковы ограничения на минимальный и (или) мак симальный объем выборки или согласованность объемов нескольких исследуемых выборок. Когда требования нормальности распределения и ин тервальности используемой шкалы не выполняются или их трудно осуществить, то стоит использовать непарамет рические методы проверки гипотез. При получении результата работы можно допустить: 1) 2) 3) 4) принятие верной нулевой гипотезы; отклонение верной нулевой гипотезы; принятие ложной нулевой гипотезы; отклонение ложной нулевой гипотезы. ,... Ко.гда П~Р~Ь!~_!!,I{_~РТЫ~ варианты решения правиль ны, а второй и третий - .ошибочны, то возникает риск ошибки первого и второго рода. Ошибка первого рода пояВляется, если игнорируется верная нулевая гипотеза НО. Ошибка второго рода возни кает, когда нулевая гипотеза Но оценивается как ложная. Если обозначить вероятность ошибки первого рода. как (Х, а вероятность ошибки второго рода ~, то значение вероятности правильного вывода в первом случае будет равным: р= 1- а. Значения (р) могут бьпь выражены как 0,95 или 0,05~ что по сyrи одно и то же. В большинстве медико-биоло гических исследований в качестве минимально допусти .мого используют уровень значимости р иногда 0,001. = 0,05 или 0,01, Глава 2. Статистические rипоте1Ы 'l Для уменьшения вероятности совершения ошибки первого рода можно: - увеличить число наблюдений; увеличить числа повторных измерений в одной и той же выборке; - увеличить уровень значимости или статистической' достоверности вывода; - увеличить точность измерений за счет уменьшения' систематической ошибки. Ошибки второго рода непосредственно влияют на мощ ность критерия при про верке гипотез, когда велика веро ятность не совершить ошибку второго рода. Вполне есте ственно, чтобы не совершить ошибку второго' рода, надо стремиться использовать более мощный критерий для того класса задач, которые решаются в конкретной ситуации. Мощность критерия v= 1 - 1. Отсюда возникает естественный вопрос: какая же из описанных ошибок более важна? Ответ односложным быть не может, все зависит от ряда обстоятельств: от це лей, характера задачи, построения исследования. ~ Ошибка первого рода существенна в конфирматорном (уточняюшем) эксперименте, а также тогда, когда непри нятие верной гипотезы об отсутствии различий имеет практическую значимость: принятие врачом ложной ги потезы об эффективности лечебного препарата или эф фективности противоэпидемических мероприятий может иметь катастрофические последствия, оргвыводы о проф пригодности специалиста и т. Д. Ошибка второго рода существенна в эксплораторном (разведочном) эксперименте. Orклонение гипотезы о раз личиях на начальной стадии эксперимента может (в луч шем случае!) неверно ориентировать исследователя на перс пективу. В настоящее время, когда все стали считать деньги, в том числе и на проведение исследований, и наука 8 по давляюшем большинстве случаев влачит жалкое суще- 14 МеДИЦИНСl(ая статистика ствование, сократить затраты на эксплораторный экспе римент можно за счет: 1) 2) уменьшения количества наблюдений; задания более низкого- уровня значимости. Конечно, в любом случае приятнее получить положи- тельный результат, чем фиаско, Однако в целом ряде слу чаев отрицательный результат - тоже результат, поэтому вероятность и значимость ошибок первого рода значитель но выше, чем ошибок второго рода. В этой -.связи целесообразным, с нашей точки_зрения, является такой подход к обработке эмпирического мате риала исследования: 1) от ЭКСJUIораторного эксперимента к конфирматор НОМУ; 2} от низких уровней достоверности к высоким; 3) от исследований на малых выборках к большим. Глава 3 КОМПЬЮТЕРbl в МЕДИКО БИОЛОГИЧЕСКОЙ СТАТИСТИКЕ для эффективного использования пакетов roroвых CI'3- тистических программ любой квалифицированный врач доложен владеть приемами работы на персональном ком пьютере. Мы рассчитываем, что читающий данную книгу имеет и персональный компьютер, не новичок в его экс плуатации, хотя бы на уровне пользователя, имеет и про граммное обеспечение, о котором пойдет речь ниже '(JJY'Iше, если лицензионное!). И тем не менее все же напомним базовые понятия. Файловая система - это система хранения информа ции. Данная система иерархическая, она имеет три уров ня: 1) файлы, Папка 2) папки, 3) логические диски. (Folder), или каталог (Directory), - это группа файлов, объединенных под общим именем. Папки в опе рационной системе MS Windows делятся на два вида: • стандартные - специальные папки, в которых хра нится информация об управлении компьютером; • пользовательские - создаваемые самим пользова телем. Лоrические диски - самые крупные разделы файловой системы, вмещающие группы файлов и папок, емкостью от десятков до сотен мегабаЙТ. ,. МеАицинская статистика lfиrерфейс (Interface) - способ общения между пользо вателем и программоЙ. Он служит для упрамения про граммным обеспечение~ как с клавиатуры с использова нием комбинации клавиш, так и с помощью «мыши». Рабочее 01010 (Window) - содержит стандартные эле менты упрамения. WiпdОWS-ПРВJJожевия -. компьютерные программы для работы в данной среде операционной системы. Описан ные ниже программы как раз и рассматриваются нами как готовые статистические пакеты. МевlO (Мепо) • • - наБОр процедур выбора, представлен: текстами; пиктограммами, значками. В современных медицинских учреждениях примене ние компьютерных технологий, к сожалению, еще не ста ло обычным делом обработки и анализа данных, тем бо лее проверки статистических гипотез. Кое-кто в лучшем случае использует для решения своих локальных задач ста тистические пакеты, так называемой описательной стати сти"и (и не более) популярной программы Ехсеl. Как показывает наш опыт использования хорошо за рекомендовавших себя статистических пакетов STATISТICA SPSS, (USA) дЛЯ решения задач по обработке теку щей (и даже научной!) информации, эти пакеты дают ис следователю гораздо больше простора для творческой ра боты: арсенал методик в них шире, чем в упомянутой нами программе Excel. И самое главное - некоторые приемы глубокой проработки информации экспериментальных данных в ней просто невозможны. Выбор именно этих двух пакетов, на первый взгляд, су щественно отличающихся> друг от друга по пользователь скому интерфейсу, обусловлен прежде всего тем, что их не достатки - продолжение их непересекающихся достоинств. В каком-то из них есть то, чего напрочь лишен другой. Предлагаемая нами подборка статистических приме ров и задач вводит врача, биолога, химика и близких к ним по сyrисвоего труда специали~в в круг таких вариантов Глава З. компыоерыы 8 медико-биолоrической статистике 17 обработки статистической информации, где применение до сих пор мало используемых модулей из выбранных нами статистических пакетов дает возможность получить наиболее емкую информацию, взглянуть на эксперимент с совершенно иной,. нетрадиционной точки зрения. Это очень важно на данный момент, поскольку работа на ЭВМ уже перестает быть уделом узкой, закрытой касты про граммистов, флер загадочности с их профессии сегодня сброшен окончательно. ОСОБЕННОСТИ В ИСПОЛЬЗОВАНИИ ПАКЕТА Пакет SPSS SPSS предназначен для выполнения всех эта пов статистического анализа данных. Аббревиатура SPSS расшифровывается как StatiStical Package for Social Science (статистический пакет для социальных наук). ОН'разра ботан в США в 60-х годах хх столетия в стенах Чикагско го университета, и первоначально предназначался для ре ализац~и сугубо специфических проблем психологии, со циологии, антропологии [95]. В настоящее время разработано 13 версий пакета SPSS, И,как показала жизнь, все они многоцелевые и при годны для анали~ данных в областях науки и' практики, доста точно далеких от психологии и социологии. В SPSS существует несколько десятков модулей, до полнительно подключаемых к пакету. Пакет дает возмож ность нее только обрабатывать данные, но и формиро вать отчеты о результатах обработки, имеет значитель ный арсенал наглядного представления результатов с помощью графиков и диаграмм. К достоинствам пакета можно отнести русифицикацию версий, есть подробные руководства на Web-странице Интернета. К относитель/ ным недостаткам пакета можно отнести узкий набор статистических методов, входящих в базовую версию, пол ное отсутствие ряда статистических алгоритмов, широко используемых у нас, в России. Графика (в сравнении с тем же пакетом Statistica) - слабое звено SPS, и тем не 18 Медицинская статистика менее он - в числе лидеров на рынке статистических ус луг в мире. Примечание. Мы сознатenьноопускаем процеду ру инсталляции паке'Юв. Считаем, что они уже установ nены на компыоере.. Если это не так, то отсыпаем чита теля к nитературным первоисточникам в конце книги. Итак, запускаем пакет SPSS любым способом, к при меру, из главного меню Создаем документ. Они, кстати, могут быть различных типов: файлы исходных данных и файлы отчетов. После запуска открывается стартовое oкн~. Выбираем одну из пяти возможностей, из которых основными, чаще используемыми являются две: а) Туре in data (Ввести дан ные), б) Ореп аn existing file (Orкpыть существующий файл). Интерфейс пакета SPSS имеет стандартные для Windows- приложений текстовое и графическое меню. Главное меню пакета включает следующие пункты: File (Файл), New (Создать), . Ореп (OmKpblmb), Save (Сохранить), Save as (Сохранить как), Print (Напечатать) Edit (Правка, редактирование) Cut (Вblрезать), , СОРУ (Копировать), Paste (Вставить), С/еаг (Очистить), Find (Найти), Undo (Отменить), View (Вид, просмотр), Data (ДаННblе), Transform (Прео6разовать), Statistics (Статистики), Graphs (Графики), Utilities (Сервис, утилитbl), Window (Окно), Не/р (Помощь, справка). Глава 3. Компыотеры в медико-биологической статистике 19 При выделении пиктограммы появляется подсказка, содержащая название команды. Любое действие в SPSS можно выполнить с помощью текстового менюипи пане ли инструментов. Таким образом, пользователь может оп тимизировать свою работу, выбирая для себя наиболее удобные способы действий. Когда что-то становится не понятным, есть соблазн обратиться к Справке (Help): не рекомендуем этого делать. И вот почему: даже если ваша версия русифицирова на, из справочного материала вы все равно не сможете извлечь никакой пользы, поскольку переводы делают не профессионалы, и по сути это H~ настоящий перевод, а поДстрочник, т. е. буквальный перевод английских фраз, нуждающийся в дополнительном профессиональном разъяснении смысла того, что переведено. Рассмотрим последовательно основные операции по работе с данными Результаты измерений в окне при запуске пакета пред стамены в виде прямоyroльной таблицы или матрицы дан ных. Информация, внесенная по вертикали: в столбцы Ilеременные (признаки), а по строкам - - наблюдения (из меренные результаты). Количество строк и столбцов в па кете может быть большим, но, конечно, не бесконечным. Все случаи уже автоматически пронумерованы с левой сто роны, поэтому исследователь избавлен от этой утомитель ной процедуры. Характерная особенность описываемого пакета в том, что исследователь может вводить свои данные двумя спо собами: - в отдельные столбцы; - в один и тот же столбец. В последнем случае для каждой группы данных в со седнем столбце указывается номер ее выборки, т. е. зна чение так называемой группирующей (Grouping УаПаЫе). Она, как маркер, позволяет отличать выборки друг от дру га: 1, 2, 3 и т. Д. Медицинская статистика 20 Выбор стратегии ввода данных (с использованием группирующей переменной или без нее) зависит от пла нируемого метода обработки, поэтому на практике (напри мер, при решении примеров, приведенных в последую щих главах) суть методики ввода данных в макет таблицы определяется самим исследователем. Упражнение 1. • • • • • • • • • • • • • • • • • • • • • • • Тренировочный ввод данных в таблицу пакета ·SPSS Получены исходные данные числа положительных ·находок кишечной палочки в смывах с инвентаря и (JocYAbI сто ловых двух 110левых станов «А» и «В»: Nt А 1 2 24 43 35 34 3 4 А в 35 19 24 20 5 6 А в 33 26 22 28 Введем эти исходные данные в матрицу данных пакета в отдельные столбцы. Переменные в этом случае получают ремарку типа уагООО 1••. vагОООЗ и т. д. К слову сказать, исследователь может названия изме нить .по ходу обработки данных. Для задания характеристик переменной надо, подведя курсор к ее названию, дважды щелкнуть левой кнопкой мыши. Открыв диалоговое окно, выполним следующие действия: 1. BBeдe~ имя переменной. Вам надо быть готовым к .., тому, что сразу возникают ограничения: имя переменнои доnжно содержать не боnее 8 симвоnов! И хотя пакет ру сифицирован, с русскими названиями возникают проблемы. Исходя из зто го, лучше присваивать переменным англоязыч ные имена. Например: Stan 1, Stan2. 2. Зададим тип данных, кнопкой Туре (ТИll данных). Дан ные в принципе могут ВКЛlQчать бесконечное собрание ти пов, в медицинских исследованиях часто встречаются сле дующие: • Numeric (Числовой) - для него важно иметь Width (Общая длина), или количество десятичных знаков после запятой; Глава З. Компьютеры в медико-биологической статистике • String (Текстовой) - 21 для него задается только об щая длина; • Date (Тип даты) - с конкретным форматом резуль тата. Наши данные - числовые (двузначные числа), и мы за даем для них числовой ТИll С длиной «два» ·и «нулевым» ко личеством знаков после запятой. з. Вводим Labels (Метки) - они отражают комментарии, поясняющие смысл переменной. Для переменной Stan1 вве дем метку «Полевой стан 1», а Для переменной Stan2 «Полевой стан 2». Метки будут «всплывать» как подсказки, стоит только подвести курсор к названию переменной и се кунду подождать. Есть одно «но»: нецелесообразно вводить метки для от дельных значений переменных, но в порядке эксперименти рования можно ввести новую условную переменную в тре тьем столбце. Пусть это будет переменная, которую назо вем SUM, прис·воив ей метку: «Новая "еременная», зададим ей тип: числовая с количеством знаков после запятой О, а ее значениям присвоим следующие метки: 1»,2- «Полевой стан 1- «Полевой стан 2». Для задания меток значений надо ввести в соответству ющие поля используемое значение и название его метки, а затем нажать Add (Добавить). Для тренировки введем не сколько значений 1 и 2 для переменной SUM. В таблице показываются сами эти числовые значения~ Чтобы перейти от них к меткам, жмем кнопку Value Labels (~етки значений). Автоматически покажутся не числовые значения, а их метки. Отжав второй раз кнопку (Метки зна чений), вернемся вновь к числовому представлению данных. Бывает так, что в подборке данных появляются «окна», т. е. пропущенные данные (невнимательность исследовате ля, сбои в регистрирующей аппаратуре и т. д.). Эти огрехи в SPSS можно сгладить способом обработки эмпирического материала с пропущенными значениями. Нажимаем кнопку Missing Values (Пропущенные значения), и дальнейшая ста "гистическая обработка ведется с учетом данной особеннос ти Вtilборки. zz Медицинская статистика в данном примере нам ее использовать нет смысла. Определим формат столбца: Columll Format (Формат столбца). Можно задать Column width (UJирина столбца), Text аligпmепt (Способ выравнивания данных). Зададим, к примеру, ширину, равную б. Выравниваем данные по пра вому краю, для этого «включим» флажок Right (Вправо). Если данные достаточно однородны и их немного, как в на шем примере, можно осуществить процесс выравнивания по центру - «включив» флажок Center. Для определения типа используемой измерительной шкалы существует блок полей Measurement (Тип шкалы). Шкалирование по сути Оllределяет все дальнейшие спосо бы математической обработки эмпирических данных. Ilакет SPSS предлагает следующие типы шкал: • Scale (непрерывную, интервальную), • Огdiпаl (порядковую), • Nоmiпаl (номинальную). Использование интервальных шкал в медицине в насто ящее время ограничено очень узким кругом научных иссле дований. Шире используются порядковы'е, как в нашем слу чае, поэтому, естественно, задать значение «Порядковая». На этом определение переменных нами закончено. Теперь необходимо осуществить процедуру сохранения данных в файле. Она позволит обеспечить дальнейшую ра боту с цифрами. Это можно сделать несколькими спосо бами: 1) Активизировать на стандартной IlанеJIИ значок, на котором изображена дискета. 2) Или рядом, слева активизировав значок ВЫllОЛНИТЬ в его меню команду Save File (Файл), (Сохранить). В любом случае при первом сохранении открывается диалоговое окно для определения маршрута размещения файла и определения его имени. Выберем папку, к 1"lриме ру, «Мои документы), но лучше имени - «упражнение - «SPSS)), а в качестве 1)). После этой процедуры имя файла появляется на площа ди окна. Глава З. Компьютеры в меДико-биологической статистике 21 Внесение 'дальнейших изменений в файл системой от слеживается автоматчески: новый вариант фаЙ.аа будет по мещен под тем же именем и в той же папке, по тому же мар шруту размещения. Редактирование данных Введем наши данные вторым способом в один об- щий столбец с использованием группирующей переменной~ Группирующая переменная SUM у нас уже определена. Переместим ее из третьего столбца в четвертый: 1. Щелкнем правой клавишей мыши по названию пере мен ной SUM. Столбец выделится, появит~я контекст ное меню. _ 2. В нем, выберем команду Cut (Вырезать). з. С помощью правой клавиши активизируем перемен ную четвертого столбца. Столбец выделится, и откро ется меню. 4. Тут же выбираем команду Paste (Вставить). И пере менная SUM сразу же перекочевала из третьего столб ца в четвертый. 5. Пометим переменную в третьем столбце, присвоив ей имя, тип переменной «числовой» с длиной 10 и , количеством знаков после запятой О, метку перемен ной, формат столбца - ширина 10 и выравнивание вправо, шкала измерений - порядковая. ,Таким же образом осуществим копирование введенных данных из первого и второго столбцов в третий столбец. Для этого выделим с помощью «мыши» данные в первом столбце. Выберем команду Сору (Копировать). Установим курсор в начале третьего столбца, щелкнем клавишей и в контекстном меню выберем команду Paste, тем самым вставив данные из первого столбца в третий. После довательно скопируем данные из второго столбца в продол же~ие третьего столбца. Таким образом, все наши данные внесены в один общий столбец. Расставим значения группи7' рующей переменной, о которых мы условились ранее: Группирующая !1еременная - 1 и 2. своеобразная метка: все Медицинская статистика 24 данные, отнесенные к первой выборке, мы помечаем единицей, а ко второй - двойкой. Вновь сохраним данные, щелкнув по значку дискета (Save -.сохранить) на панели инструментов. У нашего фай ла уже есть имя, и в силу этого система выполнила это дей ствие автоматически, задача полностью решена. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • ОСОБЕННОСТИ ИСПОЛЬЗОВАНИЯ ПАКЕТА STATISTICA FOR WINDOWS Пакет Statistica, как и предыдущий - SPSS, имеет мо дульную структуру, и модулей у него большое количество, а размещение на платформе пакета ниями Statistica [15]. Windows обеспечивает связь практически со всеми. Windоws-приложе К несомненным достоинствам пакета Windows можно отнести Statistica for большой выбор методов обработ ки данных: от достаточно простых приемов описательной статистики до сложных методов многомерного анализа и планирования эксперимента. Кроме всего прочего, осо бенность пакета Statistica for Windows и в том, что он как никакой другой имеет широчайшие графические возмож ности и хорошую методическую базу на русском языке. Недостатки этого пакета, как и пакета SPSS, все те же: отсутствие ряда широко применяемых в нашей стране ста тистических методов обработки данных, ограничения при вводе данных, еще - «пиратские» копии практически не русифиuироваliы, а лицензионная русифиuированная пол Haя разработка пакета дос.таточно дорога для массового потребителя. И все же, несмотря на эти издержки, дан ный пакет в ряду наиболее востребованных, в том числе и в медико-биологических исследованиях. Остается большой загадкой, что аналитические центры ни Министерства здравоохранения и социального разви тия, ни Министерства образования России до сих пор не разработали методические указания для массового исполь зования указанных статистических пакетов в практическом Глава 3. Компьютеры в медика-биологической статистике 25 здравоохранении, в научных учреждениях и учебных заве дениях среднего и высшего медицинского и биологическо го образования .. Это, во-первых, значительно подняло бы культуру труда специалистов всех рангов, во-вторых, объек тивизировало бы получаемые' данные, сбор и обработка и . , анализ которых оставляют желать лучшего. В настоящее время разработано шесть версий for Windows, Statistica как ранние, '!ак и последние версии при ре шении задач вполне совместимы без особых сложностей. Стартовое окно пакета служит для выбора одного из статистических модулей и называется switcher (Переключатель модулей Statistica Module пакета «Статистика») . в каждой из шести версий имеется следующий и обя зательный набор модулей: • OCJ::l0BHble статистики и таблицы (Basic Statistic and Tables); • непараметрические критерии и подгонка распреде лений (Nonparametric Statistic& Distribution Fitting); • одно- И многофакторный дисперсионный анализ (ANOVA/MANOVA); • линейная регрессия (Linear Regression); • канонический дискриминантный анализ (Canonical Analysis); • кластерный анализ (Cluster Analysis); • управление данными (Data Management); • дискриминантный функциональный анализ (Discriminant Function Analysis);' • факторный анализ (Factor Analysis). Наиболее часто используемые кнопки при начале анализа данных: • • • Переключиться в ... Список для (Switch То ... ); выбора (Customize List); Закончить выбор и переключиться в (End & Switch То); • Отказаться (Cancel). Стандартная панель такая же, как и в пакете • файл, SPSS: ' Медицинская статистика Z& • • • • • правка, анализ, параметры, окно, помощь ... Особенностью данного пакета, как мы отметили ра нее, является широкий спектр двух- и трехмерных графи ческих форм, Процедура запуска пакета аналогична Spss. Посколь ку в данной ситуации нам безразлично, какой· модуль ВЮIючать, то начнем с .модуля «Основные статистики и таблицы», Обычно при открытии пакета «выскакивает» уже готовая таблица с данными из какого-то примера, на ходящихся в изобилии I<аталоге (Examples). Чтобы создать свой личный файл, нажимаем кнопку (Файл) и в его меню - New Data (Файл новых дан ных) присвоим ему имя Stanl-2 (автоматически к нему будет присоединено расширение «sta... »). File Упражнение 2. • • • • • • • • • • • • • • • • • • • • • • • Создаем файл данных в пакете Statistica. Сначала мы введем данные в отдельные столбцы табли цы. Характерно: в отличие от SPSS размер матрицы дан ных в Statistica изначально ограничен десятью Cases (слу чаями) и 10-ю VariabIes (переменными). В нашем примере число переменных излишне, а количество случаев надо уве личить. Для упорядочения ситуации проделаем следующее: • • нажмем кнопку Cases (Случаи); выберем Add (Добавить), в поле Number ofCases to Add (Количество добавляемых случаев) введем чис ло 5, а в поле Insert аНег Cases (Вставить после слу чая) - цифру 10. Таблица данных приобретет размеры 10 х 15. дналогич но варьируется и количество переменных. Для тренировки проделаем это, для чего: • нажмем KHOI1KY Var5 (Переменные), в открывшемся подменю выберем команду Delete (Удалить) и в по- Глава 3. Компьютеры в медико-биологической статистике 27 лях From variabIe (От переменной) и То variabIe (До переменной), введем соответственно значения 4 и 10. Тем самым мы удалили переменные с ном~рами и таблица изменила размер: 4-10, 3 х 15. Опредеnениепер~менных Переменные в пакете Statistica for Windows изначально имеют звания VAR 1, VAR2, VAR3 и т. д. Эти обозначения можно менять по своему усмотрению, щелкнув п·о названию переменно. Откроется окно, в котором вы сможете произ вести перенастройку. Напоминаем: название переменной не может содержать боnее 8 симвоnов, и лучше - анг лийское написание. Дело в том, что и данный пакет, как и предыдущий, дает сбои, если исследователем используется в названиях случаев и переменных русский алфавит. Гораздо лучше уже Ilосле обработки данных перед вы водом на печать русифицировать название таблиц, графи ков. Так как наши данные имеют числовой тип и представ ляют двузначные числа в поле Width (Общая ширина), надо ввести значение 2. Будьте готовы к тому, что столбец может автоматически сузиться и не будет соразмерен названию переменной. Для этого полю переменной надо задать адекватную ширину. В поле Decimal (Количество десятичных знаков после запя той) для обеих переменныx зададим о. в поле Data (Дата) зададим формат ВВОДИМЫХ значений. В поле ввести Long Name (Ilолное Label (Метку) Ilеременной, длинное - имя) можно в этом варианте ее «длин ное» название будет выводиться при подытоживании резуль татов. Введем те же самые метки, что и в предыдущем при мере. Кстати, сюда же можно вводить и формулы. В пакете Statistica можно оперировать метками отдель ных значений переменной, задавать текстовые названия для числовых результатов измерений. Введем (для тренировки) новую переменную с именем 11ИРУЮЩая 11еременная», тип SUM, присвоим ей метку «Груп..... числовой с длиной 1 и коли чеством знаков после запятой о. Для этой цели в диалоговом Медицинская статистика 28 окне нажмем кнопку Text Values (Текстовые значения) и вве дем текстовые названия, числовые значения и их метки. По условиям разработчиков текстовые названия не дол жны выходить за пределы восьми символов, а длина меток числовых значений - 40 символов. Новая строка вводится клавишей Insert. nOтренируемся, вводя несколько значений 1 и 2. В таблице показываются сами значения, а чтобы пе рейти к их текстовым названиям, t:tажмем на панели инстру ментов кнопку Тext Value (Текстовые названия). двтомати чески появляются не числовые значения, а их названия. По вторное нажатие кнопки возвращает нас к числовым значениям. И вновь, как и в предыдущем примере, на этом опреде ление используемых переменных нами закончено. Сохраним введенные данные в файле для дальнейшей работы с ним. Приемы редактирования данных в пакете аналогичны соот ветствующим для пакета SPSS. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Говорят, что лучший опыт - это личный опыт, хотя подчас и горький, поэтому проделайте изложенное выше несколько разд.лЯ эакреrшения, не боясь ошибиться. Увы, обработка статистических данных - процедура практичес кая и требует систематической тренировЮf и упорства, так что не унывайте, если не получится сразу. Как говорили древние: per Лsреса ad Astra - через тернии - к звездам! Глава 4 ПРИЕМЫ ОПИСАТЕЛЬНОЙ СТАТИСТИКИ Это первый достаточно простой, однако самый ответ ственный этап статистического анализа эмпирических данных. И начинается работа, как вы понимаете, с про верки полученных данных на «нормальность •. И это не догма: от данной процедуры зависят коррект ность и однозначность выводов практически всех и глав- . . ным образом сложных, многомерных методов анализа данных (например, дискриминантного или факторного ана лиза, которые будут рассмотрены ниже). Традиционно используются: • • дескриптивная статистика и визуализация, критерии согласия распределений. Дескриптивные методы дают обобщенное описание как эмпирической выборки, так и генеральной совокупности: среднее арифметическое, минимум, максимум, мода, ме диана, дисперсия, стандартное отклонение, асимметрия, эксцесс и др. ВизуалЬflЫй .метод (гистограмма, линейные графики эмпирического распределения) реализован во всех попу лярных статистических пакетах, он помогает сопоставить опытные данные с теоретической кривой нормального распределения. МедицинскаR статистика 10 Оценки показателей асимметрии и эксцесса сопряже ны с одновременным получением их стандартных ошибок. Асимметрия коэффициент скошенности (Skewness), эмпирического распределения частот, - отклонение впра во или влево относительно максимальной ординаты: t(x; _~)3 k .:... ",-'=-,-1--n'й З • Для симметричных распределений показатель асим метрии равен нулю. Отрицательный показатель асиммет рии означает, что кривая распределения от теоретической симметричной кривой распределения скошена влево, по ложительный - вправо .. Стандартная ошибка асимметрии Skewness) - (Standard error of отклонение показателя асимметрии от нуля: тм =~~:3' Показатель эксцесса (Kurtosis), или коэффициент ос тровершинности выборочной совокупности, рассчитыва ется так: n I/X _х)4 i Ех= ;=1 -3. 4 n·а Стандартная ошибка эксцесса (Standard error of Kur- tosis): тЕх 6 n+3 ш; =2mAt=2 - - . Для нормального распределения показатели асиммет рии и эксцесса равны нулю: As = Ех = О. Для проверки на НОРМщ:Iьность применяют оценки выборочных коэффициентов асимметрии и эксцесса: Глава 4. Приемы описатепьной статистики • 11 распределение считается симметричным в случае IAsI<O,I, асимметричным, если IAsI>0,5; IExI s; 0,1 , и значительно отклоняется от него, если IExI >0,5. При м е ч а н и е. Распределение считается близким к " • распределение близко к нормальному, если нормальному, если значения асимметрии и эксцесса имеlOТ тот же порядок, что и их стандартные ошибки. .) МЕТОДЫ, ОСНОВАННЫЕ НА КРИТЕРИЯХ СОГЛАСИЯ РАСПРЕДЕЛЕНИЙ Для проверки на нормальность распределения наибо лее часто применяют следующие статистические критерии: • ~ -квадрат; • Омега-квадрат, или тест Крамера-Мизеса, Смир- нова-Крамера-Мизеса; • • Тест Колмогорова-Смирнова; W-тест Шапиро-Уилкса. Сущность этих критериев в едином подходе к провер ке гипотезы нормальности: а) рассчитывается уровень значимости р, соответству ющий полученному значению статистики критерия; б) если р > 0,05, то нулевая гипотеза принимается, а альтернативная - отклоняется. В таких случаях иногда выводится сообщение р = ns (незначим); в) если р < 0,05, то гипотеза о нормальности распре деления отклоняется, соответственно принимается альтернативная. В таких случаях наиболее подходит критерий Хи-квад рат: 2 'Хэмnupuч. =~ L..J m=l (f:Мnupuч. - f~ )2 .(; Jm , _2 где Медицинская статистика k- количество разрядов признака (интервалов, на ко торые разбивают вариационный ряд; порядковый но- i- мер разряда признака; f:Мnuрuч. - эмпирическая ~aCTOTa по i-MY разряду признака; f~ - теоретическая частота по ;-му разРЯДУ признака. Критерии согласия распределений имеют существенные ограничения по объему выборки: • для критерия Хи-квадрат • • для критерия Колмогорова-Смирнова - для критерия Омега-квадрат n>ЗО - n ; - n > 50 ; > 50. Если эти условия не выполнены, следует применять критерий Шапиро-Уилкса, предназначенный для выбо рок с численностью от 3 до 50 наблюдений. Рассмотрим задачи, иллюстрирующие применение раз личных методов проверки распределения на нормаль ность. Упражнение 3. • • • • • • • • • • • • • • • • • • • • • • • Проверка на нормальность (случай подтверждения нормальности для большой выборки, пакет Statistica). Дано: В плане комплексной оценки уровняработоспо собности предстояло проверить нормальность распределе ния показателей уровня распределения внимания по тесту Шульте-Платонова у студентов ДО начала работы. Алгоритм решения: 1. Выдвигаем статистические гипотезы: • Нулевую - об отсутствии отличий. • дльтернативную - о наличии отличий. 2. Запустим и его модуль (Основные статистики и табли цы) и введем данные в столбец, соответствующий перемен ной Уаr1. З. Выполним проверку на нормальность способами, рас смотре~ными выше. Глава 4. Приемы описатеnьной статистики " Сек. Nt Сек. Nt Сек. 37 57 55 56 73 39 62 58 38 39 58 58 56 57 66 54 74 75 53 - 63 22 45 48 58 54 45 55 59 55 51 76 23 40 41 77 64 50 24 55 42 59 53 78 54 7 51 25 55 43 59 6Q 61 45 79 44 8 51 26 45 44 56 62 50 80 45 9 33 27 56 45 49 63 53 81 55 10 44 28 56 46 59 64 49 82 55 11 55 29 66 47 66 65 47 83 55 12 55 30 56 48 67 66 44 84 66 13 14 43 44 31 47 49 67 60 85 66 32 57 50 63 46 68 62 86 56 15 16 55 55 33 57 51 44 57 66 52 30 67 66 87 34 69 70 88 57 17 45 45 35 36 67 53 - 54 30 30 71 72 65 55 89 90 37 39 NI Nt Сек. 1 46 19 55 2 59 49 20 21 5 49 50 6 3 4 18 Сек. 57 Nt Оценим выборочную совокупность 8ИЗУально по данны м гистограммы: • В стартовом окне модуля (Основные статистики и таб лицы) выберем команду (Описательные статистики). • В поле (Переменные) зададим переменную Уаг1, обо значающую время в секундах,. затраченное индиви дом на поиск чисел и цифр (от 1 до 25) ПО стандарт ной таблице теста Шульте-Платонова. • Выбрав команду (Гистогр,?мма), строим гистограмму эмпирического ряда, теоретическая ,кривая нормального распределения показывает их достаточное со ответствие. 4. Применим второй способ проверки на нормальность по оценке коэффициентов асимметрии и эксцесса: • В окне (Описательные статистики) выберем (Другие статистики) и установим флажки в поля (Асимметрия), 2. К. С. ЖИJl(ИН 14 Медицинская статистика (Эксцесс), (Стандартная ошибка асимметрии) и (Стан дартная ошибка эксцесса). • После нажатия ОК появляется таблица срезультата ми анализа: показатель асимметрии ошибка (0,254); ошибка (0,503). (-0,229) и его показатель эксцесса (-О,300) и его Как видим, оценки асимметрии и эксцесса имеют тот же порядок, что и ИХ ошибки, значит, полученные ненуле вые значения оценок асимметрии и эксцесса статистичес ки незначимы и нет оснований для отклонеНИ$l нулевой ги потезы, т. е. данные распределены по нормальному закон Гаусса. 5. Третий способ проверки на нормальность. Значитель ный объем выборки позволяет применить критерии Колмо- горова-Смирнова и Хи-квадрат. ' 6. Для применения теста Колмогорова-Смирнова в окне (Описательные статистики) ставим флажок в поле (Односто ронний критерий нормальности Колмогорова-Смирнова с поправкой Лильефорса). Это модифицированный вариант критерия Колмогорова-Смирнова, применяемый в ситуа ции, когда среднее и дисперсия заранее неизвестны, "то мы и И,меем по условию задачи. Построив rlo;lcтorpaMMY, видим результаты: критерий равен 0,076, причем данный резуль тат незначим (р> 0,20). Следовательно, согласно и этому тесту эмпирическое распределение не отличается от нор мального. 7. Вариант использования теста Хи-квадрат: • Запустим модуль (Непараметрические ,статиcrики и подгонка распределения) и в разделе его стартового окна (Непрерывное расrlределение) выберем (Нор мальное). • • В поле (Переменные) зададим переменную Vor1. Поскольку эдесь же можно выполнить расчетtal и по тесту Колмогорова-Смирнова, ставим флажок, оп ределяющий характер рассматриваемого распреде ления, в поле (Непрерывное). Глава 4. Приемы описательной статистики 1I После выполнения анализа появляется таблица с ре • зультатами: критерий Колмогорова-Смирнова, как = и ранее, равен 0,076 с р ns; критерий Хи-квадрат равен 5,093 при р = 0,532. Итак, в соответствии с теоретическими положениями о проверке гипотезы на нормальность из полученных резуль татов можно обоснованно заключить, что альтернативная гипотеза отвергается. Данные согласованы с гипотезой нор мальности. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • ••• Упражнение 4. • • • • • • • • • • • • • • • • • • • • • • • Проверка на HopMallbHoCТb (случай под"rверждения нормальности дпя большой выборки, пакет SPSS). Условия и установки те же, что и в предыдущей задаче Введем данные в первую колонку, назвав перемен SPSS. ную Уаг1. Выполним ripOBepKY на нормальность всеми тре мя рассмотренными способами. - 3. Визуальная оценка: выберем команды: (Статистики) (Подытожить) - (Частоты). Затем зададим переменную Уаг1 и, нажав на кнопку (Статистики), поставим флажки- в поля (Асимметрия) и (Эксцесс), объединяя проверку первым и вторым способом (с помощью оценок асимметрии и экс цесса): • Нажав на кнопку (Диаграммы), (Тип диаграммы), вы берем (Гистограмма).и поставим флажок в поле (С нормальной кривой); • выполнив анализ, в окне (Просмотр результатов) убеждаемся в СОВllадении эмпирической и теорети ческой; • в таблице (Статистики) имеем: (Покаэатель асиммет рии) 0,229, его стандартная ошибка 0,254; (Покаэа тель эксцесса) 0,300, его ошибка 0,503. 'в итоге: дан ные согласованы с гипотезой нормальнocrи."· .~ 4. Для третьего способа проверки (с помощью статисти ческих критериев) в главном меню пакета выберем: (Стати стики) .1 Медицинская статистика • (Подытожить) - (Исследовать). Нажмем на кнопку (Графики) и поставим флажок в поле (Графики с проверкой нормальности). После чего перейдем в окно (Просмотр результатов). В таблице (Ilроверка нормальности) имеем: критерий Кол могорова-Смирнова равен р и имеет значимость 0,076 = 0,200 с учетом поправки Лильефорса. Мы вновь вышли на результат, когда достоверные раз личия эмпирического и нормального теоретического распре делений отсутствуют. ОтВет: данные, полученные в па кете SPSS, оказались такими же, как в пакете Statistica. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Упражнение 5. • • • • • • • • · • • • • • • • • • • • • • • Проверка на нормальность (случай опровержения нор- мальности для большой выборки), пакеты SPSS, Statistica. УслоВие: решить предыдущую задачу с помощ.ью паке та SPSS, Statistica, исключив из исходных данных 50% на блюдений. Решение: 1. 1. Как обычно, выдвигаем альтернативные гипотезы. Применив пакет Statistica, повторив шаги 2-7 из решения предыдущей задачи, получим следующие резуль таты: • (Показатель асимметрии) - О, 142, его ошибка равна 0,309; • • (Показатель эксцесса) -1,154, его ошибка 0,608; критерий Колмогорова-Смирнова k = О, 166, оценка ее значимости с поправкой Лильефорса • критерий Хи-квадрат - 30,870 з. Применив для проверки пакет из решения . ... предыдущеи задачи, при р - р < 0,000; = 0,000. SPSS и повторив шаги получим следующие ре- зультаты: • оценки 110казатеnейасимметрии и эксцесса, а также их ошибок практически такие же, как и в пакете Statistica; Глава 4. • Приемы описательной статистики 17 критерий Колмогорова-Смирнова k = 0,166, оценка ее значимости с поправкой Лильефорса при р =0,000. ОтВет: результаты проверки показывают, что эмпири ческие данные не согласованы с гипотезой нормальности. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Упражнение 6. •.• • • • • • • • • • • • • • • • • • • • • • Проверка на нормальность (случай подтверждения нормальности для малой выборки, SPSS, Statistica. УслоВие: найти, соответствуют ли полученные эмпири ческие данные моторной плотности учебных занятий нор мальному закону распределения. Nt % 1 60 2 3 4 5 6 75 40 55 68 70 7 80 8 9 10 40 ЗА 50 Решение: Выборка имеет малый объем (л = 10), в этой ситуации может помочь только критерий UJапиро-Уилкса. Все остальные операции аналогичны решениям предыдущих задач. Выдвигаем гипотезы альтернативные гипотезы: 1. ЗаllУСТИМ пакет Statistica и, выполнив 3-4-й этапы 11ре дыдущег·о алгоритма рещения, получим: • Визуализация показывает близость распределения к нормальному. • • дсимметрия, эксцесс, их ошибки: = 0,687; E.r = -1,192; As = -0,203; mAs = тЕх = 7,334. Порядок ошибок и покаэателей одина ков, поэтому причины для' отклонения нулевой rHll0- тезы нет. 3. Посмотрим, что даст использование критериев согла сия раСllределений: • В окне (Описательная статистика) модуля (Основные статистики и таблицы) установим флажок в поле (Кри терий Шаllиро-Уилкса). • Получаем гистограмму, в ее окне значение статисти ки критерия W = 0,967 при Р < 0,783. Это подтверж- Медицинская· статистика 18 дает гипотезу нормальности, т. е. альтернативная ги потеза отклоняется. 4. Проделаем те же операции в условиях использования пакета SPSS, выполнив шаги 2 и 3 из решения предыдущей задачи. В итоге получим: 1) Визуально подтвердить нормальность распределения трудно, в силу того, что графика пакета весьма сла бая. 2) Оценки показателей асимметрии, эксцесса и их оши бок совпадают с расчетами по пакету ~. Критерий Statistica. W-Шапиро-Уилкса 0,961 при р = 0,769. И хотя оценка значимости несколько отличается от по лученной в пакете Statistica, нулевая гипотеза подтвержда ется. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Упражнение 7. • • • • • • • • • • • • • • • • • • • • • • • Проверка на нормальность (опровержение гипотезы нормальноаи для малой выборки, пакеты SPSS и Statistica). УслоВие: проверить, соответствует ли нормальному за кону распределения процент точных остановок стрелки I'РИ бора при оценке реакции на движущийся объект (Р ДО) у молодых (18-19 лет) сборщиц изделий из мелких деталей: NI % 1 90 2 50 3 90 4 90 5 91 6 84 7 91 8 94 9 91 10 11 85 92 12 90 Решение: алгоритм аналогичен прежним задачам. 1. • В пакете Statistica получим: Визуально видны существенные отличия от нормаль ной кривой. • • 2. • Асимметрия, эксцесс, их ошибки: As = -3,145; mAs- 0,637; Ех = 10,340; mи Критерий W-Шапиро-Уилкса Т о же самое в пакете 0,479, р 1,232. < 0,000, SPSS: Визуально существенные отличия от нормальной кри вой. Глава 4. Приемы описательной статистики • 19 Оценки асимметрии, эксцесса и их ошибок совпада ют с полученными в пакете • Statistica. Критерий W-Шапиро-Уилкса 0,479, р = O,o~o. Резюме: данные противоречат гипотезе нормальности. Выявление различий в распределениях приэнака Для этой цели применяются модифицированные вари анты критериев КОЛМQгорова---Смирнова и Хи-квадрат Пир сона. Критерий Хи-квадрат обладает значительным полимор физмом использования: для проверки гипотез независимо сти, согласия и др. В данном случае формула критерия ДЛЯ оценки достоверности различий между двумя выборочны ми распределениями в общем случае (ДЛЯ выборок разного объема) имеет следующий вид: .х 2 I = э.мnUРU'f. nl где Л 1 -Л2 - выборки; риационный ряд; р - ·n2 ~ (nJ~ -n2р:)2 .L.J ;=1 ; РI ; . Р2 k - интервалы, на которые разбит ва частоты. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Упражнение· 8. • • • • • • •• • • • • • • • • • • • • • • • Сравнение двух эмпирических распределений при помощи критериев Колмогорова-Смирнова и Хи-квадрат (пакет SPSS). УслоВие задачи: Определить различия в распределении показателей уровня эмоционального напряжения в выбор ках студентов NF.и SP - . темпераментов по Д. КеЙрси . NF SP '. N2 NF SP 29 36 26 43 35 25 48 30 35 25 44 37 30 34 35 31 37. 30 45 з6 35 21 34 32 35 65 46 35 80 NI NF SP N2 NF SP 1 35 12 15 53 65 2 46 23 16 23 3 24 34 17 4 34 51 18 Медицинская статистика 40 Окончание табл. N2 5 6 7 8 9 10 HP 2 30 11 13 12 13 14 35 78 4в 47 вз 42 з4 .ЗР NI 4 19 67 89 56 12 22 25 43 20 21 22 23 24 88 78 25 26 27 28 HP 35 40 37 42 39 36 41 38 43 Э5 ЗР NI 21 79 23 24 56 27 33 34 35 36 37 38 28 20 50 15 ЗР 39 HP 35 35 37 36 36 35 35 40 41 35 35 42 эв 75 40 85 29 45 40 55 60 35 70 N2 47 48 49 50 51 52 53 54 55 56 HP 35 35 ЗР зв в5 36 36 37 37 60 55 70 75 35 37 50 85 35 80 45 50 1.' Выдвигаем альтернативные гипотезы: об отсутствии и о наличии различий. . 2. В стартовом окне SPSS флажком выберем (ввести данные). Поскольку объемы выборок значительны (n = 56), при меним критерии Колмоrорова-Смирнова и Хи-квадрат. Здесь нужна группирующая переменная, в связи с чем таб лицу организуем следующим образом: в первую колонку ( Var1) вставим данные первой выборки, а затем - второй. Во вторую колонку (Var2) вставим значение группирующей переменной, равное 1 ДЛЯ первой выборки и 2 ДЛЯ второй. з. Выберем команды: (Статистики) - (Непараметричес кие критерии) - (Две независимые выборки). Потом откро ем окно - (Критерии для двух независимых выборок) в нем: • зададим в поле (Список проверяемых переменных) переменную • Var1: в поле (Группирующая переменная)укажем Var2. За тем с помощью кнопки (Определить группы) введем значения групп 1 и 2; • выберем применяемый для проверки критерий (тест Колмогорова-Смирнова). 4. Нажав на кнопку ОК, выполним проверку и перейдем в окно (Просмотр результатов). В таблице (Результаты тес- Глава 4. Приемы описательной статистики 4' та) найдем значение (Статистика критерия Колмогорова Смирнова) 2,268. При этом значение (Асимптотический двух сторонний уровень знаЧИМQСТИ) равно 0,000, т. е. установ лен факт достоверных различий в эмпирических распреде лениях. 5. Используя критерий Хи-квадрат в главном меню па кета, выберем команды: (Статистики)' - (Подытожить) (Таблицы сопряженности). В открывшемся окне таблиц со Гlряженности в поле (Строки) введем основную переменную Voг1, в которую записаны исходные данные из обеих выбо рок; в лоле Column(S) (Столбцы) введем группирующую пе ременную Voг2. 6. Выберем команду (Статистики) и флажком зададим (Хи-квадрат). 7. Проверим результаты (ПРОСМОТР результатов). В таб Ilице (Результаты теста Хи-квадрат) в строке (Хи-квадрат Пирсона) найдем -(Значение) статистики критерия (Асимп тотический двухсторонний уровень значимости) 0,001, он свидетельствует о достоверности различий, вследствие чего нулевая гипотеза отвергается. Уровни эмоционального на пряжения существенно отличаются. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Упражнение 9. • • • • • • • • • • • • • • • • • • • • • • • Сравнение двух эмпирических распределений ГlрИ по- мощи критериев Колмогорова-Смирнова и Хи-квадрат (пакет Statistica). Решенu~: 1. Выдвигаем статистические гипотезы: • Но - об отсутствии взаимных различий между рас пределениями эмпирических данных; Н, - о наличии таких различий. 2. Запустим пакет Statistica, переключимся в модуль (Ос • новные статистики и таблицы). Последовательно выберем команды (Файл) - (Новые данные) и зададим имя и марш рут размещения и хранения файла. Введем исходные данные: в первый столбец (Voг1) за пишем сначала данные первой выборки, а затем - второй. Медицинская статистика 4:1 Во втором столбце (Var2) укажем значение группирующей переменной, равное 1 для первой выборки и 2 для второй. Как отмечалось в ре~ении предыдущей задачи, доста точные объемы выборок (n > 50) позволяют использовать для сравнения двух распределений критерии Колмогорова Смирнова и Хи-квадрат. з. Использование критерия Хи-квадрат: в стартовом окне модуля (Основные статистики и таблицы) выберем команду (Таблицы и заголовки). 4. В открывшемся окне (Определить таблицу) выполним следующее: • В поле (АнагIИЗ) оставим значение, (Таблицы СОI"IРЯ женности). • В блоке (Многовходовые таблицы сопряженности) нажмем на кнопку (Определить таблицу) и в окне вы бора переменных зададим в первом списке во втором • - Var1, а Var2. Жмем кнопку ОК, переходим в окно (Результаты по таблицам сопряженности). Здесь в (Статистика для двухвходовых таблиц) поставим флажок в поле (Хи квадрат Пирсона) и активизируем кнопку (Подробные двухвходовые таблицы). • В окне результатов видим (Хи-квадрат Пирсона), рав ный 80,914 при Р = 0,001. Результат показывает зна чимые отличия в распределениях рассматриваемых выборок. 5. Следующий вариант анализа - использование теста Колмогорова-Смирнова. Закроем все рабочие окна пре дыдущего анализа (кроме окна таблицы данных) и в глав ном меню нажмем кнопку (Анализ) - (Другие статистики), переключимся в модуль (Непараметрические статистики и подгонка распределения). 6. Откроется окно, в котором выберем команду (Двух выборочный тест Колмогорова-Смирнова). В нем зададим зависимую переменную переменную Var2, Var1 и независимую, группирующую а также коды ДЛЯ каждой из групп: ,1 и 2. Глава 4. Приемы описатепьной статистики 41 После нажатия кнопки ОК на экран дисплея выводится таблица с результатами анализа, где показаны: уровень зна чимости различий по тесту Колмогорова-Смирнова и р < 0,001, на основании чего эмпирические распределения значимо отличаются. Резюме: при применении пакетов Statistica и SPSS вы явлены идентичные и статистически значимые отличия в рас пределениях эмпирических данных. -. • • • • • • • • • • • • • • • • ! • • • • • • • • • • • • • • • • ГлаВа 5--------- КРИТЕРИИ РАЗЛИЧИЙ В УРОВНЕ ПРИЗНАКА Задача оценки различий признаков - основа клини ко-диагностического и профилактического процессов в медицине. Для выявления таких различий в математичес кой статистике разработаны высокоэффективные крите рии: параметрические (Стьюдента, Фишера и др.) и непа раметриче"ские. Как мы уже отмечали, параметрические критерии требуют выполнения условия нормальности, что для реальных эмпирических данных часто не выполняет ся. Поэтому чаще врачи-практики, да и научные сотруд ники, внимание уделяют непараметрическим критериям, которые не предполагают соответствия эмпирических дан ных какому-либо теоретическому закону распределения. Безусловно, в случае нормального распределения эм пирических данных параметрические критерии являются более моwными по сравнению снепараметрическими. Поэтому в обwем случае исследователь должен сначала выполнить проверку на нормальность распределения и лишь затем, в зависимости от ее результатов, принимать решение о выборе статистического критерия. Все статистические критерии выяв.ления различий ~ уровне исследуемого признака (параметрические и непа раметрические) можно разделить на две основные группы: Глава 5. • • Критерии раJПИЧИЙ в уровне признака 41 для двух выборок; для трех и более выборок. Рассмотрим особенности этих двух rpупп критериев. Наиболее популярным параметрическим критерием для сравнения двух выборок является t-критерий Стьюдента для независимых выборок. Вариант критерия, используемый в SPSS и Statistica, предназначенный для сравнения средних величин выборок, ориентирован на проверку гипотезы од нородности О том, что выборки извлечены из одной и той же генеральной совокупности. При этом предполагается, что обе выборки извлечены из генеральных совокупностей, имеющих нормальные рас пределения. На практике получается, что критерий Стьюдента при больших объемах выборок устойчив к от клонениям от нормальности. В том же случае, когда выборки взяты из иных сово купностей, истинные значения признаков стРого говоря, должны оцениваться с помощью специальных приемов. Исходя из этого критерий Стьюдента требует нормально сти распределений выборок. для корректного использования критерия Стьюдента необходимо иметь представление о дисперсиях генераль ных совокупностей. Здесь же может быть несколько ва риантов: • • • дисперсии известны и равны; дисперсии известны, но неравны; дисперсии неизвестны, но предполагается их равен ство; • дисперсии неизвестны, их равенство не предпола гается. Могуг случаться и такие ситуаuии, когда исследователь сталкивается с равными и неравными объемами выборок, а также свя~нных и нес вязанных выборок. В медико-био логических исследованиях дисаерсии генеральных совокуп ностей большей частью неизвестны, но предполагается их равенство ме.>.КдУ собой; и выборки могут иметь различные .8 Медицинска. аатмCl1tо объемы. В этом случае статистика критерия Стъюдента вы числяется по следующей формуле: XI-X2 t ЭAlllUpu'l. =--=.-=~"'===" 2 JRll ' s -+-. n) где х - ni- - n2 средние значения выборок; объемы выборок; объединенная оценка выборочной дисперсии, формула ·которой показана ниже: s2 = Sl2 • (л. -1)+si .(~ -1) , л. +~-2 Выборочные дисперсии получаем по следующим фор мулам: s~;L(п:-х;)2 л.-l и sf; L(~ _~)2. "2 -1 Не менее поПулярен другой параметрический крите рий - F-критерий Фишера. Эroт прием обработки стати стической информации используют при проведении дис персионного анализа при отыскании npичинно-следствен ных связей между анализируемыми признаками. И мы обсудим проблемы его использования чyrь позднее. Из непараметрических критериев для сравнения двух выборок популярен U-критерий Манна-Уитни. Надо признать, что в медико-биологических исследованиях эта группа методик сгатистической обработки данных исполь зуется слабо. И причина такоro игнорирования совершен но не поддается осмыслению, поскольку именно крите- Глава 5. Критерм.. рам....й • .7 уровне ПРМЭNaка рий Манна-Уитни практически не имеет ограничений на объемы выборок (уже одно то, что анализ можно вести, имея всего три измерения (!) говорит само за себя). По мимо этого он позволяет сравнивать выборки разного объема. Критерий легко адаптировать ДЛЯ проверки нулевой гипотезы о том, что средние значения двух выборок не отличаЮТСЯ дрyr от друга. Он - непараметрический ана лог критерия Стьюдента для независимbIX выборок, не критичен к нормальности распределения, поскольку ос нован на paHrax наблюдений. Для применения критерия Манна-Уитни данные выборок временно объединяют и ран:жируют, а затем подсчитывают суммы paHroB, получен ные для каждой выборки_ Статистика критерия вычисля ется по следующим формулам: и ЭIIIfIIJIIl.· =. +nx -(nх +l)_D ". IIJ. . 2 .1. 'шах , R.... =rnax(R. +~). где n l ;! - объемы выборок, R ,.2 - суммы рангов по выборкам, Rпrц n ж - наибольшая из двух ранговых сумм, объем выборки, имеющей наибольшую сумму ранюв. )',,~~,,~ IlJ. • • • • • • • • • • • • • • • • • • • • • • Та.е задача примеllellие критерия Стыодента дNЯ ВЫ- явnения ра3Пичий в уровне ИСО1едуемого приэнака дnя двух несвяэанных выборок (naкет Statistica) Решение: 1. Выдвигаем альтернативные гипотезы. 2. ЗапуСТИВ пмет, neреКI1IОЧИМСЯ В модуль (Основные статистики и таблицы). 3. В главном меню naкeтa выберем команды (Файл) (Новые данные) и зададим имя и маршрут размещения фай- •• МеДИЦИНСКёlЯ статистика ла данных к этой задаче. Затем введем данные по выборкам в отдельные столбцы: 1 - для первой и 2 _. для второй. 4. Выполним проверку нормальности расl1реде.лениЙ ана логично решеНИI9 .ранним задачам. Для каждой выборки в окне ее гистограммы получаем статистику Шапиро-Уилк са и оценку ее значимости, как и предыдущем при мере. По скольку нормальность распределений подтверждена,· для сравнения выборок можно применить параметрический кри терий Стьюдента. 5. Для этого в окне модуля (Основные статистики и таб лицы) (Тест для независимых выборок). 6. В диалоговом окне теста выполним следующее: • В поле (Исходный файл) выберем (Каждая перемен ная содержит данные одной групп'ы). Второе возмож ное значение здесь - (Совместная запись наблюде ний групп, использующая группирующую перемен ную) - применяется, когда выборки записаны в общий столбец. • Нажав кнопку (Переменные, или группы), расставим 'в списках переменные • 1 и 2. В блоке (Параметры) поставим флажок в поле (Тест с раздельным оцениванием дисперсий выборок) в силу того, что мы не делали предположения о равен ~TBe этих ДИС11ерсиЙ. После чего, нажав ОК, возвра тимся в окно теста и нажмем на кнопку (тестирова ние). 7. В 110явившейся таблице результатов анализа даются два значения критерия и соответственно две оценки его уровня значимости. Именно второе значение критерия (Тест с раздельным оцениванием дисперсий выборок) нам и нуж но. И хотя оценка его значимости «р» (р-двухстороннее), совпадает с предыдущей, в общем случае мы должны ори ентироваться именно на нее. Таким образом, полученный результат вновь показывает отсутствие значимых отличий в средних значениях выборок. И это означает, что статисти~ чески значимые различия в выборках отсутствуют. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Глава 5. •• Критерии раsяичий в.уровне приэнака СРАВНЕНИЕ ТРЕХ И БОЛЕЕ ВЫБОРОК Для этой цели используется достаточно популярный критерий Краскела-Уоллиса, Он является непарам~три ческим аналогом однофакторного дисперсионного анализа и предназначен, в частности, для проверки нулевой гипо тезы об однородности распределений выборок. Его расчет ведется по формуле ". Н= где 12 N (N + 1) k R;2 'L--3(N-l), 1=1 11; R - сумма рангов наблюдений l-й группы; n - число групп; N- общая численность наблюдений. Упражнение 11. • • • • • • • • • • • • • • • • • • • • • • Применение критерия Стьюдента для выявления раз- личий в уровне исследуемого признака для двух незави симых (несвяэанных) выборок (пакет SPSS). Процент положительных исходов оперативных вмеша тельств на позвоночнике по ПОВОДУ остеохондроэа люмбаль ного отдела В двух ХИРУРГll!ческих отделениях. NI OrA1 Orд2 NI Orд1 Orд2 1 40 44,2 6 47,6 49,6 2 35,8 37 7 42,8 43,2 3 41,2 38,8 8 39,6 40,6 4 44 44,2 9 36,8 37,4 5 42,8 43,4 10 45 46,2 Решение: 1. Выдвигаем альтернативные гипотезы: нет различий, есть различия В результатах работы отделений. 2. Запустим l1акет SPSS, проверим выборки на нормаль ность распределения аналогично решению предыдущей за дачи, введем исходные данные по каждой выборке в отдель ный столбец. Медмцмнска. статмстмка 50 3. В силу малого объема выборок ориентируемся на кри терий Шапиро-Уилкса, получим результаты, подтвержда ющие нормальность распределений: ДЛЯ выборки = 0,980; р = 0,961, ~ = 0,953; р = 0,671. W1 = 4. Поскольку мы получили удовлетворительные данные о нормальносги выборок, можно использовать критерий Стьюдента. ДлЯ этого надо внести данные выборок в один общий столбец (например, V ог3), ИСПОЛЬЗУЯ группирующую пере менную Vor4 со значением 1 ДЛЯ первой выборки, и 2 - ДЛЯ второй. Отредактируем данные, опираясь на опыт, при обретенный из прошлых заданий. 5. В главном меню 11акета выберем команды: (Статисти ки) - (Сравнение средних) - (Т-критерий ДI1я независи мых выборок). 6. В окне Т-критерия введем в поле (Проверяемая пере менная) значение VогЗ, в поле (Группирующая переменная) - Var4, нажмем кнопку (Определить группы), уcrановим для группирующей переменной значения 1 и 2 и нажмем (Про Должить). 7. Выполним проверку, нажав ОК, перейдя в окно (Про смотр результатов). В таблице (Тест для независимых вы борок) (t-Tecг для равенства средних) найдем -0,525, (Зна чимость двухcrоронняя: paвeHcrвo и неравенство дисперсий) - 0,606. Заметим,что сейчас более корректным является второй вариант, поскольку у нас не было никаких предпо ложений относительно дисперсий выборок. В реЗУ/lьтате все говорит в пользу нулевой гипотезы 06 отсутствии статистически достоверных различий в средних значениях эмпирических распределений. Из этого следует. что статистически значимые различия между уровнями по ложительных исходов оперативных вмешательств' в анали зируемых выборках отсутствуют• . . . . . . . . . . . . . ..-.................. . - Глава 5. Критерии раэ.nичиЙ • )'~"Jf~ 1~. 5t уровне приэнака • . • ., • . . . • • • • · • • • • • • • • • Применение кр~ерия Крааела-УОlUIиса ДПЯ ВЫЯвле НИЯ paзnичий 8 уровне приэнака (naкет Statistica). Услo8uе: установить степень достоверности отличий чис ла допущенных ошибок по корректурному тесту Анфимова в трех исследуемых группах студентов перед началом лон гитудинanьного эксперимента по изучению умственной ра ботоспособности. • NI 4 8 1 3 4 •5 5 9 4 4 5 6 10 4 2 3 5 11 5 7 5 6 8 6 6 3 12 13 7 3 2 3 14 L!!1 1 D 3 4 4 4 3 4 5 ~ 1. NI I 11 111 15 О 5 5 6 16 О 4 7 4 7 17 5 4 5 4 18 4 3 3 8 9 5 6 3 2 3 19 20 2 3 6 3 2 4 3 3 О 21 4 4 2 4 Решение: 1. Выдвигаем альтернативные гипотезы. 2. Запустим naкeT Statistica, neреключимс.я в модуль (Не параметрические статистики и подгонка распределения). Введем данные, используя ДЛЯ всех выборок одну и ту же переменную Var2 Var1 и при мени в группирующую переменную с кодами: 1 ДЛЯ выборки 1, 2 - ДЛЯ 11, 3 - ДЛЯ 111. 3. В стартовом окне модуля выберем команду (Однофак торный дисперсионный анализ Краскела-Уоллиса и тест медианы). В диалоговом окне данного теста зададим зави симую переменную Var1 и независимую, группирующую Var2. 4. Нажав кнопку (Метки), зададим в окне (Метки) значе ния rpупп: 1-3. Затем возвратимся в основное окно теста. 5. Нажав ОК, получим результаты тестов: 0,019 и уро вень значимости р == 0,99. Ответ: статистически достовер ных ОТЛИЧИЙ между выборками в уровне исследуемого при знака не выявлено. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Медицинская статистика 5:1 Упражнение 13. • • • • • • • •. • • • • • • • • • • • • • • Проделаем ту же операцию оценки в пакете SPSS. 1. Выдвигаем альтернативные гипотезы. 2. Запускаем пакет SPSS. 3. Выбираем (Непараметрические критерии) - ( k-неза висимых выборок). 4. ную в открывшемся окне задаем проверяемую перемен 1и группирующую пирующих -2, тут же переменных: 1-3. определяем метки груп 5. Устанавливаем флажок в окошке метода анализа Краскела - Уоллеса. 6. Нажимаем ОК и получаем результат анализа: 2,234 и р = 0,311. _ Резюме: при данных результатах нулевая гипотеза об отсутствии различий в изучаемых признаках принимается. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Глава 6 КРИТЕРИИ СДВИГА В ИЗУЧАЕМЫХ СОВОКУПНОСТЯХ ПАРАМЕТРИЧЕСКИЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ Оценка достоверности сдвига в изучаемых совокуп ностях для связанных выборок, понятие сдвига в иссле дуемом признаке, а также оценка их разновидностей для медико-биологических исследоваIЩЙ - все это в подав ляющем большинстве случаев основные определяющие при установлении научной истины. Естественно, что сре ди подобных методов есть как параметрические, так и не параметрические. Ведущим из параметрических критериев является вари ант t-критерия Стьюдента, из непараметрических - Т -кри терий Вилкоксона. Рассмотрим применение последнего более подробно. В случае применения одностороннего критерия Вил коксона нулевая гипотеза утверждает, что интенсивность сдвигов в типичном направлении не превосходит интен сивности сдвигов в нетипичном; соответственно альтер нативная гипотеза утверждает обратное. Для двухсторон него критерия Вилкоксона нулевая rипотеза формирует идею об отсутствии эффекта направленного воздействия, альтернативная - о присутствии такого эффекта. Медицинская статистика S4 Алгоритм получения значений критерия Вилкоксона: 1) определяются «сдвиги) разности между парными значениями выборок и преобладающее направле ние; 2) 3) величины абсолютных сдвигов ранжируются; вычисляется сумма рангов, соответствующая сдви гам в нетипичном (более редком) направлении; полученное значение критерия сравнивается с кри 4) тическими (табличными) значениями, соответству ющими определенным уровням значимости (р = 0,01 и = 0,05); в зависимости от этого принимается или отклоня 5) ется нулевая гипотеза. Аналитическая формула расчета такова: тэмnuрuч. = L R; , iE/um R. - где I 1- ранги довольно редких сдвигов; совокупность таких сдвигов. Упражнение 13. • • • • • • .. • • • • • • • • • • • • • • • Применение критериев _Стьюдента и 8иnкоксона ДЛЯ Вblявления достоверности сдвига исследуемого признака (11aKeT SPSS). Условие: найти, вызывает ли выбранная тактика лече ния изменения в длительности сердечного цикла у одного и того же человека до и после купирования острой сердечной недостаточности. До 0,91 0,71 0,73 0,82 0,67 0,89 0,9 0,77 0,78 После 0,92 0,74 0,71 0,83 0,92 0,89 0,93 0,86 0,85 Решение: 1. • Выдвигаем статистические гипотезы: сдвига в типичном направлении после прохождения лечения в сравнении с нормой не будет зафиксиро вано; Глава б. Критерии сдвига в изучаемых совокупностях • интенсивность сдвига в типичном 55 направлении пре взойдет или будет ниже интенсивности сдвига в нети пичном. r Примечание. В соответствии с требованиями за дачи наwи гипотезы сформулированы в односторон ней форме, поэтому их проверка требует соответ- \,. ственно одностороннего критерия. ~ 2. Запустив пакет SPSS, введем исходные данные: для выборки А - в первый столбец (Уаг1), ДЛЯ В - во второй ( Уаг2). Поскольку параметрические критерии (при соблюдении нормальности распределения признаков) являются более мощными по сравнению с непараметрическими, логично сна чала применить парный критерий Стьюдента. Для этого надо проверить нормальность выборочных распределений, как это делалось в упражнениях, приведенных в самом начале данной книги. Выполнив такую проверку, согласно крите рию Шапиро-Уилкса считаем, что распределения выборок не отличаются от нормального и мы можем с полным rlpa- вом применить парный критерий Стьюдента. з. Критер~й Стьюдента: выберем команды (Статистики) - (Сравнение средних) - (Т-критерий для парных выборок). 4. В окне критерия зададим (l1арные переменные). На жав на кнопку ОК, перейдем к· окну (Просмотр результатов). В таблице найдем значение статистики критерия Стьюден та, а в поле (Значимость двухсторонняя) видим уровень зна чимости, равный 0,000. Полученные результаты выявляют наличие статистически достоверного сдвига в .распределе нии признака, однако они относятся к двухсторонней гипо тезе, утверждающей, что отличия достоверны, но не фикси рующей их направления. В последнем случае уровень зна чимости для- сформулированной при решении задачи односторонней гипотезы будет в два раза меньшим. ~аким образом, нулевая гипотеза отклоняется. Медицинская статистика 56 5. Поскольку для медико..,биологических данных усло вия применимости параметрического критерия Стьюдента часто не выполняются, для сравнения тут же рассмотрим использование непараметрического критерия Вилкоксона. Для этого в главном меню пакета выберем команды: (Стати стики) (Непараметрические критерии) - - (2 связанные выборки). б. В окне критериев для связаННЬ.IХ выборок зададим 11еременные 1-2, выберем тип критерия -·(КритериЙ Вил коксона). 7.. Нажав ОК, перейдем в окно (Просмотр результатов). Данные, полученные нами, недостове.рны. В пакете SPSS дЛЯ этого критерия также реализован двухсторонний вари ант, однако, оценив одностороннюю значимость аналогич но тому, как это было сделано выше для критерия Стью дента, мы можем утверждать, что нулевая гипотеза отвергается • • • • • • • - Но не . • • • • • • • • • • • • • • 8.8 ••••••••••• Упражнение 14. • • • • • • • • • • • • • • • • • • • • • • Применение критериев Стьюдента и 8илкоксона ДЛЯ выявления достоверности сдвига признака (Statistica) этой же задачи. Решение: 1. Дналогично выдвигаем односторонние гипотезы. 2. Запустив пакет (Statistica), переключимся в модуль (Ос новные статистики и таблицы). Выберем команды (Файл) (Новые данные) и зададим имя и маршрут размещения фай ла. Затем введем данные 110 выборкам в oTAe/lbHbIe столб цы: 1 и 2. з. Выполним проверку нормальности по критерию Ша пиро- Уилкса. Данные результаты дают основания приме нить парный критерий Стьюдента. 5. В окне модуля (Основные статистики и таблицы) выбе рем (Т-тест ДЛЯ зависимых выборок). В окне теста с помо щью кнопки (Переменные) зададим в первом списке Vaг1, а во втором Vaг2. Затем с помощью кнопки (Т-тестирование) выполним проверку. Получим значения совершенной иден- Глава б. Критерии сдвига в изучаемых совокупностях 57 тичности выборок. Исходя из данной двухсторонней оценки значимости аналогично делаем вывод о том, что и односто ронняя значимость удовлетворяет принятым статистическим требованиям. Тогда нулевая гипотеза не отвергается . . б. Выполним-проверку по критерию Вилкоксона. Для этого переключимся в модуль (Непараметрические статис тики и подгонка распределения). 7. В стартовом окне модуля выберем команду (Парный тест Вилкоксона). В диалоговом окне данного теста зада дим переменные Var1 и Var2 и нажмем ОК. В таблице результатов теста найдем низкие значения критерия и уровня значимости. В результате приходим к выводу, что сдвиг не достоверен. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • ••• Упражнение 15. • • • • • • • • • • • • • • • • • • • • • • Применение парного критерия Стьюдента для определения достоверного сдвига, не выявляемого с помощью критерия 8иnкоксона (naKe"rbI SPSS и Statistica). УслоВие: Определить, имеются ли изменения вибраци онной чувствительности у подростков, осваивающих массо вую рабочую профессию сборщика изделий из мелких де талей, до и после работы. Вибрационная чувствительность в Гц До работы 46 49 49 49 - 50 50 51 51 51 53 53 Посnе работы 44 50 48 50 48 52 50 50 50 54 52 МедицинскаR статистика 58 Окончание табл. До работы После работы 50 53 54 55 54 59 55 55 53 57 55 55 55 54 55 56 55 57 55 58 59 55 55 55 55 55 56 56 56 56 66 58 64 65 66 67 68 59 69 66 59 65 59 63 59 63 65 68 1. Выдвигаем гипотезы: сдвиг в показателях виброчув ствительности до и после работы недостоверен, сдвиг дос товерен. 2. Запустив пакет SPSS, введем исходные данные для выборки А в первый столбец, для В - во второй. Сначала определим достоверность сдвига по критерию Вилкоксона. (Асимптотическая двухсторонняя значимость) равна 0,062, Т. е. согласно данному критерию сдвиг статис тически недостоверен (не удовлетворяет уровню значимос- 51 Глава б. Критерии сдвига в изучаемых СОВОКУПНОСТЯХ ти 0,05), т. е. альтернативная гипотеза должна быть отверг нута. 3~ Как известно, если эмпирические данные распреде лены по нормальному закону, то параметрические критерии являются более мощными по сравнению с непараметричес кими. Исходя ИЗ этого, ПОl1робуем использовать парный кри терий Стьюдента, но необходимо проверить соответствие распределения данных нормальному закону. Длгоритм та кой проверки в пакете SPSS мы уже рассматривали. 4. Применив критерий Стьюдента, получим, что распре деления далеки от номальности, поэтому данные до и пос ле проведения исследования достоверно отличаться не мо гут и нулевая гипотеза не отвергается. Как видим, даже в такой ситуации критерий Стьюдента выявил недостоверность сдвига, хотя критерий Вилкоксона способствовал этому . . Это и есть ИЛ/lюстрация БО/lьшей мощности параметри ческих критериев для ситуаций, когда их применение явля ется корректным, а объем выборки - достаточно большим. 5. Применим для решения пакет SPSS. И получим: а) статистика Вилкоксона р -3,419, соответствующее ей = 0,001; б) при проверке нормальности статистика Колмогоро ва-Смирнова оказалась недостоверной; в) статистика парного критерия Стьюдента тоже. На ос новании полученных результатов можно говорить о том, что не существует достоверного сдвига ·показа телей виброчувс,!вительности. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Упражнение .16. • • • • • • • • • • • • • • • • • • • • • • Применение критерия 8илкоксона ДЛЯ определения до- cтoвepHoro сдвига, не выявляемого в малой выборке с по мощью парного критерия Стьюдента (пакеты SPSS и Sta- tistica). Услo8uе: Можно ли утверждать, что посnе вакцинации против гриппа показатели ПО.9ярографическоЙ активности фильтрата сыворотки крови двух групп детей (А и Б) отли ЧАIOТСЯ АРуг от АРу га? Медицинская статистика 80 Nt А В Nt А В 1 '18,5 7 17,5 26 2 16 25.5 21 8 24 Э 20,5 22,Б 9 15.5 16,6 4 18 22 10 18 5 15.,5 19,5 11 6 16 19,5 12 19,9 17,7 22.2 21,1 19,9 22,2 Решение: ВЫД8иr-a.ем альтернаТИ8ные гипотезы: нет сдвига, есть 1. СД8ИГ в показателях активности фильтрата сыворотки крови. Запустив пакет 2. выборки А SPSS, введем исходные данные для - в первый столбец. для В - во второй. ПримеНИ8 алгоритм решения предыдущей задачи, по 3. 'лучим следующие результаты проверки: проверим нормальность распределений по тесту Ша • пиро""':Уилкса; • рассчитаем достоверность сдвига по парному тесту Стьюдента: изменине активности на грани достовер ности инедостоверности; проверим достоверность сдвига по тесту Вилкоксо • на: -3,300 при двухстороннем р = 0,001. Следова тельно, односторонний уровень р'= 0,001/2 =0,0005, т. е. с высокой степенью достоверности можно утвер ждать, что нулевая гипотеза об ОТСУТСТ8ИИ различий сравниваемых выборок должна быть отвергнута. Раз личие статистически зафиксировано. И хотя применение параметрического критерия Стью дента в данном случае является корректным, в силу мало го' объема выборки более мощны~ оказался непараметри,,:, ческий критерий Вилкоксона, который позволил 8ЫЯВИТЬ достоверный сдвиг в сторону повышения активности сыво ротки. 4. Теперь применим для решения этой же задачи пакет Statistica. Запустив его и применив алгоритм решения упражнения N2 21, получим следующие результаты: Глава б. Критерии сдвига 8 изучаемыx совокупностях • • • 1. тест Шапиро-Уилкса отрицателен; парный тест Стьюдента сомнителен; тест Вилкоксона высоко достоверен. Резюме: существует статистически достоверное увели чение показателей, причем данный сдвиг выявился при ис пользовании критерия Вилкоксона и был сомнителен при применении парного критерия Стьюдента. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • СРАВНЕНИЕ ТРЕХ И БОЛЕЕ ВЫБОРОК Для выявления достоверности сдвига применим кри терий Фридмана. Только надо помнить, что он не указы вает направления этих изменений. Критерий Фридмана вычисляется по одной из следу ющих формул, которые являются эквивалентными: или k 12 ~ 2 ( ) Х, = ( )LJRi -3n k+l . n·k· k-l /=1 2 Упражнение 17. • • • • • • • • • • • • • • • • • • • • • • Применение критерия Фридмана для определения достоверности сдвига исследуемого приэнака (пакет SPSS)~ Условие: исследовалась реакция переключения внима ния по таблице Шульте-Платонова у студентов четырех тем пераментных ГРУПl1 по Д. Кейрси: SP, SJ, NF, NT. Houmu: имеется ли достоверный сдвиг в показателях ско рост и (сек.) на отыскание 25 чисел и цифр? Решение: 1. Выдвигаем гипотезы: не существует достоверных различий в сдвиге исследуемого приэнака между выборка ми - такие различия существуют. МедиЦМНСКlfI статистика 82 . Типы темперамetml NR SP SJ NТ NF Время, сек. 1 42 56 58 45 2 42 44 44 61 3 79 70 63 4 69 65 62 67 5 50 50 64 49 6 7 45 6(i 56 42 43 55 66 70 8 45 44 55 66 9 10 46 51 45 67 40 45 60 66 ,. 56 2. Запустив пакет SPSS, введем данные' в отдельные столбцы (не используя группирующую переменную). 3. В главном меню последовательно выберем команды: (Статистики)--(Неnaраметрическиекритерии)--(k-связан ных выборок). 4. в окне критериев зададим сравниваемые переменные. В поле (Тип теста) флажком установим тип используемого критерия -- (Критерий Фридмана). 5. Нажав ОК, перейдем в окно (Просмотр результатов). В таблице (Результаты теста) найдем значение статистики критерия Фридмана 3,278 при асимптотической значимости 0,321. Из этих данных видно, что имеется сдвиг в распреде лении показателей между выборками, но показатель не очень выражен и нулевая гипотеза полностью не отвергает ся, самое целесообразное в данном варианте - увеличить объем выборки. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Упражнение 18. • • • • • • • • • • • • • • • • • • • • • • Применение критерия Фридмана дпя определения доcrовернocrи (ДВиrа (пакет Statistica). Реwение той же самой задачи с помощью пакета tica: Statis- Глава б. Критерии сдвига в изучаемых CoвoкynHOC11IX 1. &. Аналогично выдвигаем альтернативные статистичес кие гипотезы. 2. Запустив пакет, перекnючимся в модуль (Непарамет рические статистики и подгонка распределения) и введем данные в отдельные столбцы. 3. В стартовом окне модуля выберем команду (Qднофак торный дисперсионный анализ Фридмана и конкордация Кендалла). В диалоговом окне данного теста зададим ана лизируемые neременные и нажмем ОК, получая реЗУllьтаТbI проверки. 4. В таблице результатов теста найдем значение статис тики критерия (Хи-квадрат однофакторного дисперсионно го анализа), равное 3,278 при р = 0,350. ОтВет: результат такой же, как и в преДblдущем слу чае - статистически достовеРНblЙ сдвиг значений сомните лен, необходимо увеличение числа наблюдений. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • КРИТЕРИИ СОГЛЛСОВАННocrи ИЗМЕНЕНИЙ (КОРРЕЛЯЦИЯ И РЕГРЕССИЯ) Согласованность изменений признакЬв исследуется с помощью различных мер связи, которые традиционно разделяются на функциональные (точные) и корреляци онные (вероятностные или стохастические). В медико-· биологических исследованиях чаще встречаются связи BToporo типа, поэтому в качестве мер связи наиболее ча сто используются либо линейный коэффициент корре ляции Пиреона, либо ранговый коэффициент корреля ции Спирмена. Оба этих коэффициента принимают значения в пре делах от -1 до + 1. Естественно, в зависимости от знака при коэффициенте различают положительные и отрица тельные корреляционные связи. Нулевое значение коэф фициента означает отсyrcrвие связи; чем ближе абсолют ная величина коэффициента к 1, тем корреляционная связь сильнее (и ближе к функциональной зависимости). Таким образом, сила корреляционной связи определяется •• МеАицинская статистика значением абсолютной величины коэффициента корреля ции. Корреляция бывает общая и частная. Общая корреляция NI Тип связи п/п Сила.связи 1 2 Сильная. или тесная, связь Более Средняя связь От 3 4 5 Умеренная связь От Слабая связь От Очень слабая связь 0,70 0,5 до 0,69 0,30 до 0,50 0,20 до 0,29 Менее 0,20 Частная корреляция NI Тип связи п/п Уровень статистической значимости связи 1 Высокая. значимая корреляция р" 2 ЗН8Чимаякорреляция 3 4 Тенденция достоверной связи 0,01 до 0.05 0.05 < р" 0,10 0,10 < р Неэначимаякорреляция 0,01 Почему эти две юiассификации не совпадают? Общая классификация характеризует абсолютную величину ко эффициента корреляции (силу корреляции), а частная классификация выделяет уровень статистической значи мости - величину коэффициента корреляции при задан ном объеме выборки. В результате для малых выборок даже сильная корреляционная связь может оказаться .HEДOGTO ВЕРНОЙ; напротив, для БОJlЬШИХ выборок даже слабая СВJlЗЬ может оказаться ДОСТОВЕРНОЙ. В медицине и биологии в первую очередь ориентируются на частную корреляцию и лишь потом применяют для их ранжирова ния общую корреляцию. Наиболее распространен в исследованиях линейный коэффициент корреляции (коэффициент Пиреона, выбо рочный коэффициент корреляции, х.оэффициент корре ляции Бравайса- Пиреона). Он измеряет силу линейной корреляционной связи количественных признаков. Для Глава б. Критерии сдвига в изучаемых совокупностях 85 его вычисления сушествует ряд формул~ которые в теоре тическом плане эквивалентны. С теоретической точки зре ния каждый из указанных методов имеет определенные преимущества, но также и ограничения. К примеру, коЭффи~иент корреляции Пиреона дает «сбои», если не учитывать, что: • использование коэфФиuиента Пиреона оправдано тогда, когда совместное распределение пары при знаков нормальное или приближенно нормальное; игнорирование этого требования является ошибкой, часто встречаюшейся даже в научных публикациях; • "'" расчет коэффициента Пиреона предполагает в вы борках одинаковое количество измерений. П римеча,ние. Хочется предостеречь начинающих"' исследователей от часто cOBepweHHO неоправданного использования коэффициентов корреляции для отыс кания ПРИЧИННО-СЛЕДСТВЕННЫХ СВЯЗЕЙ между признаками. ЭТА ГРУППА КОЭФФИЦИЕНТОВ НЕ мо ЖЕТВСКРЫТЬ ПРИЧИНУ, I(ОЭФФИЦИЕНТЫ КОРРЕ ЛЯЦИИ ОПРЕДЕЛЯЮТ только НАПРАВЛЕНИЕ ИЗМЕ НЕНИЙ. Для объяснения причины существует иной \.. класс статистических методов обработки данных. Упражнение 19. • • .'. • • • • • • • • • • • • • • • • • • Применение линейной корреляции Пиреона дЛЯ ВЫЯВления'связи между переменными (пакет SPSS). УслоВие. Можно ли считать, что динамика возраста и уровень систолического кровяного давления у обследован ной группы женщин имеют общую направленность измене ний и определенную зависимость? не nJn 1 2 3 З. К. С. ЖижИН Возраст Давление 71 33 31 173 118 125 Медицинскаи статистика 55 Окончание табл. "1" Возраст Давление 4 55 155 5 63 153 6 49 160 7 58 148 8 38 142 9 36 110 10 64 142 11 45 128 12 160 13 68 42' 14 76 150 15 34 121 16 75 166 17 78 154 18 62 135 19 68 146 20 46 , 127 NI 136 Решение: Запустим пакет SPSS и введем в табllИЦУ ис ходные данные: «возраст» - в столбец 1,. «давление» - в столбец 2. 1. Выполним проверку нормальности рас;пределений выборок, в результате которой получим значения статисти ки UJапиро-Уилкса. Данные результаты подтверждают от носительную близость раСl1ределений к нормальному. 2. Теперь можем попробовать использовать для выявле ния связи линейный коэффициент корреляции Пирсона. Для этого в главном меню пакета выберем команды: (Статисти ки) - (Коррелировать) - (Парные корреляции). з. В окне парных корреляций зададим переменные 2, затем установим флажки в следующие поля: • в разделе (Коэффициенты корреляции) - 1и (Коэффи циент Пирсона), • в разделе (Проверка значимости) (Двухсторонний), - тип критерия - Глава 6. &7 Критерии сдвига в изучаемых совокупностях • пометим поле (Отметка значимых корреляций). 4. Нажав ОК, перейдем в окно (Просмотр результатов). (Коэффициент корреляции Пирсона) 0,762 на уровне 0,010 (Двухсторонняя значимость). В итоге выявлена сильная и высоко статистически значимая корреляционная связь меж ду рассматриваемыми показателями. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Упражнение 20. • • • • • • • • • • • • • • • • • • • • • • Расчет линейной корреляции впакете Statistica. Условие: то же. Решение: 1. Запустив модуль (Основные статистики и таблицы) IlaKeTa , введем данные в отдельные столбцы. 1. В стартовом окне модуля выберем команду (Корре ляционные матрицы). з. В открывшемся диалоговом окне зададим исследуе мые переменные 4. Отметим поле (Корреляционная матрица вать «р» и 5. 1 и 2. - показы «N»). Нажав на кнопку (Корреляции), получим коэффици ент Пирсона 0,778 при р = 0,0001. Резюме: и при применении пакета сильная корреляционная связь Statistica между выявлена рассматриваемыми показателями, причем как значение коэффициента Пирсо на, так и оценка его уровня значимости практически совпа дают с полученными ранее в пакете . . . . . . . . . . . . ..........SPSS. ........... . ' БОЛЕЕ ПОДРОБНО О РАНГОВОЙ КОРРЕЛЯЦИИ Данные медико-биологических исследований, если сбор данных организован по всем правилам математичес кой статистики и планирования эксперимента, обычно распределены по нормальному закону, но, как мы уже за метили~ достаточно часто. встречаются распределения, да леко отстоящие от нормальности или по своей сути, или из-за небрежности исследователя. Кроме того, зачастую &. Медицинская статистика измерения признаков выполняют не в интервальных, а в ПОРЯДКОВЫХ или номиналЬНЫХ шкалах. В силу этого применение коэффициента Пирсона ча сто является некорректным. Соответственно возрастает роль непараметрических мер оценки, среди которых наи более популярны различные ранговые коэффициенты кор реляции. Подобные коэффициенты выявляют связь меж ду переменными не непосредственно, а косвенно - через связь рангов, соответ.ствующих этим переменным. Среди них наиболее популярным является коэффици ент Спирмена. Ранговый коэффициент корреляции Спир мена (показатель ранговой корреляции Спирмена, пока затель корреляции рангов Спирмена, коэффициент кор реляции 'рангов) примсняется в случаях, когда изучается линейная связь не между самими вариантами, а между рядами их рангов, представленными в количественной или порядковой шкале. Формула ДЛЯ вычисления коэффициента Спирмена: Sp = ~('i -S; )2, где r, s В - массивы рангов анализируемых выборок; поправки на объединение рангов в анализируе мых рядах вариант. Расчет поправок: 1 т В; = 12~n;' (n; -1), [=l где j =х, у. На практике можно не использовать поправки на объ единение рангов, но тогда мы будем иметь меньшую диф ференцированность упорядоченных переменных, и, сле довательно, понизится степень связи между этими пере менныи •. •• Глава б. Критерии сдвига 8 изучаемых СОВОКУ"НОСТАХ Упражнение 21. • • • • • • • • • • • • • • • • • • • • • • 11рименение коэффициента Спирмена для выявления корреляционной связи (пакет SPSS) УслоВие. Действительно ли в разных видах мясной про дукции(свинина,баранина, говядина, куриноемясо)содер жание цианкобаламина (витамина В 12 ) статистически досто верно разнится (МГ%)? Решение: 1. Запустим пакет и введем исходные данные: по каж дой выборке в отдельные столбцы. 2. В главном меню пакета nОСЛt'!доаательно выбираем команды: (Статистики) - (Коррелировать) - (Парные кор реляции). з. В окне парных корреляций зададим переменные: 1-4 и установим • флажки в следующие поля: в разделе (Коэффициенты корреляции) флажком ус тановим вид к~Эффициента корреляции циент Спирмена); . N20браэца Свинина Говядина Баранина 1 2 3 4 5 6 7 8 9 10 11 12 13 12 13 14 15 12 12 12 13 14 15 13 12 15 15 15 16 12 11 12· 13 12 12 13 12 12 12 15 13 12 11 10 10 13 13 13 12 14 15 13 12 13 13 13 13 13 13 12 11 14 15 16 (Коэффи Куриное мясо 14 12 13 13 13 14 11 11 12 13 14 15 16 12 13 14 Медицинская статистика 70 Окончание табл. N2 образца Свинина Говядина Баранина 17 18 19 15" 12 12 12 11 11 11 12 13 • мясо 11 11 10 . в разделе (Проверка значимости) выберем тип кри терия • Куриное -" (Двухсторонний), поставим флажок в поле (Отметка значимых корре ляций). 4. Нажав ОК, ВЫПОllНИМ проверку и перейдем в окно (Просмотр реЗУ1tьтатов). Выявлены следующие значимые корреляционные связи: - между Уаг1 и VагЗ при р == 0,01 З, -- между остальными парами значений коэффициенты ранговой корреляции недостоверны. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Упражнение 22.· . . · · . . . · . . · . · · • • . · · · • Применение коэффициента Спирмена для выявления корреляционной связи (пакет Statistica). Решение: 1. Запустив пакет Statistica, переключимся в модуль (Не параметрические статистики и подгонка распределения). Затем введем данные в отдельные столбцы, соответствую щие переменным 1, 2, 3, 4. 2. В стартовом окне выберем команду (Корреляции). З. В открывшемся диалоговом окне Непараметрических корреляций зададим анализируемые ~epeMeHHыe (1-4), при чем одни и те же и в первом, и во втором списке. 4. В поле (Корреляция) выберем значение (Коэффици ент Спирмена). 5. В поле выберем значение (Подробный отчет). 6. Нажав ОК, получим подборку коэффициентов корре ляции Спирмена. Днализ результатов показывает, что выявлены следую щие статистически значимые корреляционные связи: Глава б. Критерии сдвига в изучаеМblХ совокупностях 71 • Var1 р < 0,005; • между остальными вариантами различия незначимы. между и VагЗ различия значимы: р = -0,56, при ОтВет: значения коэффициентов Спирмена и оценка их уровней значимости практически не отличаются от данных, полученных а пакете SPSS, совпадают с полученными ра нее в пакете Statistica. • • • • • • • • • • • • • • • • • • • • • • • • • 8· • • • • • • • • Глава 7--------- РЕГРЕССИОННЫЙ АНАЛИЗ Методы регрессионного анализа позволяют по имею ЩИМСЯ данным предсказывать новые результаты, т. е. ори ентированы на планирование и прогнозирование. Цель регрессионного анализа заключается в том, чтобы статис тически адекватно связать «выходные», зависимые вари анты с «входными» - независимыми. Независимые переменные иногда называют предик торами, регрессорами, факторами, а зависимые - откли ками. Регрессия бывает линейной Или нелинейной, простой, когда связаны не более двух признаков, или сложной (мно жественной), когда число связываемых анализом призна ков значительно больше, чем два. Общий вид модели линейной множественной реГрес сии может быть задан следующим образом: предположим, что в выборке испытуемых есть независимые и зависимые переменные. Чтобы не усложнять обозначения, в модели линейной множественной регрессии предполагается, что значения отклика, принимаемые им на рассматриваемом множестве объектов, связаны со значениями предикторов на этих объектах с помощью системы линейных, уравне ний. В обобщенном,виде этот процесс можно представить в виде одного-единственного уравнения регрессии, в ко тором подразумевается, что отклик и предикторы могут Глава 7. Регрессионныйанаnиз 71 принимать значения на любом из рассматриваемы~ объек тов: исследователя обычно интересует, насколько точны l1РОГНОЗЫ, получаемые по построенной регрессии. Стандартный вид уравнений регрессии получается в том случае, если и отклики, и предикrоры представлены в стан дapтизoBaHHыx «z-значениях», Т. е. в значениях, находяших ея в диапазоне от О до 1. При практической реализации рег рессионного анализа, в том числе в статистических паке тах программ, понять, что уравнение регрессии записано в стандартизованном виде, ·можно, во-первых, по надичию обозначений «бета» для коэффициентов регрессии, во-вто рых, нередко используют «смешанную>} форму уравнения: когда предикторы цредставлены z-значениями, а отклик исходными, ненормированными значениями. В-третьих, часто под уравнением регрессии понимают прогно стическое уравнение, т. е. уравнение, используемое для предсказания значений отклика по известным значениям предикторов. Другими словами, на практике уравнение регрессии может быть записано в одной из множества форм. Такая ситуация требует от исследователя вниматель ности и эрудиции, чтобы по контексту определить, о ка кой именно форме уравнения регрессии идет речь в кон кретном случае. Независимо от.конкретноЙ формы используемого рег рессионного уравнения результат регрессионноro анали за оценивается по: 1) суммарному уровню взаимосвязи предикторов и от клика, 2) существенности вклада каждого предиктора в оцен ку отклика, 3) точности предсказания значений отклика и веро ятных ошибок их оценки. Суммарный уровень взаимосвязи оценивается по ве личине коэффициентов множественной корреляции множественной детерминации R ИЛИ - R2: Коэффициент .множественной детер.минации является одним из основных показателей качества регрессии. Он 7. Медицинская статистика принимает значения в диапазоне от нуля до единицы, при этом, чем ближе его значение к единице, тем выше каче ство регрессии. Коэффициент множественной корреляции равен квад ратному корню из коэффициента множественной детер минации. Он также принимает значения в диапазоне от нуля до единицы, и чем ближе к единице, тем выше каче ство регрессии. И чем ближе эти два показателя по своим абсолютным значениям, тем ближе линия регрессии к прямо ПРОПQр циональной или линейной зависимости между анализи руемыми переменными, чем больше разница - тем более вероятна между ними криволинейная зависимость. Обычно при оценивании качества регрессии с помо щью F-крuтерuя Фишера выполняется оценка уровня ста тистической значимости коэффициента множественной корреляции. Таким образом, один из основных критериев оцени вания качества регрессии связан с суммарной величиной остатков: чем эта величина меньше, тем лучше регрес сия .описывает имеющиеся данные. При этом использу ется сумма квадратов остатков, так как сами по себе остатки могут иметь разные знаки и в силу этого взаим но «погашать» друг друга. В силу этого в регрессионном а~ализе часто применяют следующие вспомогательные показатели: • сумма квадратов отклонений от среднего точных (измеренных) значений откликов; • сумма квадратов отклонений предсказанных (вы численных с помощью регрессионного уравнения) значений откликов от 'среднего по всем предсказан НЬ1м значениям; • сумма квадратов остатков, т. е. разностей между точ ными и предсказанными значениями откликов .. Определение существенности вклада каждого предик тора в оценку отклика проводи1ся с помощью регрессион ных коэффициентов по f-критерию Стьюдента. Глава 7. Регрессионный анализ 75 Мерилом точности предсказания значений отклика и вероятных ошибок их оценки является значение коэффи~ циента множественной детерминации. Для корректного вывода при использовании регресси онного анализа требуется выполнение ряда условий: • использование только количественных - интер вальных шкал; • распределение предикторов, отклика и остатков дол~но соответствовать нормальному закону; • не должно быть взаимной коррелированности пре дикторов. Регрессионный анализ включает в себя множество раз нообразных методов, из которых на практике распрост ранены стандартный и п()шаговыЙ. - Пошаговый метод, в частности, применяется в одном из следующих двух вариантов: • прямой - до максимально возможного количества предикторов, обеспечивающих статистически зна чимый коэффициент множественной корреляции; • обратный - до минимального количества предик торов, также обеспечивающих статистически зна чимый коэффициент множественной корреляuии. Упражнение 23. • • • • • • • • • • • • • . • • • • • • • • Регрессионный анализ с помощью метода ввода в пакете (Enter) SPSS. УслоВие. В шести кабинетах производственного обуче ния межшкольного учебно-производственного комбината, в мастерской общеобразовательной школы и в мастерской профессионально-технического училища иэучалось влияние шума на организм учащихся. Требуется: найти регрессионную связь уровней шума на рабочих местах с октавными частотами (Var1 - б3 - Va!8 - 8000 Гц) и уровнем звука в ДБА (Var9). Решение: 1. Запус·гим пакет SPSS. Введем Гlредикторы в виде Уаr1-8, варианту отклика обозначим Var9. Медицинская статистика 78 Уровень Место Частоты. Гц эsука. иЗмерения шума Мастерская UJ(ОЛЫ ДБА 63 125 250 500 1000 2000 4000 8000 70 66 67 66 654 70 63 55 50 70 Кабинеты УПК 72 66 66 66 64 6з 61 55 70 50 64 70 66 65 6з 55 50 70 Сборка часов 55 54 65 65 65 61 61 51 70 Маl.1.МНOnИСi::l 50 64 65 67 66 65 65 59 70 45 45 56 56 69 65 65 50 70 59 69 71 70 72 68 59 60 75 66 66 66 64 63 61 55 70 76 70 74 73 75 71 60 84 Худ. вышивка Швейное дело Операторы ЭВМ Токарное дело Радиоэлектроника Мастерская ПТУ 6з 2. В (Статистики) выберем (Регрессия) - (Линейная). з. В окне (Линейная регрессия) выберем в (Независ'и мая переменная) - значение Var9, а в окне (Зависимых) Уаг1-8. 4. • • • • • В (Метод) предлагается целая серия методов: Enter (ввод); Remove (удаление); Forward ( прямой поwаговый); Backward (обратный поwаговый); Stepwiser (пошаговый с одновремнным введением и выведением Гlредикторов). Выбираем первый - Enter. Помечаем поля: нестандартизованные, остатки. Нажимаем кнопки - продолжить и ОК. В таблице - сводные результаты - у6еждаемся в высо кой значимости коэффициента детерминации ректировки. (R2) и его кор Глава 7. Реrрессионный анаnмэ " Корректировка нужна прежде всего потому, что нескор ректированный коэффициент детерминации порой завыша ет действительную оценку регрессионной зависимости. Окно (ANOVA) дает представление о высокой значимо сти коэффициента F Фишера. Окно (Коэффициентов регрессии) показывает практичес ки у всех предикторов высокие значения. Примечание. Еcnи значение критерия "СтltlOден та по МОДУIlIO 60llее двух, то существенный вlCllад пре диктора доказан. в итоrе мы получаем все коэффициенты уравнения мно жественной регрессии, их вклад неравнозначен. Наимень ший из них - уровень шума на частоте 250 Гц. Резюме: построенная регрессионная модель, объясня ет более 2/3 общей дисперсии отклика, связь анлиэируе мых признаков высокозначима. • • • • • • • • • • • • • • • • • • • • •• • • • • • • • • • • • • Глава 8 -"------------~ ДИСПЕРСИОННЫЙ АНАЛИЗ Часто применяемым методом проверки выборок на OДHOPOДH~CТЬ и поиска ПРИЧJilнно-следс:гвенных связей является дисперсионный анализ, разработанный Р. Фише ром. Существует несколько вариантов этого вида статис тической обработки экспериментальных данных. Наибо лее актуальны из них следующие: ]. Однофакторный, или одномерный, дисперсионный анализ (дисперсионный анализ по одному признакУ), ко торый в США и Европе называется «Analysis ofVariance»; ANOVA (сокр. от англ. в отечественной литературе это вы ражение трактуется как «дисперсионный анализ») либо однофакторный дисперсионный анализ. Многофакторный, или многовариантный, диспер 2. сионный анализ по нескольким признакам (в английской транскрипции - МANOVA). Gущность первого из них в отыскании причинно-след ственных связей при воздействии одного (вид ANOVA) или группы ф~кторов (вид МANOVA). В роли факторных на грузок MOryr выступать различные условия проведения из мерений:временные, ситуационные, психологические и др.). дли выJlвJlния ВJlНЯllИЯ надо располагать результатами измерений, соответствующими не менее чем треМ УРОВНЯМ фак тора. К примеру, ANOVA применяется для анализа не ме нее трех выборок и основан на 'сравнении их дисперсий. Глава 8. Дисперсионный анаnи] 1. ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ (ОДА) Эго классический ОДА, не претерпевший со времени использования его автором Р. Фишером практически ни каких изменений. Он - параметрический и предполагает, что при расчете так называемого Е-критерия Фишера вы борки взяты из генеральных совокупностей, распределен Hыx по нормальному закону. В медицине, биологии это ус ловие очень часто нарушается, что послужило толчком для разработки непараметрических аналогов ОДА: дЛЯ несвя занных выборок - критерии Краскела-Уоллиса и Джон кира, для связанных - критерии Фридмана и Пейджа. Не стоит только думать, что применение классичес кого ОДА с использованием ЭВМ избавляет исследовате ля от четкого продумывания сyrи эксперимента или тща тельного подбора анализируемого материала. Данный вид статистической обработки данных всего лишь (как и боль шая часть уже описанных в данной книге видов статисти ческого анализа) подтверждает или отвергает КОНЦЩIЦИЮ, рожденную исследователем за письменным столом. Од нако он существенно отличается от корреляционного ана лиза уже тем, что здесь мы можем дать оценку, выражен ную в цифрах, причинно-следственным связям между ана лизируемыми признаками. Обязательное условие при использовании AN ОУА/ MANOVA: • перед проведением аналитической работы прове рить .- соблюдается ли условие нормальности и данные представляют собой случайные выборки из нормально распределенных генеральных совокуп ностей; • также тщательно проверить, соблюдается ли усло вие однородности (гомогенности) дисперсий: име ют ли выборки равные дисперсии; • убедиться в том, что выборки независимы, т. е. нельзя априори предсказать значение какого-либо наблю дения по значению другого. Медицинская. статистик·а 80 Конечно, не стоит абсолютизировать подобные установ ки: на практике отступления от первых двух условий воз можны. В подтверждение этому в работах авторитетных ста тистиков [ Шеффе, Дж. Гласса, Дж. Стэнли, Д. Хауэлла показаны примеры, демонстрирующие слабую чувстви тельность ОДА к нарушению условия нормальности и оп ределяющие допустимые пределы нарушения условия од нородности. Как показывает наша практика, ОДА дает корректные результаты даже при нарушении однородности дисперсий в том случае, если уравнены объемы выборок или отли чие их будет очень незначительным. И что характерно: и первое, и второе допущение можно с лихвой перекрыть, если сформировать выборки большого объема. Нулев~я гипотеза ОДА свидетельствует о равенстве средних величин у рассматриваемых совокупностей; со ответственно альтернативная гипотеза OТBepraeт значимые отличия в средних, обусловленные воздействием рассмат риваемого фактора. F-критерий Фишера рассчитывается по следующей формуле: 02 F =--l!.!.. 02 ч Эта формула выражает отношение двух дисперсий: межгрупповой (она в числителе дроби) и внугригруппо вой (в знаменателе дроби). Как правило, внутригруппо вая,дисперсия обусловлена случайными причинами, а воз действие фактора проявляется в наличии межгрупповой дисперсии. Особую роль пр'.. применении ОДА играет сум ма квадратов отклонений SS, так как с нее начинается рас чет дисперсий, входящих в приведенную формулу. Каж дая из этих дисперсий вычисляется как отношение соот; ветствующей суммы квадратов отклонений к количеству степеней свободы: Глава 8: Дисперсионный анали] 81 S2 = SS~ . S2 = SS~ bg d/bg' ~ d/wg' где сумма квадратов отклонении, соответствующая SS - внyrpи - (или d/bg и межгрупповой дисперсии; k - 1) - число степеней свободы межгруп повой дисперсии; df lI\f (или N - k) - число степеней свободы внутри- групповой дисперсии; k- количество градаций (уровней) фактора, соответ ствующее числу выборок; N- общее число наблюдений в выборках Упражнение 24. Применение однофаКТОРI1ОГО Аис"ереионноro· ан8ЛМ· за для выявления влияния фактора (пакет SPSS). УслоВие. В течение нескольких дней ПОДОГlытные живот ные поДвергались радиоактивному облучению. Можно ли говорить об изменении радиоактивности крови в связи с длительностью облучения в разных группах животных? День Радиоактивность в уcnовных единицах облучения 1-я группа 2-я группа 3-я группа 4-я группа 1-й 30 28 26 24 1-й 28 30 27 26 1-й з4 32 30 28 1-й 42 40 38 34 2-й 36 38 34 32 2-й 28 ЗА 29 26 2-й з4 32 30 28 2-й 36 ЗА 32 26 3-й 40 38 36 З-й 36 з4 3-й 38 ·34 24 32 . 45 40 38 3-й 37 38 40 з6 Медицинская статистика 82 Решение: 1. Выдвигаем гипотезы: • об отсутствии влияния фактора времени на группу животных, • о наличии такого влияния. 2. Запустим пакет SPSS и введем исходные данные, ис пользуя переменную Va,1 для записи фактора, принимаю щего значения от 1 до з. В последующие ячейки коло~ок таблицы запишем данные о группах животных. З. Вначале проверим .нормальность распределений пе ременных и убедимся, что по критерию Шапиро-Уилкса распределения не отличаются от нормального. Хотя, как уже отмечалось, ОДА применим и в некоторых случаях наруше ния нормальности. 4. Для применения ОДА в главном меню пакета выбе рем: (Статистики) - (Сравнение средних) - (ОДJiофактор ный дисперсионный анализ). 5. В окне ОДА в поле (Перечень зависимых переменных) зададим исследуемые переменные, а в nO.(le (Фактор) зада дим 1. 6. Нажмем на кнопку (Параметры) и установим флажок в поле (Гомогенность дисперсии), задавая тем самым про верку однородности дисперсии. Нажмем на кнопку (Продолжить) и вернемся в окно (Од нофакторный дисперсионный анализ). 7. Нажа~ ОК, выполним саму проверку и перейдем в окно (Просмотр результатов). Вначале проанализируем результаты таблицы (Провер ка гомогенности дисперсий): наихудший уровень значимос "ги встречается у переменной 1и 2 З. Это дополнительно подтверждает корректность при менения ОДА к нашим данным. Далее в таблице ANOVA найдем результаты ОДА, из КО торых следует, что влияние фактора (дня облучения) имеется для переменных Vа,З (З-я группа животных) (FФишера З, 165~ при р= 0,091 и Var4 (4':'я группа животных) (F= 4,259, = 0,05), а для двух при р= первых групп показатели незначимы. Глава 8. Дисперсионный анапи] 81 Резюме: фактор принадлежности к определенной груп пе и длительность облучения взаимосвязаны. Безусловно, значения критерия Фишера для данного экспериментального материала малозначимы, но этот факт объективно можно или опровергнуть, или подтвердить в результате элементар ного расширения объема выборки, если позволяют условия эксперимента. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • )'11J'ёI)f(fI~flJf~ ~~. • • • • • • • • • • • • • • • • • • • • • • Решение той же задачи с использованием пакета Statis- tica. Решение: 1. Запустив пакет, переКIIЮЧИМСЯ в модуль ANOVAj MANOVД (ОднофакторныйjМногофакторный дисперсион ный анализ) и введем данные аналогично решению преды дущей задачи. 2. В стартовом окне модуля зададим зависимые пере менные, а также факторную переменную. 3. Нажав ОК, выполним анализ и перейдем в диалого вое окно просмотра результатов. С помощью другой кноп ки (Сriецифическое влияние) получим ряд таблиц с резуль татами анализа. Первая из них содержит те же числа, что и при использовании пакета SPSS, которые подтверждают выводы, сделанные ранее: значим<?е подтверждается влия ние фактора (применительно к переменным 3-4). • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 2. ДВУХФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ (дм) Двухфакторный дисперсионный анализ (ДДА) выяв ляет влияние на зависимую переменную уже двух рассмат риваемых факторов не только по отдельности, но в ИХ со- _ ': вместном воздействии. Он В целом не меняет общую J!OfHКY дисперсионного анализа, но несколько усложняет саму процедуру прове дення, так как появляется необходимость в оценке еще и межфакторного взаимодействия. -- Медмцмнская аатмамка 84 Подобная ситуация возникает в тех случаях, когда со вместное влияние двух факторов в отдельности проявля ется слабо. Именно в исследовании межфакторного взаи модействия и заключаются особенность и основное дос тоинство ДДА. В литературе для обозначения ДДА можно встретить английскую аббревиатуру «TWQ-WAY 2 х 3 и т. д.», что оз начает: «Двухфакторный дисперсионный анализ с ДВУМЯ уровнями первого фактора и тремя уровнями второго». Статистические гипотезы для ДДА формулируются отдель но как для каждого фактора, так и для их совместного вли яHия (взаимодействия). для проверки статистических ги потез в ДДА, как и в ОДА, используется то жесоотноше 'иие дисперсий, тот же самый критерий F Фишера. Дисперсионный анализ может осущестШIЯТЬСЯ в УСЛОВИЯХ бесповторного и опыта с повторениями. )'l1l'ctJfCII~IIJfE! ~Ei. • • • • • • • • • • • • • • • • • • • • • • Рассмотрим наиболее трудный вид ДДА с повторениями дnя выявления влияния факторов (пакет SPSS). УслоВие. Врачом-гигиенистом исследовался процесс ок раски детских игрушек из дерева четырьмя видами краски при четырех способах нанесения этой краски на изделие. Необходимо ответить на вопрос: какая из комбинаций: крас ка способ окрашивания дают наиболее устойчивое окра + шивание? Номер участка цеха 1 2 3 1 2 3 Тип краситe.nя Краситель 1 Краситель 2 Способ нанесения краски на изделие (0/0 бракованных изделий) 1-Й 2-Й З-й 4-й 2,4 2,1 2 1,2 1,4 1,2 2,9 2 1,9 1,4 1,3 1,2 2 1,9 1,6 1,3 1,4 1,3 1,8 1,7 1,7 1,3 1,4 1,2 . Глава 8. Дисперсионный анализ 85 Окончание табл. Номер участка цеха 1 2 3 1 2 Способ нанесения краски Тип краситenя Краситель 3 Краситель 4 3 на изделие (0/0 бракованныx изделий) 1-й 2-й 3-й 4-й 1,4 1,2 1,3 1,3 1,4 1,4 1,4 1.3 1,6 1,4 1,4 1,3 1,5 1.3 1.2 1,4 1.2 1,2 1.3 1,2 1,5 1,4 1,4 1.3 Решение: 1. • • • 2. Выдвинем как обычно гипотезы: влияния первого фактора «краситель»; влияния второго фактора (способ окраски); влияния взаимодействия этих факторов. Запустим пакет SPSS и введем данные аналогично задаче, используя на этот раз две факторные переменные З. Не стоит забывать о проверке на нормальность. 4. Для применения ДДА в главном меню программы по следовательно выберем команды: (Статистики) .-. (Общая линейная модель - ОЛМ) - (ОЛМ - Обобщенная фа к торная). 5. В открывшемся диалоговом окне выполним следую щее: • В поле (Зависимая переменная) зададим переменную Var2. • • В поле (Контролируемые факторы) зададим факторы. Нажмем на кнопку (Модель) и в открывшемся диало говом окне зададим следующие параметры: - отметим поле (Полная факторная модель); в. поле (Сумма квадратов) выберем вариант, наиболее часто применяемый при ,цдА; - ..., поctавим флажок в поле (Включить в модель сво бодный член). .& Медицинская статистика • Нажав на кнопку (Продолжить), возвратимся в пре дыдущее окно. • Нажав на кнопку (Параметры) и (Показывать), флаж ками установим следующие параметры: - (Дескриптивные статистики), - (Оценки силы эффекта), -" (Критерии однородности). И, нажав кнопку (Продолжить), возвратимся в предыд- щее окно. • Нажмем ОК дЛЯ выполнения процедуры ДДА. б. Последовательно изменяя зависимую переменную, повторим Гlроцедуру ДДА дЛЯ переменных. 7. После чего перейдем в окно (Просмотр результатов). • В таблицах (Тест Ливина проверки равенства ошибок дисперсий) проверяем однородность дисперсий для всех исследуемых переменных. • В таблицах (Проверки межфакторных эффектов) ана лизируем для зависимых переменных влияние каж дого из двух факторов в отдельности, а также меж факторного взаимодействия. Имеем следующее: факторные нагрузки для красителей 2 и 3 оказались значимыми 23,14 при Р = 0,01 и 13,6 и р = 0,0001 соответственно, сочетанное факторное влияние (краситель + способ окрашивания) ниже - 9,4 при р = 0,008, другие сочетания факторов статистически незначимы. Резюме: сочетание краски и способа нанесения краси теля влияет на стойкость красителя и снижение числа бра кованных изделий, но главным все же является сам краси .... .. .. ...... .. .. ............... . тель. ГлаВа 9 МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МЕТОДЫ Многомерные статистические методы целесообразно при менять в двух основных с~учаях: 1) когда анализируемая совокупность имеет значитель ную размерность, с большим количества признаков; 2) когда эксплораторный анализ не обеспечивает ин формацией о структуре данных. Данные методы анализа: • позволяют уменьшить размерность и получить та кой же результат, а возможно, даже открыть иные закономерности; • выявляют в рассматриваемой совокупности данных так называемую «(латентную») структуру, которую обычными методами анализа выявить просто невоз можно. Оба этих направле'ния~ к великому сожалению, еще не используются достаточно широко в медико-биологических исследованиях, и врачи, и биологи о них (за исключени ем отдельных энтузиастов) очень слабо информированы. В прикладной статистике этими методами долгое вре мя не могли пользоваться из-за отсутствия вычислитель ной техники для обработки больших массивов данных. Ак тивно эти методы стали развиваться со второй половины МеДИЦИНСКillI СТilТИСТИКiI 88 хх в. при появлении быстродействующих компьютеров, выполняющих за доли секунды необходимые вычисления, на которые до этого уходили дни, недели, месяцы. Мы рассмотрим два основных многомерных метода, которые в медицинской статистике лредставлены не так широко, как хотелось бы, разберем их достоинства и не достатки, это: • • • кластерный ан~из; дискриминантный анализ; факторный анализ. 1. КЛАСТЕРНЬIЙ АНАЛИЗ Общая схема nрuмененuя lUасmерного tllltlAU3tl в meouko-6uоllоzu"еск1lX UСCllедованuяx Кластерный анализ - это математический метод ре шения задач классификации, разделения эмпирической выборки на ряд непересекающихся групп, таксонов. Термин «кластер» (от англ. Cluster) - «гроздь, пучок, СКОruIение) с Qбщим свойством»; а термин «таксон» (от англ. Taxon) обозначает систематизированную группу лю бой категории. И еще, элементы, объединенные в один кластер, более схожи по сра~нению с остальными. Кластерный анализ не использует никаких дополни тельных априорных предположений: например, о харак тере распределения вероятностей в генеральной совокуп ности и опирается, как правило, только на данные о са мой эмпирической выборке. Как правило, результаты считаются окончательными и не пересматриваются для данной эмпирической выборки, хотя при получении до полнительных данных или при выборе другого метода классификация, вполне понятно, может быть иной. Иногда можно встретить в литературе информацию, когда кластерный анализ относят к категории статис. тических методов, предназначенных для так называемой классификации без обучения (в отличие от дискрими нантного анализа, который называют классификацией Глава 9. MHorOMepHble •• статистические методы с обучением). Из других названий кластерного анализа можно упомянуть: кластер-анализ, автоматическая клас сификация, таксономия, распознавание образов без обу чения. Теоретические основы метода бьUIИ заложены в сере дине хх в. и продолжают интенсивно развиваться и со вершенствоваться в настоя шее время. Жаль, что кластер ный анализ даже после появления персональнъrх компь~ ютеров, т. е. начиная примерно с 80-х годов прошлого века, в медико-биологических (уж в медицинских - точно!) кру гах не стал серьезным и массовым (подчеркнем это сло во!) подспоръем в работе ни научных работников, ни прак тических врачей. В то же время количество научных публикаций, содер жащих результаты, полученные с помошью кластерного анализа, 'ПОСТОЯ!iНО растет, причем количество работ, по свяшенных собственно кластерному анализу, до сих пор остается сравнительно небольшим. Процедура кластерного анализа вполне ДОС'I'Yrlна для понимания исследователей и практиков, не имеюших спе циальной математической подготовЮf и ,не только на ино туитивном YP~BHe. Однако обширный арсенал методов кластерного анализа и конкретных задач кластеризации велики, и этот факт - одна из причин того, что в отече ственной литературе работы, посвященные применению кластерног<;> анализа в медицине и биологии, встречаются редко. Мы хотим показать читателю реализацию данного вида обработки экспериментальных данных с использованием пакетов SPSS, Statistica. Они, с нашей точки зрен~я, дол жны снять завесу «чрезвычайной сложности» С данного способа анализа, помочь уверенно ориентироваться при использовании анализа. в реальных исследованиях кластерного 90 Медицинская статистика Этапы nрu.мененuя кластерного аНШluза 1. Получение с помощью конкретных измерительных шкW1 выборки эмпирических данных, представление ее в виде матрицы <<объект 2. - признак». Определение направления кластеризации, класси фикации: пациенты, респонденты, наблюдения, измерен ные признаки, или и то и другое одновременно. 3. Распределение эмпирических данных в виде точек многомерного метрического пространства с определенны ми координатами; определение меры сходства или разли чия между его точками. 4. Выбор основного принципа разделения выборки на кластеры. 5. Выбор конкретного алгоритма кластеризации с ха рактерным приемом. определения мер сХодства или раз личия между кластерами, т. е. способа определения меж кластерных расстояний, и, естественно, способа оценки качества кластеризации. 6. Выполнение кластеризации или разбиения исходной выборки на кластеры. 7. Интерпретация результатов кЛастеризации. Основные приемы кластерного анализа: по измери тельным шкалам, направлению кластеризации и исполь зуемой метрике. . Все три этапа процедуры кластеризации целесообраз но рассмотреть совместно, так как и в теории, и тем более на практике они тесно взаимосвязаны между собой. Выборка данных - результат измерения ряда призна ков, характеристик процессов, состояний, свойств: «Х», некоторой совокупности объектов, пациентов: «А». Полу чение такой выборки с предполагает наличие определен ных измерительных методик. Согласно им результаты измерения могут быть пред ставлены в номинальной, порядковой, интервальной шка лах или' шкале отношений. Математическим основанем здесь являются интервальные шкалы и шкалы отношений. Глава 9. Миоrомериые статистические методы ., Но в кластерном анализе в отличие, например, от фак торного, дискриминантного или дисперсионного анализа требования к типу шкалы не яw1яются столь жесткими: они могут ПОRЛиять на выбор конкретного метода класте ризации, но не на допустимость кластеризации. В случаях смешения типа шкал вопрос о выборе под ходящего метода кластеризации должен решаться особен но тщательно: теоретические основы анализа при исполь зовании смешанных шкал исследованы недостаточно, и велика опасность ошибки кластеризации, а следователь но, и окончательного вывода в исследовании. Наиболее надежными выходами ЯRЛяются следующие: • применить метод, предназначенный для номиналь ной шкалы; • выбрать меру расстояния, предназначенную ДЛЯ шкал смешанного типа; • самый простой путь стремиться избегать исполь - зования шкал разного типа. Как показывает практика, тип шкалы, к сожалению, никак не определяет характера процедуры кластеризации в целом. Дело в том, что использованные при И"зм~рениях шкалы влияют на выбор подходящего метода кластериза ции не прямо, а косвенно - через выIорp необходимого метрического пространства. Эмпирические данные фОРМИРУЮТСЯ в виде матрицы <<объект призна~»). Это прямоугольная таблица чисел, - строки которой соответствуют измеренным объектам (па циенты, подопытные животные, препараты, процедуры), а столбцы - измеряемым признакам (процессов, состоя ний или свойств): OIl al 2 й13 й14 021 й22 023 й24 92 .Медицинская статистика, Однако технологически исследователь сначала заносит даннь.е в таблицу «объект-признак»: Объект Признак Х, Х2 ХЗ ~ А1 А 11 А 1з А 14 д 2 д д 2З ~4 Аз д З1 12 д 22 А32 д З3 д д.. д..1 д..2 д..з ~ 21 д З4 и только потом появляется матрица. Она будет отли чаться от таблицы «объект-признак» только тем, ЧТОБ матрице явно не присyrствуют заголовки строк и столб цов. При построении матрицы «объект-признак» неред ко возникает проблема из-за разнотипности шкал изме рения признаков, подобное требует нормирования 110ка зателей, т. е. введения условной единицы измерения, допускающей формальные сопоставления объектов, но нельзя упускать из виду, что способы нормирования при менимы лишь к результат~м измерений в шкалах интер валов и отношений. Приложение их к номинальным или порядковым данным является .Некорректным. Ситуация" однако, не фатальна и в таких ситуациях существуют адек ватные меры различия или сходства. Orметим, что способы нормирования обычно выпол няются «по столбцу», однако при необходимости анало гичное нормирование можно выполнить и «по строке». После этого данные представляются в виде точек мно гомерного пространства, но до этого необходимо принять решение о ":аправлении кластеризации, т. е. о том, что и как именно будет подвергаться разделению на кластеры. При кластеризации в ее классическом понимании осу ществляется и кластеризация объектов, и кластеризация признаков. Одновременная кластеризация используется редко, и интересующихся мы отсылаем к специальной ли тературе 1975). (Hartigan G.A. Clustering algoritmus. - New York, Глава 9. •• Многомерные статистические методы в зависимости от выбранного направления кластери зации (объекты или·признаки) исследователь может пред ставить выборку эмпирических данных в качестве набора точек многомерного пространства двумя различными спо собами: • • Набор точек Набор точек - как объекты. как признаки. Сам исследователь решает, исходя из поставленной цели, что и как он будет анализировать. В зависимости от этого образуемое для представления данных метрическое пространство будет иметь размерность: равную либо числу объектов, либо т - n- числу измеренных признаков каждого объекта. Естественно,. принципиальных различий для класте ~изации объектов или признаков нет: это для кластерно го анализа, в определенном смысле «все равны». Безусловно, для осуществления кластеризации полу ченное многомерное пространство данных надо превра тить'в метрическое, указав способ определения расстоя ния (метрики) между его точками. Метрическое пространство - это пространство, вклю чающее серию объектов, называемых его элементами, между которыми задана функция расстояния «а», назы~а емая метрикой, определенная на всех упорядоченных па рах точек множества и удовлетворяющая следующим ус ловиям: • • • • Неотрицательность. Рефлексивностъ. Симметричность. Транзитивность. Передко требования к расстоянию ослабляют, отказы ваясь от некоторых из них: чаще всего - от транзитивно сти или симметричности. В этом случае мы имеем дело уже с «ослабленной. величиной расстояния, так как для нее выполняются не все фигурирующие в определении требования. •• Медицинская статистика Во многих методах кластерного анализа использова ние псевдометрик является корректным в силу того, что недостающие метрические свойства не используются. По этому разговор о мерах разлl1.ЧИЯ: метрики и псевдомет рики - особой роли, кроме как с теоретической точки зре ния, не играет. Мера различия ведет от матрицы «объект-признак» к матрице попарных расстояний между эмпирическими точ ками построенного метрического пространства (в рассмат риваемом случае - между объектами. Существенный признак маТрицы в том, что она, во первых, симметрична, во-вторых, по диагонали идут нули. Получив матрицу расстояний, можно перейти к последую щим этапам процедуры кластеризации. При одной и той же стратегии кластеризации могут использоваться различные меры различия или сходства. Каждая из них имеет свои особенности. Наиболее часто используемое понятие «евклидово рас стояние» наиболее популярно. Хотя имеет ограничения на применение только к данным, измеренным в шкалах ин тервалов или отношений, но на практике часто применя ется и для данных, полученных в других шкалах (хотя и не всегда корректно). Наибольший эффект получается, если использовать евклидово расстояние для переменных, измеренных в одних и тех же единицах (или для норми рованных данных); в против'ном случае следует использо вать ее нормированный вариант. Расстояние «Манхэттен» применяется для номиналь ных и дихотомических признаков как сумма покоординат ных различий между точками. Во многом аналогично ев клИДову, однако при его применении сглаживается эффект больших различий по отдельным координатам. Расстояние Минковского является обобщением случа ев евклидова расстояния «Манхэттен» И ряда других. В силу этого парадигму Минковского удобно использовать при экспериментах с подбором расстояния. Глава 9. MHoroMepHwe 15 статистические методы Есть еще один коэффициент сходства, разработанный Гауэром. Он позволslет одновременно использовать при знаки, измеренные в трех различных шкалах: интерваль ных, порядковых и дихотомических. В этом его явное пре имущество, тем более, что мер сходства для работы со сме шанными шкалами разработано мало. К сожалению, коэффициент Гауэра практически не реализован в рассмат риваемых нами статистических пакетах. В кластерном анализе применяется множество иных мер сходства или различия: • Для интервальных данных - «квадрат евклидова расстояния», Чебышева, Махаланобиса, коэффици ент корреляции Пирсона. • Для порядковых данных - Хи- квадрат, Фи-квадрат, коэффициенты ранговой корреляции Спирмена, Кендалла, Чупрова. • Для номинальных и дихотомических данных - рас сеяиие, дисперсия, четырехпольный коэффициент корреляции Фи и др. • Для данных, измеренных в смешанных шкалах, применяются меры близости отечественных иссле дователей - Журавлева, Воронина,. Миркина. Понятно, что сколь бы ни была сильна субъективная точка зрения на выбор меры различия или сходства, все же она в первую очередь определяется объективными свойствами исследуемого явления, напрямую связанны ми с характером измерительных шкал. КЛАССИФИКАЦИЯ МЕТОДОВ КЛАСТЕРНОГО АНАЛИЗА ПО СТРАТЕГИЯМ КЛАСТЕРИЗАЦИИ После того, как построено метрическое пространство, дальнейшая часть процедуры кластерного анализа доста точно,автономна: здесь уже неважно, как именно задава лась метрика и что именно (объекть! или признаки) пред ставлялось в виде точек пространства. Главное, что к это му этапу построена матрица попарных расстояний (или •• МеАицинская статистика попарных мер сходства)., которая используется на после дующих ступенях кластерного анализа. Какова же стратегия кластеризации, т. е. основного принципа ее осуществления? Классификация методов кла стерного анализа не является самоцелью уже потому, что весьма непроста по сути, чтобы четко и односложно сориентировать читателя в необъятном море разработан ных методов и алгоритмов кластеризации. Для практического применения, и тем более на началь ных этапах освоения метода, вполне достаточно иметь представление о следующих приемах кластеризации: • • • иерархические; итеративные; алгоритмы разрезания rpафа. Для начального ознакомления и практического ис пользования сосредоточим основное внимание на иерар хических и итеративных методах кластеризации. В иерархических методах выстраивается «граф, или дерево», кластеров, где в окончательных кластерах можно увидеть динамику отдельных точек метрического про странства данных. В итеративных методах разбиение на кластеры ведет к последовательным перерасчетам приближений, итераций. И тот и другой методы подразделяют на дивизивные (раз делительные) и агломеративные (объединительные). Это деление отРажает желаемый результат применения клас терного анализа, а не его технологию (итеративное, или «прямое», построение кластеров). В дивизивных иерархических методах множество исход Hыx данных формирует один большой кластер, который дробится на заранее заданное количество мелких кnacTe-, ров. Процесс завершается, когда получено заданное чис ло кластеров при определенном удовлетворяющем иссле дователя качестве разделения. В дивизивных методах иерархические приемы обработки доминируют над ите ративными. Глава 9. Миоrомериwе статистические методы .7 Иногда заранее выделяют некоторое количество так называемых «эталонных»> кластеров, к которым постепен .. но присоединяются все оставшиеся эмпирические точки пространства данных. Процесс кластеризации заканчива ется, когда получено удовлетворительное качество разбие ния. Популярным приемом ЯВJ1яет~я метод k-средних. В любом случае вопрос о выборе критериев качества разбиения на кластеры является достаточно сложным. Агломеративные методы, напротив, насыщены не ите ративными, а иерархическими приемами обработки дан ных. В них каждый элемент эмпирической выборки пред ставляется отдельным кластером. Затем идет объединение; при этом на каждом шаге группируются наиболее близ кие друг к другу кластеры. Это кластеры более высокого уровня в иерархии кластеров, отсюда ПQдобные приемы называют .методами иерархичес"ой lCЛастеризацuи. Класте ризация имеет конечное число шагов, в итоге формирует ся единственный, «глобальный общий» кластер, идентич ный исходной эмпирической выборке. То есть если в агломеративных методах кластеризация множества одноэлементныx кластеров формирует парадиг му одноtо кластера. В дивизивных методах все наоборот: один общий глобальный кластер дробится на большое чис ло мелких кластеров. Максимальное количество отдель ных кластеров не может превосходить количества элемен тов в этой выорке•. Это в теории, а на практике исследователь сам задает количество кластеров, на которые надо разделить выбор ку, исходя из условий, диктуемых особенностями поста новки ЭJS:сперимента. Классификация иерархических аг ломеративных методов' кластерного анализа по способам определения межкластерных расстояний. Выполняя иерархическую агломеративную кластери зацию, надо решить вопрос о выборе конкретного спосо ба определения 'межкластерныx расстояний. И дело в том, 4. К. С. ЖИЖИН •• Медицинская статистика что в кластерном анализе расстояние рассматривается в двух смыслах: 1) 2) как расстояние между объектами внyrpи кластера; как межкластерное расстояние. Иначе при решении задач кластерного анализа возник нет проблема выбора наиболее подходящего способа оп ределения межкластерных расстояний. Эта проблема общая ДЛЯ дивизивных и агломератив ных; для иерархических и итеративных методов класте ризации. Однако в каждом функционально полном ста- тистическом пакете программ для этого имеются соответ- ствующие возможности, хотя сами наборы способов определения межкластерных расстояний, MOгyr суще ственно отличаться. Вот наиболее существенная ,ИХ подборка: • Простая связь, одиночная связь, метод «ближнего соседа» - здесь расстояние между кластерами рас сматривается попарно между двумя самыми ближ ними. Обладает сильной компрессией, формирует минимальный граф объединения. • Полная связь, или метод «дальнего соседа», - здесь исходное пространство растягивается. • Невзвешенная попарногрупповая средняя - в этом CJiучае расстояние между двумя кластерами тракту ется как среднее по всем парным расстояниям, ме тод не меняет размерность исходного внутриклас терного пространства. • Метод Уорда - этот метод сильно изменяет метри ческое признаковое пространство и формирует рез ко выраженные кластеры. Хорош для выявления трудноуловимых различий, однако в этом варианте анализа легко вьщать желаемое за действительное, т. е. усмотреть в случайности стойкую закономер ность. Агломеративная кластеризация фигурирует В литера ТУРНЫХ источниках в следующих модификациях: • Взвешенная попарно-групповая средняя. Глава 9. • • •• Mнoroмepныe стаТИCJИчеаме lIетоды Невзвешенная попарно-rpупповая центроидная. Взвешенная попарно-групповая uентроидная - медианная). • • • • Межrpупповое связывание. Внyrpиrpупповое связывание. Центроидная кластеризация. Медианная кластеризация. «Разброс» стратегий, как видно из перечня, широк, и если мы хотим получить от кластеризации наибольший эффект, лучше ее осущестWlЯТЬ несколькими методами, выбирая наиболее предпочтительную. Это, между прочим, характерно для всех многомерных методик: не столько важна методика статистической обработки, сколько ее интерпретация. ПРИЕМЫ КЛАCfEРНОГО АНАЛИЗА 'в МЕДико БИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ Агломеративные идивизивные методы кластеризации в решении задач, возникающих в медико-биологических исследованиях. В статистических пакетах SPSS и Statistica. Поскольку для большей части исследователей-врачей , ' или биологов данный раздел статистической обработки будет совершенно необычным и новым, в самом начале кластеризации стоит объяснить стратегическую направ ленность юшстеризации, что ЯШlяется сутью исследования: агломерация (объединение) и дивизиация (разделение). На практике при разведочном (эксплораторном) ана лизе, когда исследователь испытывает дефицит достовер ной информации, предпочитают агломеративную страте гию, чтобы оптимизировать количество кластеров. Такой подход позволяет исследователю определить количество кластеров, которое позволит ориентироваться в ходе даль нейшего конфирматорного (уточняющего) анализа выбо рочной совокупности. Важно подчеркнуть, резудь.тат в полной зависимости от того, насколько эта выборка репрезентативна, чтобы, опираясь на ее результаты, характеризовать генеральную Медицинская статистика 100 совокупность. Этот момент должен быть исследован от дельно: с помощью дискриминантного анализа, методов получения репрезентативной выборки, ее необходимого объема, валидности методик и т. д. Итак, как мы сказали, данный вид анализа носит эв ристический характер и соответственно не имеет под со бой достаточных статистических оснЬваниЙ. В любой мо мент может возникнуть потребность повторного проведе ния кластерного анализа с использованием иных методов кластеризации. r Примечание. Неопытнымм исследователями ре-"" зультаты кластеризации выдаются за окончательные и единственно возможные. Это глубокое заблужде ние, поскольку кластеризация - начало статистмчес"! кого разделительного анализа. Даже в научных статьях подчас никакого обсуждения устойчивости, сравнительного анализа применения различ ных стратегий кластеризации, как правило, не приводит ся. Тем не менее вполне реальна возможность радикально го изменения выводов экспериментального исследования при отступлении от используемых кластеризационных процедур. Пренебрежение этими установками может при водить к полярным результатам кластеризации одних и тех же эмпирических данных. Алгоритм применения кластерного анализа в любом исследовании при использовании статистических пакетов программ должен учитывать: а) Типы измерительных шкал, примененных для по лучения выборки: интервальные, порядковые, но-' минальные, дихотомические шкалы, их однотип ность. б) Подходит или нет стаТИСТl1ческий пакет кластерно го анализа. В) Направление кластеризации, меру сходства или раз личия для построения метрического пространства данных, Г.110бальную стратегию кла.стеризации. Глава 9. Многомерные статистические методы 101 г) Содержательную интерпретацию кластеризации, дополнительную проверку на других приемах клас теризации, других статистических пакетов. Приложение предложенного алгоритма к реальной ситуации на практике может высветлить явное отличие от приведенной канонической схемы. Сущность этого несо ответствия обусловлена наличием тех самых разнотипных измерительных_ шкал, о которых сказано выше, и в силу этого для определения сходства между объектами обяза тельно применение коэффициент Гауэра. ПРАКТИКА КЛАСТЕРНОГО АНАЛИЗА В СТАТИСТИЧЕСКИХ ПАКЕТАХ SPSS И STATISTICA Упражнение 27. • • • • • • • • • • • • .'. • • • • • • • • Агломеративная кластеризация для эксплораторного анализа данных (пакет Statistica). Условие: профессиональный отбор врачей-лаборантов сопровождается анализом их профессионально значимых функций (ПЗФ), уровень развития которых оценивается по психофизиологическим реакциям, в частности: раСl1ределе ние внимания по таблицам Шульте-Платонова (ШП, сек), срывам дифференцировочной реакции на сложный свето вой раздражитель (СД, абс. число срывов), тактильной чув ствительности (ТЧ, ММ). Вопрос: можно ли разделить 32 пре тендента на группы, сколько таких групп может получиться исходя из реЗУ/lьтатов профотбора, поскольку руководитель организации стоит перед сложной материальной проблемой оснащения не более четырех лабораторий? N9 ШП сд тч 1 66 6 4 2 40 3 4 50 4 4 2 2 70 6 5 54 5 6 70 6 2 3 3 7 50 5 4 NI . 17 18 19 20 21 22 23 ШП сд тч 50 52 5 5 4 48 5 3 3 47 5 4 48 70 5 7 3 4 50 5 4 102 Медицинская статистика Окончание табл. Nt ШП сд тч Nt ШП СД ТЧ 8 49 4 3 24 54 5 5 9 48 5 3 25 60 4 5 10 70 6 4 26 70 7 4 11 45 5 3 27 50 4 5 12 70 6 3 28 48 5 4 13 47 5 7 29 51 5 3 14 54 5 5 30 52 4 5 15 49 5 7 31 47 5 7 16 48 5 7 32 51 5 4 Решение:· Ситуация требует эксплораторного анализа из-за того, что нет априорной информации о количестве кластеров, на которые следует разделить данные. Здесь целесообразно применить иерархическую агломеративную кластеризацию. Она покажет оптимальное количество кластеров данной выборки. Для агломеративной кластеризации лучше использовать пакет Statistica, в нем качественнее представлена графика дендрограммы: 1. Запустив пакет, выбираем (Кластерный анализ), (Уп равление данными). Поскольку данные у нас представлены различными по масштабу шкалами, необходимо выполнить их стандартизацию. 2. В (Файл) выберем команду (Новые данные). В окне (Создать новый файл) зададим необходимые параме"гры: • (Имя нового файла). Разм·ещение файла на опреде ленном логическом диске.и в нужной папке. Расши рение имени его появится автоматически. • • • • (Количество переменных) - 3. (Количество наблюдений) - 32. (Длина имени случая) - оставим «О». (Формат значений) - по умолчанию «8.3», это озна чает общую длину 8 позиций и 3 позиции на знаки после десятичной запятой. Дело в том, стандартиза- Глава 9. MHorOllepHble 101 статистические lIеТОАЫ ция приводит к тому, что данные стc:t-новятся дробны ми и даже отрицательными. Поэтому зададим фор мат «5.2»: в стандартизованных данных мы будем использовать два знака после запятой, один запятая, один - 1) - целая часть (которая либо О, либо пять знаков. (Код для пропущенных значений) - оставим - 9999. (Префикс названий переменных), оставим предлага емый префикс • сама и еще одна 110ЗИЦИЯ отводится на знак величины, итого • • - Var. (Начальный номер имени переменной) - оставим «1 ». • (Краткое описание файла) - это 110ле можно не за полнять. 3. Введем исходные данные в отдельные столбцы, соот ветствующие переменным. 4. В (Анализ) выберем команду (Стандартизовать) и в окне (Стандартизация значений) зададим значения парамет ров: • (Переменные) - Var 1-3; • (Наблюдения, случаи) - А" (Все); • (Вес) - Off'(He задавать). Нажав ОК, выполним стандартизацию. 5. Выполнив (Файл) - (Сохранить), сохраним результа ты стандартизации в файле. б. В (Анализ) выберем команду (Другие статистики), вы зывающую переключатель модулей пакета и (Кластерный анализ). После этого модуль (Управление данными) можно закрыть. 7. В пакете Statistica реализовано три базовых метода кластерного анализа: • (Объединение - Дерево кластеризации) - агломе ративный метод кластеризации; • • (Кластеризация средними) - дивизивный метод (Двунаправленное объединение) -- кластеризация одновременно и по объектам (случаям), и по пере менным (признакам). Медицинская статистика 104 в данном случае нас интересует агломера"гивная клас теризация (Объединение - «Дерево» кластеризации). 8. При входе в стартовое меню пометим следующие поля: • (Переменные) - зададим здесь используемые пере менные • Va,1-3. (Тип входных данных) - выберем вариант (Ис~од ные данные). • (Кластеры) - что именно подверtать кластеризации: а) объекты, на которых проводятся измерения - (На блюдения, случаи), или (Строки) исходной матрицы данных, б) измеряемые признаки - (Переменные)~ или (Столбцы) матрицы данных. Выбираем (Случаи). (Правило объединения (связывания» - выбор спо соба определения межкластерного расстояния Здесь масса вариантов. Выберем сначала вариант (Оди • ночная связь): .• (Мера расстояния) - выбирается мера сходства или различия. Выберем вариант (Меры расстояния). Наши данные - интервальные, выберем вар·иант (Евклидо во расстояние). • (Способ обработки пропущенных значений) - выбе рем (Удаление отсутствующих данных); второй воз можный вариант (Замена средними зl:tачениями). 9. Нажмем ОК выполним кластеризацию. Один из самых существенных результатов кластеризации - получение ден дрограммы. Установим (Прямоугольная дендрограмма) и (Процентная шкала дендрограммы). Последняя шакала ре зультат кластеризации переводит в проценты. 10. Анализируем (Вертикальный график). На дендро грамме явно просматривается образование двух кластеров. 11. Можно просмотреть и другие результаты кластери зации: (Список Объединения), (График объединения), (Матри ца расстояний), (Описате/lьная Статистика). Все это при не обходимости можно сохранить. Глава 9. Многомерные статистические методы 105 12. Можем проверить полученные результаты другими способами: (Полная связь), (Невзвешенная попарно-группо вая средняя), (Метод Уорда). Дендрограммы, представленные на графиках подтвер ждают целесообразность разделения выборки именно на два кластера. Эта ситуация характерна для иерархических методов кластеризации: получить однозначный ответ на вопрос о .числе кластеров тут невозможно. Еще встречается ситуация, когда при использовании раз ных методов исследователь получает разное количество и состав кластеров. Выручить может опыт исследователя, его интуиция, а также четкая цель исследования. ОтВет: агломеративная кластеризация позволяет пред положить, что данную эмпирическую выборку оптимально разделять на два кластера (группы специалистов по усло вию задачи). • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • )'l7l'ёt~Ii~lijf~ ~~. • • • • • • • • • • • • • • • • • • • • • • Дивизивный вариант кластеризации выборки с использованием пакета ·Statistica. УслоВие. Задача прежняя, только предстоит обосновать разделение эмпирической выборки на кластеры. Решение: 1. После агломеративной кластеризации перейдем к эта пу дивизивной кластеризации, будем дробить выборку на заданное число кластеров. Возвратимся в (Метод кластеризации) модуля (Кластер ный анализ) и выберем (Кластеризация k-средними), кото рый позволяет разбить исходное множество данных на фик сированное чи~ло кластеров. 2. В диалоговом окне этого метода «Cluster Analysis: k-Means Clustering» заполним: • (Переменные) - Var 1, 2, з. • (Кластеризация случаев или переменных). Выберем (<;лучаи-Строки). 'О& • Медицинская статистика (Число кластеров) - для начaJIа зададим уже полу ченное нами значение «2». • (Максимальное число итераций) - принимает значе ния от 5 до 99, иначе процедура кластеризации «за виснет). Установим, например, значение «10). • (Способ обработки ошибо~ных или пропущенных зна чений) - • выберем (Удаление пропущенных данных). (Одновременная кластеризаL~ИЯ и вывод на печать) активизировать не будем. з. Нажав ОК, выполним кластеризацию. В окне резуль татов определяем, что решение получено после одной ите рации. Для просмотра и сохранения результатов можно вы брать: • • (Анализ рассеяния); (Средние значения переменных для каждого кластера и расстояния); • • • (График средних значений); (Описательная статистика для каждого кластера); (Элементы каждого кластера и их расстояния до цен тра кластера); • (Сохранить классификацию и расстояния). Для нас наиболее важные результаты: (Анализ рассея ния) сопоставляет величины межгрупповой и внутригруппо... вой дисперсии. / / ------------_/ / 1 Глава 9. 107 Многомерные статистические методы Кнопка (График средних значений) выводит на экран средние значения переменных по каждому кластеру на од ном графике (см. рисунок). Как показал анализ: в первый кластер (1) в,Ошли врачи-лаборанты, у которых высокий уро вень кинестезии, малое количество срывов дифференциров ки, но низкие скорости переключения внимания. Во второй кластер (L?, напротив, вошли специалисты обладающие срав нительно низкой кинестезий, но высокими скоростями пе реключения внимания и средними показателями срыва диф ференцировки. Кнопка (Элементы каждого кластера и их расстояния до центра кластера) указывает, что первый кластер включает всего 7 случаев, а второй 25. - Нельзя ли детализировать состав второго кластера? Что если разбить совокупность не на два, а на три кластера? 4. Изменяем значение в поле (Число кластеров) на «3». Нажав ОК, выполним кластеризацию. На дендрограмме средние значения для первого кластера принципиально не изменились, а вот второй и третий кластеры претерпели из менения: в первом оказалось прежнее количество тестируе мых - 7, а вот второй кластер распался на два: второй и третий. Во втором оказалось 6 индивидов, в третьем - 19. Таким образом, мы рассредоточили врачей-лаборантов, опираясь на один из важных, ведущих показателей их про фессиональной 11РИГОДНОСТИ: раСГlределение внимания с претензией на совершенствование его. Этот процесс не окончательный, процесс детализации Гlрофессиональной пригоднос"Ги можно продолжить: разо бьем совокупность на 4 кластера. В этом случае к первому кластеру относится уже 24 индивида, к трем остальным от несены: один, один и шесть индивидов соответственно, что дает прямо противоположный результат. Дальнейшее уве личение числа кластеров совсем не несет практически ника кой содержательной информации, раСГIЫЛЯЯ по одному-два индивида в каждом кластере. COBOKyrlHOCTb . Резюме: данную выборку наиболее целесообразно раз делить на три кластера, но не исключено деление на два и 'Оl Медицинская статистика четыре кластера, все зависит от точки зрения эксперимен . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . .. . . татора и требо~аний ситуации. Упражнение 29. • • • • • • • • • • • • • • • • • • • • • • Выявление кластеров эмпирической выборки с использованием пакета SPSS условие: то же. Решение: 1. Запустим пакет SPSS и введем данные по трем при знакам в отдельные столбцы, присвоив переменным назва ния Уаг 1-3. 2. Выполним стандартизацию данных. (Статистики) (Подытожить) - (Описательные статистики): • (Переменные) - Уаг 1-3; • (Сохранить стандартизованные величины как пере менные). В окне (Просмотр результатов) появились три новые стандартизованные переменные. Переименуем их (Опреде ление переменной). Сохраним данные в файле. з. Осуществим агломеративную кластеризацию: • (Статистики) - (Классифицировать) - (Иерархичес кий кластер). • В открывшемся окне (Иерархическая кластеризация) зададим (Переменные) жок (Кластер) - • Vаг1-З, установим фла (Случаи). Нажав (Графики ••• ), установим (Дендрограмма) (Продолжить), возвратимся в основное окно. • Нажав (Метод), выберем метод кластеризации и раз мерность расстояния. Выберем метод (Ближайшего соседа), (Мера), (Интервальная ,шкала), (Евклидово расстояние). Нажав (Продолжить), возвратимся в предыдущее окно: • НаЖмем кнопку (Статистики). Оставим флажок в (По рядок обьединения. Можно фиксирова"гь принадлеж ности к кластерам, причем сразу для всего диапазо на рещений: (Принадлежность к кластерам). Поста- Глава 9, MHoroMepHble статистические 101 методы вив флажок (Диапазон решений), зададим диапазон, указав значения: от • 2 до 4. Нажав (Продолжить), возвратимся в основное окно, жмем ОК. 4. В окне (Просмотр результатов) - результаты класте ризации и (Дендрограмма). Ее вид ничем не отличается от таковой в пакете Statistica, может быть, только с точки зре ния художника-графика рисунок несколько примитивнее. Но здесь приведены таблицы (Порядок объединения) и (Принадлежность к кластерам): • Для дивизивной КЛ,астеризации в пункте главного меню (Статистики) выберем (Классифицировать) (Кластерный анализ методом k-средних). 6. В открывшемся диалоговом окне метода: • зададим (Переменные) - Var 1-3; • установим (Метод) в поле (Итерировать и классифи цировать); • • зададим (Количество кластеров) - два; нажав кнопку (Итерировать), укажем (Максимальное число итераций), наl~ример, 15 (этот параметр задается в пределах от 1 до 999); . • оставим значение «О» дЛЯ критерия сходимости, он принимает значение от О до 1, понимаемое так, что итерации прекращаются в случае, если очередная из них не перемещает ни один из центров на расстоя ние большее, чем значение критерия; • нажав (Сохранить), (Принадлежность к кластерам), сохраняем полученные результаты; • нажимаем кнопки (Параметры), (Таблица результатов проверки качества разбиения с помощью ANOVA) и (Информация по кластеру для каждого случая). 7. Выполнив кластеризацию для двух кластеров, повто рим ее для трех, а затем - ДЛЯ чеtырех, пяти, десяти клас теров, изменяя для этого поле (Количество кластеров). 8. В окне (Просмотр результатов) проанализируем ито ги разбиения соответственно на два, три, четыре и более кластеров: ttO • таблицы мnal Cluster Centers (Окончательные центры кластеров). Ouster Membership (Принaд.neжнoc1Ъ к кла стерам), Number of Cases in each Cluster (Количество случаев в каждом кластере) и ANOVA (Результаты про верки качecrвa разбиения с помощью ANOVA). Результаты кластеризации получились аналогичными пакету Statistica. Резюме: выборку целесообразно разделить на 2 или 3 кластера. Большее число ,кластеров искажает ситуацию и вносит в кластеризацию полную неопределенность. Если результат исследователя почему-то не устраивает, то стоит внести коррекцию в процедуру аНaJlИза за счет увеличения объема 'выборки и проведения повторной кластеризации. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Упражнение 30. • • • • • • • • • • • • • • • • • • • • • • , Проведение к.naaepHoгo анanиза эмпирических даН- ных В разнотипных шкanах. Условие. Необходимо определить, что является движу щим мотивом выбора конкретной профессиональной вра чебной направленности. Для этой цели 30 студентов со вто рого по шестой курс трех факультетов медицинского- уни верситета были сгруппированы в следующую выборку. Группировка велась по следующим признакам: Тип темперамента по д. Кейрс;и: ' Дионисий. ЭпиметеЙ. Аполлон. Прометей. не определен. Факуn"тет: • лпФ - лече6но-профилактическиЙ. • • • • • SP SJ NF NT НО - • • ПФ МПФ - • _пв - педиатрический. медико-профилактическиЙ. процент встречаемости данного вида темпера мента по отношению к референтной группе. Перечен" и количественные характеристики некоторых профессионально значимых функций врача (ПЗФ): 111 Глава 9.MHorollePНble статистические lIетоды 1. Кинестезия. 2. Глазомер. з. Срывы дифференцировочной реакции на сложный световой раздражитель. 4. Число ошибок по корректурной таблице Анфимова. 5. Реакция на движущийся объект. ВР - возраст (полных лет); П - пол (Ю - юноши, Д - девушки). Определить: на какие группы наиболее целесообразно разделить выборку студентов по признаку сходства пока занных ими результатов? ... :z:: • • • ~ N! .а Q. 1: ~ ~ ... J!JI ~. ~ .а е !s s z ПЗФ •~~ Возраст Пол 1: 111 о u к г с ч р 1 SP ЛПФ 19 3 1 4 5 2 19 Д 2 SP ЛПФ 20 4 2 3 5 1 21 Д 3 SP ПФ 17 4 1 5 3 2 18 ю 4 SJ ПФ 5 4 ю МПФ 3 4 3 2 2з SJ 4 5 5 Д МПФ 3 2 1 24 НО 2 1 1 5 6 15 7 21 22 ю 7 NF МПФ 15 4 3 1 5 2 19 Д 8 SP ЛПФ 16 5 1 4 3 2 22 ю 9 NF ЛПФ 15 4 3 1 5 2 21 Д 10 NF ПФ . 14 2 1 4 5 2 22 Д 11 SP ПФ 17 2 1 3 4 3 23 ю 12 NТ Мr1Ф 18 3 2 4 5 4 24 Д 13 NT ЛПФ 19 5 1 3 4 2 20 ю ,.. 14 но ЛПФ 2 4 ~ 1 5 2 19 д 15 NF МПФ 4 3 1 4 5 3 18 ю 16 НО МПФ 20 3 1 4 5 2 22 ю 17 НО ПФ 16 3 1 4 5 4 19 ю 18 NF ПФ 18 2 1 4 5 3 19 Д 19 SP ЛПФ 12 3 2 4 5 2 2з ю 20 SP МПФ 18 5 3 2 4 2 24 Д МеАицинская статистика 11:1 Окончание табл. !I: ф :1 • NI а. ф с :1 ~ ~ • ~ е 21 SJ МПФ 22 Тзf SJ li·::s: ПЗФ _~ Возраст Пол с ID о к г с ч р 16 2 1 4 5 2 18 д пф 15 3 1 4 5 3 22 ю но ЛПФ 8 3 2 4 5 4 21 Д 24 SJ ЛПФ 13 3 1 4 5 5 23 д 25 NT ПФ 14 3 1 4 5 4 18 ю 26 SJ ПФ 20 4 1 2 5 3 20 д 27 ЭР МПФ 16 1 2 3 5 1 21 Д 28 но МПФ 17 4 1 5 3 2 22 ю 29 30 SJ ПФ 4 4 5 5 3 3 25 ю ПФ 3 3 2 SP 7 15 22 Д (.) 1 Решение: Данная задача содержит некоторые осложнения анали тического процесса: особенность в наличии разнотипных измерительных шкал. Действительно, эдесь и интервальные, и ранговые, и но минальные, и дихотомические. Показатели ПЗФ вообще представляют собой «сырые баллы., требующие ранжирования по каждому столбцу. Здесь явно не подходят приемы кластеризации как по иск меры сходства или различия, используемые при работе с однородными шкалами. Из таких сложных ситуаций есть два корректных выхода: 1. Воспользоваться приемом работы со смешанными шкалами, но, поскольку такой подход не реализован в па кетах, рассматриваемых нами, надо предварительно само стоятельно вычислять матрицу попарных расстояний, а ра бота эта весьма трудоемка. Ее можно облегчить, но, опять же, для этого надо как минимум иметь навык программиро вания. Глава 9. 111 Многомерные статистические методы 2. Можно сформировать дихотомическую шкалу. Этот путь тоже трудоемкий, однако он все же· позволяет исполь зовать Гlредставленные статистические пакеты. В данной ситуации нам ничего не остается как выбирать второй путь. Смиримся с некоторым упрощением исходных эмпирических данных и соответственно с потерей некото рой части содержащейся в них информации. Итак, для того, чтобы сформировать дихотомическую шкалу, 11рименим прием (Жаккара), реализованный в паке те SPSS, но это совершенно не фатально, и мы могли бы взять любую другую методику, предназначенную для ис пользования с дихотомическими шкалами Перекодировка осуществляется встроенными в статис тические пакеты подпрограммами: 1. Запустим пакет SPSS и нажмем кнопку (Ввести дан ные). Вводим пошагово, совместно с их дихотомизациеЙ. Признак темперамента номинальный, имеет пять- ка - тегорий и надо представить каждую отдельно: означать ее наличие, а «О» - «1» будет отсутствие. Но сначала вве дем в первый столбец данные по признаку темперамента, закодировав их так: 1- SP, 2 - SJ, 3 - NF, 4 - NT, НО, учитывая капризность работы программ с буквен 5 - ными русскоязычными (и даже английскими) сокращения ми, целесообразнее выполнить кодировку числами. После чего копируем данный столбец в последующие четыре переменные, резервируя место под другие дихото мические переменные, соответ~вующие категориям призна ка - темперамент. Данный пакет позволяет достаточно легко перекодиро вать данные. Выберем (ПереКОДИРОА\17"Ь) - (В те же самые переменные). Пере кодируем переменную Var1, которая бу дет соответствовать дихотомическому признаку SP, нажав Old and New Values (Старые и новые значения). Укажем (Старое значение) «1 ». «1», и Новое значение) - Нажмем кнопку (Добавить), введя в число преобразо ваний. Необходимости менять значение «1» на такое же зна- 114 Медицинская статистика чение «1) на самом деле не было, но иначе не показать про цедуру кодирования переменной темперамент. Далее - (Все остальные значения), в (Новое значение) введем «О» и (Добавить). Нажав (Продолжить) и ОК, выполним перекодирование, результаты которого автоматически вводятся в столбец пе ременной Vaг 1, которая стала дихотомической. Аналогично перекодируем Var 2, (Преобразовать) (Перекодировать) - Into Some VariabIes (8 те же самые пе ременные), заменим в СI"lиске Var 1 на Var 2. Нажав (Старые и новые значения), укажем в поле (Ста рое значение) «2», а в поле (Новое значение) - « 1» и на жмем (Добавить). Старый вариант (1-1) удалим кнопкой (Переместить) и выполним перекодирование. После перекодирования всех переменных, соответствующих категориям темперамента, данные по признаку «темпераменп) перепишутся следующим образом (на примере испытуемых с номерами 1 и 4): 1 4 SP SJ NF NТ но 1 о о о о о 1 о о о Следующий признак «факультеп) псевдоранговыЙ. Для дихотомизации введем аналогично отдельные дихото мические признаки для каждой из его градаций: Признак ЛПФ ПФ МПФ 1 1 о о 4 о о .1 псевдоинтервальныЙ. Для дихотомизации разделим всю область принимаемых им значений на три гра дации: от О до более - 10 - (высокий). (низкий), от 11 до 21 - (средний ).22 и . Анализ таблицы показывает, что процентное соотноше ние Гlризнаков не выходит за пределы двух первых града- Глава 9" MHoroMepHble аатистическме 115 методы ций, поэтому можно ограничиться только двумя градация ми. Введем для них дихотомические признаки (при мер пр~ веден для испытуемых 1 и 4): Состав следующей группы признаков псевдоранговый~ как и признак, однако количество градаций у каждого из них равно пяти. Соответственно можно ввести отдельный дихотомический признак для каждой из градаций, но из со держательных соображений количество градаций лучше сократить следующим образом: • NI средний низкий 1 4 1 О О 1 для признаков К, С и Р в выборах испытуемых фигу рируют все пять исходных градаций, отсюда к пер вой градации - тре"rt_ей ранг - ранги 4 туемых 1 и 2): и 5 1, ко второй - к =2,3 К=4,5 1 о 1 о 2 о о 1 ДЛЯ Г - 2 и З, к (при мер переменной К у испы К=1 • ранги ранги 4 и 5 в выборах испытуемых не фигу РИРУЮТ, отсюда к первой градации отнесем ранг КО второй • ДЛЯ Ч - - 2 третьей - 1, 3 (для испытуемых 1 и 4): Г=1 Г=2 г=з 1 1 о о 4 о о 1 ранги 1 и 2 в выборах испытуемых не фигу РИРУIQТ, отсюда к первой градации отнесем ранг З, . . ко второй - 4, третьей - 5 (ДЛЯ испытуемых 1 и 4): ". Медицинская статистика NI I 1 4 Ч=3 Ч=4 Ч=5 О О 1 О 1 О Теперь каждая из переменных К, Г,С,Ч, Р представлена дихотомическими приэнаками. Признак Возраст интервальный; выполним -его -дихо - томизацию аналогично признаку градаци":t: % соотношения, выбрав три 18-20,21-23 'и 24-25. Затем введем отдельные дихотомические признаки для каждой из этих градаций (при мер приведен ДЛЯ испытуемых в Ng 1 4 = 18,19, 20 1 1 и 4): В О Признак П (пол) - =21, 22, 23 В = 24,25 О О О 1 дихотомический. Закодируем его значения так: Ю - 1, Д - О (для испытуемых 1 и 3): . N2 П 1 О 3 1 Дихотомизация закончена; число переменных( в первич ной выборке уменьшилось до 29), а в модификациях увели чилось. 3. • • • Дважды щелкаем (Определение переменной), задав: (Имя переменной) - (Тип шкалы) - Var 1-29; (Номинальная); (Тип данных): Туре (Тип) - - (Ширина) (Числовой), -1, (Количество знаков после запятой) - • в (Формат столбца) задаем параметры: - (Ширина столбца) - 5, - (Выравнивание) - (По центру). О; Глава 9. Многомерные статистические методы tt7 4. Выполним агломеративную кластеризацию случаев, задав ряд параметров: • • • • 5. (Метод) (Мера) - - Furthest neighbor (Дальнего соседа); (Дихотомическая шкала); (Коэффициент Жаккара) ; (Диапазон решений) - от 2 до 7 кластеров. В окне (Просмотр результатов) получаем, в частно сти, таблицу (Принaдnежность к кластерам)., По результа там агломеративной кластеризации можно сделать вывод, что наиболее пеРСllективным является разделение исходно го множества объектов на пять кластеров. б. Выполним ДИ8ИЗИВНУЮ кластеризацию, меняя число кластеров: 2, З, 4, 5, б и 7. 7. В окне (Просмотр результатов) видим итоги класте ризации: (Окончательные центры кластеров), (Принадпеж ность к кластерам), (Количество случаев в каждом класте ре) и ANOVA (Результаты проверки качества разбиения с помощью ANOVд). В частности: 1 2 Cluster Cluster Cluster 13 --~--+--1~----t .1t- 1 Cluster 17 3 4 6 16 4 4 1 13 2 3 4 5 4 4 2 4 5 Медицинская статистика Для семи кластеров: Cluster 1 10 2 3 2 4 5 6 7 5 3 7 2 1 Итак, предпочтительным является разделение выборки на пять кластеров. Такое разбиение, во-первых, выделяет наибольшее число индивидов по главному результирующе му приэнаку классификации"'" «тип темперамента по Д. Кей си», во-вторых, увеличение числа кластеров только дробит выборку, и увеличение числа кластеров до 10-20 приводит аналитика к полнейшему абсурду. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . .. 2. ДИСКРИМИНАНТНЫЙ АНАЛИЗ Основы диc"pu.м.иHaHmHoгo анализа Кластерный анализ rюзволяет разделить эмпирическую выборку на несколько классов (кластеров), однако не дает , - ' ни правил, ни четких кри,!ериев оценки качества класси фикации. В то же время и правила, и критерии важны прежде всего в вопросах диагностики редких, нетипичных патологич~ских процессов, симптоматика которых весь ма размыта. И особенно в процессе оказания ургентной (экстренной) медицинской помощи, когда у врача на пе pe~op вариантов лечебно-диагностической тактики счи танные минуты. Для решения подобных задач и сущес~вует дискрими нантный анализ. И хотя дискриминантный и кластерный анализы близки по сути (направлены на решение задач классификации), но подходами к классификации прино. ципиально различаются. Дискриминантный анализ, как и кластерный анализ, направлен на разделение выборки на ряд кластеров, но его Глава 9. MHoroMepHble конечная цель - tt. статистические методы отнесение некоторого объекта к одному из уже построенных классов, а также проверка непроти BopeчивocTи классификации. Термин «дискриминация» (от лат. discriminacio - раз деление) означает не только разделение объектов на клас сы, но и ограничение такого разделения. Это ряд методов, с помощью которых мы можем от нести новый. объект к одному из заранее построенных классов, а также проверить качество построенной клас сификации. Еще дискриминантный анализ называют ана лизом с обучающей выборкой для распознавания образов или классификацией с обучением. Кластеризация, многомерное шкалирование, эмпири ческое классифицирование основывается на экспертных оценках на основании профессионального опыта врача диагноста. Алгоритм дискриминации таков: 1. Проверить, создана ли выборка данных в интерваль ных шкалах или в шкалах отношений, имеют ли призна ки нормальное распределение вероятностей. 2. Проверить, разделена ли выборка на конечное чис ло (не менее двух) непересекающихся классов, известна ли Д1Iя каждого объекта его llринадлежность к определен ному классу. (Можно ограничиться значениями вероятно стями ПРИНaД1Iежности объекта к каждому классу.) 3. Если все обстоит так, то можно приступать к реше нию основных вопросов дискриминации: •. Принадлежит ли произвольно выбранный объект из генеральной совокупности к одному из классов, на которые разделена эмпирическая выборка, и мож но ли конструировать правило классификации. Можно ли систему распознавания научить опреде лять принадлежность объекта к тому или иному классу? • Каково качество построенной классификации: на сколько она чутка к разделению объектов на клас сы, насколько такая дифференцировка достоверна? Медицинская статистика '20 • Каковы информативные признаки из числа изме ряемых у исследуемых объектов, какие из них име .ют наибольшее значение для правильного и каче ственного дифференuирования. Существует ряд разновидностей дискриминантного анализа, но математическая сугь у них едина, поэтому Д1Iя практического применения рассмотрим три основных на правления дискриминантного анализа, реализованных в большинстве статистических пакетов: • • • ' линейный дискриминантный анализ Фишера; канонический дискриминантный анализ; пошаговый дискриминантный анализ. Линейный дискриминантный анализ Фишера (линей ная дискриминация Фишера, дискриминантный анализ) предложен Р. Фишером. Сугьего в том, что разбиения вы борочной совокупности строятся на так называемой ли нейной комбинации значений измеренных признаков. Ее аналитическое выIажениеe таково: т hk = bko + ~b/g"Xj. j=1 2.. Новый объект можно отнести к какому-то классу согласно клаССИфицирующей функции, если значение конкретного признака является максимальным среди всех значений, вычисленных на этом объекте. В основе метода Фишера лежит еще одно предполо: жение, накладываемое на ковариации переменных: при знаки должны иметь статистически идентичныIe ковариа uионные матрицы. Ковариация двух переменных - мера их совместного изменения, равноценна коэффициенту корреляции Пир сона. Однако показатель ковариации в отличие от коэф фициента Пирс<)на может принимать произвольные зна чения, а не только в пределах: [-1 ~ r ~ + 1]. Канонический дискриминантный анализ - схема об ратна первому виду анализа: здесь разделение объектов ве дется по минимальным значениям дискриминирующей Глава 9. MHoroMepHble статtКтические методы 121 функции. Вопрос отнесения объекта к определенному классу возможно положительно решить только тогда, когда евклидово расстояние от центра кластера до оцениваемо го показателя минимально. Такой вид анализа, конечно, более сложен и трудоемок в реализации. Тем более, на основе проведенных численных экспе риментов РЯД' авторов отмечают, что результаты анапиза Фишера и канонического дискриминантного анализа со впадают. С вводом в обиход персональных компьютеров широ кое распространение получил так называемый (пошаго вый метод дискриминации). Он, как и линейный вид ана лиза, достаточно прост в реализации и помогает наглядно за счет последовательного включения (исключения) наи более информативных дискриминантных переменных на каждом шаге (для каждого текущего набора дискриминант HblX переменных) оценивать качество полученной класси фикации. При м е ч а н и е. Сnедует' обратить самое серьезное внимание на обязатеnьную нормаnьность распреде- . пения в rенерanьнои совокупности, которая часто не выпоnняется ДЛЯ эмпирических данных. Пренебреже ние этим может привести к серьезным ошибкам кnас сификации. Прuмененuе nошаzовоzо диCKpu.миHaHmHoгo аНilЛuза в КIIuнuческой nракmике Упражнение 31. • • • • • е • е е е·· е е е е е е е е • е е е ДИскриминантный анализ эмпирических данных - слу чай подтверждения допуcrимоcrи классификации (пакет Statistica ). УслоВие. Насколько точна диагностика острого аппен дицита по степени выраженности симптомов: гангренозного - 1, флегмонозного - 2, минальной патологии - катарального - 3, другой абдо 4. В разработку включены данные 100 историй болезни с тремя видами аппендицитов и из них 24 случая неподтвержденных. 122 Медицинская статистика СИМПТОМЫ острого аппендицита, степень их выраженно сти и их кодировка. N2 Наименование Симптома Степень выраженности и код Х1 ПОДВЭДОUJiая боЛЬ 1 - незначительна, 2 - значительна ~ Продоmкительность боли хз Частота пульса Х4 Лейкоцитарная формула Xs· Поверхность языка 3-до Щеткина - 80, 2 - до 100, 3 - свыше 100 ударов в минуту 1- не более 8, 2-до 14, 3 - свыше 14 тыс.l мин О - налета нет, 1 - обложен, цвет налета сероватый . 0- нет,2 - Блюмберга Х7 Симптом Ровэинга ха Мышечное напряжение 2 -ю 48 ч, суток, 4 -до 12 ч до 1- Симптом хв более суток, 1- О О нет. - - нет. резко выражен река выражен 2- 2- резко выражено Фрагмент обучающего массива данных (п = 100 чел.) Симптомы Группирующая Х1 Х2 ХЗ ~ XS х& Х7 ха 2 3 1 2 1 2 2 2 2 .............. ·2 3 1 2 1 2 2 2 3 ............... 1 3 1 2 1 О 2 2 4 1 2 1 1 О О О О 1 ~ . ............ ~ ......... и т.Д. до 100 наблюдений Решение. Запускаем пакет Statistica, создаем новый файл данных, вводим в таблицу, расширив число случаев до 100, данные на 100 пациентов согласно таблице «Обуча ющий массив данных». ГЛдВд 9. .121 Многомерные статистические методы Входим в стартовую панель лакетаи выбираем (Дискри минантный анализ), выбираем независимые и ГРУr:'пирующие на следующие вопросы: 1. Какова информативность симптомов линейных дис криминационных функций? 2. Каков вклад линейных дискриминационных функций (ЛДФ) в дисперсию симптомов? З. Каковы коэффициенты кано~ических ЛДФ? 4. Какова факторная структура канонических ЛДФ? 5. Как выглядят координаты центроидов четырех ГРУIlП данных, включенных в разработку? б. Как выглядит график положения объектов анализа? 7. Какова ма'грица чувствительности диагностики из таб лиц обучающей информации. Вызываем окно днализ. В окне днализа последователь но появятся несколько таблиц с результирующими данными. ПерВая таблица (Disсгimiпапt Fuпtiоп дпаlisis Summari) выделяет как наиболее информативные симптомы 8, б, 2, 7, 1, 3, 4, включенные в ЛДФ с шестью характеристиками по каждому. Вторая таблица показывает симптом 5, (VariabIes сuггепtlу not in the model) как наименее информативный в дан ной подборке симптомов, не включенных в ЛДФ Третья таблица (Сlаssifiсаtiоп Fuпсtiопs, grupping) «вы дает» 110 каждому симтому набор коэффицентов ДЛЯ линей ных классификационных функций (ЛКФ). Кроме всего про чего, мы можем получить распечатку формул расчета ЛКФ. ЧетВертая таблица Roots Removed) (Ctli-Square Tests with Successive показывает вклад канонических ЛДФ в дис персию признаков ( в частности, две первые из них делают наиболее существенный вклад в диагностику заболевания). Пятая таблица (Raw Coefficients) показывает значения коэффициентов канонических ЛДФ. Шестая таблица (Factor Structure Matrix, Correlations VагiаЫеs-Сапопicаl Roots) показывает факторную струк туру Канонических ЛДФ. Медицинская статистика 124 Седьмая таблица (Means of Canonical VariabIes) содер жит свод координат центроидов. Восьмая таблица (Classification Маtгiх)содержит ИН формацию о чувствительности решающих правил дискрими нации. Вь/Вод по услоВиям nредстаВленноiJ задачи. Для диаг ностики данной группы хирургических патологий необходи мо использовать первые две канонические ЛДФ, поскольку их суммарный вклад в дисперсию симптомов составляет =:: 98%. Таблица 8 показывает, что принятая нами система позволяет правильно диагностировать в среднем 15,1% больных. Однако по группам патологий прослеживается не который «разнобой» показателей безоши'бочной диагнос тики: 1) 78,6%; 2) 60,0%; 3) 65,4%; 4) 100% соответствен но. Недостаточная точность диагностики патологий первой и второй групп объясняется перекрытием симптомов и вы зывает потребность в более тонкой дифференцировке сим11томокоплексов острого аппендицита. Технически процедура диагностики заболеваний конк ретных Больныx складывается из: 1. Оценки симптомов заболевания в баллах. i Расчета канонических линейных дискриминантных функций (КЛДФ) дЛЯ отнесения конкретного больного к той или иной группе заболеваний. Пример расчета: Больной 1 11 Симптомы ха >се Х2 Xz- Х1 ХЗ ~ 2 2 2 О 2 1 1 О 3 2 2 1 О 1 Для всех групп заболеваний, включенных в обучающую таблицу (матрицу), определяются 1-3 КЛДФ. Первая КЛДФ должна описывать наибольшую часть дисперсии си мптомов заболевания, вторая - наt1большую часть из оставшихся признаков и так далее по убывающей. Мощность вклада оценивается по Критерию х2 Пирсона при р ~ 0,05. В нашем случае, перемножив коэффициенты КЛДФ из таблицы 5 и Глава 9. MHorOMepHble статистические методы '2S значения кодов симптомов (первого и второго больного), мы с 98 %-ной точностью относим' проявления заболевания у первого больного к флегмонозному аппендициту, а у друго ~o • - • к неподтвержденному диагнозу аппендицита. • • • • • • • • • • • • • • • .8 • • • • • • • • • • • • • • • • з. ФАКТОРНЫЙ АНАЛИЗ Теоретические основы фан:торного аНQJluза Факторный анализ сегодня саМЫЙ популярный из всех MHoгo~epHЫx методов анализа, но, как правило, в дале ких от медицины областях, если не считать фундаменталь ной работы на эту тему немецкого ученого врача Карла Иберлы, вышедшей в 80-е годы хх столетия. К сожале нию, знаком с этим MeTOДOM~ возможно, не более чем один врач из тысячи. Наша сегодняшняя задача состоит в том, чтобы донести до читателя основу этого вида анализа и на практических примерах показать, как он виляет на син Te~, интеграцию и интерпретацию конечного результата обработки данных. В отличие от всех ранее описанных в данной книге при емов обработки эмпирической информации факторный анализ не только позволяет сжать объемы информации, но на совершенно новой основе строит доказательство влия ния этих факторов. Если все предьщущие методы цифрами всего лишь подтверждали влияние подразумеваемого, пред полагаемого фактора или группы факторов, то в данном случае выявляется этот самый скрытый (латентный) фак тор или группа и цифрами объясняется его влияние. Факторный анализ в принципе мультифакторный - анализ, но «начало» его в однофакторном анализе ч. Спир мена и двухфакторном (бифакторном) - К. Холзингера. Естественно, математические основы, к примеру, у одно-двухфакторного и мультифакторного анализа суще ственно отличаются. Это сугубо математический метод, в котором обяза тельно используется корреляционная матрица - матрица МеДИЦИNскаR статистика .28 попарных коэффициентов линейной корреляции Пирсо на между исследуемыми признаками. Процедура извлечения факторов с ПО,мощъюкорреля ционной матрицы исходных данных называется фактори зацией. Концепция факторного анализа заключена в следую щем: • Истинные причины изучаемого явления не могуг быть непосредственно наблюдаемы и доступны, их число также неизвестно исследователю. • • Признаки измерены в интервальных шкалах. Предполагается нормальность распределения ис следуемых эмпирических данных в генеральной со вокупности. • Постулируется ортогональность и незави~имость ВЫЯWlяемых факторов, хотя это положение на прак тике ТРУДНОВЫПОЛНИМQ. Из всего сказанного ясно, что применимость методов факторного анализа является весьма «жесткой), ограничи тельной, и ((корень зла~ прежде всего, в частности, в ин тервальных измерительных шкалах и соответствии вероят ностного распределения признаков нормальному закону. В медико-биологических исследованиях эти постула ты часто не выполняются, и, естественно, теоретические основы факторного анализа фактически являются весьма условными~ Тем не менее, как пишет К. Иберла, упомянутые огра ничения на применение факТорного анализа можно если не совсем обойти, то в той или иной степени ослабить ис пользованием методов эвристического склада, т. е. позво ляющих получить решение без его исчерпывающего тео ретического обоснования. Мы не будем подробно останавливаться на классифи кации его методов, тем более что некоторые авторы отме чают, что различные методы дают принципиально одина ковые результаты. Глава 9, 127 МиоrОllериые crатиcrические методы Модель факторного анализа такова: 1. Имеется объектов (например, испытуемых), для N каждого из которых измерено n признаков (например, не которых свойств). Результаты представленыI в виде мат рицы «объект-признак»'. 2. Исходные эмпирические данные нормируются. Идея факторного анализа состоит в том, чтобы пред ставить нормированные значения матрицы <Qобъект - при знак» в виде линейной комбинации небольшого числа скрытых (латентных) факторов, т. е. упростить структуру признакового пространства. С помощью данной модели вводится в рассмотрение ряд базовых понятий факторного анализа: • Общие факторы - выделяемые при факторном ана лизе, как мы уже сказали, их нельзя - латентные факторы, измерить непосредственно, но можно вьщелить статистическими методами. • Специфические факторы - выделяемые при фак торном анализе латентные факторы, воздействую-' щие на какой-либо один' определенный признак. • Факторные нагрузки не известные заранее коэф - фициенты общих и специфических факторов. • Общность'- вклад общих факторов в дисперсию признака. • Характерность - вклад специфических факторов в дисперсию. • Факторная матрица матрица, составленная из ко - ординат общих факторов. • Факторные веса коэффициенты факторной матрицы. • Объясненная дисперсия - часть общей дисперсии, объясняемая с помощью выделенных факторов. • Собственные значения - рассматриваемые в мате матике собственные значения матрицы «объект - признак». • Факторная структура - набор общих факторов, ко торые заменяют собой исходныe признаки. Медицинская статистика t:l8 Центральное звено факторного анализа составляет оценка факторных нагрузок, приемы могут быть pa~Hыe: метод главных компонент, метод главных факторов и т. д. Факторы задают по суги новые оси в пространстве при знаков в декартовой системе координат. В этом плане глав ная особенность факторного анализа - вращение факто ров, позволяющее получить более простую и легче интер претируемую факторную структуру. В ФА применяется множество видов вращения факто ров: • • (Варимакс) и (Нормализованный Варимакс); (Биквартимакс) и (Нормализованный Биквартимакс); • • (Квартимакс) и (Нормализованный Квартимакс); (Эквимакс) и (Нормализованный Эквимакс). Общего «рецепта» вращения не существует. Исследователь сам подбирает наиболее подходящий метод враще ния факторов эмпирическим пугем. ПРОИJUlioстрируем применение факторноro анализа на конструировании из множества исходных признаков не большого колИчества новых переменных (главных компо нент), объясняющих значительную часть общей дисперсии. Метод главных компонент специфичен, но часто рассмат ривается как один из методов факторного анализа: именно в таком качестве он реализован в пакетах В пакете Statistica реализовано множество настей методов факторного анализа: • • • • • SPSS и Statistica. разновид - . главных компонент; главных факторов; гла·вных осей; максимального правдоподобия; центроидныЙ. Представление данных при проведении факторного анализа может осуществляться, или в виде «сырых», пер вичных данных, или в виде готовой матрицы корреляций. Это непринципиально, но вносит определенные дополни тельные коррективы в процесс обработки эмпирических данных. Глава 9. 12. Многомерные статистические методы " Упражнение 32. • • • • • • • • • • • • • • • • • • • • . • Факторный анализ по корреляционной матрице с по- МОЩЬЮ метода главных компонент (пакет Statistica). УслоВие. На основании данных опроса определить глав ные ведущие факторы профессионального роста врачей со стажем работы свыше 10 лет и найти между ними возмож ную связь. Получена" матрица корреляций Пирсона между следующими показателями: Х 1 той в денежном выражении, Х2 удовлетворенность рабо удовлетворенность ра - ботой в профессиональном отношении, ХЗ - удовлетворен ность работой с позиции межличностных отношений, Х4 возможность реализовать на работе свои конструкторские возможнос·ги, Х5 - возможнос·гь реализовать свои художе ственные способности, Хб ми условиями, Х7 - удовлетворенность жилищны - удовлетворенность межличностыми от ношениями в своей семье, ха - удовлетворенность отноше ниями с родителями, Х9 целом, Х 10 Х1 Х1 Х2 хэ Х4 Х5 ха Х7 Х8 Х9 Х10 1 0,7 0,7 0,8 0,3 0,3 0,2 -0,1 -0,2 -0,1 - удовлетворенность карьерой в удовлетворенность жизнью в целом. Х2 хэ Х4 Х5 Х6 0,7 1 0,6 0,8 0,4 0,3 0,4 0,1 0,1 0,1 - 0,7 0,6 0,8 0,8 0,6 0,3 0.4 0,3 0,6 1 0,8 0,8 0,1 0,1 0,2 0.2 0,3 0,2 0,4 0,8 1 0,8 0,3 0,5 0,3 1 0,6 0,3 0,2 0,3 -0,2 -0,2 -0,2 1 0,6 0,4 0,4 ·0,1 -0,01 -0,001 Х7 0,2 0,4 0,3 " 0,4 0,8 0,8 1 0,1 0,2 0,02 ха Х9 Х10 -0,1 0,1 -0,2 0,1 -0,2" -0,01 0,4 0,5 0,2 0,7 1 0,9 " -0,1 0,1 -0,2 -0,001 0,2 0,3 0,02 0,8 0,9 1 -0,1 -0,1 0,1 0,3 0,1 1 0,7 0,8 Решение: 1. Запустим пакет, найдем модуль (Факторный анализ), но для его рабо'ГЫ, как и в других модулях пакета, необхо ДИМО иметь открытый файл с данными для анализа. Такой файл надо либо ввести «вручную», либо получить из других модулей пакета. данныe для факторного аНallиза могут быть представлены либо как первичная матрица - таблица «объект-признак», либо как заранее рассчитанная матри ца корреляций между исследуемыми признаками. 5. К. С. Жижин Медицинская статистика 110 в данном случае мы :собираемся использовать и первич ную матрицу «объект-признак», и матрицу корреляций: • ее в принци"е можно предварительно создать в под модуле (Корреляционные матрицы) модуля (Основ- ные статистики и таблицы); • . или ввести готовую корреляционную матрицу «вруч ную», используя модуль (Управление данными). В данной задаче необходимо создать для данных спе циальный файл в модуле (Управление данными). 2. Запустим модуль (Управление данными) и (Создать новый файл данных). Далее: • Нажав (Имя нового файла), выберем маршрут раз мещения файла и присвоим ему имя, чтобы иметь воз можность неоднократно использовать в процессе дальнейшей работы. • в поле (Количество переменных) введем значение «10». • В поле (Количество случаев) укажем две строчки и 14 в последние внесем данные о средних и средних отклонениях. • Переименуем первые 10 случаев, задавая для них имена переменных, т. е. • Var 1, ... , Var 10.'1 Последним четырем случаям присвоим следующие имена: (Среднее), (Стандартное отклонение), (Номер наблюдения), (Тип матрицы). Примечание. Проверьте, в пакете доnжны--ис пользоваться именно такие названия служебных по лей корреляционной маТРИL,Ы. Иначе матрица не бу дет восприниматься пакетом как корр~ляционная. • Выполним команды (Файл) - з. Запустим (Факторный анализ) ~ (Сохранить). - (Открыть файл данных). Стартовое окно (Факторный анализ) содержит следующую информацию: • (Переменные) - список переменных, подвергаемых факторизации. (Выбрать все) зададим' переменные Var 1-10. Глава 9. • '1' Миоrомериые статистические методы (Исходный файл) форма представления исходных данных: (обычная таблица «объект - признаю> ), или (Корреляционная матрица). Выберем значение (Кор реляционная матрица). • (Обработка пропущенных значений) - данное поле нужно, когда мы работаем с данными, сведенными в матрицу - таблицу «(объект-признак». В этом слу чае здесь можно задать следующие значения данно го параметра: (Удаление случаев), (Удаление парами) и (Замена средними значениями). 4. Нажав ОК, открываем (Диалоговое окно определения метода извлечения факторов). В блоке (Метод извлечения факторов) можно выбрать одну из двух основных возможностей: (Метод главных ком понент) и (Метод главных факторов). (Метод главных факторов) - общее название целой группы различных методов: (Максимального правдоподо бия), (Центроидный), (Метод главных осей) и др. Мы применим (Метод главных компонент), установив соответствующий флажок. Обратим внимание на (Максимальное количество фак торов), (Минимаllьное собственное значение): это поле оп ределяет предел, начиная с которого собственные значения будут исключаться из дальнейшего анализа. Оставим здесь заданное. 5. Нажав ОК, перейдем в (Результаты факторного ана лиза). (Количество извлеченных факторов), равное трем, а также (Собственные значения). Нажав (Собственные значе ния), проанализируем таблицу собственных значений и (Про центы общей дисперсии). Нажав кнопку (Общности), кнопку (График «каменистая осыпь»), получим наглядную иллюстрацию обоснования ко личества извлекаемых факторов. Целесообразно извлекать такое количество факторов, после которого данный график становится плавным. У нас такая точка - значение З, что подтверждает правильность извлечения именно трех факторов. Медицинская статистика '112 Значение признака 6 5 4 з 2 1 о 1 2 3 4 5 6 7 8 9 10 Факторы б. Важной и часто используемой возможностью фактор ного анализа является ротация факторов, она приводит к простой и легче интерпретируемой факторной структуре. Нажмем (Вращение факторов) и перейдем в соответству ющее диалоговое окно, где задается множество возможных видов вращения. Выберем (Нормализованный Варимакс). Проанализируем новую таблицу (Факторные нагрузки), видно, что вращение действительно позволило упростить факторную структуру: нагрузки возросли по величине. Кроме того, важно обратить внимание на то, что после вращения изменилась доля объясненной дисперсии, прихо дящаяся на каждый фактор. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Упражнение N! 33. • • • • • • • • •. • • • • • • • • • • • • Факторный анализ по исходной матрице. Теперь выполним факторный анализ данных с помощью метода глав",ых компонент по первичной таб-лице данных: 1. Запустим пакет, модуль (Факторный анализ). Посколь ку мЬ. в данном случае собираемся использовать первичную Матрицу «объект - признаю>, то лрименим команды (Но вый файл данных). Затем введем данные и сохраним файл данных под осмысленным именем. 2. В стартовом окне (Факторный анализ) аналогично пре жней задаче заполним следующие поля: Глава 9. ••• Многомерные crатистические меТОАЫ Nt ХI х2 ХЗ Х4 Х5 Х6 Х7 Х8 Х9 Х10 1 3 5 4 5 4 4 7 6 4 3 5 4 4 6 5 6 3 5 5 4 7 7 7 7 4 5 4 5 7 6 8 4 4 6 8 4 6 7 3 3 3 8 5 5 7 3 7 6 4 5 8 6 2 3 4 3 3 5 6 7 8 9 10 11 6 7 4 6 5 5 4 12 5 13 5 5 5 8 14 15 16 17 18 19 20 21 4 3 4 5 23 5 5 6 24 4 25 5 22 • • • 5 5 5 4 6 4 5 6 7 5 4 5 5 4 5 7 4 5 3 5 7 8 5 5 6 4 5 4 5· 7 6 4 4 5 6 5 5 5 5 4· 6 6 4 5 5 4 7 6 5 6 4 6 6 4 3 4 3 5 5 5 5 4 6 5 5 - 5 5 4 5 5 5 5 4 5 4 5 5 4 3 4 5 3 4 5 5 8 7 4 7 9 7 8 5 5 5 . 5 4 4 4 6 5 6 5 6 4 5 6 5 7 7 5 5 6 4 5 6 5 5 5 6 5 4 6 5 6 9 5 4 6 6 8 4 5 5 5 5 5 5 4 4 5 6 4 4 3 (Переменные) - 4 4 4 6 4 6 5 5 5 5 6 5 5 6 4 6 5 5 3 5 7 3 4 4 5 5 5 6 5 зададим переменные Уаг 5 1-10. (Исходный файл) - выберем (Исходные данные, т. е. матрица «объект-признаю». (Обработка пропущенных знач.ениЙ) - (Удаление случаев). З. Нажав ОК, повторив шаги 4-8 решения прежней за дачи, сравним полученную в ходе анализа корреляционную матрицу исходных признаков с прежней корреляционной матрицей и убедимся в их идентичности. Таким образом, мы проаналиэировали одни и те же ис ходные данные, представленные в двух различных формах: .. ' Медицинская статистика в первом случае это была корреляционная матрица, а во вто ром - таблица - матрица «объект-признак)). Резюме: результаты факторного анализа, выполненно .го.разными . . . . .способами, . . . . . . .аналогичны. . . . . . . . . . . . . . . . . .. . . . >'1JJ)ёt)f("~"If~ ~~. • • • • • • • • • • • • • • • • • • • • • • Факторный анализ с помощью метода главных факторов (пакет Statistica). УслоВие. Использовать исходные данные предыдущей задачи. Решение: Запустим пакет, переключимся в модуль (Факторный анализ). Откроем матрицу «объект ную нами ранее чрез (Файл) - признак», сохранен (Открыть файл данных). 2. В стартовом окне (Факторный анализ): • (Переменные) - зададим Var 1-10. • (Исходный файл) - выберем (Исходные данные, т. е. матрица «объект - признак))). • (Обработка пропущенных значений) - зададим (Уда ление случаев). з. Нажав ОК, перейдем к следующему этапу: (Диалого вое окно определения метода извлечения факторов). В бло ке (Метод извлечения факторов) активизируем (Метод глав ных факторов), выберем вариант (Центроидный метод). В поле (Максимальное количество факторов) установим зна чение 70, а поле (Минимальное собственное значение) не трогаем. 4. В поле (Центроидный метод): • В (Минимуме изменений в общностях) оставим значе., ние 0,01, доступное ДЛЯ (Метода главных осей) и (Цен троидного метода) с целью поиска максимально воз можного количества итераций, определяемого далее. • (Максимальное количество итераций) здесь заданное по умолчанию значение оставим 50. 5. Нажав ОК. перейдем к окну (Результаты факторного анализа). Вверху находим (Количество извлеченных факто- Глава 9. MHorouepHble статистические методы 115 ров), равное трем, и (Собственные значения). Нажав на кноп ку (Собственные значения), проанализируем таблицу и (Про центы общей дисперсии), объясняемые за счет данных соб ственных' значений. При этом определяется общий процент дисперсии, объясняемой тремя факторами, он несколько меньше, чем в случае применения метода главных компо нент. Нажав (Общности), можно активизировать таблицу общностей сообразно найденным факторам. Нажав на (Фак торные нагрузки), выходим на подборку факторных нагру зок, полученных до вращения. Нажав на (График «каменистая осыпь»), видим, что для центроидного метода он нецелесообраэен для определения числа факторов. 5. Нажмем (Вращение факторов) и (Нормализованный Варимакс). Получим таблицу (Факторные нагрузки) с уче том вращения факторов. Видим, что вращение действит~ль но позволило упростить факторную структуру: нагрузки воз росли по величине. Факторы Но это не все - после вращения изменилась доля дис персии, приходящаяся на каждый фактор. При этом общая доля объясненной дисперсии по всем трем факторам после вращения не изменилась. Из всего этого вытекает, что ро тация повлияла на значимость факторов: теперь наиболее значим второй фактор, за ним следует третий, а уже потом - первый. Следовательно, центроидный метод привел нас к тем же результатам, что и метод главных компонент. 111 Медицинская статистика б. Возвратимся в (Результаты факторного анализа), где можем продолжить изучать другие возможности фактори зации. Ответ: центроидный метод как разновидность методов главных факторов позволил выделить три фактора, объяс няющих более общей ДИСllерсии. Содержательная интерпре тация данных факторов совпадает с интерпретацией факто ров, полученных методом главных компонент. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Упражнение 35. • • • • • • • • • • • • • • • • • • • · • • Факторный анализ нент (пакет ( помощью метода главных компо SPSS). УслоВие. Использовать исходные данные, предыдущей задачи Выполнить факторный анализ с помощью метода глав ных компонент и сравнить полученное реUJение с итогами 11акета Statistica. Решение: 1. Запустим пакет SPSS и введем данные Var1-10. 2. В пункте (Статистики) выберем команды (Снижение размерности данных) и (Факторный анализ). з. В окне (Факторный анализ) зададим (Переменные) Vor1-10. • - Кнопки этого окна реализуют: (Описания) позволяют анализировать корреляцион ную матрицу. Активизируем (Коэффициенты) и (Уров " ни значимости). • Кнопка (Извлечение) позволяет определить метод из ВJJеч~ния факторов и параметры управления процес сом: 4. Зададим (Метод главных компонент): • В (Анализ) оставим (Корреляционную матрицу). • В блоке (Показ) активизируем (График «Каменистая осыпь»). 5. В блоке (Извлечение) можно на выбор задать или ко личество извлекаемых факторов (Количество Факторов), или минимальный предел значений корреляционной матри цы. В поле (Собственные значения выше) ничего не меняем. Глава 9. 117 Многомерные статистические методы б. В блоке (Максимум итераций для сходимости) тоже ничего не меняем. 7. Нажмем (Вращение) и выберем (Варимакс) - (Показ) (Повернутое решение). • Кнопка (Веса) фиксирует и сохраняет факторные веса в качестве переменных. В (Сохранить как перемен ные) можно задать подходящий метод расчета фак торных весов: • (Регрессия). (Параметры). (Пропущенные значения). (Исключать случаи целиком). (Формат показа коэффициентов). (Сортировать по величине). (Подавить абсолютные величины, меньшие, чем ... ). Нажмем ОК в окне (Просмотр результатов), проана лизируем результаты. • С помощью (Корреляционной MaTp~цы) найдем, что . данная матрица· совпадает кете Statistica. • с полученной ранее в 11а В окне (Общая объясненная дисперсия) получим сле дующую информацию: Собственные значения, общий процент объясненной дис персии, перераспределение доли объясненной дисперсии по факторам после вращения: для первого, второго и третьего факторов: • График (<<Каменистая осыпь») аналогичен графику, полученному в пакете Statistica. • Из содержания (Матрица повернутых компонент) оп ределяются факторные нагрузки., фактически совпа дающие с решением, полученным в пакете Statistica. Резюме: метод главных компонент в обоих статистичес ких пакетах приводит практически к одному и тому же ре шению, выделяя 3 латентных фактора, объясняющих более 2/3 общей дисперсии. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Медицинская статистика '18 4. НЕЙРОННЫЕ СЕТИ Идея нейронных сетей в статистике разрабатывается не первое десятилетие. Однако только с бурным внедре нием в жизнь персональных ЭВМ и полноценных статис тических программных продуктов появилась возможность широким слоям потребителей использовать алгоритмы нейронных сетей в повседневной практике. Как и любой другой статистический продукт, нейрон ные сети имеют свои ограничения. Их нецелесообразно использовать там, где достаточно односложные ответы можно получить, применяя дисперсионный, регрессион ный, кластеРНI;>IЙ или факторный анализы, не говоря уже о первичной обработке данных - описательных приемах. Но в ситуациях, когда, образно говоря, надо разгрести «за вал» данных, получение осмысленного результата из ко торого проблематично, - тут-то нейронные сети и MOгyr облеrчить участь исследователя. Основная идея нейронных сетей в том, что они меха нически повторяют структуру действительного нейрона (не рвной клетки) мозга человека: эта клеточная структура име ет несколько отростков - входные быть несколько) и один выходной - - дендриты (их может аксон. Нейрон начи нает передавать информацию через синапсы (узлы связи) другим нейронам только в том случае, когда возбужден, или, иначе, переполнен, информацией. Дозируя информацию, можно регулировать активность нейрона. И на этом фоне удивительной чертой нейронных се тей является их способность к обучению, чего начисто лишены все ранее описанные нами методы статистичес кого анализа. То есть в данном варианте реализуется дей ствительная структура человеческого мозга: во-первых, принимать решение, опираясь на функцию памяти о про шлом опыте; во-вторых, действовать по ассоциации, ис пользуя обрывочные св.едения о предмете анализа. Согла ситесь, только наш мозг позволяет человеку, всего лишь раз в жизни видевшему слона, при коснувшись к ноге по- Глава 9. ,19 Многомерные статистические методы следнего (даже с закрытыми глазами), сразу же восстано вить цельный образ этого животного. Систем обучения нейронных сетей достаточно много: У. Маккалоха, Д. Хебба, М. Минского, Дж. Хопфилда, Ф. Розенблата и др. Наиболее распространена последняя модель в силу того, что касается наиболее простой структуры сети: од нослойного персептрона но мы в (single layer perceptron), данной книге не будем касаться теоретических обоснова ний алгоритмов обучаемости сетей. И отсылаем заинте ресованных в этом к ПРИВQДИМОЙ В конце изложения ли тературе. Наша цель значительно Уже - ввести читателя в про цесс практического использования алгоритма нейронныx сетей по уже готовымпрограммам. Итак, как реально мож но использовать модуль (Нейронные сети) в пакете Statis- tica? }'11"ёt)f(Ii~IiIf~ ~ti. • • • • • • • • • • • • • • • • • • • • • • Дан динамический ряд числа заболеваний дизентери- ей за год. 11редварительно была сформирована помесяч ная таблица анализируемых реальных данных, она была сохранена на диске в конкретной папке. И выделены и,З 11 Заболеваемость Месяц детей порывов дизентерией водоводной на 1 2 3 4 5 6 7 8 9 10 11 12 Число 1000 20,1 31,1 41,1 43,1 501 53,1 55,1 60,1 60,1 66,6 67,1 67,8 чел. сети, абс. 31 22 20 19 13 12 14 21 22 23 эо 18 Качество Число проф. Оперативная случаев работы эффеКТИВНОСТЬ. дизентерии в очаrах, 0/0 баллы 1 2 1 2 3 1 1 2 3 3 3 3 (в расчете на 60 67 67 68 87 87 87 89 89 90 91 88 10000 чел.) 300 1 423.1 321,4 444,4 600,9 7899 988,8 1012,1 1112,4 11233 1109,8 8992 Медицинская статистика 140 входящих четыре основные: зентерией, 2) число 1) детская заболеваемость ди порывов на водоводной сети, 3) каче ство профилактической работы персонала в очагах, 4) опе ративная эффективность. Предстояло получить прогноз динамики заболеваемос ти и определи'ГЬ, какой из четырех отобранных факторов является ведущим. ВblПОЛНЯЯ задачу: 1. Открываем пакет Statistica, войдем в модуль Нейронные сети. 2. Через (Файл новый) выберем команду (Сеть). 3. На экране появится (Создать сеть) - (Create Network), 4. В поле {ТИI1) выбираем (Многослойный персептрон)и делаем установки: Вход = f, Выход 1. 5. Зададим число слоев сети равное трем, т. е. выберем = трехслойный персептрон. 6. Временное окно (Steps) пометим «1211), это будет от вечать ежемесячной. регистрации заболеваемости дизенте рией с присущей сезонной составляющей. 7. Горизонт (Lookahead) пометим «1 ». 8. На экране монитора справа появится схема персеп трона. Поскольку модель определена, необходимо сеть обу чить. Для этого надо задать 66 обучающих (Training) и кон трольных (Verification) наблюдений. 9. Далее перемешиваем данные (Shuffle), поскольку мы анализируем временной ряд, а порядок данных очень ва жен в соответствии с временными промежутками, то исклю чается пользование кнопкой СГРУnГlировать (Group Sets). 10. Откроем командой Запуск окно Проекция времен ного ряда (Time Series Projection). Ряд можно построить целиком или с какого-то интересующего нас момента. Гра фически кривая идет достаточно круто вверх, число прогно зируемых случаев не имеет тенденции к снижению, колеб лясь в предел~ 1000,0-1020,0 на 10000 населения. 11. Проверимкачество работы обученной сети, открыв окно Статистики регрессии, включим Запуск (Run). ГлаВд 9. Многомерные статистические методы 14. 12. Для того чтобы получить прогноз, скажем, на один шаг вперед в меню Запуск (Run) выберем команду (Single Case), откроется соответствующее диалоговое окно, где надо ввести номер наблюдения, для которого строится про гноз, жмем вверху справа кнопку Run, в строке Output полу чим искомый реЗУ/lьтат прогноза. Введя для Гlримера 1З, ·по лучим прогнозируемый уровень 1011,231. Оценивая значи мость входов, мы определили, что из четырех выбранных факторов ведущими (по величине объясненной дисперсии) являются детская заболеваемость: 0,567 и оперативная эф фективность: 0,451. Точность прогноза на среднем уровне, что объясняется малым объемом обучающей выборки, и тем, что велика вероятность, что процесс по годам нестациона рен, не совсем ясно и то, как определять закон распределе ния признаков. Тем не менее ДЛЯ специалиста, принимаю щего решение, отправные точки для дальнейшего анализа ситуации есть, в то время как приемы традиционной описа, . тельнои статистики этих выводов сделать не позволяют. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • 3АКЛЮЧЕНИЕ Данная книга вобрала в себя все те методы, которые автор использовал и использует в своей научной работе: Безусловно, в одной даже очень объемистой книге нельзя объединить то богатство статистических методов, которые существуют на сегодняшний день, поэтому перед автором была поставлена сугубо прагматическая цель: показать в ограниченном объеме наиболее значимое в статистике для большинства практикующих специалистов и научных ра ботников медико-биологической сферы. И без того изначально сложная задача бьmа усложне на еще и- тем, что надо бьmо излагать материал просто, без абстрактных математических и статистических «(умни чаниЙ», поскольку большая часть тех, на кого рассчитана книга (медицинские работники в первую очередь (!», пло хо владеет математикой. Насколько все получилось, судить тому, кто приобре тет данную книгу и будет применять описанные в ней ме тодики в своей работе. Если того, что изложено в ней, кому-то окажется недостаточно, - в конце IJриведена биб лиография, где ДЛЯ глубокого и серьезного анализа эмпи рического материала собрано BC~ лучшее, что можно най ти в библиотеках и на прилавках книжных магазинов. Возможности компьютерных технологий сегодня рас тут не по дням и часам, а по минутам (!) и, естественно, открывают такие большие возможности и перспективы удачного и продуктивного симбиоза математики и меди ко-биологических дисциплин, которые 10-15 лет назад предполагать брались только одержимые статистикой ис следователи-одиночки. Удачи вам и успеха- в работе! ЛИТЕРАТУРА 1. Айвазян С.А., Бежаева З. И., Староверов О. В. Клас сификация многомерных наблюдений. ка, .М.: Статисти - 1974. - 240 с. 2. Айвазян С.А., Буштабер В.М., Еню"ов Н.С., Мешал "ин л.д. Прикладная статистика: Классификация и сни жение размерности. - 608 с. 3. Айвазян М.: Финансы и статистика, - 1989. С.А., Еню"ов И.С., Мешал"ин Л.Д. При клад ная статистика: Основы моделирования и первичная об работка данных. - 471 4. - М.: Финансы и статистика, 1983. с. Анастази А., Урбина С. Психологическое тестирова ние. - СПб.: Питер, 2001. - 688 с. 5. Андерсон Т. Введение в многомерный статистический анализ. - М.: Физ.-математ. литература, 1963. - 500 с. 6. Арене Х, Лейтер Ю. Многомерный дисперсионный анализ. 1985. - 220 с. Артемьева Е.Ю., Мартынов Е.М. Вероятностные 7. методы в психологии. ·8. - 1975. - 207 с. Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. 9. М.: Изд-во МГУ, - М.: Мир, .} 982. - 486 с. Бейли Н. Статистические методы в биологии. 1963.-272 с. 10. Бессмертный - М.: Мир, Б. С. Математическая статистика в клинической, профилактической и экспериментальной медицине. 11. - М.: Медицина, 1967. - 304 с. Би"ел П., Доксам К. Математическая статистика. М.: Финансы и статистика, 2. - 254 с. 12. Большой 1983. - Вып. 1. - 278 с.; Вып. психологический словарь /Сост. и общ. ред. Б.Мещеряков, В.Зинченко. ЗНАК, 2003. - 672 с. - СПб.: Прайм-ЕВРО Медицинская статистика .44 13. Боровиков В. на компьютере. Statistica: искусство анализа данных 2001. - 656 с. 14. Боровuков В.П. Программа Statistica для студентов и инженеров. - М.: КомпьютерПресс, 2001. - 301 с. 15. Боровuков В.П., Боровиков И.П. Statistica: Статис тический анализ и о~работка данных в среде Windows. М.: Филинъ, 1998. - 608 с. 16. Боровков А.А. Математическая статистика. - Но восибирск: Наука, 1997. - 771 'с. - СПб.:, Питер, 17. Бородин А.Н. Элементарный курс теории вероят ностей и математической статистики. - СПб: Лань, 1999. - 224 с. 18. М., Браверман Э.м. Анализ эмпирических данных. - 1979. 19. Брuллинджер Д. Временные ряды: Обработка дан ных и теория. ,- М., Мир, 20. 1980. Бурлачук Л.Ф.~ Морозов С.м. Словаръ~справочник - по психодиаrностике. СПб.: Питер, ,2000. - 528 с. 21. Ван дер Варден Б.Л. Математическая статистика. М.: Изд-во ,иностранной литературы, 1960. - 436 с. 22. Воронин Ю.А. Теория классифицирования и ее при ложения. 23. - Новосибирск: Наука, Вулф Д.А., Холлендер М. Непараметрические мето ды статистики. 24. 1985. - 232 с. - М., 1983. - 518 с. Ву.,ков И.Н., Бояджиева Л., Солоков Е. Приклад ной регрессионный анализ r...f.: Финансы 25. / Пер. с боЛг. Ю.Л. и статистика, 1987. - 238 с. - Гайдышев И. Анализ и обработка данных: Специ альный справочник. 26. Адлера. СПб: Питер, - 2001. - 752 с. Гатаулин А. М. Методическое пособие по матема тической статистике. -' М.: МСХА им. К.А. Тимирязева, 1968. 27. Гланц С. Медико-биоло~ическая статистика. Практи ка , 28. 1999. - 449 - М.: с. Гласе Дж., Стэнли Дж. Статистические методы в педагогике'и психологии. - М.: Прогресс, 1976. - 495 с. Литература. .29. fублер Е.В. 145 Вычислительные методы анализа и рас познав~ния патологических процессов.·- Л.: Медицина, 1978.-296 с. 30. Гудвuн Дж. Исследование в психологии: методы и планирование. - СПб.: Питер, 2004. - 558 с. 31·. Дэйвuсон М. Многомерное шкалирование. - М.: Финансы и статистика, 1988. - 348 с. 32. Демиденко Е.З. Линейная и нелинейная регрессия. М., 1981. - 302 с. 33. Дрейnер Н., Смит r. Прикладной регрессионный анализ. - М.: Статистика, 1973. - 392 с. 34. Дуда Р., Харт П. Распознавание образов и анализ сцен. - М.: Мир, 1976. - 512 с. 35. ДЮК В. Обработка данных на ПК в примерах. СПб.: Питер, 1997. - 240 с. 36. Дюран Б., Оделл П. Кластерный анализ. - М.: Статистика, 1977. - 128 с. . 37. Елисеева И.И., Рукавишников В.е. Группировка, корреляция, распознавание образов. - М.: Статистика, 1977. - 144 с. 38. Енюков И. С. Методы, алгоритмы, прогРаммы мно гомерного статистического анализа. - М.: финансыI и ста тистика, 1986. - 232 с. 39. Жамбю М. Иерархически и кластер-анализ и соот ветствия. - М.: Финансы и статистика, 1988. - 243 с. 40. Иберла К Факторный анализ. - М.: Статистика, 1980. - 321 с. 41. Ивантер Э.В., Коросов А.В. Основы биом~трии: Учеб. пособие. - Петрозаводск: ПГУ, 1992. - 163 с. 42. Ивченко г.и., Медведев Ю.И. Математическая стати стика: Учеб. пособие. - М.: Высшая школа, 1984. - 248 с. 43. Информатика: Практикум по технологии работы на компьютере / Под ред. Н.В. Макаровой. - М.: Финан сы и статистика, 2000. - 256 с. 44. Кадыров ХМ., Антомонов Ю.Г. Синтез математи~ ческих моделей биологических и медицинских систем. Киев: Наукова думка, 1974. Медицинская статистика '48 45. Камuнскuй Л. С. Обработка клинических и лабора торных данных. - Л.: Медгиз, 1959. - 196 с. Карасев А.И. Теория вероятностей и математичес кая статистика. - М.: Статистика, 1970. - 344 с. 46. 47. Кендалл М., Стьюарт А. Статистические выводы и связи. - М.: HaYKa t 1973. - 899 с. 48. Кендалл М., Стьюарт А. Теория распределений. М.: Наука, с. 1966. -. 588 49. Кимбл r. Как правильно пользоваться статистикой. 1982. - 294 с. 50. Классификация и J<Ластер / Под ред. Дж. зина. - М.: Мир, 1980. - 392 с. - М.: Финансы и статистика, lJэн Рай 51. Клиzер С.А., Косолапов М.С., Толстова Ю.Н. Шка лирование при сборе и анализе социологической инфор мации;- М.: Наука, 1978. - 112 с. 52. Кэндалл М. Ранговые корреляции. - М.: Статисти ка, 1975. - 214 с. 53. Лакuн Г. Ф. Биометрия. - М.: Высшая школа, 1990. - 352 с. 54. Леман Э. Проверка статистических гипотез / Пер. сангл. Ю.В. Прохорова. - М.: Наука, 1979. - 408 с. 55. Леман Э. Теория точечного оценивания / Пер. с англ. - М.: Наука, 1991. - 443 с. 56. Леонтьев В. Новейшая энциклопедия персональ наго компьютера. 57. - М.: ОЛМА-ПРЕСС, 2003. - 640 с. Лuкеш Н., Ляга Н. Основные таблицы математичес кой статистики. - М.: Финансы и статистика, 58. ЛисеmС08 А.Н. 1985. - 356 с. Математические методы планирова ния многофакторных медика-биологических эксперимен тов. - М.: Медицина, 1979. - 344 с. 59. Литmл Р.Дж.А., Рубин Д.Б. Статистический анализ данных с пропусками. 60. - М.: Финансы и статистика, 1990. Макаров А.А., Кулаuчев А.П., Синева Н.С. Исполь зование программ обработки данных в преподавании кур сов теории вероятностей, математической и прикладной статистики и информатики. - М.: МГУ, 2002. - 39 с. 1.7 Литература 61. Мандель И.Д. Кластерный анализ. Математический энциклопедический словарь. М.: Большая Российская энциклопедия, 63. - с. 1995. - 848 Мир"ин Б.Г. Анализ, качественных признаков и структур. 64. М.: Финансы -1988. _. 176 с. и статистика, 62. - М.: Статистика, - 1980. - 320 с. Мир"ин Б.Г. Группировки в социально-экономи ческих исследованиях. - М.: Финансы и статистика, 1985. - 224 с. 65. Мостелер Ф., ТьюкиДж. Анализ данных и регрессия. Вып. 1,2. - М.: Финансы и статиcrика, 1981; 1982. - 300 с. 66. Мюллер П., Пойман П., Шторм Р. Таблицы по ма тематической статистике. - М.: Финансы и статистика, 1982. - 278 с. 67. Ншzuмов В.В. Теория эксперимента. - М.: Наука, 1971. - 208 с. 68. Ншzuмов В.В., Голикова т.и. Логические основания fUIанирования эксперимента. - М.: Металлургия, 69. Окунь Я. Факторный анализ. - 1974. - 200 70. М.: Статистика, с. ОуЭН Д.Б. Сборник статистических таблиц. ВЦ АН СССр, 71. 1980. 1966. - 586 М.: - с. Петров А.П. Статистическая обработка результатов экспериментальных исследований: Учеб. пособие. Кур - ган: Изд-во Курганского ун-та, 72. 368 Плохинекий Н.А. 1998. - 85 с. Биометрия. - М.: МГУ, 1970. - с. 73. Плохинекий Н.А. Основные вопросы современной биометрии Изд-во МГУ, 74. С. М.: 7-11. - М.: Наука, 1968. - 547 с. Рунион Р. Справочник по непараметрической ста тистике. 7.6. 1982. - - Рао С.Р. Линейные статистические методы и их применение. 75. Биометрический анализ в биологии. // - М.: Финансы и статистика, 1982. - 198 с. Себер Дж. Линейный регрессионный анализ /Под ред. М.Б. Малютова. - М.: Мир, 1980. - 456 с. Медицинская статистика '148 77. Справочник по прикладной статистике: В 2т. / Под ред. Э. Лойда, У. Ледермана, Ю.Н. Тюрина. - М.: Финан сы и статистика, 1989, 1990. - 510, 526 с. 78. Статистические методы дЛЯ ЭВМ / Под ред. к. Эн елейна, Э.Рэлстона, [С.Уилфа. - М.: Наука, 1986. - 236 с. 79. лиза // ТеflЛов Б. М. Простейшие способы факторного ана Психология и психофизиология индивидуальных разЛичий. - М.: Институт практической психологии; Воронеж: МОДЭК, 80. 1998. - 544 с. - С. 2003. - 540 - М.: ИНФРА-М, с. Тюрuн Ю.Н., Макаров А.А. Анализ данных на ком пыОтере. - 1995. - 384 82. 312-385. Тюрuн Ю.Н., Макаров А.А. Анализ данных на ком пьютере /Изд. 3-е, перераб. и дополн. 81. - М.: ИНФРА-М; Финансы и статистика, с. Тюрuн Ю.Н., Макаров А.А. Статистический анализ данных на компьютере. - М.: ИНФРА-М, 1999. - 528 с. статистика. - М.: Наука, 83. УилКС С. Математическая 1967. - 632 с. 84. Факторный, дискриминантный и кластерный ана лиз / Дж. о. Ким, Ч.У.Мюллер, У.Р.Клекка и др. / Под ред. И.С. Енюкова. - М.: Финансы и статистика, l2!9. - 215 с. 85. Фе.рсmер Э., Ренц Б. Методы корреляционного и регрессионного анализа. - М.: Финансы и статистика, 1983. - 302 с. 86. Фишер Р. Статистические методы для исследовате лей. - М.: Госстатиздат, 1958. - 268 с. 87. Хан г., Шапиро С. Статистические модели в инже нерных задачах. - М.: Мир, 1969. -. 289 с. 88. Хардле В. Прикладная непараметрическая регрес сия. '- М., 1993. - 349 с. 89. Харман Г. Современный факrорный анализ. - М.: Статистика, 1972. - 486 с. 90. Холлендер М., Вулф д. Непараметрические методы статистики. - М.: Финансы и статистика, 1983. - 518 с. 91. Хьелл Л., Зuглер Д. Теории личности. - СПб.: Пи тер, 2002. - 608 с. 149 Литература 92. Шафрuн Ю. Основы компьютерной технологии: Учеб. пособие. 93. М.: АВР, 2000. - 560 с. Шеффе Г. Дисперсионный анализ. 1980. - 512 94. - - М.: Наука, с. Яношu Л. Теория и практика обработки результа тов измерений. 1968. - 462 с. 95. Buhl А.,· Zofe! Р. SPSS Version 10. Einfl.ihrung in die moderne Datenanalyse unter Windows I Бююль А., Цёфель П. SPSS: искусство обработки информации / Пер. с нем. М., СПб: 000 DiaSoft, 2002. - 608 с. 96. SPSS Base 8.0 Руководство пользователя. - елее Русь, 1998. - 751 с. - М.: Мир, ОГЛАВЛЕНИЕ Глава 1. Введение в теорию измерений .............................. 3 Глава 2. Ста"гистические гипотезы .................................... 1О Глава З. Компьютеры в медико-биологической статистике ........................................................... 15 Глава 4. .приемы описательной статистики ••••••.••••••••.••••..• 29 ГлаВа 44 5. Критерии различий в уровне признака ............... ГлаВа 6. Критерии сдвига в изучаемых совокупностях ..... 53 ГлаВа 7. Регрессионный анализ ........................................ 72 ГлаВа 8. Дисперсионный анализ ........................................ 78 ГлаВа 9. Многомерные статистические методы ................ 87 Заключение ..................................................................... Литература" 142 ......"................................................................ 143 Жижин Константин Сергеевич. МЕДИЦИНСКАЯ СТАТИСТИКА Учебное пособие Ответственный редактор: И. Жиляков Технический редактор: Л. Багрянцева Корректоры: О. Милованова, В. Югобашян Художник: А. Пащенко Компьютерная верстка: А. Ильинов Подписано в печать Формат 84 х 108 04.10.2006 r. '/32' Бумага тип. ,Ng 2 Гарнитура Ньютон. Уел. п. л. 8,4 Тираж 3000. Заказ H~ 3655. Издательство «Феникс». 344082, г. Ростов.;.на-Дону, пер. Халтуринский. 80 Оmечатано с готовых диапозитивов в ОАО «ППП ((Курсю>. 305007, Г. E-таН: Курск, ул. Энгельса, 109. kursk-2005@yandex.ru www.petit.ru Качество печати соответствует качеству предоставленных диапозитивов. 'l? енuкс Вышлu в свет: Собо"ь Б.В. [и АР.] ИНФОРМАТИКА в учебнике представлены все разделы информатики, определяющие современный уровень подготовки специа листов в системе высшего образования. По своему содер жанию книга полностью соответствует требованиям госу дарственных образовательных стандартов для широкого спектра специальностей высших учебных заведений. Адресован преподавателям и студентам высших учеб ных заведений, слушателям институтов повышения квали фикации, пользователям, а также широкому кругу читате лей. tt> еnи"с выlлuu в свет: КОВААЬЧУК А.С. ОСНОВЫ ИМИДЖЕЛОГИИ и ДЕЛОВОГО ОБЩЕНИЯ Те, кто делает большие успехи в своей деятельности, понимают,ЧТО многое зависит от умения работать и об щаться с людьми, от внешнего и внутреннего содержания человека, от привлекательности его имиджа. В учебном пособии выявляются факторы и условия оптимальной ра боты над созданием обаятельного образа, рассматривают ся возможности использования этих результатов в деловом общении. Книга адресована студентам высших учебных заведе ний. Она может заинтересовать и представителей тех про фессий, чья работа связана с реализацией творческих спо собностей в общении с другими людьми, а ·также тех, кто ищет пyrь к самосовершенствованию, кто хочет внести свой конструктивный вклад в общее дело. l'l> ен.u"с Вышлu В сВет: КурБАТОВ в.и. [и АР.] СОЦИАЛЬНАЯ РАБОТА в учебном пос~бии представлена вся экспозиция со циальной работы: ее история в России и за рубежом, осно вы теории, место в структуре гуманитарных и обществен но-политических наук, методы, общие и частные техноло гии. Пособие написано ведущими специалистами в облас ти социальной работы Юга России в полном соответствии с государственным стандартом по учебной дисциплине ~Социальная работа). Предназначено для студентов вузов и средних специ альных учебных заведений гуманитарного профИЛЯ, про фессионально ориентированных на подготовку социальных работников различного УРОВНЯ, и для практических соци альных работников. tl> еnи"с ВьешJl.U в свет: ИСТОРИЯ ОТЕЧЕСТВА Orветственный редактор издания В.Н. Шепелев в учебном пособии излагается истории России с древнейших времен до наших дней. Оно написано в соот ветствии с новыми образовательными стандартами, с уче том новейших материалов и фактов, накопленных истори ческой наукой. Предназначено для студентов высших учебных заведе ний и колледжей, для абитуриентов, поступающих на исторические факультеты. Вьеш.ltu 8 свет: БоrАЧЕНКО В.М., КИРИМОВА Н.А., ХАхОНОВА Н.Н. БУХГАЛТЕРСКИЙ УЧЕТ Учебное пособие составлено в соответствии с требова ниями государственного образовательного стандарта. утвер жденного Министерством образования РФ. Оно адаптиро вано к учебному плану и программе по специальности ~Бух галтерский уЧет и аудит», но может быть использовано при изучении бухгалтерского учета сТудентами других специ альностей. Учебное пособие освещает все раздеЛ~1 бухгалтерского учета. Каждая тема излагается в соответствии с Положени ями по бухгалтерскому учету (ПБУ), содержит контрольные вопросы и тесты. В книге учтены все последние изменения в бухгалтер ском учете и налогообложении. В каждой теме приведено множество примеров и задач, что облегчает понимание и усвоение предмета. В прилож.ения включен План счетов бухгалтерского учета и классификация счетов. Пособие предназначено для студентов вузов, коллед жей, слушателей курсов дополнительного профессиональ ного образования и всех, кто изучает бухгалтерский учет. В Москве книги издательства «Феникс» можно купи~ь ДЛЯ книготорговых организаций в .региональных представительствах, расположенных по адресу: ул. Космонавта Волкова, Д. 25/2, 1-й этаж, М. <$ВОЙКОВСКая. Контактное лицо тел.: :- Моuсеенко Сергей Николаевич (495)156-05-68, 450-08-35,8-916-523-4376 ' E-mai1: feniks-m@yandex.ru Для оптовых покупателей - оптовые издательские цены, гибкая система скидок, беспnаmая доставка по Москве шоссе Фрезер, Д. 17, район метро .Авиамоторная. Дирек1'ОР - Мячин Виталий Васильевич тел.: (495) 517-32-95, 107-44-98,711-79-91. тел/факс: 8-501-413-75-78; E-mai1: mоsfen@РОchta,щ mosfеп@bk,ш в Издательс"ом Торzо(юм доме .КноРус.: 46, М •• Рижская., .Проспект Мира. тел.: (495) 680-02-07, 680.:72-54, 680-91-06, 680-92-13 ул. Б. Переяславская, E-mai1: phoeniX@lqюru.s.ш в крупнейших .магазuнах: , ТД .. Библио-Глобус. Ул. Мясницкая, 6 (тел.: 925-24-57) ТД.Москва. Ул. Тверская, 8 (тел.: 229-66-43) .. Московский Дом кииги. Ул. Новый Арбат, 8 (тел.: 291-78-32) .. Молодая гвардия .. Ул. Большая Полянка, 28 (тел.: 238-11-44) .. Дом педаroгической кииги .. Большая Дмитровка,7 /5, строение 1 (тел.: 299-68-32) .. Медицинская кииrа.. . Комсомольский проспект, 25 (тел.: 245-39-33) . ф енu1СС Торговый дОМ В Санкт-Петербурге книги издательства «Феникс» можно купить: «ДОМ КНИГИ» 28 318-65-04, факс: 311-98-95 Невский проспект, Тел.: E-таН: noskova@hbook.spb.ru Д.nя оптовых покупате.nеЙ Реzuональное nреiJставuтельство: 198096, г. Санкт-Петербург, ул. Кронппадская, 11, офис 17 Директор - С;nрельникова Оксана Борисовllа Тел.: (812) 335-34,.84 E-rnail: fnx.spb@mail.ru • • • • • • • • • • • • • • • • • • • • • • • • • • • ПРЕДСТАВИТЕЛЬСТВО в г. ВЛАДИВОСТОКЕ г. Владивосток, ул. Фадеева, 45 .А. Директор - Калин Олеl Викторович Тел.: (4232) 23-73-18 E-mail: oleg38@mail.primor:ye.rц . . . . . . . . . . . . . . . . . . . '. . . . . . ПРЕДСТАВИТEJIЬcrво в городах САМАРА и ТОЛЬЯПИ «ЧАКОНА» книготорговая фирма - г. Самара, ул. Чкалова, Д. 100. Тел.: (846) 242-96-30 г. Тольятти, 15-й квартал, улл. Автостроителей, 56а, 2-й этаж. Тел.: (8482) 30-84-17, 76-29-05 ' ....... ................... . ' УРАЛЬСКОЕ РЕГИОНАЛЬНОЕ ПРЕДСТАВИТЕЛЬСТВО г. Екатеринбург, ул. Ферганская, Д. 16, оф. 408 Директор - Подунова Наталья АлександРО61lа Тел.: 8(343) 261-54-03 E-rnail: bookva@isnet.ru 000 «Интер-сервис ЛТД» г. Челябинск, СверДJIОВСКИЙ тракт, Менеджер Тел.: - 14 Зосим Вячеслав 8(351) 721-34-53 E-mail: s]ava@intser.ru 000 «ТОП-Книга» г. Новосибирск, ул. Арбузова, 1/1 Менеджер - Михайлова Наталья Тел.: (3832) 36-10-28. доб. 1438 E-таН: phoenix@top-kniga.ru . . . . . . . . . . . . . . . ,- . . . . . . . . . . . . . . . На УКРАИНЕ книги иэдате,nьства «Феникс» можно купить: 000 ИКЦ ((Кредо» г. Донецк, ул. Университетская, Тел.: 96 (оф. 401) +38(062) 345-63-08, 339-60-85 e-mail: moiseenko@skif.net Филиалы г. Запорожье, ул. Глиссерная, 22 (комната 19) . Тел.: +380612;.134951, +380612-145819 е-шаН: yega@comint.net г. Киев, ул. Вербовая, 17 (СПД Шкаран) Тел.: +38044-4644946, 0509084576 e-rnail: kredok@j.cQm.ua г. Симферополь, YJJ. Эскадронная, 8/10 Тел.: +8(065) 229-19-71 Торговый дОМ '1> Е н И к с IIPEД,lIAГAEl': ,/ ,/ Около Более 100 новых книг каждый месяц 3000 наименований книжной продукции собственного производства ,/ Более 1500 наименований обменной книжной продукции от лучших издательств России 0CYЩECIВllЯEТ: ,/ Оптовую и розничную торговлю книжной продукцией ,/ ГАРАНТИРУЕГ: Своевременную доставку книг в любую точку страны ЗА СЧЕТ ИЗДАТЕЛЬСТВА. автотранспортом и ж/д контейнерами ,/ ,/ ,/ МНОГОУРОВНЕВУЮ систему скидок РЕАЛЬНЫЕ цены Надежный Д ОХО Д от реализации книг нашего издательства . HAW 344082, АДРЕС: г. Ростов-но-Дону, пер. Халтурuнскuu, 80 НАШ АДРЕС В СЕТИ ИНТЕРНЕТ: http:\\www.phoenixrostov.ru ДЛЯ КРУПНООПТОВЫХ ПОКУПАТЕЛЕЙ Контактные телефоны: 8(863) 261-89-53,261-89-.54, 261-89-55,261-89-56, 261-89-57, факс: 8(863) 261-89-58. E-mаiL: torg@phoenixrostov.ru ПРЕДСТАВИТЕЛЬСТВА В r. РОСТОВЕ-НА-ДОНУ ,/ пер_ Соборный, 17, ,/ ул. Б. Садовая, 70, ,/ ул. Немировича-Данченко, 78, тел.: (863)262~47-07 тел.: (863)262-06-74 тел.: (863)244-69-34 E-mail: fen.ix21@.inbox.ru Издательство 'I)ЕНИКС Приглаwаем к сотрудничеству АВТОРОВ для издания: • учебников для ПТУ, ссузов • JI вузов; научной и научно-популярной литературы по МЕДИllИНЕ и ВЕТЕРИНАРИИ, ЮРИСПРУ ДЕНllИИи ЭКОНОМИКЕ, СОllИАЛЬНЫМ и ЕСТЕСТВЕННЫМ НАУКАМ; • литературы по ПРОГРАММИРОВАНИЮ и ВЫЧИС;ЛИТЕЛЬНОЙ ТЕХНИКЕ; • ПРИКЛАДНОЙ и ТЕХНИЧЕСКОЙ литературы; • литературы по СПОРТУ и БОЕВЫМ ИСКУССТВАМ; • ДЕТСКОЙ и ПЕДАГОГИЧЕСКОЙ литературы; • литературы по КУЛИНАРИИ и РУКОДЕЛИЮ. 8ЫСОКИЕ ГОНОРАРЫ!!! 8СЕ ФIIНtlНСО'61е ЗАТРАТЫ GEPEAf НА ШII!!! nplI /lplIHRmll1l PYKO/lIJCII , /lPOII!60~CIII'O 8blnIlA'IИIAEIrt ZOHoPtlP HtI 10% 8ЫШЕ IIЮGОГО роtcиllского IOAAТEllhCТIA!!! Рукописи не рецеuзuруются 344082, u не возвращаются! Наш адрес: г. Ростов-но-Дону, пер. Холтурuнскuй, http:\\www.PhoenixRostov.m E-mail: 80. reclamaЬook@jeo,m По вопросам uзданuн книг 06ращаmьсн: 8(863) 261-89-50, e-таН: office@phoenixгostov.ru тел/факс: • • • • • • • • • • • • • • • • • • • • • • • • • • Редакционно-иэдательский отдел; Ocmaшoв сергей AлeкcaнiJpoвuч (рукoвoдиrnEль атдела) Тел.: (863) 261-89-75 Е-таil: ostashov@pboenixrostov.ru Тел.: Юcyпsoщ Эдуард Aptwoвuч (peдmmюр) E-таН: eduard@phoenjxrostoy.ru (863) 261-89-75 ( Жll.llЯК08 Илья юрьевич peдaкrrюp) Тел.: (863) 261-89-75 Е-таil: publish@phoenix[Qstov.ru Бtиpянu,eвa ЛюiJ.мшra AнiJpee8НIJ (mexнuчecкuй peдaкmop) Тел.: (863) 261-89-75 Сайт издательства ~Феникс~: http://www.phoenixrostov.m

МЕДИЦИНСКАЯ СТАТИСТИКА

Related documents

Products

Support

МЕДИЦИНСКАЯ СТАТИСТИКА

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib