ДЕ КВ А Т НОС С Т А Е СКОГ О А НА Л И З А Д Я ПОЛ У Ч Е НИЯ

А ДЕКВ А Я ПОЛ УЧ Т НОС Е НИЯ Н ОБ ОСНОВ АННЫ Х В ИССЛ Е Д С А Т У А Е СКОГ Ч НО , Д ОСТ ОВ Е Р ОВ А НИЯХ ПО КЛ ИНИЧ Е Ю НЫ СКОЙ М ОА Х НА Л РЕ И ЗА Д З УЛ ЬТА ЕДИЦИНЕ .Х. Мараховский. ВА К Беларуси, экспертный совет 11 «Клиническая м едицина! В ведение В ны начале следует напомнить о перемен х. Переменные - это то, что м ы измеряем. Переменные отличаю тся м ногим и аспектами, и преж де всего шкалой измерения. В каж дом измерении обязательно присутствует некоторая оши бка, определяюща я границы "количества инф ормации", которое м ожно получить в данном измерении. Одним из факторов, определяющим количество информации, содерж ащейся в перем измерение. Р азличаю енной, является тип шкалы, в которой проведено т следующие типы шкал: номинальная, порядковая (ординальная), интервальная, относительная (шкала отноше ния). При этом имеем четы ре типа шкал переменных: (1) номинальная, (2) порядковая (ординальная), (3) интервальная и (3) относительная. Н ом инальные перем енные использую тся только для качественной классификации и оценки. Порядковы позволяю т провести ранж перем енные иногда назы е перем енные ирование (упорядочить) объектов. П орядковые вают ординальными. Интервальные перем позволяю т не только упорядочивать объ енные екты по измерениям , но и численно выразить и сравнить различия м ежду ним и. Относительные перем енные похожи на интервальные переменны е. Большинство данных, получаемых в биомедицинских исследованиях м ожно отнести к одному из названных типов перем енных. Получаем ые в исследовании перем енные м огут быть независимым и и зависимым и. Е сли читатель, читая эти строки введения, не четко представляет о чем идет речь, дальнейше е чтение, в такой ситуации, не целесообразно, читателю необходим о обратится к азбуке статистики. В качестве введения целесообразно привести цитату из публикации редактора Британского м едицинского ж урнала в 1979г: «Одна из самых удручающих обязанностей редактора м едицинского журнала – необходим ость 1 отвергать исследования, основанные на хорошей идее, но безнадежно испорченные плохой етодологией!. м Цель Определить основные недостатки м етодологии анализа данных в диссертационных исследованиях по разделу клиническая м едицина и степень соответствия (адекватность) статистического анализа основной сути исследований . М атериалы и методы Т екущий контроль характера статистической обработки, при экспертизе диссертационных работ в экспертном совете, всего 100 работ, а так ж е анализ 40 случайно вы бранных диссертационных исследований за 2008г. Оц енка на основе стандартных м еждународных требований к качеству научных исследований и статистического анализа биомедицинских исследований (54, 59, 62, 68, 77, 98, 102, 111, 116, 128,129, 130, 149) Р езультаты и их обсуждение Ош ибки при формировании групп дл я проведения исследования Е ще в 18 столетии(20) было четко отмечено, что при оценке смертности (в нашем случае лю бого другого показателя), после удаления камней из м очевого пузыря, хирургам необходимо учитывать возраст пациентов. Сегодня такой подход является научно обоснованны м ОЗ в качестве стандартизованного показателя смертности. и используется В В научных исследованиях, если проводится сопоставление базовых истинных показателей (см ертность, летальность, осложнения) или суррогатных (изменения в содерж ании биомаркеров), это полож ение позволяет получить данные с высоким уровнем доказательности и избежать ошибок при дальнейшем статистическом анализе(10, 16, 18, 19, 47, 48, 58, 70, 78) Прим ер 1: в группе, которую исследователь выбрал в качестве группы оценки, было 24 случая, из которых 4 в возрасте м оложе 40 лет. В контрольной группе: 37 случаев, из которых 8 были в возрасте м оложе 40 лет. Простой расчет описательной статистики показы вает, что в контрольной группе доля лиц м оложе 40 лет составила 21,6%, в группе исследования – 16,7%. Автор справедливо 2 указывает на отсутствие статистической разницы, однако не приводит значений доверительного интервала, который выглядит следую щим образом: в контроле – 9,8-38,2%, в исследуемой группе – 4,7-37,4 при ДИ = 95% . Доверительный интервал указывает на существенный разброс м инимум а и м аксимум а, который связан, прежде всего, с м алым числом случаев, при этом значительное перекрытие м аксимального значения (37,4%) в исследуемой группе среднего значения(21,6%) в группе контроля, указывает на гетерогенность и неадекватность сравниваем ых групп по возрасту. Гетерогенность сравниваемых групп вносит существенную ошибку в лю бую дальнейшую статистическую обработку данных (140). Прим ер 2: в группе, которую исследователь выбрал в качестве группы оценки было 24 случая, из которых 7 были ж енского пола. В контрольной группе: из 37 случаев - 4. А втор не отм ечает наличия разницы, вообще не комм ентирует эту часть. Однако простой расчет описательной статистики показы вает, что в контрольной группе доля ж енщин составила 10,8% (при ДИ=95% - 3 - 25% ), в группе исследования – 29,2% (при ДИ 95% - 13 - 51% ). Приведенные значения ДИ сразу указы вают на достоверное отличие этих групп по полу. Прим ер 3: в группе, которую исследователь выбрал в качестве группы оценки, 31 случай, из которых 3 им ели тяжелую степень патологии. В контрольной группе: из 41 случая - 2. А втор не отм ечает наличия разницы. Р асчет по описательной статистике показы вает, что в контрольной группе доля тяж елой формы патологии составила 4,9% (при ДИ 95% - 0,6 - 17% ), в группе исследования - 9,7% (при ДИ=95% - 2,0 - 26% ). И хотя в данном случае достоверного отличия нет, но разность в доле тяж елой патологии м ежду группами составляет 4,8%, что приведет к изменению оши бки м инимум на 4,8%, при сопоставлении других полученных данных. Особое значение оценка сравниваем ых групп, до проведения статистического анализа, приобретает при ретроспективном исследовании (около 15. от всех анализируемых нами). Сравнение данных в виде оценки воздействия и контроля, т.е. в ретроспективном исследовании, чаще всего, рутинное (некое существую щее) воздействие. В этих случаях исследователь обязан провести подробное сопоставление сравниваем ых групп, выяснить их степень гетерогенности (140,142), и в последую статистического анализа, с учетом такого научного подхода для ум щем использовать адекватные м етоды выявленной гетерогенности групп. В ажность еньшения ошибок была представлена в одной из 3 публикацией (106) по оценке зам естительной гормональной терапии у ж енщин. Была обнаруж ена существенная гетерогенность групп и неправомочность их сопоставления. Е стественно, что представленны е в этом исследовании выводы оказались ошибочным и. О дизайне исслед ования Е ще одно важное условие научного исследования - это рандомизация(100). Р андомизация позволяет исклю чить искусственное влияние самого исследователя или учреж дения, в котором проводится исследование, на конечны е результаты( 107,108). Р андомизация им еет существенное значение при проведении исследований по сопоставлению диагностических тестов (133). В м етодов лечения, препаратов, рандом изированных контролированных исследованиях (Р КИ) участники (субъекты исследования) только случайным образом распределяю тся на группы, поэтому в таких исследованиях всегда присутствует статистическая ошибка первого типа, такие исследования являю тся не см ещенными. Р КИ - «золотой стандарт! при проведении м исследований, касаю щихся оценки вм едицинских ешательств (воздействий на субъекта исследования). При неслучайном распределении субъектов исследования по группам , такие исследования обозначаю т как « другие контролированные исследования!, но не использую т терм ин «рандом изированные!. В таких исследованиях всегда существует так называем ая систем атическая ошибка, или по терминам статистики, такое исследование является см ещенным, т.е. со ещенной дисперсией, при этом это см ещение отражает интересы самого исследователя в характере полученных результатов(43,80,124,151). Классическим примером неприемлемой для научного исследования изации является использование для рандом изации последней циф ры даты рождения, или по дате поступления пациента в клинику. При Р КИ в работе долж быть указаны критерии включения и исклю чения. При этом в описательной части обычно указы вается число пациентов, которые не вошли в рандом изацию, так как не удовлетворяли этим критериям. А нализ диссертационных исследований по указанным выше критериям оценки их как Р КИ позволил выявить только 2,5% (ДИ=95% - 0.1- 13,2%) таких исследований. Следует отм етить ряд исследований, при которых высокая степень доказательности может быть получена с использованием Р КИ: сопоставление 4 эффективности и безопасности лекарственных препаратов, сопоставление ективности и безопасности хирургического лечения, насколько эфф ективнее использование какого либо продукта питания, обогащенного каким –то веществом, по сравнению с обычным продуктом питания, воздействует на какие-то показатели, связанные со здоровьем (18, 58,59,126). Однако Р КИ им еет ограничения, и в научном поиске им ситуаций, при которых Р КИ либо не нуж еется целый ряд ны, либо нецелесообразны , либо их проведение не обосновано. И так, Р КИ не нуж ны при открытии явно успеш ного вм ешательства для состояний со см ертельным исходом. Например, ником у не придет в голову оценивать безопасность использования параш юта при прыжках с самолета ( сравнивать безопасность использования парашю та при прыжках с самолета с таковым и без парашю та). Р КИ нецелесообразно при неприемлемости по этическим соображ ениям, когда невозм ожно обеспечить надлеж ащий уровень защиты прав пациента, при необходим ости проведения исследования с участием большого числа субъектов для подтверждения выраж енной (статистически значимой) разницы. Р КИ необоснованно в следую щих случаях: при изучении прогноза (значительно лучше продольное когортное исследование), при оценке тольк о диагностического или скринингового теста (более адекватно поперечное исследование), при изучении качества м критериев его успешн ости (наприм едицинского воздействия без четких ер, сравнение терапевтического и хирургического м етодов аборта, в таких случаях лучше проводить так называемые качественные исследования). Не использование рандом изации неравнозначно отказу от научного подхода. (17,126). Отметим, что в значительном числе в диссертационных исследованиях вообще не дается характеристика самого исследования или дается неправильная его характеристика, поэтому считаем необходимым напомнить основные характеристики научных исследований в м едицине(90, 100). Первичны е исследования делят на три вида (или категории): эксперим ентальные, клинические испытания, экспертные. В торичные исследования: несистематические обзоры, систем атические обзоры, м етааналитические, клинические рекомендации, анализ принятия реше ний, клиникоэкономический анализ. Кроме того, первичные исследования по своей внутренней характеристики могут быть: сравнительным параллельным, парным, слепым одиночным, двойным 5 слепым , перекрестным , факториальным, когортным , плацебо контролируем случай-контроль, поперечным , продольным , описание случая. По характеру получения данных – проспективным и ретроспективным. Сравнительное параллельное: субъекты исследования получаю т разные виды лечения в один и тот ж е пром ежуток врем ени, результаты анализирую тся путем сравнения групп. Парное сравнительное исследование: субъекты получают разные виды лечения, подбираю тся парами с одинаковым и характеристиками (возраст, пол и т.д), результаты анализирую внутри пар. тся по различиям Сравнительное м оногрупповое – оценивается состояние пациента, до и после воздействия, результаты анализирую тся с учетом изменений у одного и того ж е пациента Слепое одиночное, основное условие пациент (субъект исследование) не знает, како е лечение он получает, при двойном слепом - ни исследователь, ни пациент, не знаю т, кто и какое лечение получал. Перекрестное – воздействие (например, лечение) одинаково в опытной и контрольной группах, в случайном порядке чередуются с пром ежутками без воздействия (лечения). Плацебо контролируемое – контрольная группа получает плацебо, которое невозмож но отличить от исследуемого препарата. Факториальное – оценка влияние более чем одного фактора и их совокупности. Когортное – исследование в разных группах, отличаю какого то фактора (агента) на протяж щихся воздействием ении достаточно длительного промеж утка врем ени (обычно годы). Исследование случай-контроль: пациентов с определенным заболеванием или расстройством (это и есть случай) сравниваю т с контрольным и пациентами (с другим заболеванием), или представителям и из общей популяции. О бычно используется для оценки этиологических факторов, но м ало пригодно для оценки эфф ективности лечения. Основной недостаток – высокий уровень систем атической ошибки, т.е. необоснованное включение в группу «случай!. Поперечное исследование: данные собираю тся в определенный м омент, хотя м огут относиться к событиям в прошлом (наприм ер, интервью анкетирование) 6 Исследование по описанию описание с целью случая (или небольшой серии случаев): дем онстрации чего-то, наприм ер побочного действия или редкого заболевания. В иерархии степени доказательности исследования располагаются следую щим образом (по убы ета-аналитические исследования и ванию): м систем атические обзоры , рандом изированные контролированные исследования с полученным и доверительными интервалам ки клинически и, не выходящими за рам значимого эффе кта (Р КИ с определенным результатом ), Р КИ с неопределенным результатом , т.е. с полученным и доверительным и интервалами, выходящим и за рам ки клинически значимого эфф екта, когортны е, исследования «случайконтроль!, поперечные исследования, исследования по описанию случая. (63, 68, 69, 130,131). Попутно отметим , что этическая часть научных м едицинских исследований долж на быть обязательно коротко отраж ена в диссертационной работе. Это касается, преж де всего, добровольного согласия субъекта исследования на дополнительные лю бы е оценки забранного у него биологического м атериала, использования препарата, даж е зарегистрированного, но применение которого планируется по новому назначении, характере хирургического воздействия и т.д. К характеристике предм ета и объекта исследования В обычной практической ситуации научные открытия встречаются достаточно р едко, поэтому большинство научных исследований строится на предположениях о ве роятно правильном воздействии и/или направлении описания явления(126). К сожалению , в ряде диссертационных работ встречается терм инология, указываю щая на открытие, наприм ер, «выявить закономерности!, при этом работа не содерж ит данных, доказываю щих наличие закономерности, им еются данны е потенциально возм е лишь характеризую ожную Им еется недостаточная четкость в поним щи взаим освязь. ании объекта и предмета исследования. Следует напом нить, что процессы объективной (истинной) действительности им еют внутренню сущность и явления, которые отраж ают разные стороны предметов научного исследования. Предм ет вы ражается в сущности, т.е. главной характеристики самого предм ета, его внутренней составляюще й, его основы, его глубинных процессов. Я вления есть внеш ние выражения сущности, внеш няя форма, в которой предметы и процессы 7 проявляют но познать простым ся. Сущность предм созерцанием, в отличие от явлений. Явления, как внешн предмета, почти всегда не позволяю ета скрыта, ее невозмож ие формы проявлений т точно оценить внутренню сущность предмета. Оц енка явлений характеризуется разной степенью приближ ения к сущности предм ета, иначе говоря, разной степенью достоверности по отношению к сущности предм ета. Научное исследование и проводится для того, чтобы приблизить достоверную оценку сущности предмета по описанию и анализу внешн их форм и явлений. Процесс познания - это постоянное описание и анализ внешн их явлений, позволяю щих с разной степенью приблизится к сущности предмета. Об ъектом научных исследований в м едицине, в большинстве случаев, являют ся явления и процессы, леж ащие в основе взаимоотноше ний, взаим одействий и/или свойств предм ета (ов) исследования (наприм ер, органов пищеварения). Предм етом исследования м огут быть, наприм ер печень, или человек, или пациент, или группа, или популяция и т.д. Краткая характеристика областей клинических исследований(16, 18, 22, 30). Лечение – проверка эффективности и безопасности лекарственных препаратов, хирургических вм ешательств, альтернативных м етодов лечения и других вм ешательств. Предпочтительный дизайн исследования – рандом изирванное контролируемое испытание. Диагностика – оценка парам етров нового диагностического теста, прежде всего достоверности (насколько тесту м ожно доверять), надежности (м ожно ли получить такие ж е результата при повторном использовании теста) и отношения правдоподобия. Предпочтительный дизайн исследования – поперечное исследовани е, при котором проводят новый тест и тест сравнения, выбирая наиболее точный – «з олотой стандарт!. Скрининг(скрининговая диагностика) – оценка тестов, которые предполагается использовать на больши х группах лю дей (или ж ивотных) для выявления расстройств на ранней (как правило, бессимптом ной стадии). Предпочтительный дизайн исследования – поперечное исследование на репрезентат ивной выборке (104). Прогноз – разработка показателя, который позволяет определить вероятность того, ч то произойдет у пациента с ранней стадией заболевания в 8 последую щем . Предпочтительны й дизайн исследования – продольное когортное на протяжении длительного промеж утка времени. Этиология – определение взаимосвязи м ежду гипотетически неблагоприятным фактором и развитием заболевания. Предпочтительный дизайн исследования – когортное. Несколько замечаний по гипотезе исслед ования Фактически гипотеза исследования позволяет оценить общее назначение самого исследования, т.е. получить ответ на вопрос, зачем было проведено исследование. Гипотеза долж на бы ть обязательно представлена в лю бом исследовании, тем более диссертационном (126). При этом давно определено основное требование к формулированию гипотезы научного исследования, это гипотезо - дедуктивный подход, т.е. выдвиж ение опроверж им щей ее проверкой. Т ой гипотезы с последую акой подход в статистике носит название нулевой гипотезы, иначе говоря, допустим , что разницы нет, давайте опровергнем это утверждение (68, 70, 74, 86, 101, 116). В анализируемых нами диссертациях ни в одном случае не использовались указанны е принципы формулировки гипотезы исследования. Гипотеза самого диссертационного исследования в целом отличается от статистической гипотезы, но долж на отражать основную суть тех нескольких статистических гипотез, которы е формулирую тся по ходу самого исследования при сопоставлении различных групп. Опровергая статистические гипотезы ,мы получаем доказательства для оценки гипотезы самого научного исследования. Ош ибки при оценке равнозначности группы исследования и группы сравнения Т акие ошибки носят название систем атических (26, 73, 87, 88, 89, 91, 96). Систематическая ошибка – это лю бой фактор, который влияет на выводы и искаж ает сравнительную оценку(127, 139). Систематическая ошибка возникает при отборе в группы (selection bias), в результате возникаю т различия в группах. Т акая ош ибка относится к ошибке рандомизации. Систематическая ошибка м ожет быть следствием различий в уходе за пациентами, при оценке лечения (perform ance bias), т.е. им о оцениваем еются различия в группах пом ого им вм ешательства. Систематическая ошибка см ещения (exclusion bias): различия в результате исклю чения субъекта в процессе исследования. Систематическая ошибка исхода (конечного результата) (detection bias): систем атические различия в оценке исходов в группах. Прим ер 4. А втор сравнивал пациентов из одной группы с бронхиальной астмой, получ ивших один вид лечения (группа 1), с группой пациентов с бронхиальной астм ой, получивших другой вид лечения (группа 2). А установил, что лечение, применявш втор ееся в 1-й группе, статистически значимо более эффективно, чем лечение во 2-й группе. При этом автор утверждал, что исследование рандом изированное. Пояснение о том, как осуществлялась рандом изация, отсутствовало. В выяснилось, что принцип рандом находились в палатах от 1 до палатах от 6 до 10 – во 2-ю процессе последую щего общения с автором изации был следую 5, они вклю чались в 1-ю группу, а если в группу. На первый взгляд, действительно им еется случайное распределение больных в 1-ю типичный пример систем щий: если пациенты или 2-ю группу. Увы , это атических ошибок, данное исследование в действительности не является рандм изированном. Автор допустил ошибку еще на этапе отбора в группы. Как и следовало ожидать, в палатах 1-4 был один лечащий врач-ординатор, а в палатах 5-10 – другой. Об а врача отличались по опыту, знаниям и квалификации. Р азумеется, это сказы валось на результатах лечения и являлось систем атической оши бкой. При распределении пациентов на 1-ю и 2-ю группы следовало использовать стандартны е надежные м етоды рандом изации, например, м етод случайны х чисел (компьют ерная программ а для рандом изации) или запечатанных конвертов. Ош ибки сопоставления группы Наиболее слож ной задачей в клинических исследованиях является отбор контрольной группы. Особое значение это им еет при когортных исследованиях и исследованиях «случай-контроль!. Для когортных исследований необходим соблю сти однородность групп по м ногочисленным : возраст, пол, о характеристикам социальный статус, сопутствую щие заболевания, особенности питания. Однако, контроль, при когортных исследованиях, дополнительно уточняется для выравнивани я исходных различий с использованием довольно слож специальных м етодов статистического анализа (143). Использование таких подходов крайне важно в научных исследованиях по онкологическим заболеваниям при оценке воздействия факторов индукции или подавления опухолей (48, 105). При исследованиях «случай – контроль!, особенно 10 ретроспективных, наиболее часто систем атические ошибки возникаю т на этапе решения вопроса о вклю чении пациента в группу «случай!. Ош ибки в оценке эф ективности лечения Прим ер 5. А втором оценивалась эффективность остановки кровотечения препаратом А А втор приводит следующие данны .А вынуж е: в группе с препаратом денное оперативное вм ешательство потребовалось в 5 случаях из группы в 23 пациентов, в группе сравнения (без препарата А ) в 5 случаях из 13 пациентов. А втор делает вывод о наличии у препарата А эф фективности. Как правильно оценить ективность лечения, и будет ли препарат эффективным при строгой оценке? Основная идея по проверке гипотезы заклю чается в проведении сравнения наблю дения с ожиданием (предполож ением). "О жидаемый" означает нечто предполагаем ое (вероятное), которое долж но достоверно подтверждать наше утверж дение, которое м ы подвергаем тестированию . В случае лекарственного средства - его эффективность. М ы предполагаем, что лекарственное средство ективно. Но насколько оно эфф ективно? Насколько оно эффективнее плацебо или известного ранее препарата? В любой тестируемой гипотезе им еется некоторое количество (биты) информации, которую м ы не см огли определить точно на основании измерений. Говоря статистическим языком , им енно эта часть информации влияет на разброс результатов и нуж но оценить значение этого разброса, т.е. знать значение стандартной дисперсии (среднеквадратичное отклонение). Кроме того, существую т два варианта оценки самого исследования, посвященного лекарственному средству (102). Первый вариант: общая оценка достиж ения цели исследования. Оц енка достижения цели исследования (Intention to treat analysis –ITT) осуществляется с чением в анализ всех пациентов, начавших лечение (вклю ченных в протокол лечения), вне зависим ости от того, закончил пациент все лечение или выбыл из исследования на каком-то этапе. При этом все выбы вшие из исследования пациенты рассматриваю тся как случаи с неблагоприятным эфф ектом. В торой вариант: анализ по протоколу (per protocol analysis- P A) проводится с включением только пациентов, полностью закончивших протокол лечения. IT 11 оценивает степень ответа на лечение у всех начавших прием препарата пациентов. Р А оценивает степень ответа на лечение при заверше нии протокола (курса) лечения (134). В указанном выше примере не определено, какой вариант анализ IT или P A , использовал автор, следовательно, невозмож но и объективно оценить результаты . Ч аще всего эффект препарата оценивается в долевых значениях или процентах. При этом оценка доли сопровождается превраще величины в особую характеристику. По положениям атической статистки эта м нием данной атем величина требует очень осторож ной оценки (1, 55, 126). Особенностью является малая ценность использования средних значений и ошибки средней величины. Более м ощн ы и более достоверным является расчет доверительного интервала (35,36). Доверительный интервал (confidence interval) используется для оценки м еры влияния лечения (препарата) и показывает диапазон, в пределах которого и буд ет находиться истинный результат лечения с заданной вероятностью (достоверностью ). В ероятность обычно устанавливается в пределах +95% . Доверительные интервалы предпочтительны по сравнению с «p-значением! (64), поскольку они сразу показываю т диапазон возмож ного влияния по величине данных самого доверительного интервала. Доверительные интервалы пом т огаю быстрой интерпретации клинических данных, отражая верхние и ниж ние границы вероятного значения лю бого истинного результата. Однако, погрешность измерения долж на быть оценена преж де, чем доверительные интервалы м огут интерпретироваться. Даж е очень большие выборки (более 100 вариант) и очень узкие доверительны е интервалы м огут вводить в заблуж дение, если они исходят из результатов с ошибками. Кроме того, при проведении м едицинских исследований следует помнить простое аксиоматическое правило статистики: приблизительно не м енее одного случая из двадцати будет связано с некоторым дополнительным, неучтенным , случайным фактором . Эта закономерная случайная ошибка носит название ошибки первого порядка «type I error!. Это – огорчаю щая исследователя, но неизбежная особенность статистического анализа (оценили ли результаты с использование доверительных интервалов или по критерию p). П ри этом исследователь никогда не м ожет точно определить, который результат из лю бого набора данных является ошибочным (83). 12 Следует помнить и об ошибке второго порядка «type II error!, которая состоит в том , что заклю чение о незначим ом отличии в группах (исследуемый препарат и контроль), на основании отсутствия значимых отличий, особенно при алом числе вариант, м ожет быть лож ным.. Незначимое отличие по доверительным интервалам просто сообщает нам, что наблю даемая разность в группах (по эффективности или безопасности) является недостоверной. Однако, незначимое отличие не означает отсутствие эфф екта. Небольшие выборки будут часто демонстрировать отсутствие или незначительную разницу, это указывает на наличие ошибки в вы выборки – см боре адекватного числа данных (разм ер или м ощность ниж е). Просто м ы неспособны отклонить такую возмож ность. Отметим, что для учета ошибки второго порядка более точным является использование именно доверительного интервала, а не оценки по значению «р! (7, 55, 64). В указанном выше примере, как впрочем, и в большинстве диссертационных исследований(85% из 40) не указы ваются доверительные интервалы. В ернемся к примеру 5, и проведем расчет с доверительным интервалом при достоверности 95% . В вынуж группе сравнения, без препарата А, денное оперативное вм ешательство потребовалось в 5 случаях из группы в 13 пациентов, что составляет 38,5% с колебаниям и +95% -70,3 и – 95% - 9,9%. Обычно это обозначается следующим образом: средняя - 38,5% (ДИ (или CI)при 95% 70,3= 9,9) В экспериментальной группе (с препар атом А) в 5 случаях из 23 пациентов, что составляет 17,9% с колебаниями +95% - 38,8, и -95% - 4,4% , т.е. средняя 17,9% (Д И при 95% = 38,8-4,4) Перекрытие максим ального значения опытной группе со средним значением группы сравнения указывает на отсутствие значимого эфф екта у препарата. А втор же, как уже говорилось, делает вывод о наличии у препарата А эфф ективности. Проверим полученное отсутствие эфф екта препарата А стандартного подхода на основе четырехпольной таблицы. с пом ощью 13 Т аблица 1 П редставление данных примера в виде четырехпольной таблицы Ч пациентов с исло Ч пациентов без операций операции Группа с исло Общее число в группе 5 18 23 5 8 13 препаратом А Группа без препарата В ыделены так называем ые четы ре поля Т аблица 2 Р езультаты статистического анализа данных таблицы 1 с использованием програм Statistica 5,0 2 x 2 Table (te perat.sta) m Row n 1 Colum n 2 T otals F requencies, row P ercent of total F requencies, row P ercent of total Colum n totals P ercent of total 1 5 8 13 13,9% 22,2% 36,1% 2 5 18 23 13,9% 50,0% 63,9% 10 26 36 27,8% 72,2% 36 Chi-square (df=1) 1,16 p= ,2820 36 V -square (df=1) 1,13 p= ,2887 36 Y ates corrected Chi-square 0,47 p= ,4911 36 P hi-square 0,03216 26 36 F isher exact p, one-tailed 0,03216 p= ,2435 36 tw o-tailed M cNem Chi-square (B /C) 0,03216 p= ,4402 36 ar Chi-square (A/D) 6,26 p= ,0123 36 0,31 p= ,5791 36 Как следует из представленной таблицы достоверность по точному показателю F isher exact p, tow -tailed составила величину 0,4402 для группы с препаратом, т.е. действие препарата не э фективно ф 14 Даже если результат (влияние) оценен как вероятно реальный и достаточно большой, чтобы быть клинически важ , остается неуточненным один существенный вопрос: насколько справедливы полученные результаты применительно к другим группам пациентов? Ни доверительны е интервалы, ни оценка по значению p, не м огут дать ответа на этот существенный практический вопрос (61). Ответить на поставленный вопрос позволяю т другие м етодические статистические прием ы, являющиеся частью доказательной м едицины, которые представлены ниже. Р иск (вероятность возникновения) Relative R isk (RR) относительный риск - вероятность успеха оцениваем ого воздействия по специфическим выбранным показателям в сравнении с вероятностью успеха плацебо или контрольного (сравниваемого) препарата. Зам етим, что англоязычный термин «риск! в данном контексте скорее дополнительно разъясняет вероятность и относится как к полож показателям (эффективность), так и к отрицательным (безопасность). Relative Ri sk Reduction (RRR ительным ) Уменьшение относительного риска - ум еньшение неблагоприятного действия препарата, выраж енное в отношении к неблагоприятному действию плацебо. Р ассчитывается по простой формуле [(E R-CER )/CE R], где – E R (experim ental event rate) эксперим ентальная (тестируем ая) величина воздействия и CE R – контрольная (в контроле, в группе плацебо) величина воздействия (CE R - control event rate) A bsolute R isk Reduction (A RR) A bsolute R isk Increase (A RI). Уменьшение(A RR) или увеличение(A RI) абсолю тного риска - оценка актуальной арифм етической разницы (пропорции или доли) м ежду тестируем ым препаратом и сравниваем ым (плацебо, контроль) т.е. ER-CER Num ber Need to T reat (NN T= 1/A RR) Num ber Need to Harm Ч обходимое для лечения (Ч обратная ARR . NNT - число пациентов, которым (NNH =1/ARI) исло пациентов (больных) не БЛ или Ч ПЛ) - величина необходим о провести специфическое воздействие (лечение и т.д.) для получения полного конечного результата у одного п ациента. NNH - число пациентов, которым проводится специфическое воздействие (лечение и т.д.), c неблагоприятным эфф ектом у одного из них. Х арактеристика риска и пользы может быть рассчитана по соотнош ению NNH /NNT. Достоинства 15 числового показателя NNT: прост в интерпретации, напрям результатам и, более показателен по сравнению ую связан с с долей, прост в расчетах, показателен для обоснования и диалога с организаторами здравоохранения (закупка), позволяет объективно оценить риск и пользу по соотношению NNH /NNT ( 125). Для более подробного знакомства с использованием NN нашей недавней публикации (3). T отсы лаем к Ош ибки в оценке диагностических метод ов Прим ер 6. А втор сопоставил диа гностику рака шейки матки и обнаруж ил, что при использовании цитологического метода было выявлено 30 случаев из 43, при кольпоскопии 38 из 43. А втор указывает, что чувствительность кольпоскопии выше цитологического м етода. Проведем дополнительный анализ полученных автором данных. Прежде всего, м ожно провести простой расчет по четырехпольной таблице, как и для эфф ективности лечения Т аблица 3 С татистический анализ данных примера 6 2 x 2 T able Row n 1 Colum n 2 T otals F requencies, row P ercent of total F requencies, row P ercent of total Colum n totals P ercent of total Chi-square (df=1) V -square (df=1) 1 30 13 43 34,9% 15,1% 50,0% 2 38 5 43 44,2% 5,8% 50,0% 68 18 86 79,1% 20,9% 86 4,5 p= ,0340 86 4,44 p= ,0350 86 Y ates corrected Chi-square 3,44 p= ,0635 86 0,0523 18. 86 P hi-square 16 Fisher exact p, one-tailed 0,0523 p= ,0308 86 tw o-tailed 0,0523 p= ,0616 86 M cNem ar Chi-square (A/D) 16,46 p= ,0000 86 Chi-square (B /C) 11,29 p= ,0008 86 Об ратим вним ание на наиболее мощн ый по достоверности показатель F isher exact p, tow-tailed, этот показатель составляет р=0,0616 и 0,0523, т.е. различия в частоте выявления патологии не значимы. Ч етода? то ж е такое чувствительность м Действительное наличие патологии Д Диагностический тест положительный А имеется Нет патологии + Совпадение теста и патологии Л ож но Полож ительное положительны е предикторное З начения теста значение Диагностический тест отрицательный Л ож но отрицательные значения теста Совпадение теста и патологии Ч увствительность Рис 1 Схем щая суть чувствительности метода а, демКраткая характеристика основных показателей диагностических тестов онстр ирую представлен в таблице 4. 17 Т аблица 4 Кр аткая характеристика основных показателей диагностических тестов Насколько хорош Ч Специфичность тест для увствительность выявления патологии при полож ительном значении Насколько хорош тест для исключения патологии при отрицательном значении Какова вероятность у конкретного Прогностическая ценность полож ительная пациента наличия патологии при полож ительном результате Какова вероятность отсутствия Прогностическая ценность отрицательная патологии при отрицательном Индекс точности Какая часть всех тестов дала правильны е результаты Отнош ение правдоподобия Насколько более вероятно, что тест будет полож ительны й у подобия полож ительное человека с патологией по тесте сравнению со здоровы м и Интерпретация теста для конкретного случая основана на оценке правдоподобия с уч етом претестовой вероятности наличия патологии и постестовой вероятности (5, 11, 1 23). Отношение правдоподобия при положительном тесте поводится по простой формуле: чувствительность/1-специфичность. В ернемся к примеру 6. Отношение правдоподобия для цитологического м етода составила 2,3 , для кольпоскопии – 8,0 Интерпретация отноше ния правдоподобия (LR): ? LR=1 указывает на отсутствие диагностического значения LR+ >10 указывает на высокую диагностическую ценность положительных значений 18 LR- <0.1 указывает на высокую диагностическую ценность отрицательных значений теста Однако следует учитывать, с какой вероятностью необходим о обеспечить диагностику. Р асчет отношения правдоподобия показы вает низкое качество цитологии и лишь удовлетворительное кольпоскопии для диагностики рака ше йки матки (105). Приводим номограмму (рис 2) для оценки диагностических тестов (52, 128). ом ограм ма акетта LR + = 10 ретесто в а в ероятно сть я ра в до LR по д . в ер о осттестовая ятность Р ис 2. Номограм а оценки диагностических тестов, предложенная F agan TJ, в моди и. фика Приведем пример, описанный в литературе для пояснения оценки ции S диагностических тестов (65). Известно, что средняя вероятность ackett жDL с елезодефицитной анемии (ЖДА) сос соавт 5% тавляет или в терминах диагностических орам исследований эта претестовая (априорная) вероятность ЖДА составляет 0,05. Нуж но оценить диагностическое исследование для выявления ЖДА на основе определения фе рритина в крови. П редполож им , что отноше ние правдоподобия для уровня ферритина м ежду 18 и 45 пг/л равно 3,0. Т выявления анемии будет 0,05 х 3,0 = 0,15 (или 15% посттестовой (апостериорной) вероятностью . огда вероятность ). Этот показатель называю 19 ом ограм LR + = 10 ретестовая вероятность Р LR равдопод. осттестовая вероятность ис 3. Номограм а оценки диагностических тестов, предложенная F agan TJ, в одификации Sackett DL с соавторами, с примером оценки диагностического теста. На номограмм е (рис 3) показаны две линии, исходящие из претестовой вероятности 10% (наприм ер, частота выявлении гастродуоденальных язв в популяции). Линия А указывает на отсутствие диагностического значения теста для выявления патологии с такой претестовой вероятностью . Л иния Б указывает на положительны е характеристики теста. При этом следует обратить вним ание, что эта линия проходит через отноше ние правдоподобия более 10. Избы точное использование коэф ициента коррел яции В большинстве исследований, особенно по хирургическим специальностям, чрезм ерно оценивается значимость коэфф ициента корреляции в качестве основы для принятия реше ния о наличии взаимосвязи признаков, без дополнительной проверки такой взаимосвязи и оценки степени разброса сравниваем ых показателей. Ч астота использования коэффициента корреляции в диссертациях составляет -100%, при этом корреляция на уровнях r=0,23 и r=0,25 явилась основой для выводов (15% работ, при ДИ95% = 5,7-29,8%). Следует напом нить, что основываясь на коэффициентах корреляции, м ы не може строго доказать причинной зависимости м ежду переменным и, однако м 20 ожем определить лож е корреляции, т.е. корреляции, которые обусловлены влияниями "других", остающихся вне ваше го поля зрения факторов (100, 116, 128, 151). Очевидно, что выбросы (выскакиваю щие варианты ) м огут не только искусственно увеличить значение коэфф ициента корреляции, но такж е реально ум еньшить существую щу корреляцию . Об ычно считается, что вы представляют собой случайную бросы оши бку, которую следует контролировать. К сожалению , не существует общепринятого м выбросов. етода автоматического удаления Понятно, что чем больше число анализов вы проведете с совокупностью собранных данных, тем большее число значимых (на выбранном уровне) результатов будет обнаруж ено чисто случайно. Например, если м ы вычисляем корреляции м ежду 10 перем енными (им еем 45 различных коэффициентов корреляции), то м ожно ожидать, что примерно два коэфф ициента корреляции (один на каждые 20) чисто случайно окажутся значимым и на уровне p м енее 0.05. Поэтому всякая хороша я м ера взаим освязи долж на приним ать во вним ание полную изм енчивость индивидуальных значений в вы борке и оценивать зависим объясняется изучаем ой зависим Е ость по тому, насколько эта изменчивость остью (116). сли, например, обнаруж ивается корреляция коэфф полом, то м ожно получить положительный коэфф означаю щий, что ж енщины интеллектуальнее, чем м ициента интеллекта с ициент корреляции, ужчины. Однако, если перем енные, относящиеся к номинальной шкале, не являют ся дихотомическими, вычисление коэффициентов ранговой корреляции не им еет смысла. Е сли четко следова ть положениям статистики, разделяю щих ее на описательную и аналитическую , то им енно аналитическая статистика представляет м етоды, с помощью которых м ожно объективно выяснить является ли взаим освязь (корреляция) вы борок случайной или нет, наприм ер: таблицы сопряженности, восстановления регрессий, факторный анализ, кластерный анализ, д исперсионный анализ, ковариационный анализ (116). . Неточное поним ание сути статистического анализа В научных клинических исследованиях статистический анализ имеет прямое отноше ние к переменным величинам. Переменные - это то, что м ожно 21 измерять, контролировать или что можно изменять в исследованиях. Переменные отличаю тся, прежде всего, шкалой измерения. Ч асто встречаются переменные в клинических исследованиях представлены в таблице 1. Т аблица5 Наиболее часто встречающиеся переменные в диссертационных клинических исследованиях Переменные Их наиболее вероятное кодирование Пол 1 = муж ской 2 = женский Сем ейное положение 1 = холост/не замужем 2 = женат/зам ужем 3 = вдовец/вдова 4 = разведен (а) 1 = некурящий 2 = изредка курящий 3 = интенсивно курящий 4 = очень интенсивно курящий Курение Коэффициент качества жизни В озраст, лет 0 Т емпература тела поC Напомним о сути представленных в таблице перем енных. Перед проведением статистического анализа необходи о ответить на ряд м вопросов. Каков характер заданных условий и, прежде всего: К какой статистической шкале относится данная переменная? Е сли речь идёт о переменных с интервальной шкалой, то подчиняются ли они закону норм ального распределения? Являются ли сравниваемые выборки зависи ыми или независимыми? м 22 Напомним. Р азличают следую щие типы шкал: номинальная, порядковая (ординальная), интервальная, относительная (шкала отношения). Соответственно, им еем четыре типа перем енных: номинальные, порядковы е (ординальны е), интервальные и относительные. Подчеркнем следую щее. Номинальны е перем енные использую тся только для качественной классификации. При этом невозмож но определить количество или упорядочить классы таких переменны х. Например, вы сможете сказать, что 2 пациента различимы по перем енной А (наприм ер, индивидуум ы принадлеж ат к разному полу). Пол, национальность, цвет, город - это номинальны е или категорийны е переменные. В озможности статистической обработки номинальных перем енных очень ограничены. Собственно говоря, м ожно провести только частотный анализ таких переменных. К примеру, расчет среднего значения для перем енной пол или семейное положение, соверше нно бессмысленен. Переменны е, относящиеся к номинальной шкале, обычно использую тся для внутренней группировки, с помощью которых совокупная выборка разбивается по категориям этих переменных. Порядковые переменные (их так ж е назы ваю ординарным и) позволяю т ранж ировать варианты (объекты) , при этом качество выраж енной данной перем енной позволяет оценить варианту по степени этого качества. Однако порядковые переменные не позволяю т провести оценку самой степени выраж енности, иначе ответить на вопрос "на сколько больше" или "на сколько м ерем еньше". Типичный пример порядковой п енной в указанной выше таблице - курение. Курение сортировано в порядке значимости снизу вверх: ум еренный курильщ ик курит больше, нежели некурящий, а сильно курящий больше, чем ум еренный курильщик и т.д. При этом эм пирическая значимость этих перем енных не зависит от разницы м ежду соседним и численным и значениям и. Статистический анализ таких переменных ограничен: частотный анализ, м едианы. В случаях возможно вычисление среднего значения таких перем которое проводится в особых случаях, при четко заданной разм некоторых енных, ерности этих перем енных. Корреляция м ежду таким и переменным и осуществляется ранговым етодом. Об ычным является использование для таких перем енных непараметрических тестов, форм улы которых оперирую т рангами. Интервальные переменные позволяю т упорядочивать объекты измерения, и численно выразить и сравнить различия м ежду ним и. Прим ером является температура, измеренная в градусах Цельсия, такое измерение образует 23 интервальную шк алу. Т акая шкала позволяет оценить температуру в 40 градусов как более высокую , чем температура 30 градусов. Более того, м ожно утверждать, что увеличение тем пературы с 20 до 40 градусов вдвое больше увеличения температуры от 30 до 40 градусов. Р ициент качества ж ассмотрим теперь некий коэфф изни (99). Не только его абсолю тные значения отображаю т порядковое отноше ние м ежду респондентами, но и разница м ежду двумя значениям и также им еет эм пирическую значимость. Например, если у Иванова коэфф ициент равен 50, у Петрова 100 и у Сидорова 150, м ожно сказать, что Петров в сравнении с И вановым им еет более высокое качество ж изни, настолько ж е насколько Сидоров в сравнении с Петровым (а им енно на 50 единиц). Однако, основы ваясь только на том , что значение этого коэфф ициента у Иванова в два раза м еньше, чем у Петрова, нельзя сделать вывод, что Сидоров имеет качество жизни вдвое выше, чем Иванов. Т разность (интервал) м акие переменные, у которых ежду двумя значениям и им еет эм пирическую значимость, относятся к интервальной шкале. Э перем енные м ожно анализировать лю ти быми статистическим прием ограничений: среднее значение является полноценным ами без и обычным статистическим показателем для характеристики таких переменных. Относительны е переменные похожи на интервальные перем енные. В дополнение ко всем свойствам переменных, измеренных в интервальной шкале, их особой чертой является наличие определенной, так назы ваемой, точки абсолю тного нуля, для этих переменных являют ся обоснованным и утверж дение типа: Х в два раза больше, чем У. Переменны е со шкалой отношений. Прим ером переменной, относящейся к такой шкале, является возраст: если И ванову 30 лет, а Петрову 60, м ожно сказать, что Иванов вдвое м ладше Петрова. К перем енным со шкалой отноше ний относятся все интервальные перем енные, которые им ею точку. Поэтому т нулевую перем енные, относящи еся к интервальной шкале, как правило, им отношений. еют и шкалу При использовании статистических программ для обработки данных, относящихся к интервальным, или переменным со шкалой отношений, их различия несущественны. После оценки характера переменных непременным оценка норм альности распределения. условием является 24 "Приведенные описания экспериментальных данных показываю т, что еют распределения, отличные погрешности измерений в большинстве сл учаев им от нормальных. Это означает, что больши нство применений критерия Стьюдента, ... строго говоря, не является обоснованным, поскольку неверна леж ащая в их основе аксиома норм альности распределений соответствующих случайных величин. " (4). Эта цитата как нельзя лучше дем онстрирует значение оценки самого распределения перем енных. Чем может помочь статистика, чтобы научное исследование было успеш ны м на этапе его планирования? Следует сказать, что существуют специальные м етоды статистики для планирования исследований. Один из таких методов – расчет долж ной м ощн ости выборки (35, 102, 106, 116). Напомним основные характеристики статистического анализа Необходим о ценить гипотезу исследования. При этом могут быть две гипотезы: гипотеза с предположением для ее принятия (НО) и гипотеза с предположением для ее отклонения (Н1). В ные две ошибки при лю ыше были упомянуты неизбеж бой выборке: ошибка первого типа T ype I Error – α и ошибка второго типа Type II Error – β, их соотноше ние для оценки гипотезы представлено в таблице 6. Т аблица 6 Соотношение ошибок первого и второго типа для оценки гипотезы исследования Действительная ситуация по справедливости гипотез HO H1 Об ъективное Type II Error H0 Принятие реше ния принятие T ype I Error Об ъективное H1 отклонение Об ычным в статистических публикациях и книгах является обсуж дение ошибки первого типа, которая долж на быть м енее 0,05 (это залож ено в показатель р). Однако, ошибка второго типа может быть лю бой, для ее оценки 25 лучш им является как можно м еньшая величина этой ошибки. Потому, что м ощность выборки зависит, прежде всего, от этого типа ошибки и эквивалентна значению 1- β. Т аким образом , мощность м ожно выразить количественно, прежде всего, само значение м ощности в биомедицинских исследованиях долж но быть не м енее 0,8 или 80% для получения высокой степени уверенности в принятии или отклонении гипотезы. В отдельных исследованиям м ощность м ожет быть на уровне 60%, но не м енее. М ощность это степень статистической вероятности отклонения нулевой гипотезы в тесте, когда она (гипотеза) действительно несправедлива (лож ная). М критерия определяется заданной нулевой зависимостью ощность по альтернативной гипотезе в сравнении с тестируемой (проверяем ой). Т ак как чаще всего в клинических исследованиях используются долевые значения, или пропорции, разберем такой вариант для определение мощн ости и последую щего расчета необходимой численности выборки. М ощность можно оценить на основе chi-квадратных тестов для обнаруж ения различий данных величина м ежду двумя независимым и пропорциям и, учиты вая уровень различий и размер (численность) вы борки. Для точных оценок (F isher and m id-P ) вычисляю тся ожидаемая мощн ость (называемая такж е общая, средняя или безусловная м ощность) (100, 116), которая является особенно подходящей, когда исследование разрабаты вается и планируется. В ычисление мощн ости точных тестов м едленный процесс, особенно если необходим ы образцы выборки большого размера. Об разцы выборок условно определяю тся как A и B , и долж на быть известна необходимая для расчета пропорция – известное значение или принятая исследователем пропорция в образце B . Необходим о определить и величину различия, которая наиболее вероятна, т.е. ожидаем ая величина в образце выборки А . При указанных условиях м ожно определить необходим ую численность опытной группы (А ) требуемой для достоверного отклонения или принятия статистической гипотезы , с учетом выбранной статистической м ощности. Отметим еще раз, что м ощность - это степень статистической вероятности отклонения нулевой гипотезы в тесте, когда она (гипотеза) действительно несправедлива (лож ная). М ощность теста им еет прям ое влияние на расчет объем а выборки. 26 Поясним Р сказанное на примере. асчет мощности выборки при заданных долевых значениях эфф ективности в группе с препаратом (группа А ) и в группе сравнения (группа В – плацебо или препарат сравнения). Удается выяснить, по опубликованным клиническим испытаниям препарата сравнения (группа В ), что уровень рем иссии или очевидное улучш ение, в соответствии с аналогичным и данному исследованию суррогатным и критериям и, такж е базирую щим ися на клинических и биохим ических сим птомах, варьировали от 60 до 90%. Т аки образом, расчетная средняя величина эффективности в группе с препаратом сравнения составляет 75% , при этом им еющиеся опубликованные данные свидетельствую т о м инимальном отклике на аналог (препарат сравнения) на уровне 35-40% (ниж няя граница эффективности аналога). Установив средние значения эфф ективности препарата сравнения - 75% и ниж ню границу эффективности 40% , с учетом теоретически возмож ной верхней граници 95%, м ожно четко задать условия для группы В (препарат сравнения): среднее значение эфф ективности 70% , доверительны й интервал колебаний в 25. . Т аким образом енно этот препарат) , если препарат А (мы хотим оценить им аналогичен по эффективности препарату сравнения, то м огут им еть м есто те ж колебания эфф ективности, но не ниж е 40% (ниж няя граница эфф ективности), м ы ожем ние средней эфф определить соотноше ективности в 0,75 и ниж ний предел эквивалентности - 0,4. Далее проведем расчет с использованием програм бой (S tatistica, S P S или лю другой, им еющий соответствую щий м одуль), м ы использовали программ у W INP E P I, при введении заданных условий в м одуль програм ы - P ower of test for com parison of proportion, получили следую щие результаты , которые представлены в таблице 8. 27 Т аблица 7 Р езультаты расчета мощности исследования Т аким образом , для расчета численности выборки в данном исследовании м ожно установить следующие условия: Ошибка I типа (неверное заклю чение об эквивалентности) фиксируется на уровне 2,5%, а II типа (необнаруж ение фактической эквивалентности) на уровне 20. . При этом расчет объем вается на следую а выборки основы щих предполож ениях: пропорциональность (уровень отклика) две независим ые группы разного объема численности односторонний тест эквивалентности ниж ний предел эффективности: более 40% ожидаем ая разница,: 25,0% (предполагаемая эквивалентность) ошибка I типа: = 2.5% ошибка II типа: = 20% (мощность 80%). В водим эти данные в программ у W INPEP I, в модуль программ ы - S am ple size, следующие результат S2 – Proportion equivalency, получаем : ы 28 СOM P A RE2 Version 1.66 ======================================== ---------------------------------------------S ample sizes required for testing a difference ---------------------------------------------DA TA: T ests for equivalence of proportions S ignificance level = 2.5% (1-tailed) P ow er = 80% Ratio A:B = 0.5 Negligible difference defined as 0.25 P roportion in B = 0.75 Proportion in A = 0.7 RE S ULTS: QUIRE D S AMPLE S tudy hypothesis: B is not materially higher: 153 (102 in sam ple A and 51 in sample B). S tudy hypothesis: A is not materially higher: 86 (57 in sam ple A and 29 in sample B). При проверки гипотезы в виде оценки эквивалентности группы В по отношению к группе А, необходим ая численность выборки долж на составлять 153, в А-102, в В-51 случай. Но нам необходим о оценить эквивалентность группа А, по отношению к группе В (препарат сравнения), для этого необходим о иметь численность выборки в 86 случаев: 57 в группе А и 29 в группе В. М агия чисел в биомедицинских исследованиях. Представим себе беседу научного руководителя и аспиранта. А спирант предлагает: «Д авайте будем использовать прибор (аппарат, тест и т.д.), который м ы недавно получили, и будем что-нибудь измерять, измерять, изм получим м ного данных, затем их обработаем ерять, пока не статистически!. Научный руководитель спрашивает: «Что собственно м ы долж ны получить?!. «Это неважно, важно, что будет много чисел и их м ожно обработать статистически!, ответил аспирант. Описанная сценка дем онстрирует ограничения количественных исследований(35,148). Статистически можно обработать лю бые данные, но в чем 29 собственно см ысл такого подхода. Статистическая обработка необходим получения достоверного результата, т.е. результата приближ а для ающего наше решение к действительной ситуации с высокой степенью вероятности. М ы долж ны помнить, что отвечаем на простой вопрос: что такое X (классификация количества). При этом не следует забы вать, что для интерпретации результатов в количественных исследованиях используется индуктивный м етод м ышления. Сильной стороной количественных исследования является их надежность, основанн ая на повторяемости, т.е. измерения, проведенные в разное врем долж ны давать одинаковые результаты . Проведение просто измерений не является самоцелью научного исследования, тем более, диссертационного. Основной предпосылкой для количественных исследований являю тся качественные исследования. Качественные исследования оправданы при изучении предм ета, для которого крайне слож но сформулировать нуж гипотезу до получения результатов, где различия плохо поним ную аются и выявляют ся. По м нению большинства западных специалистов, биомедицинские исследования, посвященные проблем ам организации здравоохранения, качества едицинской помощи, социологии, являют ся классическим примером качественных исследований (36,38). Качественные исследования направлены в большей степени на оценку структуры , постановка эксперим ента предполагает предварительный обзор проблем ы, отвечаю т на вопрос как м ного Х (только устанавливаю т количество), основой для заклю чения является дедукция, анализ участников осуществляется на основе описательной статистики. При этом, в качественных исследованиях использую тся документы, описываю щие собы тия и/или систем атическое наблю дение за поведением и общением в естественных условиях, и/или наблю дения с участием исследователя, и/или детальное интервью , и/или групповой опрос с использованием взаимодействий в группе (фокус группа). Дается следую щее определение понятия «качественное исследование!. Исследование м етодом сбора данных в небольшой группе участников, которые взаим одействует при обсуж дении поставленным исследователем тем, проблем или вопросов (P abM ed, M E H). Примеры для обсуж дения: почему лю не м огут отказаться от курения, почем S ди у врачи беспокоятся при наличии у пациента тем пературы. Качественное исследование – одна из важ ных методологий для поним ания пользы здоровья и отноше ния пациентов и для того, чтобы формулировать лучш е 30 (более точно) гипотезу, которая м ож ет быть проверена в будущ ем при использовании количественных м етодов исследования(56). В публикации 2004г предлагается ряд вопросов для оценки качественности самого качественного исследования (40), считаем целесообразнымпривести эти вопросы: В сформулированы опросы в исследовании ясно и точно? В опросы в исследовании подходят для качественного запроса? В исследовании четко описано? - осуще ствление выборки - сбор данных - анализ Является ли соответствую щим вопросу исследования? - осуще ствление выборки - сбор данных - анализ Т ребования исследования имею т достаточное доказательство? Являют ся ли данные, интерпретация, и заклю чения четкими и ясными? В носит ли иссл едование полезный вклад в рассмотрение проблем ы (вопроса, темы)? Однако, как и в приведенной публикации, так и серии других по данному вопросу, подчеркивается, что оценка всех аспектов качества качественного исследования остается трудной задачей. В м ер, заим заключении приведу классический при ствованный из известной м онографии (2): «Д ля иллюстрации разделения количественных и качественных исследований доктор Сесил Х ельм ан (Cecil Helm an), автор ведущего руководства по антропологическим аспектам здоровья и болезни, рассказала м не такую историю . Маленький ребенок прибегает из сада и взволнованно говорит: «М ама, с деревьев падаю т листья!. «Расскажи м не подробнее! - говорит м ать. «Хорошо. В течение первого часа упало 5 листьев, в течение второго -10 листьев...!. Т акой ребенок станет исследователем , использую щим количественный м етод. Другой ребенок, когда его спросят подробности, м ожет ответить: «Л истья большие и плоские; в основном они ж елтые и красные; с одних деревьев они падаю т, с других нет. М ама, а почему они не падали в прошлом м есяце?!. Этот ребенок станет исследователем, которому ближ е качественный подход!. 31 В воды . 1. Предм етом данного исследования явились диссертационные работы по разделу клиническая медицина 2. Для оценки качества исследований проведен анализ 40 работ, выбранных случайным образом, по сопоставлению использованных в работах м етодов статистического анализа с им еющимися еждународными рекомендациям и по использованию этих м етодов наружено значительное число ошибок в использовании 3. Об статистического анализа и несоответствие использованных прием ов анализа и рекомендованных 4. Для повышения качества диссертационных исследований необходим о проводить отдельную дополнительную экспертизу адекватности и правильности использованного статистического анализ а. Благодарность. А втор статьи выражает благодарность профессору С.И. Пиманову, доцентам Ю .В Горгун, А.С. Портянко за ценные советы и предварительное обсуж дение данной статьи. Сотрудникам отдела медицинских наук ВАК Беларуси за техническую помощь. Прилож ение . Дем онстрация наиболее важных приемов аналитической статистики для клинических исследований для сам остоятельного обучения 32 Использованная литература 1. Гланц C. «М едико-биологическая статистика!. Пер. с англ., «Практика!, М осква. 1999, 2. Гринхальк Т . Основы доказательной м едицины: П ер с анг.- М .: ГЭОТ А Р- М ЕД, 2004, стр 92 3. М араховский К.Ю , М араховский Ю .Х. От доказательной м доказательной клинической практике: принципы оценки эфф безопасности медикаментозного лечения. Р ецепт 2007. 4. Орлов А.И.. Эконометрика. Издательство Э 5. A rroll B , S chechter M T, S heps S B ent of diagnostic tests: a КЗ А М .T едицины к ективности и 2 с11-14 ЕН, Москва, 2004. - 576 с. he assessm com parison of m edical literature in 1982 and 1985. J Gen Intern M ed. 1988. 3:443-447. ( 6. A uperin A , Pignon JP , Poynard T . Review article: critical review of m eta-analyses of random ized clinical trials in hepatogastroenterology. A limentary P harmacol T her. 1997. 11:215-225. 7. A ltm an DG, B land JM bsence of evidence is not evidence of absence. B .A MJ 1995; 311-485 8. B arnes DE, Bero LA. W hy review articles on the health effects of passive sm oking reach different conclusions. JAM . 1998. 279:1566-1570. 9. B 10. B eck CT . Use of m eta-analysis as a teaching strategy in nursing research courses. J Nurs Educ. 1997. 36:87-90. artlett JG, B reim an RF J. Com unity-acquired pneum in adults: guidelines for m Am 11. B anagem seases S , M andell LA, F onia ent. T ociety of ile TM he Infectious Di erica. Clin Infect Dis. 1998. 26:811-838. egg CB . B iases in the assessm ent of diagnostic tests. S tat M ed. 1987. 6:411423. 12. B 13. B runs DE. Reporting Diagnostic Accuracy. C linical Chem istry. 1997. 43:-. (11 erlin JA. Does blinding of readers affect the results of m eta-analyses? University of P ennsylvania Meta-analysis Bl oup. Lancet. 1997. 350:185-186 14. B 15. B inding Study Gr erlin JA , Rennie D. M easuring the quality of trials: the quality of quality scales. JA M A. 1999. 282:1083-1085. arratt A , Irw ig L, G lasziou P , et al. Users' guides to the m edical literature: X VII. How to use guidelines and recom endations about screening. E vidence-Based Medicine W orking Group. JAM . 1999. 281:2029-2034. 33 16. B riss P A , Z aza S ,P appaioanou M , et al. Developing an evidence-based Gu ide to Com unity P reventive S ervices -- m ethods. T he T ask F orce on Com P reventive Services. Am 17. B unity J Prev Med. 2000. 18:35-43. ritton A ., M cK ee M ., B lack N. E t all. Choosing betw een random ized and non – randomized study: a system atic review. Health T echnol. Asses. -1998-V ol.2- p.124 18. Cl arke M ., Oxm an A D. Cochrane Review er's Handbook 4.0 T he Cochrane Collaboration; 1999. 19. Chestnut RM , Carney N, M Rehabilitation for T raum atic B vidence Report/T A ssessm gency for Health Care P A HCP RP 20. Cheselden W W illiam 21. Cho M aynard H, P atterson P , M ann NC, Helfand M . rain Injury. E echnology ent No. 2. Rockville, M olicy and Research. ublication No. 99-E006;. 1999 d.: A (1740). T he anatom y of the hum an body. 5th edition. London: Bowyer K ,B ero LA. T he quality of drug studies published in sym posium proceedings. A nn Intern Med. 1996. 124:485-489. 22. Concato J, S hah N, Horw itz RI. Random ized, controlled trials, observational ed. 2000. 342:1887studies, and the hierarchy of research designs. N E ngl J M 1892. 23. Cook DJ, S ackett DL, S pitzer W O .M ethodologic guidelines for system atic review s of random ized control trials in health care from the P otsdam Consultation on M eta-Analysis. J C lin Epidemiol. 1995. 48:167-171. 24. Colditz GA, M iller JN, M osteller F . How study design affects outcom es in com parisons of therapy. I: M edical. Stat Med. 1989. 8:441-454. 25. Chalm ers T C, S m ith H Jr, B lackburn B, et al. A m ethod for assessing the quality of a random ized control trial. Control Clin Trials. 1981. 2:31-49. 26. Chalm ers T C, Celano P , S acks HS , S m ent assignm ent in ith HJ. B controlled clinical trials. N Engl J M ed. 1983. 309:1358-1361. 27. Canadian T ask F orce on the P eriodic Health E xam he periodic health ias in treatm ination. T exam ination. Can Med Assoc J. 1979. 121:1193-1254. 28. Corrao G, B agnardi V , Z am bon A xploring the dose-response , A rico S. E relationship betw een alcohol consum ption and the risk of several alcohol-related conditions: a m eta-analysis. Addiction. 1999. 94:1551-1573. 29. Carruthers S G, Larochelle P , Haynes RB , P etrasovits A , S chiffrin E L. Report of Med Assoc J. 1993. 149:289-293. 30. Cook DJ, M ulrow CD, Haynes RB s: synthesis of best . S ystem atic review evidence for clinical decisions. Ann Intern M ed. 1997. 126:376-380. 31. Cl ark HD, W ells GA, Huet C, et al. A ssessing the quality of random ized trials: reliability of the Jadad scale. Control C lin Trials. 1999. 20:448-452. 32. Chalm ers T C, M atta RJ, S m ith H Jr, K unzler AM. E vidence favoring the use of anticoagulants in the hospital phase of acute myocardial infarction. N Engl J M ed. 1977. 297:1091-1096. 33. Cho M K , B ero LA. Instrum ents for assessing the quality of drug studies published in the m edical literature. JA M A. 1994. 272:101-104. 34. Dans A L, Dans LF , Guyatt GH, Ri chard S. Users' guides to the m edical literature: X IV. How to decide on the applicability of clinical trial results to your patient. JA M A. 1998. 279:545-549. 35. Daw son B ., T rapp R.G. sB asic and C linical B iostatistics dition, Lange edical Books/McGraw 36. Denzin, N. K -Hill, M ,T hird E edical Publishing Division, 2001 ., & Lincoln, Y . S . (2000). Handbook of qualitative research ( 2nd ed.). T housand Oaks, CA: Sage Publications. 37. Detsky A S A , Naylor CD, O' Rourke K . Incorporating ,M cGeer AJ, L'Abbe K variations in the quality of individual random ized trials into m eta-analysis. J C lin E pidemiol. 1992. 45:255-265. 38. DeW alt, K. M . & DeW alt, B. R. (2002). Participant observation. W alnut Creek, CA: A ltaMira P ress Holliday, A . R. (2007). Doing and W riting Qualitative Research, 2nd Edition. London: Sage Publications 39. Di ckersin K , S cherer R, Lefebvre C. Identifying relevant studies for system review s. BMJ. 1994. 309:1286-1291. 40. Di xon-W oods M , R L S haw, S A garw of appraising al, J A S atic mith The problem qualitative research Qu al Saf Health Care 2004;13:223–225 41. Dj ulbegovic B , Hadley T . E valuating the quality of clinical guidelines. Linking decisions to m edical evidence. On cology. 1998 Nov. 12:310-314. 42. Dj ulbegovic B , Lacevic M , Cantor A , et al. T he uncertainty principle and industrysponsored research. Lancet. 2000. 356:635-638. 43. Dow ns S H, B lack N. T he feasibility of creating a checklist for the assessm ent of the m ethodological quality both of random ised and non-random ised studies of health care interventions. J Epidem iol Com unity Health. 1998. 52:377-384. 44. Dong BJ, Hauck W , Gambertoglio JG, et al. B ioequivalence of generic and 35 brand-nam e levothyroxine products in the treatm ent of hypothyroidism . JA MA . 1997. 277:1205-1213. 45. de V et HC W , de B ie RA , van der Heijden GJM ijpkes P , G, V erhagen A P K ipschild P G. S ystem atic review ethodological criteria. P hysiotherapy. June 1997. 83:284-289. (6): 46. DerS ,S s on the basis of m im onian R, Charette LJ, M osteller F . Reporting on m ethods in cP eek B, M clinical trials. N Engl J M ed. 1982. 306:1332-1337. 47. E vans M , P ollock A V . A score system for evaluating random control clinical trials of prophylaxis of abdominal surgical w ound infection. Br J S urg. 1985. 72:256- 260. 48. E vans W K , Newm an T , Graham I, et al. Lung cancer practice guidelines: lessons learned and issues addressed by the Ontario Lung Cancer D isease S ite Group. J Clin O ncol. 1997. 15:3049-3059. (P 49. E ubMed) asterbrook P J, B erlin JA , Gopalan R, M atthew ublication bias in clinical research. Lancet. 1991. 337:867-872. 50. E m erson JD, B , Chalm ers T C. A study of the possible relation of treatm s DR. P urdick E , Hoaglin DC, M n em pirical osteller F ent differences to quality scores in controlled random ized clinical trials. Controlled Clinical Trials. 1990. 11:339-352. 51. E dw ards A G, Russell IT , Stott NC. S ignal versus noise in the evidence base for m edicine: an alternative to hierarchies of evidence? F 322. 52. F agan TJ. Nom ed 1975;293:257. 53. F ogram Pract. 1998. 15:319- for Bayes' theorem. N Engl J M ahey T , Hyde C, M ilne R, T horogood M . T he type and quality of random ized controlled trials (RCTs) published in UK M ed. 1995. 17:469-474. 54. F am public health journals. J P ublic Health ield M J, Lohr K N, eds. Guidelines for Clinical P ractice: F rom Developm ent to Use. Institute of M edicine. Washington, D.C.: National Academy Press; 1992; 55. Gardner M J, A ltman DG. Confidence intervals rather than p values: estim rather than hypothesis testing. BM J 1986; 292: 746-750 56. George M ., T G. F reedm pter. Qualitative an, A L. Norfleet, HI. F ation eldman, and AJ. A research-enhanced understanding of patients' beliefs: results of focus groups w ith low -incom ith asthm e, urban, A a J A llergy Clin Im frican A m unol erican adults w 2003. 111: 5 967-73). 57. Goodm an S N, B erlin J, F letcher S W , F letcher RH. M anuscript quality before and after peer review and editing at A nnals of Internal Medicine. A nn Intern Med. 36 1994. 121:11-21. 58. Gr ay JAM . Evidence-B ased Healthcare. London: Churchill Livingstone;1997. 59. Guide to Clinical P reventive S ervices, 2nd E d. A lexandria, V a.: International M edical Publishing, Inc.; 1996. 60. Guyatt GH, S ackett DL, C ook DJ. Users' guides to the m edical literature. II. How to use an article about therapy or prevention. B they help m e in caring for m . W hat w ere the results and w ill y patients? E vidence-Based M edicine W orking Gr oup. JAM . 1994. 271:59-63. 61. Guyatt GH, S ackett DL, C ook DJ. Users' guides to the m edical literature. II. How to use an article about therapy or prevention. A . Are the results of the study valid? E vidence-Based M edicine W . 1993. 270:2598-2601. 62. Gr eer N, M osser G, Logan G, Halaas G orking Group. JAMA W . A practical approach to evidence grading. Joint Com ission J Qual Improv. 2000. 26:700-712. 63. Guyatt G.H., S acket D.L., S inclair J.C., et all. Users guides to the m literature XI. A m ethod for grading halth care rcom endtions JA M A p1800 64. Gardner M edical 1993 v270 J, A ltman DG. Confidence intervals rather than p values: estim ation rather than hypothesis testing. BM J 1986; 292: 746-750 65. Guyatt G.H., P atterson C., Ali M . Et all. Diagnosis of iron deficiency anem ia in the eldery. Am J Med. 1990, v88,p205-209). 66. Goudas L, Carr DB , B loch R, et al. M anagem ent of Cancer P ain. E vidence Report/T echnology A ssessment. No. 35 (Contract 290-97-0019 to the New E ngland M edical Center). Rockville, M d.: A gency for Health Care P Research. AH CP 67. Gr RP olicy and ublication No. 99-E004;. 2000. eer N, M osser G, Logan G, Halaas G W . A practical approach to evidence grading. Joint Com ission J Qual Improv. 2000. 26:700-712 68. Guyatt GH, Haynes RB , Jaeschke R Z, et al. Users' Gu ides to the M edical Literature: X V .E vidence-based m edicine: principles for applying the Users' Guides to patient care. Evidence- B ased Medicine W orking Group. JA M A . 2000. 284:1290-1296. 69. Guyatt GH, S ackett DL, S inclair JC, Hayw ard R, Cook DJ, Cook RJ. Users' guides to the m edical literature. IX. A m ethod for grading health care recom endations. E vidence-Based M edicine W orking Gr oup. JA M A. 1995. 274:1800-1804. 70. Granados A , Jonsson E, Banta HD, et al. EUR -ASES Project Subgroup Report 37 on D issem ination and Im pact. Int J Technol A ssess Health Care. 1997. 13:220- 286. 71. Garbutt JC, W est S L, Carey T S harm acological treatm , Lohr K N, Crew ent sF T. P of alcohol dependence: a review of the evidence. JA MA. 1999. 281:1318-1325. 72. Gr oss P A ,B arrett T L, D ellinger E, et al. P urpose of quality standards for infectious diseases. Infectious Diseases S is. 1994. ociety of A m erica. Clin Infect D 18 73. Gr eenland S . Invited com m ethods. Am 74. Gyorkos T entary: a critical look at som e popular m eta-analytic J E pidemiol. 1994. 140:290-296. W , T annenbaum T N, A brahamow n approach to the developm ent of practice guidelines for com icz M , et al. A unity health interventions. Can J ublic Health. Revue Canadienne De Sante Publique. 1994. 85:S8-13. Suppl 1 75. Harbour R, M iller J. A new system [Scottish Intercollegiate Gu idelines Netw ork (S IGN)] for grading recom endations in evidence based guidelines. B MJ. 2001. 323:334-336. 76. Heidenreich P A ,M cDonald K M , Hastie T valuation of B eta-B lockers, , et al. An E Calcium A ntagonists, N itrates, and A lternative T herapies for S table A ngina. Rockville, M D: A gency for Healthcare R esearch and Quality. A HRQ Publication No. 00-E 003;. 1999. 77. How to Use the E vidence: A ssessm cientific E vidence. ent and A pplication of S Canberra, Australia: NHM RC;. 2000. 78. Harris RP , Helfand M , W oolf S H, et al. Current m ethods of the U.S . P reventive S ervices Task F ed. 2001. 20:21-35. orce: A review of the process. Am J Prev M 79. How to read clinical journals: IV. T o determ ine etiology or causation. Can M ed A ssoc J. 1981. 124:985-990. 80. Hem inki E . Qu ality of reports of clinical trials subm itted by the drug industry to the F innish and S w harm acol. 1981. 19:157- edish control authorities. Eur J Clin P 165. 81. Hoffm an R M ,K ent DL, Deyo RA. Di agnostic accuracy and clinical utility of therm ography for lum bar radiculopathy. A m eta-analysis. S pine. 1991. 16:623628 82. Hoogendoorn W E , van P oppel M outer LM . P hysical N, B ongers P M load during w ork and leisure tim e as risk factors for back pain. S , K oes BW, B cand J W ork, E nviron Health. 1999. 25:387-403. 83. Huw T O Davies W hat are confidence intervals? TRI1151200 V .3, n.1 р 1-8, Date 38 of preparation: F edicine.co.uk 84. Im ebruary 2001 www .evidence-based-m periale T F, M cCullough A J. Do corticosteroids reduce m ortality from alcoholic hepatitis? A m eta-analysis of the random ized trials. A nn Intern M ed. 1990. 113:299-307. 85. Irw ig L, T osteson A N, Gatsonis C, et al. Gu idelines for m eta-analyses evaluating diagnostic tests. Ann Intern M ed. 1994 Apr 15. 120:667-676 86. Jaeschke R, G uyatt G, S ackett DL. Users' guides to the m edical literature. III. How to use an article about a diagnostic test. A . Are the results of the study valid? E vidence-Based M edicine W orking Group. JAMA . 1994. 271:389-391. 87. Jeng GT , S cott JR, B urm eister LF eta-analytic results using literature vs individual patient data. P aternal cell im m iscarriage. JAM . 1995. 274:830-836. . A comparison of m unization for recurrent 88. Jadad A R, M oore RA , Carroll D, et al. A ssessing the quality of reports of randomized clinical trials: is blinding necessary? Control C lin Trials. 1996. 17:112. 89. Juni P , W itschi A, Bloch R, E gger M . The hazards of scoring the quality of clinical trials for m eta-analysis. JAM . 1999. 282:1054-1060. 90. K han KS , T er Ri et G, Gl anville J, S ow den A J, K leijnen J. Undertaking S ystem atic Review s of Research on E ffectiveness. CR D's Guidance for Carrying Out or Com issioning Review s: Y ork, E ngland: University of Y ork, NHS Centre for Review s and D 91. K issemination;. 2000. han K , Daya S , C ollins JA , W alter S D. E mpirical evidence of bias in infertility research: overestim ation of treatm ent effect in crossover trials using pregnancy as the outcom e m 92. K easure. Fertil Steril. 1996. 65:939-945. han K , Daya S , Jadad A . T he im portance of quality of prim ary studies in producing unbiased system atic reviews. Arch Intern Med. 1996. 156:661-666. 93. K unz R, Oxm an A D. T he unpredictability paradox: review of em com parisons of random ised and non-random ised clinical trials. B 317:1185-1190. 94. Laupacis A pirical MJ. 1998. , W ells G, R ichardson W S , T ugw ell P . Users' guides to the m edical literature. V . How to use an article about prognosis. E edicine W orking Gr 95. Lau J, Ioannidis J, B vidence-B ased M oup. JAM. 1994. 272:234-237. alk E , et al. E valuating T echnologies for Identifying A cute Cardiac Ischem ia in E ergency Departm ents: E vidence Report/T echnology A ssessm ent: No. 26. Rockville, Md.: Agency for Healthcare R esearch and 39 Quality. A HRQ P ublication N o. 01-E 006 (Contract 290-97-0019 to the New E ngland Medical Center);. 2000. 96. Liberati A , H im quality assessm el HN, Chalm ent of random ers T ized control trials of prim ary treatm ncol. 1986. 4:942-951. C. A ent of breast cancer. J Clin O 97. Lohr K N, Carey T S . Assessing 'best evidence': issues in grading the quality of studies for systematic review s. Joint Comission J Qual Im provement. 1999. 25:470-479 98. Lohr K N. Gr ading A rticles and E vidence: Issues and Op tions. F inal Gu idance P aper. Final report subm itted to the A gency for Health Care P olicy and Research for Contract No. 290-97-0011, T ask 2. Research T riangle P ark, N.C.: Research T riangle Institute; 1998 99. Lohr K N, A aronson NK , B urnam M A , Roberts JS . atrick DL, P errin E B E valuating quality-of-life and health status instrum ents: developm ent of scientific review criteria. Clin Ther. 1996. 18:979-991. 100. Last JM . A Dictionary of Epidem iology. New York: Ox ford University Press; 1995. 101. Levine M , W alter S , Lee H, Haines T , Holbrook A , M oyer V . Users' guides to the m edical literature. IV. How to use an article about harm . E vidence-B ased M edicine W orking Group. JAM . 1994. 271:1615-1619. 102. Lachin JM . S tatistical considerations in the intent-to-treat principle. Control C lin T rials. 2000. 21:167-189. 103. Lijm er JG, M ol B W , H eisterkam pS pirical evidence of design-related , et al. Em bias in studies of diagnostic tests. JAM . 1999. 282:1061-1066. 104. M ant D. T esting a test: three critical steps. Cr itical Reading for P rim ary Care. E ds R. Jones, A.- K inm onth L.. Oxford: Ox ford University Press. 1995. p. 183-190 105. M cCrory DC, M atchar DB , B astian L, et al. E valuation of Cervical Cytology. Rockville, M d.: A gency for Health Care P olicy and Research. A HCP R Publication No.99-E 010;. 1999. 106. M cP herson K one replacem B MJ 328:357-358 (2004). W here are w ent therapy? e now 107. M oher D, Jadad A , T ugw ell P ssessing the quality of random ized controlled trials. Int J T echnol Assess Health Care. 1996. 12:195-208. 108. M oher D, Jadad A R, Ni chol G, P enm an M , T ugw ssessing the with horm .A ell P, Walsh S. A quality of random ized controlled trials: an annotated bibliography of scales and checklists. Control C lin Trials. 1995. 16:62-73. 109. Moher D, F ortin P, Jadad A R, et al. Completeness of reporting of trials published 40 in languages other than E nglish: im plications for conduct and reporting of system atic reviews. Lancet. 1996. 347:363-366. 110. M oher D, P ham , K lassen T P, et al. W hat contributions do languages other than E nglish m ake on the results of m eta-analyses? J Clin E pidemiol. 2000. 53:964972. 111. M oher D, S chulz K F, A ltm oup. T he CONS ORT statem ent: revised recom an DG, for the CONS ORT Gr endations for im proving the quality of reports of parallel-group random ised trials. Lancet. 2001. 357:1191-1194. (9263) 112. M oher D, Cook DJ, E astw ood S troup DF . Im proving the ,O lkin I, Rennie D, S quality of reports of m eta-analyses of random ised controlled trials: the QUOROM statem ent. Quality of Reporting of Meta-analyses. Lancet. 1999. 354:1896-1900. 113. M oher D, P ham B , Jones A , et al. Does quality of reports of random ised trials affect estim ates of intervention efficacy reported in m eta-analyses? Lancet. 1998. 352:609-613. 114. National Health and M edical Research Council (NHM RC). How to Review the E vidence: S ystem cientific Literature. atic Identification and Review of the S Canberra, Australia : NHM RC;. 2000. 115. New Z ealand Gu idelines G roup. T ools for G uideline Developm ent & E valuation. A ccessed July 10, 2000. W eb Page. Available at: http://www.nzgg.org.nz/. 116. Ol kin I. S tatistical and theoretical considerations in m eta-analysis. J Clin E pidemiol. 1995. 48:133-147. 117. Ogilvie RI, Burgess ED , Cusson JR, Feldm yers M G. Report of an RD, Leiter LA, M the Canadian Hypertension S ociety Consensus Conference: 3. P harmacologic treatm ent of essential hypertension. Can Med Assoc J. 1993. 149:575-584. 118. Oxm an A D, Gu yatt GH. V alidation of an index of the quality of review articles. J Clin Epidem iol. 1991. 44:1271-1278. 119. Oxm an A D, Gu yatt GH, S inger J, et al. A greem ers of review ent am ong review articles. J C lin Epidemiol. 1991. 44:91-98. 120. Oxm an A D, Cook DJ, Guyatt GH. Users' guides to the m edical literature. V I. How to use an overview. E vidence-Based M edicine Working Gr oup. JA M A . 1994. 272:1367-1371. 121. P oynard T , Naveau S , Chaput JC. M ethodological quality of random ized clinical trials in treatm ent of portal hypertension. In M ethodology and Review s of Clinical T rials in Portal Hypertension. Excerpta Medica; 1987. 306-311 122. Pogue J, Y usuf S. Overcom ing the limitations of current m eta-analysis of 41 random ised controlled trials. Lancet. 1998. 351:47-52. (PubMed) 123. Reid M C, Lachs MS , F einstein A R. Use of m ethodological standards in diagnostic test research. G etting better but still not good. JAM . 1995. 274:645-651. 124. Reisch JS , T yson JE , M ize S G. A id to the evaluation of therapeutic studies. P ediatrics. 1989. 84:815-827. 125. Rajkum ar S V , S am pothkum ber needed to treat is a ar P , Gustafson AB. Num sim ple m easure of treatm ent efficacy for clinicians. JGIM 1996; 11: 357-358 126. Rosner B . sF undam entals of B dition; Harvard University; Duxbury, T homson Learning, 2000Rose 127. G., B iostatistics , Fifth E arker D.J.P. E pidem iology for the Uninitiated. 3-rd ed London. B P ublication. 1994) 128. S ackett D.L.,Haynes R.B ., G uyatt G .H., T ugw iology-a B asic MJ ell P . Clinical E pidem S cience of Clinical Medicine. London, Little Brown. 1999, p51-68 129. S acks HS , Reitm an D, P agano D, K upelnick B S inai J Med. 1996. 63:216-224. 130. S ackett DL, S traus S E , R vidence-B ased M edicine: How eta-analysis: an update. M t ichardson W to S , et al. E P ractice and Teach EB M. London: Churchill Livingstone;. 2000. ( 131. S acks HS, Berrier J, Reitm an D, A nocaon-Berk VA eta-analyses , Chalm ers TC. M of random ized controlled trials. N Engl J Med. 1987. 316:450-455. 132. S hekelle P G, W oolf S H, E ccles M , Gr im guidelines. BM J. 1999. 318:593-596. 133. S heps S B ,S chechter M ent of diagnostic tests. A survey of shaw J. Clinical guidelines: developing .T he assessm current m edical research. JA M A. 1984. 252:2418-2422. 134. S choenfeld P. Evidence based medicine in practice: applying intention-totreat and per-orotocol analysis. Am J Gastro 2005; 100:3-4 135. S troup DF , B erlin JA , M orton S C, et al. M eta-analysis of observational studies in epidem iology: a proposal for reporting. M eta-analysis Of O bservational S tudies in E pidem iology (M OOSE) group. JAM. 2000. 283:2008-2012. 136. S utton A J, A brams K R, Jones DR, S heldon T A atic review s of ,S ong F .S trials and other studies. Health T echnol Assess. 1998. 2:1-276. 137. S chulz K F, Chalm ers I, Gr im es DA , A ltman DG. A ssessing the quality of random ization from reports of controlled trials published in obstetrics and ystem gynecology journals. JAM . 1994. 272:125-128. 138. S indhu F , Carpenter L, S eers K . Developm ent of a tool to rate the quality assessment of random ized controlled trials using a Delphi technique. J Adv Nurs. 42 1997. 25:1262-1268. 139. S chulz K F, Chalm ers I, Hayes RJ, A pirical evidence of bias. ltm an DG. Em Di ensions of m ethodological quality associated w ith estim ates of treatm ent effects in controlled trials. JAM . 1995. 273:408-412. 140. T hom pson S hy sources of heterogeneity in m G. W eta-analysis should be investigated. BM J. 1994. 309:1351-1355. 141. T ritchler D. M odelling study quality in m eta-analysis. S tat M ed. 1999. 18:21352145. 142. T he S tandards of Reporting T rials Gr oup. A proposal for structured reporting of random ized controlled trials. JAM . 1994. 272:1926-1931. 143. T he A silom ar W orking G endations for Reporting of Clinical T rials in the B iom ation for inclusion in reports roup on Recom edical Literature. Checklist of inform of clinical trials. Ann Intern M ed. 1996. 124:741-743. 144. T urlik M A , K ushner D. Levels of evidence of articles in podiatric m J Am edical journals. Podiatr Med Assoc. 2000. 90:300-302. 145. V erhagen AP , de V et HC, de B he Delphi list: a criteria list for quality ie RA, et al. T assessm ent of random ized clinical trials for conducting system atic review s developed by Delphi consensus. J C lin Epidemiol. 1998. 51:1235-1241. 146. V ickrey B G, S hekelle P , M orton S , Cl ark K , P athak M , K amberg C. P revention and M anagem ersons. E ent of Urinary T vidence Report/T echnology A ssessm gency for Health Care P olicy and Research. AH CP R P ract Infections in P aralyzed P ent No. 6. Rockville, Md.: A ublication No. 99-E008;. 1999. 147. V ickers A , Go yal N, Harland R, Rees R. Do certain countries produce only positive results? A system atic review of controlled trials. Control Clin T rials. 1998. 19:159-166. 148. V ictor N. "T he challenge of m eta-analysis":discussion. Indications and contraindications for m eta-analysis. J Clin Epidemiol. 1995. 48:5-8. 149. W orking group on m ethods for prognosis and decision m aking. M em orandum for the E valuation of Diagnostic M easures. Journal of C linical C hem istry and C linical B iochemistry. 1990. 28:873-879; 150. W est SL, G arbutt JC, Carey T acotherapy for A lcohol D ependence. E vidence Report/T echnology A ssessm ent No. 5; Rockville, M d.: A gency for S , et al. Pharm Health Care P olicy and Research. A HCP ublication No. 99-E 004;. 1999. RP 151. Z aza S , W right-De A guero LK, B riss P A , et al. Data collection instrum ent and procedure for systematic review s in the Guide to Com unity Preventive S ervices. 43 orce on Comunity Preventive Services. A m J Prev Task F M ed. 2000. 18:44-74. 44 Прилож ение к статье Ю .Х. Мараховский А ДЕКВА Т НИЯ НА УЧНО НОСТ Ь СТ А СКОГО А ОБО СНОВ А ННЫ Х , Д ОСТ ОВЕ ИССЛЕДОВА НИЯХ ПО КЛИНИЧ Е СКОЙ М ЕДИЦИНЕ Р НА ЛИЗА ДЛЯ ПОЛУЧЕ Н ЫХ РЕЗУЛЬТА Цель приложение: Дем онстрация наиболее важных приемов аналитической статистики для клинических исследований для сам остоятельного обучения Оц енка ассоциативной взаим освязи или показатель RR (relative risk) Прим ер для когортного исследования. Воздействие Группа с Группа без заболеванием заболевания Да имеется a b a+b Нет, без воздействия c d c+d a a+b RR = c c+d Значение RR, оценивается следую щим образом : если RR =1,0, то фа ктор экспозиции не оказывает никакого воздействия, при RR м енее 1,0 фактор оказывает благоприятное воздействия, при RR больш е 1,0 – неблагоприятное. Оц енка частоты ости) по долевым встречаемости (заболеваем значениям . Нулевая гипотеза имеет вид H0 : RR=1, т.е. нет никакого основания утверж дать об изменении в частоте встречаемости, связанной с каким-то фактором . Прим ер В кого ртно м ис след ован и и у с т 45 иокарда (ИМ) при повышенном При наблюдении в течение года инфаркт артериальном давлении, развился у 180 из 10 000 субъектов наблю дения, при м нормальном артериальном давлении у 30 из 10 000. А Группа с ИМ Группа без ИМ ртериальное дав ление Да повыше но A Нет, не повышено C (30) (180) B (9820) a + b (10 000) D (9970) c + d (10 000) В ывод: нулевая гипотеза не справедлива. Наличие артериальной гипертензии увеличивает риск развития инфаркта м иокарда в 6 раз, при наблю дении в течение 1 года. Т еперь необходимо рассчитать доверительный интервал этого показателя. Р ristol DR (1989) Sam асчет осуществляется по формуле (B ple sizes for constructing confidence intervals and testing hypotheses. S tatistics in Medicine 6:803-811.): Об ратим вним ание на то, что согласно формуле, расчет доверительного интервала даст значения м аксимум а и миним а ассиметричные, по отноше ум нию к среднем у значению (S imon R (1986) Confidence intervals for reporting results of clinical trials. A nnals of Internal M edicine 105: 429-435. Gr eenland S (1994) Corrections. S tatistics in M edicine 13: 99. G reenland S (1999) Re: sConfidence lim its ade easy: interval estim ation using a substitution m E pidem iology 149: 884). Т акая формула предполагает отсутствие норм ethod . A merican Journal of альности распределения, что и им еет м есто в больш инстве случаев. При норм альном распределении доверительный интервал сим етричен. 46 Получили следую щие значения доверительного интервала: среднее- 6,0, макси альное значение – 8,83, минимальное -4,08. м Р аспечатка расчета данного прим ера по програме W INP E P I представлена ниж В е еется значение Odds ratio, которое пре дста влен ной расп ечат ке и м фактически равно RR. Ч то такое Odds ratio? Odds = T he probability of an event occurring divided by the probability of the event not occurring, или правдоподобность наступления события деленная на правдоподобн ость не наступления этого события. Например, если вероятность развития заболевания у конкретного индивидуум а составляет 0,010, то правдоподобность наступления такого события (развитие заболевания) составляет 0,010 / 0,990 = 0,0101. Т аким образом, это оценка шанса наступления события, но не оценка действительной достоверности наступления этого события. (Jew ell NP (1984) S all-sam ators of the odds ratio from sets. Bi om etrics 40: 421-435). ple bias of point estim m atched 47 В клинических и эпидем иологических исследованиях Odds ratio (OR) – это сопоставление двух Odds. OR для расчета правдоподобности развития заболевания (состояния): Od ds развитие заболевания В , при экспозиции (действии) фактора А , делится на Od ds развитие заболевания В , при отсутствии экспозиции фактора А. OR для расчета правдоподобности воздействия экспозиционного фактора: Od ds экспозиции ф актора А в группе с заболеванием Б, делится на Odds экспозиции фактора А в группе без заболевания Б . Форм ула расчета Odds для развития заболевания имеет следующий вид (F leiss JL (1981) S tatistical methods for rates and proportions. New York: John W iley & S ons. Fleiss JL (1986) T he design and analysis of clinical experim ents. New York: John W iley & Sons). М виде: заболеваем ожно эту формулу представить в ином ость(число новых случаев на 100) / 1 – заболеваем ость. Оц енка правдоподобия воздействия фактора А на развитее патологии В им еет следую щий вид: или заболеваем ость(число новых случаев на 100) при действии фактора А /1– заболеваем ость при отсутствии фактора А. Оц енка правдоподобия при отсутствии действия фактора А: Формула расчета O dds ratio (OR) будет 48 х таблиц для расчета Odds Используем универсальное правило четырехпольн ratio (OR ) ы Действие фактора Группа с Группа без А заболеванием заболевания А а (180) b (9820) a + b (10 000) Всего с (30) d (9970) c + d (10 000) a+c b+d a+b+c+d Odds при действии фактора Odds без действия фактора Правдоподобность (OR) воздействия фактора А на развитее заболевания В OR будет увеличивать величину относительного риска - RR, но для редких болезней (редких событий) разность между ними будет минимальной. 49 Прим еры. Р едкие события Действие фактора Группа с А заболеванием Группа без заболевания А а (10) b (1 000) a + b (1 010) Всего с (5) d (1 000) c + d (1 005) a+c b+d a+b+c+d События, не относящиеся к редким. Действие фактора Группа с А заболеванием Группа без заболевания А а (650) b (1 920) a + b (2 570) Всего с (170) d (2 240) c + d (2 410) a+c b+d a+b+c+d 50 Ком ентарий к интерпретации. Значение «Р! измеряет статистическую достоверность разности м ежду группам и. Эта величина показы вает нам насколько наблю даемая нами разница позволяет. опровергнуть нулевую гипотезу (каков шанс опроверж ения или принятия гипотезы ). Эта величина ничего не говорит о силе взаим освязи. Значения Odds ratio (OR) и RR (relative risk) позволяю т оценить степень (силу взаим освязи), при этом более правдоподобно, по сравнению с коэффициентом корреляции. Прим ер исследования случай - контроль. В заимосвязи меж использованием ду орофарингеальным раком и регулярным полоскания рта (W ynder et al,1983) Наличие Группа с астота (% заболевания В регулярным встречаем ости Группа без ) Ч полоскания (орофарингеальный (ежедневно, рта рак) после еды) поло Да, имеется сканием рта а (259) b (312) регулярного полоскания рт а 45,4 (F isher's 95% a+b (571) C.I. = 41,2 to 49 ,5) Нет с (205) d (363) c+d (568) 36,1 (F isher's 95% C.I. =32,1 to 40 ,2) В сего a+c (464) b+d (675) a+b+c+d (1 139 51 и этого исследования случай - контроль, В соо твет стви исд анн ым регулярное полоскание полости рта увеличивает риск развития орофарингеального рака с правдоподобностью 1,47 (ДИ95% = 1,15-1,88), при chiквадрате – 10,13 и р=0,001 А трибутная (существенная, специфическая) доля или процент среди экспозиции [Attributable Fraction or Percent A m ong E zklo (% A (K uritz SJ, Landis JR (1987) Attributable risk ratio estim atched-pairs casecontrol data. Am erican Journal of Epidemiology 125: 324-328.) Р азделив числитель и знаменатель на величину Получим xposed (A F e) in S Rexp)] ation from m В еличина «%A Rexp! носит название «clinical attributable risk! или клинический атрибутивный (су щественный) риск. В одном из исследований по оценке распространенности рака легкого было показано следую щее: 52 Р ак легких им ел распространенность 6,2 на 100 000, в год. При этом, у ж енщин, находящихся замуж ем 5 за курильщиками – 6,7027 на 10 , у ж 5 м уж ья которых не курили – 5,5856 на 10 Р ассчитаем 6,7027 / 5,5856 = 1,2 Т аким образом , в группе женщин частота экспозиции, соответствует частоте встречаем ости муж ей курильщ иков, и составляет - 16,7%. Е ще один пример, контроль качества статистики в публикациях. Левченко Н.А., Рычагов Г.П. М Заж ивление едицинский журнал 3, 2008, стр 55 Основная группа Контрольная группа пролеж ней Полное 17 На 50% 9 58,6 20 39,2* 31 13 25,5* М Нет В енее 50% 3 10,4 15 29,4* 0 сего 29 3 5,9 100 51 100 *- достоверно при р менее 0,05 В ывод авторов: ГБО оказы вает существенное влияние на заживление Однако! 58,6% при доверительном интервале 95% C.I. (Fisher's) = 38,9 – 76,5 39,2% при доверительном интервале 95% C.I. (Fisher's) = 25,8 – 53,9 При проверке достоверности отличий обнаружено One-tailed: P = 0.075 or 0.972 T wo-tailed: P = 0.108 Double one-tailed: P = 0.150 енщин 53 В ывод авторов сомнителен, необходим а проверка по четырехпольной таблице. 2x2T able (rep_orn.sta) Row Colum n Column 1. F requencies, row P ercent of total 2 Totals 1 17 21,2% 15,0% 36,2% F requencies, row P ercent of total 2 20 31 51 25,0% 38,7% 63,7% Colum n totals P ercent of total 12 29 37 43 80 46,2% 53,7% Chi-square (df=1) V -square (df=1) 80 2,8 p= ,0943 80 2,77 p= ,0963 80 2,07 p= ,1498 80 Y ates corrected Chisquare P hi-square 0,035 43 80 F isher exact p, onetailed 0,035 p= ,0749 80 tw o-tailed Chi-square (B /C) 0,035 p= ,1081 1,53 p= ,2159 80 80 2x2T able (rep_orn.sta) Row Colum n Column 1. 2 Totals F requencies, row P ercent of total F requencies, row 1 9 20 29 11,250% 25,0% 36,25% 2 13 38 51 P ercent of total Colum n totals 16,250% 47,5% 63,75% 22 58 80 P ercent of total 27,500% 72,500% 80 Chi-square (df=1) V -square (df=1) 0,29 p= ,5934 0,28 p= ,5957 80 80 54 Yates corrected Chisquare P hi-square 0,07 p= ,7845 0,00356 58 80 80 F isher exact p, onetailed 0,00356 p= ,3886 80 tw o-tailed 0,00356 p= ,6115 80 1,09 p= ,2963 80 Chi-square (B /C) В ывод авторов «ГБО оказывает существенное влияние на заживление! не верен, остоверных отличий нет. 55 д В ариант ность причинной взаимосвязи экспозиции и состояния. 1. Экспозиция фа ктора (воздействия) А необходим а и достаточная для состояния (заболевания) В достаточна для В, и В достаточно для А Укус инфицированного животного и беше нство 2. Экспозиция фактора (воздействия) А необходим а, но не достаточна для развития состояния (заболевания) В Р азвитие заболевания В пре дполагает наличие фактора А , но наличие фа ктора А не обязательно предполагает развитие состояния В Например, инфицирование вирусом гепатита и клиническая картина самого гепатита 3. Экспозиция фактора А достаточна для развития состояния В , но не является необходим ой для получения результата в виде состояния В A достаточна для В, но В не достаточно для А Например: дефицит альф а-1- антитрипсина и эмфизема легких 4. Экспозиция фактора (воздействия) А никогда не является необходим ой или достаточной для состояния В. Им еется ряд других факторов, которые в совокупности и представляют либо необходим ость, либо достаточность для состояния В. Например: развитие рака специфической локализации и употребление вещества 56

ДЕ КВ А Т НОС С Т А Е СКОГ О А НА Л И З А Д Я ПОЛ У Ч Е НИЯ

Related documents

Products

Support

ДЕ КВ А Т НОС С Т А Е СКОГ О А НА Л И З А Д Я ПОЛ У Ч Е НИЯ

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib