этап 3 - НИИ Биологии - Южный федеральный университет

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ Федеральное государственное образовательное учреждение высшего профессионального образования «ЮЖНЫЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ» УДК 577.2 № госрегистрации 01200962413 Инв. № 02.740.11.5015 УТВЕРЖДАЮ Первый проректор по научной и инновационной деятельности ЮФУ _________________ Е.К. Айдаркин «___»_________ 2010 г. ОТЧЕТ О выполнении поисковых научно-исследовательских работ по теме: ”СОЗДАНИЕ И АПРОБАЦИЯ НОВОГО СПОСОБА FIAV ДЛЯ БЫСТРОЙ ИДЕНТИФИКАЦИИ АЛЛЕЛЬНЫХ ВАРИАНТОВ ГЕНОВ” (промежуточный) по государственному контракту от «20» июля 2009 г. № 02.740.11.5015 шифр заявки «2009-1.5-501-002-042» 3 этап: «Разработка технологии FIAV генов-кандидатов для одновременного анализа больших массивов однонуклеотидных сайтов, микроделеций, повторяющихся последовательностей» Руководитель темы д-р биолог. наук, профессор Т.П. Шкурат ____________________ Ростов-на-Дону 2010 1 СПИСОК ИСПОЛНИТЕЛЕЙ Руководитель темы, д-р биолог. наук ____________________ Т.П. Шкурат (раздел: введение, 3, 5, заключение) Приглашенный исследователь, канд. физ.-мат. наук ____________________ С.Р. Малхосьян (раздел: 1, заключение) 2, Исполнители темы: Ст. науч. сотр., канд. биолог. наук ____________________ И.О. Покудина (раздел: 3) Ст. науч. сотр., канд. биолог. наук ____________________ Е.В. Машкина (раздел: 2, 3) Науч. сотр., канд. физ.-мат. наук ____________________ Г.Л. Хатламаджиян (раздел: 1) Науч. сотр., канд. биолог. наук ____________________ Науч. сотр. ____________________ Мл. науч. сотр. ____________________ Мл. науч. сотр. ____________________ Мл. науч. сотр. ____________________ Мл. науч. сотр. ____________________ Мл. науч. сотр. ____________________ Мл. науч. сотр. ____________________ Мл. науч. сотр. ____________________ Мл. науч. сотр. ____________________ Аспирант ____________________ С.С. Манджиева (раздел: 2, 3) С.В. Ломтева (раздел: 3) Т.И. Валькова (раздел: 3) Н.В. Ветрова (раздел: 3) Т.В. Попкова (раздел: 3) Л.В. Гутникова (раздел: 3) Т.В. Белик (раздел: 2, 4) А.А. Родионов (раздел: 3) Е.Е. Беренвальд-Райш (раздел: 3) Е.Ф. Шелухина (раздел: 3) Е.Г. Деревянчук 2 Аспирант ____________________ Аспирант ____________________ Студент ____________________ Студент ____________________ Студент ____________________ Студент ____________________ Студент ____________________ Студент ____________________ Программист ____________________ Нормоконтролер ____________________ 3 (раздел: 3) Н.С. Ковалева (раздел: 3) В.С. Шевцова (раздел: 3) С.О. Сеина (раздел: 3) А.В. Керманов (раздел: 2, 3) А.И. Бутенко (раздел: 3) И.Н. Севостьянова (раздел: 2, 3) М.А. Шкурат (раздел: 3) О.В. Лянгасова (раздел: 4) Ю.В. Денисенко (раздел: 3) В.А. Веретенникова РЕФЕРАТ Отчет 92 с., введение, 4 главы, 69 источника, 9 табл., 35 рис. ГЕНОМНАЯ МЕДИЦИНА, ГЕНОМИКА, БИОИНФОРМАТИКА, ДНКЧИПЫ, ПОЛИМОРФИЗМ, ГЕНОДИАГНОСТИКА. Объектом исследования являются олигонуклеотидные последовательности, искусственно синтезированные для быстрого поиска разных мутантных аллелей. Цель работы – изготовление микроматриц нуклеиновых кислот высокой плотности, проведение приглашенным исследователем семинаров по геномной биоинформатике, проведение патентных исследований по теме НИР и разработка программы внедрения результатов НИР в образовательный процесс. Приглашенный исследователь С.Р. Малхосьян провел обучающие семинары «Достижения геномной биоинформатики» и «Геномные технологии – AP-PCR, DNA-array and FIAV». Изготовлены микроматрицы нуклеиновых кислот с большим числом олигонуклеотидов, микроделеций, повторяющихся последовательностей ассоциированных с сердечно-сосудистыми заболеваниями. Проведен патентный поиск по тематике НИР. Разработан план внедрения результатов НИР в учебный процесс. 4 СОДЕРЖАНИЕ Стр. ВВЕДЕНИЕ 8 1 Достижения геномной биоинформатики. Материалы научного семинара приглашенного исследователя 9 1.1 Международный проект HapMap 9 1.1.1 Цели и исторические предпосылки 10 1.1.2 Доноры и научные центры 11 1.1.3 Результаты проекта 12 1.1.4 Представление данных 13 1.1.4.1 Загрузка массива данных 14 1.1.4.2 HapMart 14 1.1.4.3 HapMap Genome Browser 14 1.1.5 Применение данных проекта к исследованию ассоциаций 31 1.1.5.1 Прямое и косвенное исследование ассоциаций 31 1.1.5.2 Использование НС в выборе tSNP 32 1.2 Статистическая генетика 34 1.2.1 Статистики для характеристики НС 34 1.2.1.1 Статистика D′ Левонтина 35 1.2.1.2 Коэффициент детерминации 35 1.2.1.3 Величина LOD 36 1.2.2 Анализ сцепления 36 1.2.2.1 Параметрический анализ сцепления (ПАС) 37 1.2.2.2 Непараметрический анализ сцепления (НПАС) 37 1.2.2.3 Анализ сцепления с помощью пакета программ MERLIN 39 1.2.3 Анализ сопряженности 49 1.2.3.1 Тесты на неравновесную передачу аллелей 50 1.2.3.2 Восстановление гаплотипа 51 1.2.3.3 Анализ сопряженности с помощью программы UNPHASED 52 5 2 Геномные технологии – AP-PCR, DNA-array and FIAV. Материалы научного семинара приглашенного исследователя 2.1 Технологии DNA-array 58 58 2.2 Мутационный анализ на ДНК чипе с применением технологий APPCR 2.3 Метод FIAV как инструмент для быстрого нахождения аллельных вариантов генов 62 65 3 Изготовление микроматриц нуклеиновых кислот высокой плотности с большим числом олигонуклеотидов, микроделеций, повторяющихся последовательностей ассоциированных с сердечно-сосудистыми 67 заболеваниями и разработка способа быстрой идентификации аллельных вариантов 3.1 Синтез олигонуклеотидов для изготовления микроматриц высокой плотности 3.2 Изготовление олигонуклеотидных микроматриц 3.2.1 Изготовление олигонуклеотидных микроматриц для исследования SNP 67 71 71 3.2.1.1 Выбор SNP 71 3.2.1.2 Подбор олигонуклеотидных праймеров 72 3.2.1.3 Изготовление микрочипа 72 3.2.1.3.1 Печать микрочипа 72 3.2.1.3.2 Обработка слайда после печати 73 3.2.1.4 Изготовление сетки для создания отдельных гибридизационных камер на слайде 74 3.2.1.5 Генотипирование 74 3.2.1.5.1 Мультиплексаная ПЦР и очистка 74 3.2.1.5.2 Циклическое минисеквенирование 75 3.2.1.5.3 Гибридизация 76 3.2.1.5.4 Промывка 76 6 3.2.1.5.5 Сканирование 77 3.2.2 Изготовление олигонуклеотидных микроматриц для исследования микроделеций 77 3.2.2.1 Отбор мутаций 77 3.2.2.2 Подбор олигонуклеотидных праймеров 77 3.2.2.2.1 Праймеры для реакции минисеквенирования 77 3.2.2.2.2 ПЦР праймеры 77 3.2.2.3 Изготовление микрочипа 78 3.2.2.3.1 Печать микрочипа 78 3.2.2.3.2 Обработка слайда после печати 78 3.2.2.4 Изготовление сетки для создания отдельных гибридизационных камер 3.2.2.5 Генотипирование 79 79 3.2.2.5.1 Мультиплексаная ПЦР и очистка амплифицированных продуктов 79 3.2.2.5.2 APEX- реакция 80 3.2.2.5.3 Промывка 80 3.2.2.5.4 Сканирование 81 3.3 Образец микроматрицы 81 4 Разработка программы внедрения результатов НИР в образовательный процесс Список используемой литературы 85 86 7 ВВЕДЕНИЕ Биологические микрочипы, как метод анализа генома, широко используют в самых разных областях молекулярной биологии, генетики, биомедицины, онкологии. Различные технологические платформы, используемые при создании биологических микроматриц, одной из наиболее известных является технология Affymetrix GeneChip (США) и технологии Illumina SNP Genotyping Технология (CША). гидрогелевых биочипов развивается в Институте молекулярной биологии им. В.А.Энгельгардта РАН с 1989 г. для разработки биочипов диагностической направленности. В настоящем исследовании разработаны биологические микроматрицы для быстрого поиска аллельных вариантов генов ассоциированных с сердечнососудистыми заболеваниями. Приглашенным исследователем проведен семинар и мастер класс по теме «Достижения геномной биоинформатики». На семинаре рассматривались проблемы геномной медицины и роли биоинформатики в этих исследованиях, а также международный проект HapMap, мастер –класс был посвящен анализ многопараметрических данных генома с помощью международных статистических программ. Второй научный семинар приглашенного исследователя был посвящен сравнительному анализу различных геномных технологий. Патентный поиск проведён по реферативной базе данных Роспатента «RUPAT» и «World Wide Database» European Patent Office, База информационных карт диссертаций (БД ИКД). Глубина поиска 10 лет. Регламент поиска выполнен полностью. Разработана программа внедрения результатов НИР в образовательный процесс и подготовлено к печати учебно-методическое пособие с модульно квалиметрическим обеспечением «Достижения геномной биоинформатики». 8 1 ДОСТИЖЕНИЯ ГЕНОМНОЙ БИОИНФОРМАТИКИ. МАТЕРИАЛЫ НАУЧНОГО СЕМИНАРА ПРИГЛАШЕННОГО ИССЛЕДОВАТЕЛЯ 1.1 Международный проект HapMap Биоинформатика возникла во второй половине 1970-х гг. Несмотря на то, что это очень молодая наука, она находит широкое применение в совершенно разных областях биологии: анализ генетических последовательностей, аннотация геномов, вычислительная эволюционная биология и т.д. Особенно важную роль биоинформатика играет в исследованиях влияния генов на различные фенотипы. Крупные лаборатории, специализирующиеся в генетике человека имеют в своем штате бионформатиков, к которым обращаются другие сотрудники. Перечень последних весьма широк: от получения инструкций по доступу в Интернет до оптимизации численных алгоритмов. В рамках научного семинар мы рассмотрим два аспекта биоинформатики: получение данных международного проекта HapMap и анализ данных с помощью статистических программ. Международный проект HapMap был начат в 2002 году (Holmans P., 2001). С тех пор его участники смогли получить огромный объем данных, касающихся вариаций последовательности ДНК человека. Эти данные могут играть очень важную роль при выявлении генов, отвечающих за заболевания, непереносимость лекарств и т.д. Кроме того, результаты проекта являются важнейшим ресурсом для исследований более широких аспектов популяционной генетики, таких как исследование структуры популяций (Strachan T., Read A.P., 1999), определение регионов, причастных к эволюционному воздействию в различных популяциях (Nickerson D.A. e.a., 1998), а также в молекулярной генетике, например, при идентификации элементов последовательности, ассоциированных с разным уровнем рекомбинации. В данном модуле представлена общая информация о 9 проекте, сведения о том, как получить интересующие исследователя данные. Также значительное внимание уделено тому, как результаты проекта можно применить к исследованию ассоциаций. 1.1.1 Цели и исторические предпосылки Главной целью последовательность проекта «Геном нуклеотидов, человека» которые было составляют определить ДНК и идентифицировать гены в человеческом геноме. Данные, опубликованные этим проектом, представляют собой комбинированный геном небольшого количества анонимный доноров, а никак не точные последовательности геномов каждого отдельного человека (т.к. геномные последовательности каждого человека уникальны). Поэтому полученная последовательность стала основой будущей работы для выявления разницы между индивидуумами. Такие исследования изменчивости ДНК выполняются в рамках международного проекта HapMap. Одна из задач проекта — разработка гаплотипной карты (HapMap). HapMap – это каталог генетических вариаций человека. Она описывает, что представляют собой эти вариации, в какой части ДНК человека находятся и как они распределены внутри различных популяций. Следует отметить, что установление взаимосвязей между генетическими вариациями и наличием болезней не является задачей проекта. В нее входит лишь предоставление соответствующей информации другим исследователям. Согласно оценкам, в геноме человека около 10 млн однонуклеотидных полиморфизмов (SNP), проверять влияние каждого из них на определенный фенотип (например, наличие болезни) крайне затратно. Создание HapMap предоставляет сведения об организации SNP и других генетических вариантов на хромосоме. В 2001г. были опубликованы наблюдения, объясняющие, почему был организован столь масштабный проект. Дело в том, что генетические вариации, расположенные недалеко друг от друга, наследуются вместе. Кроме того, разнообразие гаплотипов весьма ограничено в пределах тесно связанных между собой областей, простирающихся на десятки и даже сотни килобаз (кб). 10 Например, в конкретной популяции 55% людей могут иметь один вариант гаплотипа, 30% — другой вариант, 8% — третий, а остальные — ряд различных редко встречающихся гаплотипов. Проект HapMap определяет эти общие варианты гаплотипов в четырех популяциях с разных областей земного шара, а также определяет генетические маркеры, которые однозначно идентифицируют эти гаплотипы (так называемые тэговые SNP (tSNP)). Таким образом, для установления гаплотипного набора ДНК отдельного человека достаточно провести тесты лишь на tSNP. Количество tSNP оценивается в несколько сот тысяч, что гораздо меньше, чем 10 млн всех SNP. 1.1.2 Доноры и научные центры На первых двух стадиях проекта в исследовании приняло участие 270 добровольцев, относящихся к четырем популяциям: — китайцы хань из Пекина: 45 человек, не состоящих друг с другом в родственных отношениях. Краткое обозначение популяции — CHB. — японцы из Токио: 45 человек, не состоящих друг с другом в родственных отношениях. Краткое обозначение — JPT. — йоруба из Ибадана (Нигерия): 30 троек «родители — взрослый ребенок». Краткое обозначение — YRI. — жители штата Юта, предками которых были выходцы из Северной и Западной Европы: 30 троек «родители — взрослый ребенок». Краткое обозначение — CEU. На третьей стадии общее количество доноров увеличилось до 1115, а количество популяций до 11: — афроамериканцы с юго-запада США: 71 человек. Краткое обозначение — ASW. — китайцы из Денвера, штат Колорадо: 70 человек. Краткое обозначение — CHD. — индийцы Гуджарати из Хьюстона, штат Техас: 71 человек. Краткое обозначение — GIH. 11 — луйя из Уэбуйе, Кения: 83 человека. Краткое обозначение — LWK. — потомки мексиканцев из Лос-Анджелеса, Калифорния: 71 человек. Краткое обозначение — MEX. — маасаи из Кинява, Кения: 171 человек. Краткое обозначение — MKK. — тосканцы, Италия: 77 человек. Краткое обозначение — ASW. Количество доноров CHB увеличилось до 82, JPT — до 82, YRI — до 163, CEU — до 162. Дополнительную информацию о донорах можно получить на странице http://hapmap.ncbi.nlm.nih.gov/citinghapmap.html.en. В работе проекта приняли участие 10 научных центров в Монреале (1,5 хромосомы), Пекине, Шанхае, Гонконге (2,5 хромосомы на троих), Токио (7 хромосом), Кембридже, Великобритания (5 хромосом), Сан-Диего (4 хромосомы), Кембридже, США (1,5 хромосомы, а также Y-хромосома и митохондрии), Хьюстон (1 хромосома), Сан-Франциско (0,5 хромосомы). 1.1.3 Результаты проекта Целью первой стадии проекта была фиксация одного SNP на каждые 5 кб генома. При этом предпочтение отдавалось аллелям, частота которых составляла более 5%. Кроме того, дополнительной целью первой стадии проекта стало изучение десяти 500 кб-ных участков в рамках проекта ENCODE. Эти участки были просеквенированы для 48 человек (16 YRI, 16 CEU и по 8 CHB и JPT), и все обнаруженные SNP, известные и новые, были зафиксированы. Поставленная цель (1 SNP на 5 кб) была достигнута в марте 2005г., причем в регионах ENCODE плотность SNP составила 1 на 279 пар оснований. Общее количество SNP на этом этапе превысило миллион. Каждый из них является полиморфным в каждой из трех групп (YRI, CEU, JPT + CHB) и преодолел фильтр контроля качества. В течение второй стадии общее количество найденных SNP, которые прошли фильтр контроля качества, в каждой из групп составило более 3,8 млн. 12 Окончательная плотность SNP составила около 1 SNP на 1 кб. На последнем этапе большое внимание было уделено редким SNP с частотой аллеля менее 5%. В течение третьей стадии, было зафиксировано почти 1,5 млн SNP. Это меньше, чем в предыдущих стадиях, однако общее количество доноров выросло более, чем вчетверо. 1.1.4 Представление данных С самого начала проекта было принято решение публиковать данные настолько оперативно, насколько это возможно. Однако первоначально лицензионное соглашение запрещало публиковать информацию проекта на других сайтах и использовать в различных программах. С конца 2004 года это ограничение также снято. На сайте проекта (http://hapmap.ncbi.nlm.nih.gov) или на его японском зеркальном сайте (http://hapmap.jst.go.jp) можно найти огромное количество данных по результатам проекта, включая нуклеотидные последовательности, частоты аллелей и генотипов, данные о неравновесном сцеплении (НС) и др. Новые SNP, обнаруживаемые с помощью проекта, публикуются в базах данных dbSNP (http://www.ncbi.nlm.nih.gov/ SNP, отдельные генотипы, частоты аллелей и генотипов, графики НС) и JSNP (http://snp.ims.u-tokyo.ac.jp, частоты генотипов). Также данные, полученные проектом, встроены в Ensembl (http://www.ensembl.org, то же, что в dbSNP, а также идентификация (http://genome.ucsc.edu/, tSNP) частоты и UCSC Generic рекомбинации и Genome Browser «горячие точки», секвенированные последовательности и частоты аллелей в районах ENCODE). С 2005г. на сайте проекта имеется руководство пользователя (user’s guide), в котором содержится полная информация о всех возможностях, которые предоставляет сайт. Тремя основными возможностями является загрузка массива данных, HapMap Genome Browser и HapMart. 13 1.1.4.1 Загрузка массива данных Данные, как правило, представляют собой набор файлов. В каждом файле хранится информация об одной хромосоме одной популяции. Представленные данные делятся на 3 вида: безызбыточные, избыточные отфильтрованные, избыточные неотфильтрованные. В безызбыточных наборах данных исключены дубликатные генотипы из записи, не прошедшие фильтры контроля качества (КК). В избыточных отфильтрованных наборах данных дубликатные генотипы сохранены, однако удалены данные, не прошедшие фильтры КК. В избыточных неотфильтрованных наборах содержатся необработанные данные, причем данные, не прошедшие фильтры КК оставлены, но отмечены. 1.1.4.2 HapMart Это разработка компании BioMart, предоставляющая большой набор возможностей для поиска и выгрузки данных. Различные фильтры позволяют искать данные по таким параметрам, как популяция, минимальная частота аллеля, мономорфность полиморфизма, расположение гена, RefSeq-номер, участок хромосомы, имя гена и область ENCODE. Экспорт данных можно осуществить как в текстовом формате, так и в формате Excel. 1.1.4.3 HapMap Genome Browser Это программа, встроенная в сайт (http://hapmap.ncbi.nlm.nih.gov/cgiperl/gbrowse/hapmap3r2_B36/). Она позволяет найти и наглядно показать интересующий пользователя участок ДНК. Интересующий участок можно задать, указав: - позицию в хромосоме, плечо хромосомы или хромосому целиком; - rs-номер SNP; - RefSeq-номер последовательности; - название гена. Здесь же можно загрузить интересующие данные. Это происходит в том же формате, что и при выборе пункта «Bulk Data Download». Здесь же можно запустить локальную копию программы HaploView (рис.1). Последняя, в частности, может быть использована для отображения показателей D′, r2 и LOD 14 для различных сцепления. пар Также в маркеров, браузер характеризующие интегрирована неравновесность программа PHASE (http://stephenslab.uchicago.edu/software.html) для генерации гаплотипов и продукт Tagger (http://www.broadinstitute.org/mpg/tagger/server.html), предназначенный для выбора tSNP. 15 Рисунок 1 - HapMap Genome Browser с интегрированным в него инструментом LD Plots Haploview Интеграция в браузере такого большого числа инструментов позволяет решать многие задачи, необходимые для малых и средних проектов, оставаясь на одной странице. Получение генетических данных. Программа позволяет получить текстовый отчет о генотипах просматриваемой области. Для этого необходимо выбрать вариант «Показать SNP genotype data» в списке «Информация & Анализ», после чего нажать кнопку «Конфигурировать» и выбрать в открывшемся окне популяцию и формат вывода данных (текстовый, файл на диске и непосредственный просмотр в Haploview) (рис.2). Для получения данных о частоте аллелей и фенотипов нужно выбрать пункты «Показать SNP Allele Frequency Data» и «Показать SNP Genotype Frequency Data». Рисунок 2 - Окно настройки поиска в HapMap Genome Browser Получение данных НС. Для каждой пары маркеров, находящихся друг от друга в пределах 250 кб, данные о НС уже посчитаны в рамках проекта. Для характеристики НС используются 3 статистики: D′, r2 и LOD (подробнее о них см. в разделе 1.2.1). Для получения этих данных (в текстовом виде) необходимо выбрать в списке «Информация & Анализ» вариант «Показать HapMap LD Data», нажать кнопку «Конфигурировать», после чего в открывшейся форме конфигурирования выбрать популяцию, формат вывода и нажать кнопку «Применить» (рис.3). 16 Рисунок 3 - Окно конфигурирования опции HapMap LD Data Программа также позволяет получить диаграммы на основе любой из трех статистик: D′, r2 и LOD. При этом можно выводить несколько диаграмм одновременно, что позволяет их наглядно сравнить между собой. Есть возможность сравнить диаграммы одних и тех же полиморфизмов для разных популяций. Также можно отобрать лишь те полиморфизмы, которые удовлетворяют определенным условиям. Для каждой диаграммы также можно задать свой цвет и ориентацию (нормальную и инвертированную). Для вывода диаграммы необходимо выполнить следующую последовательность действий: 1) установить галочку «LD Plot» в нижней части формы аннотаций (рис.4); 2) в списке «Информация & Анализ» выбрать вариант «Вставить примечания LD Plot» и нажать кнопку «Конфигурировать», расположенную справа от списка (рис.2); 3) в открывшейся форме конфигурирования установить параметры диаграммы, такие как цвет диаграммы, ограничения на выводимые SNP, популяции и т.д. (рис.5). Рисунок 4 - Галочка «LD Plot» в окне анализа Плагин (подключаемая программа) «LD Plot» генерирует диаграмму на основании попарного сравнения маркеров. Найденным полиморфизмам на этой диаграмме 17 соответствуют отметки, а информация о взаимосвязи маркеров представлена в виде треугольников (для соседних маркеров) или прямоугольников (для несоседних маркеров) между этими маркерами (см. нижнюю часть рис.1). Рисунок 5 - Окно конфигурирования опции LD Plot Настройка цвета. Чем интенсивнее цвет, тем сильнее взаимосвязь между маркерами. Цветовая схема по умолчанию похожа на цветовую схему по умолчанию программы Haploview. Цветовая схема, разумеется, зависит от того, какая статистика используется — D′, r2 или LOD. Если выбран красный цвет (поле ввода «Color»), то цветовая схема следующая (табл.1-3). Таблица 1 - Цветовая схема для статистики D′ Низкая D′ Высокая D′ Низкий LOD Белый Оттенки розового Высокий LOD Белый Красный Таблица 2 - Цветовая схема для статистики r2 r2 = 0 Белый 0 < r2 < 1 Оттенки розового r2 = 1 Красный 18 Таблица 3 - Цветовая схема для статистики LOD D′ < 1 D′ = 1 LOD < 2 Белый Синий LOD >= 2 Оттенки розового Ярко-красный Настройка максимального размера сегмента. Если размер сегмента, превысит указанный в поле, диаграмма строиться не будет. Значение данного параметра по умолчанию равняется 250 кб. Настройка количества SNP. Если количество SNP на участке превысит указанное в поле, диаграмма строиться не будет. Данная настройка необходима, по крайней мере, по двум причинам. Во-первых, чем больше SNP обрабатывается, тем меньше участок диаграммы, ему соответствующий. А если количество SNP будет больше, чем размеры экрана (в точках), то вообще возникнет коллизия. Во-вторых, время построения диаграммы квадратично зависит от количества маркеров, и при указании слишком большого их количества, программа будет работать слишком долго. Кроме того, в этом случае резко снизится наглядность диаграммы. Значения данного параметра по умолчанию для 250-килобазного сегмента составляет 200. Настройка размеров прямоугольника. Предлагается два варианта: пропорциональный и однородный. Пропорциональный размер прямоугольника зависит от физического расстояния между маркерами. Чем ближе полиморфизмы друг к другу, тем меньше размер прямоугольника, и наоборот. Таким образом, при пропорциональном размере, выводимая область будет разбита на прямоугольники различного размера, которые соответствуют реальным расстояниям между маркерами. Диаграммы с пропорциональными размерами полностью заполнены прямоугольниками, причем размеры 19 последних тем больше, чем меньше плотность маркеров на данном участке (рис.6). При «однородном размере прямоугольников» размеры всех прямоугольников одинаковые, но их расположение зависит от физического расстояния между маркерами. Диаграммы с однородными размерами содержат большое количество пустот. Размер прямоугольников зависит от плотности маркеров и их распределения в пределах рассматриваемой области (рис.7). Рисунок 6 - Диаграмма с пропорциональным размером Рисунок 7 - Диаграмма с однородным размером 20 Настройка свойств НС. Вариант dprime соответствует D′, rsquare — r2, lod — LOD. С помощью списков выбора «greater than» и «and less than» можно установить пороговые значения выбранной статистики. Настройка популяций позволяет выбрать одну или несколько популяций, для которых будет строиться диаграмма. Используются стандартные аббревиатуры популяций. Ориентация. Доступны две ориентации: нормальная и инвертированная. В первом случае прямой угол располагается вверху, а гипотенуза — внизу. Во втором — наоборот, прямой угол — внизу, гипотенуза — вверху. Диаграмма, представленная на рис. 6, имеет нормальную ориентацию, а представленная ниже диаграмма — инвертированную (рис.8). Рисунок 8 - Диаграмма с инвертированной ориентацией Инвертирование может помочь более наглядно сравнить между собой данные двух популяций. Пример. Рассмотрим небольшой участок двенадцатой хромосомы, от основания 66 240 400 до основания 66 241 900 включительно — всего 1501 пара оснований. На этом участке имеется 3 маркера: основания 21 66 240 464, 66 241 736, 66 241 833. С помощью пункта «Показать HapMap LD Data» можно найти значения статистик D′, r2 и LOD для каждой из трех пар маркеров. Эти данные представлены в таблице 4. Таблица 4 - Значения D′, r2 и LOD для трех пар маркеров 66 240 464 66 241 736 66 241 833 D′ = 1 D′ = 0,397 r2 = 0,031 r2 = 0,014 LOD = 1,74 LOD = 0,5 D′ = 1 r2 = 0,34 66 241 736 LOD = 14,53 Если в окне конфигурирования опции LD Plot (рис.5) выбрать вариант dprime, для популяции CEU диаграмма будет иметь вид, представленный на рисунке 9 (сравните с данными табл.1). Рисунок 9 - Диаграмма для статистики D′ Если выбрать вариант «rsquare», выведется диаграмма, изображенная на рисунке 10 (сравните с данными табл.2). 22 Рисунок 10 - Диаграмма для статистики r2 Наконец, для варианта «lod», получим диаграмму, представленную на рисунке 11 (сравните с данными табл.3). Рисунок 11 - Диаграмма для статистики LOD Просмотр фазированных гаплотипов. Процесс фазирования заключается в том, что каждый аллель генотипа связывается с одной из родительских хромосом. При этом, если доступна информация о генотипе родителей, то используется метод максимального правдоподобия (Козлов М. В., Прохоров А.В., 1987). В противном случае, данные берутся из модели с минимальным количеством предполагаемых исторических 23 кроссоверов. Фазированные гаплотипы генерируются с помощью программы PHASE, версия 2.0 (Stephens M., Donnelly P., 2003). Фазированный гаплотип изображается в виде диаграммы, в которой каждая хромосома доноров проекта представлена в виде прямоугольника высотой в 1 точку (длина всех прямоугольников одинакова и обратно пропорциональна количеству выводимых маркеров). При этом каждый аллель произвольным образом изображен желтым или синим цветом. Регион с высоким уровнем НС будет представлен в виде области, содержащей продолжительные участки аллелей одного цвета. Последнее говорит о том, рекомбинации между этими аллелями крайне редки. Регионы с низким уровнем НС представлены в виде областей, где участки одного цвета короче, и более фрагментарны. Для получения диаграммы, изображающей фазированный гаплотип, необходимо выполнить следующую последовательность действий: 1) установить галочку «Phased Haplotype Display» в нижней части формы аннотаций (рис.12); 2) в списке «Информация & Анализ» (рис.2) выбрать вариант «Вставить примечания Phased Haplotype Display» и нажать кнопку «Конфигурировать», расположенную справа от списка; 3) в открывшейся форме конфигурирования (рис.13) выбрать популяции, для которых необходимо вывести информацию и нажать последовательно на кнопки «Конфигурировать» и «Отмена». Рисунок 12 - Галочка «Phased Haplotype Display» в окне анализа Для каждой выбранной популяции строится отдельная диаграмма. Порядок, в котором идут хромосомы, определяется методом быстрой иерархической кластеризации. Таким образом, хромосомы, имеющие схожие гаплотипы, группируются. 24 Преимущество Phased Haplotype Display перед описанным выше LD Plot заключается в его большей компактности. Поэтому первый более удобен в случае больших промежутков. Недостаток же заключается в том, что при его использовании можно проглядеть сильно взаимосвязанные полиморфизмы, не смежные друг с другом. Рисунок 13 - Окно конфигурирования опции Phased Haplotype Display Пример. Для рассмотренного выше участка с тремя SNP диаграмма Phased Haplotype Display имеет следующий вид. Рисунок 14 - Диаграмма Phased Haplotype Display Как видно из диаграммы, из трех пар полиморфизмов, сильнее всего коррелируют между собой второй и третий. При этом «синяя» 25 аллель второго чаще встречается вместе с «желтой» аллелью третьего и наоборот. Выбор tSNP. Набор tSNP — это группа полиморфизмов, которая охватывает бóльшую часть генетической вариации области. Его можно использовать при исследовании ассоциаций для уменьшения количества SNP, необходимых для выявления основанной на НС ассоциации между интересующим признаком и областью генома. Не существует единственного набора tSNP, который бы удовлетворял разнообразным требованиям всех проектов по исследованию ассоциаций. Например, для дорогих проектов необходимы более надежные ассоциации, чем для менее дорогих. Поэтому сайт HapMap вместо статического набора tSNP предлагает инструмент для интерактивного выбора tSNP, основанного на критериях, которые задает пользователь. Как отмечалось выше, этим инструментом является Tagger (Cudworth A.G., Woodrow J.C., 1975). Его алгоритм выбирает tSNP, максимизируя количество SNP, охваченных данным набором tSNP. Для получения необходимого набора tSNP в графическом виде необходимо выполнить следующую последовательность действий: 1) установить галочку «tag SNP Picker» в нижней части формы аннотаций; 2) в списке «Информация & Анализ» (рис.2) выбрать вариант «Вставить примечания tag SNP Picker» и нажать кнопку «Конфигурировать», расположенную справа от списка; 3) в открывшейся форме конфигурирования (рис.16) установить параметры алгоритма, после чего последовательно «Конфигурировать» и «Отмена». Рисунок 15 - Галочка «tag SNP Picker» в окне анализа 26 нажать кнопки Результаты будут показаны в отдельной диаграмме с названием tSNPs_<метод Tagger>_<популяция>, например, tSNPs_AggressiveTagger_ASW. Рисунок 16 - Окно конфигурирования опции tag SNP Picker Также результат анализа можно вывести в текстовом виде. Для этого необходимо выполнить следующую последовательность действий: 1) установить галочку «tag SNP Picker» в нижней части формы аннотаций (рис.12); 2) в списке «Информация & Анализ» (рис.2) выбрать вариант «Показать tag SNP Data» и нажать кнопку «Конфигурировать», расположенную справа от списка; 3) в открывшейся форме конфигурирования установить параметры алгоритма, после чего нажать кнопку «Применить» (рис.17). Рисунок 17 - Окно конфигурирования опции tag SNP Data 27 Выводимые данные состоят из трех таблиц. В первой таблице выводится информация о tSNP (rs-номер, хромосома, позиция и частота более редкого аллеля). Во второй таблице выводятся информация обо всех аллелях (rs-номер самого аллеля, rs-номер аллеля, с которым у него наилучшая корреляция и коэффициент корреляции). Третья таблица описывает то, какие tSNP охватили какие SNP. При этом если один из SNP описывается одинаково хорошо несколькими tSNP, последняя информация будет представлена отдельной строкой. Настройка популяций позволяет выбрать одну популяцию, для которой будет проводиться анализ. При этом для «tag SNP Data» (текстового вывода) доступны только 4 популяции, изученные на первом и втором этапе проекта, а для «tag SNP Picker» (графического вывода) — все 11. Популяция по умолчанию — CEU. Настройка метода. Доступно два варианта — попарный и мультимаркерный. В первом случае для описания каждого нетэгового SNP может использоваться лишь один отдельно взятый tSNP. В этом случае Tagger работает приблизительно так же, (http://droog.gs.washington.edu/IdSelect.html) как (Carlson программы C.S. e.a., IdSelect 2004) и CLUSTAG (http://hkumath.hku.hk/web/link/clustag/clustag.html) (Ao S.I. e.a., 2005). При использовании попарного метода программа вычисляет попарные коэффициенты детерминации и формирует так называемые корзины SNP, в каждой из которых коэффициент детерминации как минимум с одним SNP из этой корзины превышает определенное пользователем значение. Для каждой корзины программа выдает отдельно tSNP и остальные SNP. Мультимаркерный метод для каждого аллеля может использовать несколько «объясняющих» tSNP, что увеличивает эффективность работы. Метод по умолчанию — попарный. Настройка порога r2. Это минимально допустимое в рамках данного анализа значение коэффициента детерминации, при котором tSNP считается 28 охватившим нетэговый SNP. Если установить данное значение в 1, выберется безызбыточный набор tSNP, полностью описывающий все SNP. Однако в этом случае в числе tSNP могут оказаться практически все SNP. Порог по умолчанию — 0,8. Настройка порога MAF. MAF (minor allele frequency) — частота более редкого аллеля. Аллели с MAF ниже указанного исключаются из рассмотрения. Порог по умолчанию — 0,2. Настройка включения и исключения tSNP позволяет указать список SNP, которые обязательно должны быть включены/исключены в список tSNP. В обоих случаях список задается в файле, в каждой строке которого указывается rs-номер ровно одного SNP. Настройка формата вывода. Доступны две возможности: вывод на экран и в файл на диске. В первом случае информация будет выведена в то же окно браузера. Настройка по умолчанию — вывод на экран. Настройка максимального размера сегмента. Если размер сегмента, превысит указанный в поле, диаграмма строиться не будет. Значение данного параметра по умолчанию равняется 250 кб. Пример. Выберем tSNP для SNP, содержащихся в гене фенилаланин-гидроксилазы PAH (табл.5). В этом гене для популяции CEU в рамках проекта отмечено 50 SNP, причем все они имеют MAF > 0,1. При этом у популяций CHB и JPT в большинстве полиморфизмов превалирует один аллель: MAF > 0,1 для 24 из 49 SNP у CHB и для 21 из 49 SNP у JPT. Данные популяции YRI в данном случае занимает промежуточную позицию: MAF > 0,1 для 36 из 47 SNP. При настройках по умолчанию программа из 31 SNP с MAF > 0,2 выбрала 8 tSNP. Таблица 5 - Набор tSNP для гена PAH при настройках по умолчанию tag SNP Data tSNP Хр. Позиция MAF 29 Охваченные аллели rs1126758, rs1718306, rs1718307, rs1498694 12 101782006 0,420 rs1498694, rs937475, rs1722383, rs870072, rs1722399 rs10860933, rs2242381, rs10860934, rs12580432 12 101762147 0,270 rs2037639, rs1042503, rs3817446, rs12580432 rs940528, rs772896, rs1718305, rs2247836, rs2247836 12 101784738 0,403 rs1718301, rs2133298 rs2251905 12 101773294 0,336 rs1522296 12 101834917 0,341 rs1801153 12 101756896 0,221 rs1722390 rs1722390 12 101800031 0,418 rs10778209 rs10778209 12 101808102 0,232 rs1801153 rs2245360, rs1718303, rs1718312, rs2251905 rs1522307, rs1522296, rs11111419 Если выбрать мультимаркерный метод, оставив остальные параметры по умолчанию, то количество tSNP сократится до 7. Если выбрать порог r2 равным 1 при остальных настройках по умолчанию, количество tSNP составит 22. Если его уменьшить до 0,5, количество tSNP уменьшится до 5. Количество SNP с MAF > 0,3 равняется 22. При настройках по умолчанию вывод tag SNP Picker для гена PAH имеет следующий вид (рис.18). Рисунок 18 - Вывод tag SNP Picker для гена PAH при настройках по умолчанию 30 1.1.5 Применение данных проекта к исследованию ассоциаций 1.1.5.1 Прямое и косвенное исследование ассоциаций Среди ключевых условий, которые необходимы при генетическом изучении ассоциаций для определения участков генов, вносящих вклад в фенотипический признак можно выделить следующие: 1) наличие достаточно большого набора образцов ДНК, при помощи которого можно установить влияние компоненты ДНК на признак; 2) выявление образцов, относительно свободных от перекосов, таких, как наличие подгрупп в популяции, что может привести к ложным выводам; 3) наличие надежных и хорошо проверенных образцов, в которых можно проверить выявленные закономерности. В идеале, результат генетических исследований ассоциаций также должен быть демонстрирующими подкреплен роль функциональными изучаемого аллеля. Однако данными, даже при выполнении всех этих условий вероятность выявления ассоциации может в очень высокой степени зависеть от выбора маркеров. Есть два похода к выбору маркеров при изучении ассоциаций. Прямой подход осуществляется в предположении, что изучаемый вариант непосредственно влияет на структуру белка, уровень экспрессии и т.д. Косвенный подход базируется на гипотезе, что изучаемый вариант находится в НС с функциональным вариантом. Оба подхода имеют свои преимущества и недостатки. При прямом подходе концентрация на вариантах с непосредственным влиянием на функционирование обычно резко снижает накладные расходы. Однако вероятную функцию данного варианта далеко не всегда можно легко спрогнозировать. В настоящее 31 время, это особенно верно для генов, регулирующих экспрессию. В таком случае нет никакой гарантии включения всех потенциально релевантных полиморфизмов в исследование. При косвенном подходе не нужно предварительных гипотез относительно функций изучаемых вариантов: целью, наоборот, является исследование максимально возможного числа вариантов. Несмотря на то, что упомянутый процесс выбора полиморфизмов сохраняет накладные расходы в пределах допустимого, стоимость исследований, использующих косвенных подход, как правило, оказывается значительно выше стоимости исследований на основе прямого подхода. На практике, большинство исследований ассоциаций представляет собой комбинацию обоих подходов. Например, в исследованиях с преобладанием косвенного подхода при выборе маркеров больше внимания уделяется полиморфизмам с более четким потенциальным эффектом. С другой стороны, после получения результатов исследований, основанных на прямом подходе, необходимо выяснить, не является ли выявленная ассоциация следствием НС данного варианта с другим, которые ранее не считался релевантным. Несомненно, данные, полученные с помощью HapMap, являются мощным средством для исследования ассоциаций, основанного на прямом подходе. В ходе проекта исследованы все часто встречающиеся варианты, а также варианты, отмеченные в dbSNP как несинонимичные. Наконец, получены данные об огромном количестве новых SNP, которые могут быть использованы в исследованиях. Однако ясно, что еще большее значение результаты проекта имеют для исследований, основанных на косвенном подходе. 1.1.5.2 Использование НС в выборе tSNP Важнейшим фактором, влияющим на эффективность исследования ассоциаций при использовании косвенного подхода, является уровень корреляции между tSNP и остальными маркерами. Для его определения часто используется упомянутый выше коэффициент детерминации r2 (подробнее о нем см. в разделе 1.2.1), описывающий долю информации одной переменной, которую можно получить с помощью другой отдельно взятой переменной. 32 Аналогичный коэффициент определяется и в случае, когда переменная прогнозируется на основе информации группы других переменных, а не одной переменной. В разных источниках для последнего коэффициента используются обозначения R2 или также r2, как и для коэффициента детерминации на основе одной переменной. Оба коэффициента обладают следующим важным статистическим свойством. Если для данного фенотипа, частоты аллелей, вида наследования и уровня значимости для обнаружения эффекта при прямом подходе требуется N человек, то в случае косвенного подхода при тех же условиях требуется N/r2 человек. Первоначально выбор tSNP основывался на мультивариантных взаимосвязях и был направлен на определение tSNP, при помощи которых можно отличить друг от друга гаплотипы, наблюдаемые в области сильного НС. В процессе выбора маркеров оптимизировался критерий «процент характеризует объясненного долю гаплотипов, разнообразия» (ПОР), который охваченных отдельно взятым полиморфизмом. Данный критерий несомненно весьма адекватен в исследованиях, сфокусированных на гаплотипе как на «единице наследственности». Однако величина «ПОР» недостаточно точно характеризует способность набора tSNP прогнозировать частоты аллелей. Поэтому в последнее время многие исследователи предпочитают оценивать мощность tSNP с помощью методов, основанных на R2, а также рассматривать мощность исследования напрямую. Хотя методы, основанные на выборе маркеров, ориентированы на оптимизацию отдельных аллелей, их также используют при подсчете ассоциации региона в глобальных тестах. В последних, вместо анализа корреляции отдельных маркеров, сразу вычисляется ассоциация целого региона. Методы, основанные на R2, применяются для прогнозирования не только отдельных вариантов, но и для гаплотипов. При этом вычисляется корреляция между гаплотипами, полученными при оценке на основе, данных полученных от всех SNP, и полученных лишь от tSNP. 33 Использование величины R2 в качестве критерия выбора упрощает оценку вероятной силы исследования ассоциаций по сравнению с ПОР. Для выбора tSNP многие авторы предлагают использовать спектральное разбиение или схожий с ним метод главных компонент. Эта процедура основана на корреляционной матрице, а tSNP выбираются на основе их близости с собственными векторами, которые лучше всего описывают данные. Некоторые авторы даже используют понятие энтропии для определения tSNP, однако при этом существуют проблемы с оценкой эффективности полученных результатов. Существует ряд других подходов для выбора tSNP, причем их количество постоянно растет. На основе многих из этих подходов были созданы программы, длинный список которых можно найти в (Barnes M.R, 2007; Halldorsson B.V., 2004; Ke X., 2005). Существует три большие группы методов, и любой метод относится либо к одной из них, либо представляет собой их комбинацию. Это методы, основанные на попарных корреляциях, мультивариантных фазовых корреляциях и мультивариантных бесфазовых корреляциях. Мультивариантные подходы (как фазовые, так и бесфазовые) также можно разделить на глобальные и локальные. 1.2 Статистическая генетика Существует множество методов и программ, позволяющих выявить влияние генетических вариантов на интересующий признак, будь то риск заболевания, чувствительность к лекарствам или биологический параметр. В этом модуле будет сказано несколько слов об этих методах и программах и приведено два примера. 1.2.1 Статистики для характеристики НС Рассмотрим два локуса, каждый из которых может содержать два аллеля: первый локус — аллели A и a, второй локус — аллели B и b. Частоты этих 34 аллелей обозначим через pA, pa, pB и pb. Также введем числа pAB, pAb, paB и pab — частоты соответствующих гаплотипов. Если локусы и аллели являются независимыми друг от друга, то [6] справедливы формулы (Севастьянов Б.А., 1982): pAB = pApB, pAb = pApb, paB = papB, pab = papb. Интересно, что модуль разности наблюдаемой частоты (pAB, pAb, paB, pab) и частоты, ожидаемой в предположении независимости (соответственно, pApB, pApb, papB, papb), для каждой пары аллелей один и тот же и равняется |pABpab-pAbpaB|. Если данная величина равняется нулю, то сцепление является равновесным, в противном случае — неравновесным. Однако величина D = pABpab-pAbpaB как характеристика степени «неравновесности» сцепления обладает следующим недостатком. Если частота аллеля близка к 1 (соответственно, частота другого аллеля близка к нулю), то величина D будет близка к нулю независимо от того, является ли сцепление равновесным или нет. Максимальное значение величина D будет принимать, когда частоты всех аллелей близки к 0,5. Различными авторами предложены другие величины, свободные от этого недостатка. 1.2.1.1 Статистика D′ Левонтина Введем обозначение Dmax: Dmax = Левонтин предложил в качестве характеристики НС величину (Lewontin R., 1989): . Недостаток данной величины заключается в том, что в маленьких выборках она принимает неоправданно высокие значения. 1.2.1.2 Коэффициент детерминации 35 Величина называется коэффициентом корреляции, а ее квадрат коэффициентом детерминации (Hedrick P.W., Kumar S., 2001). 1.2.1.3 Величина LOD Величина LOD (сокращение от logarithm of odds) часто применятся для анализа сцепления. Она получается при помощи сравнения вероятности получения тестовых данных в предположении, что два локуса действительно связаны и вероятности получения тестовых данных в предположении независимости локусов. Если величина положительна, то сцепление более вероятно, если отрицательна — менее вероятна. Тест подробно описан в работе Штрахана Т. и Рида А.П. (Strachan T., Read A.P., 1999). Он состоит из следующих шагов: 1) получение данных о генотипе ряда родителей и их потомства; 2) оценка уровня рекомбинации методом максимального правдоподобия (Козлов М.В., Прохоров А.В., 1987); 3) вычисление величины LOD , где L( — вероятность получить наблюдаемые результаты при уровне рекомбинации a. LOD > 3 считается доказательством наличия сцепления, т.к. в этом случае вероятность обратного составляет менее 0,1%. Существует ряд других числовых характеристик НС: в частности, Δ = r, d, (Morton N.E., 2001; Hill W., Weir B., 1994; Kaplan N.L., 1997; Edwards A.W.F., 1963). 1.2.2 Анализ сцепления Анализ сцепления применяется на ранней стадии поиска генов, отвечающих за определенный признак. С помощью этого анализа определяется 36 начальный интервал (зачастую довольно протяженный) хромосомный интервал интереса. При этом для механизмом наследования выявления взаимосвязи между генетических маркеров и механизмом наследования болезней или других признаков используется семейная информация. Сцепление с болезнью означает, что маркерная аллель наследуется больными индивидуумами чаще, чем это можно бы объяснить случайными факторами. Анализ сцепления может быть параметрическим (для проверки того, соответствует ли механизм наследования определенной модели) и непараметрическим (независимым от модели наследования). Первый более эффективен при правильно определенной модели и наиболее информативен для больших генеалогий, пораженных множественными заболеваниями. 1.2.2.1 Параметрический анализ сцепления (ПАС) При параметрическом подходе степень сцепления измеряется величиной LOD (см. раздел 2.1). В 90-х годах был создан ряд программ, производящих данный анализ, среди которых VITESSE, FASTLINK, LINKAGE и GENEHUNTER. В начале 2000-х была разработана программа MERLIN, обладающая бόльшими возможностями по сравнению с перечисленными. Она более быстрая, требует меньше памяти и может обработать больший объем данных. 1.2.2.2 Непараметрический анализ сцепления (НПАС) Обзор этого метода можно найти в (Holmans P., 2001). Основная идея метода заключается в том, что родственники, имеющие схожие признаки, имеют одинаковые аллели маркеров, которые связаны с локусом, отвечающим за этот признак. Идентичность аллелей может быть двух видов: идентичность по положению (ИПП) и идентичностью по наследованию (ИПН) (Sham P.C., 1998). Два аллеля являются ИПП, если они имеют одинаковую последовательность ДНК. Они являются ИПН, если, кроме того, 37 унаследованы (и являются копиями) одного и того же предкового аллеля. Для анализа сцепления проводится тест, сравнивающий степень общности признака по сравнению со степенью общности, которая ожидается в предположении отсутствия сцепления. Обычно тестируемая статистика распределена по закону χ2, нормальному закону или по закону Фишера (Севастьянов Б.А., 1982), она часто преобразуется к виду, выражаемому в единицах LOD. НПАС часто производит проверку на ИПП или ИПН в группах пар детей одних и тех же родителей (т.е. братьев и/или сестер), в которых оба человека обладают интересующим признаком. При отсутствии сцепления вероятность иметь общие 0, 1 или 2 аллеля ИПН равняется 0,25, 0,5 и 0,25 соответственно. Наличие сцепления приводит к отклонению от этих пропорций, существенность которого может быть выявлена с помощью теста χ2 (Гмурман В. Е., 2003; Cudworth A.G.). Другой вариант — тест средних (Гмурман В. Е., 2003), в котором в качестве нулевой гипотезы берется утверждение о том, что доля общих аллелей равна 0,5. Этот тест имеется практически в любом статистическом пакете (включая SPSS и Statistica), однако существуют программы SAGE и SIBPAIR (Terwilliger J.D.), способные обрабатывать данные с более сложной структурой родства и в которых статус ИПН не может быть однозначно установлен. Для оценки степени ИПН дихотомических признаков (т.е. признаков, которые могут принимать два значения), измеренных для большего числа поколений, разработаны функции Sall и Spairs Уиттемора и Гальперна (Whittemore A.S., Halpern J., 1994). Для нормально распределенных количественных признаков (Гмурман В. Е., 2003; Севастьянов Б.А., 1982) (или признаков, сводимых к таковым) эффективным подходом для изучения генеалогий любого размера является метод анализ компонент дисперсии (Goldgar D.E., 1990; Amos C.I., 1994). Этот метод реализован в программе MERLIN (Abecasis G.R., 2002) (см. раздел 1.2.2.3) и особенно в SOLAR, в которой степень каждого эффекта может быть оценена и проверена с помощью LR-теста. Для особенно сложных задач 38 доступны методы Монте Карло для марковских цепей, как это реализовано, например, в программах LOKI (Heath S., 1997) и BLOCK (Jensen C.S. e.a., 1995). Однако эти методы неприменимы для слишком большого множества параметров ввиду недопустимо больших накладных расходов. 1.2.2.3 Анализ сцепления с помощью пакета программ MERLIN MERLIN (Multipoint Engine for Rapid Likelihood Inference) предназначен для различных видов анализа сцепления: параметрического, непараметрического и регрессионного. Также его применяют для ассоциативного анализа, анализа родства и ИПН, гаплотипирования, оценки ошибок и симуляций. Пакет разработан для анализа плотных генетических карт как биаллельных, так и мультиаллельных маркеров. При анализе он использует генеалогические деревья. Доступ к пакету свободный, загрузочный файл можно найти по адресу http://www.sph.umich.edu/csg/abecasis/Merlin/download/. Тот же сайт снабжен подробной справкой о программе: http://www.sph.umich.edu/csg/abecasis/Merlin/tour/. Загрузка данных. Загрузка данных производится из нескольких файлов, которые описывают родственные связи, маркерный генотип, статус заболеваний, значения количественных признаков и предоставляют информацию о расположении маркеров и частотах аллелей. Допускается два формата входных файлов: формат LINKAGE и формат QTDT. Форматы очень похожи между собой, поэтому остановимся подробно только на более новом из них — формате QTDT. Подробную информацию о формате LINKAGE можно найти по адресу http://linkage.rockefeller.edu/soft/linkage/. 39 Для формата QTDT необходимо три файла: файл генеалогии (.ped), файл данных (.dat) и файл карты (.map). Файл генеалогии. Файл представляет собой таблицу, каждая строка которой соответствуют отдельному человеку. Информация о родственных связях хранится в первых пяти столбцах. В этих столбцах хранятся идентификатор семьи, индивидуальный идентификатор, идентификаторы отца и матери (если информация о них доступна) и пол. Например, если рассмотреть семью, состоящую из дедушки, бабушки (родители матери), папы, мамы, сестры и брата, то соответствующие строки файла генеалогии примут вид: 1 1 0 0 1 1 2 0 0 2 1 3 0 0 1 1 4 1 2 2 1 5 3 4 2 1 6 3 4 1 Столбцы файла генеалогии, начиная с шестого, описывают фенотип (качественные и количественные Качественный признак (наличие признаки) или и отсутствие маркерный болезни) генотип. кодируется следующим образом: U или A для здоровых (относительно данной болезни), A или 2 для больных, X или 0 для лиц, данные которых неизвестны. Количественные признаки записываются в виде чисел, причем X используется для обозначения неизвестных данных. Маркерные генотипы представляются в виде двух последовательных целых чисел, по одному для каждого аллеля. Допускается использование символа / в качестве разделителя. Также, начиная с версии 1.1, для обозначения маркерных генотипов можно использовать буквы A, C, T и G. Для обозначения неизвестных данных можно использовать любой из трех символов 0, X, N. Если маркер расположен на X-хромосоме, то для мужчин нужно ввести дважды одно и то же значение. Например, если к описанным выше столбцам добавить данные по качественному признаку, 40 количественному признаку и генотипам по двум маркерам, то таблица файла может принять вид: 1 1 0 0 1 1 x 3 3 0 0 1 2 0 0 2 1 x 4 4 0 0 1 3 0 0 1 1 x 1 2 0 0 1 4 1 2 2 2 x 4 3 0 0 1 5 3 4 2 1 2.54 1 3 1 2 1 6 3 4 1 2 4.445 2 4 2 2 Такое заполнение означает, что брат и сестра являются больными, а остальные родственники здоровыми. Количественное значение для сестры равняется 2,54, для брата — 4,445. Генотипные данные по первому маркеру известны для каждого представителя семьи, а по второму маркеру — только для младшего поколения. Файл данных представляет собой описание файла генеалогии. Каждая строка файла данных соответствует одному элементу файла генеалогии, определяя тем самым тип данных и предоставляя метку для каждого элемента. Типы данных обозначаются следующим образом: M — маркер, A — признак наличия заболевания, T — количественный признак, C — ковариата. Метка каждого элемента должна состоять из одного слова. Для представленного выше файла генеалогии, необходим файл данных следующего вида A некая_болезнь T некий_признак M маркер M другой_маркер Для каждой пары файла генеалогии и файла данных можно получить описание итогов, воспользовавшись программой pedstats, входящей в пакет MERLIN. Программу необходимо запустить в командной строке, предварительно перейдя в папку с этой программой. Формат запуска pedstats имеет следующий вид: 41 pedstats –d <имя файла данных> -p <имя файла генеалогии> Например, если в основную папку пакета из папки examples скопировать файлы asp.dat и asp.ped, то команда запуска pedstats для этих файлов будет иметь вид: pedstats –d asp.dat -p asp.ped Результат выполнения программы показан на рисунке 19. В последних версиях программ Merlin и Pedstats появилась возможность комбинирования нескольких файлов генеалогий и данных. Эта возможность весьма удобна при анализе нескольких различных подмножеств фенотипов, а также когда данные о генотипе разделены по хромосомам или регионам. Например, если данные о фенотипе хранятся в файлах pheno.dat и phenol.ped, а данные о генотипе — в файлах geno.dat и geno.ped, команда для их комбинации будет иметь вид: pedstats -d pheno.dat,geno.dat -p pheno.ped,geno.ped 42 Рисунок 19 - Пример вывода программы pedstat Файл карты предоставляет информацию о расположении маркеров на хромосомах, необходимую для анализа. Каждой строке файла соответствует по одному маркеру. При этом если используется карта данных, усредненных по полу, то файл содержит три столбца, 43 отвечающих хромосоме, имени маркера и позиции в сантиморганах. Если используется карта с различием позиций по полу, необходимо два дополнительных столбца, определяющих позицию маркера на женской и мужской генетической карте. Файл данных и файл карты могут содержать различные наборы маркеров, однако MERLIN проигнорирует маркеры, которых нет в файле данных. Файл карты с усредненными данными по полу может, например, иметь вид: 24 some_marker 123.4 24 another_marker 136.2 Если добавить данные о позиции маркера на женской и мужской генетической карте, то содержимое файла может принять вид: 24 some_marker 123.4 146.8 100.0 24 another_marker 136.2 166.4 103.0 Разделение файла данных и файла карты упрощает структуру файлов и позволяет пакету за один запуск проанализировать данные ряда хромосом. НПАС количественного признака. Напомним, что анализ сцепления проверяет взаимосвязь региона хромосомы и интересующего исследователя признака. В этом примере используется набор данных, содержащийся в упомянутых выше файлах asp.dat, asp.ped, asp.map. Файлы содержат данные о генотипе 20 маркеров условной 24-й хромосомы, отстоящих друг от друга на расстоянии около 5 сантиморганов. Файл генеалогии содержит данные о 200 семьях, в каждой из которых поражены болезнью два брата. Для каждого из этих 400 людей представлен генотип 20 маркеров, а также значение некоего количественного признака, меняющееся для данных индивидуумов от -3,778 до 2,988 (рис.19). Для проведения анализа необходимо запустить программу merlin в командной строке, задав ряд параметров. Для НПАС обязательными параметрами являются имя файла данных (-d <имя файла данных>), имя файла генеалогии (-p <имя файла генеалогии>), имя файла карты (-m <имя файла 44 карты>), а также параметр --npl, задающий сам вид анализа НПАС. Таким образом, если выполнить следующую команду merlin –d asp.dat -p asp.ped –m asp.map --npl, программа проведет НПАС данных, представленных в файлах asp.dat, asp.ped, asp.map. Первая часть вывода программы предоставляет информацию о выбранных опциях (рис. 20). Рисунок 20 - Первая часть вывода программы merlin Далее следует запись, представленная на рисунке 21. Рисунок 21 - Запись о подсчете частот аллелей в выводе программы merlin Она, в частности говорит о том, что оценка частот аллелей в данном случае производится среди всех индивидуумов (это значение по умолчанию). Альтернативными вариантами являются подсчет аллелей 45 только среди основателей рода (опция -ff), установка равных частот аллелей (fe) или использование файла частот аллелей с расширением freq. Последние фигурируют в формате входных данных QTDT. Описание формата файлов частот аллелей можно найти по адресу http://www.sph.umich.edu/csg/abecasis/merlin/tour/input_files.html#freqfile. Последняя часть вывода состоит из самих результатов анализа (рис.22). Рисунок 22 - Результаты анализа программы merlin Первые две строки представляют собой минимально и максимально возможные значения для этого набора данных. После этого следуют результаты анализа для каждого маркера: позиция в сантиморганах, статистика Z, уровень значимости P, а также статистики Конг и Кокс — delta, LOD и P. Пик сцепления приходится на 11-й маркер (позиция 52,68), величина Z = 3,43 (уровень значимости 0,0003), соответствующее значение LOD Конг и Кокс равняется 3,05 (уровень значимости 0,00009). Для графического представления результатов анализа можно воспользоваться опцией --pdf, которая сохраняет в файл формата pdf график зависимости величины LOD от позиции маркера. Так, если в нашем примере выполнить команду: 46 merlin –d asp.dat -p asp.ped –m asp.map –npl --pdf, то, кроме описанного выше примера, программа создаст файл merlin.pdf, в котором сохранится график, представленный на рисунке 23. Рисунок 23 - График зависимости величины LOD от позиции маркера в рассматриваемом примере Опция --tabulate создает текстовый файл, в котором сохраняет итоги анализа. Опция отметим --markerNames, которая позволяет выводить наименования маркеров вместо их позиций. Таким образом, при выполнении команды: merlin –d asp.dat -p asp.ped –m asp.map –npl –markerNames результаты анализа примут вид, представленный на рисунке 24. 47 Также можно провести анализ позиций между маркерами: команда --steps n позволит провести анализ, разбив каждый интервал на n шагов. При выполнении команды merlin –d asp.dat -p asp.ped –m asp.map –npl --steps 3 Начало вывода программы примет вид как на рисунке 25. Рисунок 24 - Результаты анализа программы merlin при использовании опции –markerNames Рисунок 25 - Начало вывода результатов анализа программы merlin при использовании опции --steps 3 Опция --grid n позволит провести анализ, общий интервал на отрезки длиной n сантиморганов. При выполнении команды merlin –d asp.dat -p asp.ped –m asp.map –npl --grid 5 вывод программы примет вид как на рисунке 26. 48 Несмотря на то, что результаты анализа позволяют быстро выявить пик корреляции, они не могут четко указать интересующий нас участок. Поэтому обычно в окрестности пика строится так называемый интервал поддержки. В него, например, можно включить все точки, для которых значение LOD находится в пределах одной единицы от максимального. Более консервативный подход заключается во включении в интервал поддержки всех точек, имеющих значение LOD в пределах 1,5 – 2 единиц от максимального. Рисунок 26 - Результаты анализа программы merlin при использовании опции –grid 5 Опция --information выводит данные об аллелях ИПН. Данные об аллелях ИПН для нашего примера представлены на рисунке 27. 49 Рисунок 27 - Данные об аллелях ИПН Также стоит упомянуть об опции --ibd, которая генерирует и сохраняет в отдельном файле merlin.ibd вероятности ИПН в формате, который может быть использован в качестве входных данных других программ, например QTDT (Abecasis G.R., 2007). Программа SimWalk2 способна генерировать вероятности для более сложных генеалогических структур, обработка которых недоступна MERLIN, однако для маленьких и средних генеалогий MERLIN работает быстрее (Sham P.C., 1998). 1.2.3 Анализ сопряженности Анализ сопряженности — это тест различий в частоте аллелей между больными и контрольными пациентами. Указанное различие не всегда влечет за собой наличие заболевания, т.к. на частоту аллелей может повлиять ряд других факторов, например, история популяции и ее этнический состав. Также 50 нередки случаи, когда различие в частоте аллелей наблюдается вследствие того, что маркер расположен недалеко от гена, вызывающего болезнь. Данный тест часто проводят при помощи статистических программных пакетов общего назначения, не имеющих генетической специфики, например, SPSS или Statistica. Например, можно воспользоваться тестом χ2. Для этого составляют факторную таблицу, в которой строки соответствуют статусу (больной или контрольный пациент), столбцы — генотипам или аллелям, а в ячейках указываются частоты этих генотипов или аллелей для каждой из групп. После этого вычисляется величина , где Obs и Exp — наблюдаемые и ожидаемые (в предположении независимости) частоты соответственно. Сумма берется по всей ячейкам таблицы. Важным параметром распределения χ2 является количество степеней свободы, в данном случае равное (r – 1)(c – 1), где r — количество строк, c — количество столбцов таблицы. Вместо теста χ2 можно применить логистическую регрессию (синоним — дискриминантный анализ) (Кендалл М., 1976), взяв статус болезни за зависимую переменную, а аллели или генотипы — за независимые. 1.2.3.1 Тесты на неравновесную передачу аллелей Этнические различия между больными и контрольными пациентами могут привести к ложно-положительным выводам о сопряженности, особенно если анализ проводить для отдельно взятых людей без учета данных о генотипе или аллелях их родителей. Поэтому тесты, принимающие во внимание последнее обстоятельство, пользуются всё большей популярностью. В частности, тест TDT (transmission/disequilibrium test) известен как тест на сцепление при наличии сопряженности, который не приводит к ложно-положительным выводам при наличии стратификации популяции (Spielman R.S. e.a., 51 1993). TDT состоит в подсчете аллелей, переданных от гетерозиготных родителей одному или нескольким больным детям в нуклеарных семьях. Аллели, не переданные больным детям, можно рассматривать как контрольные в противоположность «больным» аллелям, наблюдаемым у больных детей. Проверка на неравновесность проводится с помощью теста Мак-Немара (Дубина И.Н., 2006), в качестве нулевой гипотезы берется предположение об отсутствии сцепления. TDT можно применять и для анализа сопряженности, но только в случаях, когда аллели гетерозиготных родителей передаются передаются только одному ребенку в каждой семье. Предполагая, что локус является биаллельным, обозначим через b количество передач аллелей детям от гетерозиготных родителей, в которых аллель 1 передается больному ребенку, а аллель 2 не передается. Соответственно, через c обозначим количество передач противоположного вида, когда аллель 2 наследуется больным ребенком, в то время как аллель 1 не передается. Для проведения теста вычисляется величина , распределенная по закону χ2 с одной степенью свободы. Существует ряд модификаций теста TDT (Barnes M.R., 2007). В частности, упомянутая в разделе 2.2.3 программа QTDT основана на модификации TDT для количественных признаков. 1.2.3.2 Восстановление гаплотипа При косвенном исследовании ассоциаций, а также в случае, когда на один и тот же признак влияют смежные локусы, важную роль играет возможность применения теста на сопряженность не к отдельным локусам, а ко всему гаплотипу (Clark A.G. e.a., 1998; Nickerson D.A. e.a., 1998). Гаплотипы могут быть разделены при помощи генотипов родителей или других родственников, а также лабораторными методами, однако чаще всего для этого применяют алгоритм ожидания-максимизации. Последний оценивает наиболее вероятные 52 значения параметров при наличии неполных данных. В случае оценки частот гаплотипов его схема имеет следующий вид: 1) определяется начальное множество правдоподобных частот гаплотипов. Например, произведение относительных частот соответствующих аллелей; 2) с помощью уравнения Харди-Вайнберга производится оценка ожидаемых частот упорядоченных генотипов; 3) полученные на предыдущем шаге частоты принимаются в качестве весов, на основе которых производится уточненная оценка гаплотипных частот; 4) шаги 2 и 3 повторяются до тех пор, пока гаплотипные частоты не достигнут равновесия. Как и в случае других итерационных методов, имеет смысл сравнить результаты, полученные при различных начальных данных, т.к. последовательность можно сойтись к точке локального, а не глобального, оптимума. 1.2.3.3 Анализ сопряженности с помощью программы UNPHASED UNPHASED вобрал в себя преимущества многих написанных ранее программ (Dudbridge F., 2008). С его помощью можно проводить как анализ по отдельным маркерам, так и анализ сопряженности целого гаплотипа; причем как количественных, так и бинарных признаков. В последней версии v3.1.4 программы есть возможность проверки сопряженности для данных о неродственных индивидуумах и нуклеарных семьях. При этом сохраняется поддержка программ PDTPHASE и QPDTPHASE, имеющихся в пакете UNPHASED версии v2.4 и отсутствующих в последней версии. PDTPHASE и QPDTPHASE можно использовать для анализа данных о расширенных (не нуклеарных) семьях. UNPHASED способен проводить анализ как биаллельных, так и мультиаллельных маркеров и предлагает большой выбор опций, 53 обеспечивающих значительную гибкость при анализе данных. Например, при проведении гаплотипного анализа, пользователь может выбрать анализ всех групп последовательных маркеров заданной длины, так и вручную задать множество маркеров, для которых нужно провести тест. Среди других опций — возможность исключения из рассмотрения или объедения редких гаплотипов, вычисление величин D′ и r2, а также возможность выбора данных лишь одного больного ребенка из каждой семьи. Программа может быть запущена как под Windows, так и под UNIX и LINUX. В загрузочный комплект входят подробные инструкции (Dudbridge F., 2008), электронная версия статьи и исходный текст программы на языке C++ (de Bakker P.I., 2005). Загрузка данных. Входные данные программы считываются из файла генеалогии. Во второй версии UNPHASED последний должен имеет формат LINKAGE, однако в третьей версии допускает формат QTDT (см. раздел 2.2.3). При этом идентификатор семьи (первый столбец) может иметь буквенночисловой формат, остальные столбцы должны иметь числовой формат. Файл данных (см. раздел 2.2.3) использовать можно, но не обязательно. Иллюстративный пример. Воспользуемся программой UNPHASED для исследования сопряженности количественного признака из файла asp.ped, включенного в поставку MERLIN (см. раздел 2.2.3). Проверим по отдельности влияние первого и четвертого маркера на количественный признак. Оставим в рассмотрении данные лишь одного больного ребенка из каждой семьи, т.е. лишь каждую четвертую строку файла. Выполним следующую команду: unphased -pedfile asp.ped -datafile asp.dat -trait trait -marker mrk1 mrk4. Опция -pedfile позволяет задать файл генеалогии, -datafile — файл данных. Параметр -trait задает количественный признак для анализа. Если он не указан, то берутся данные шестого столбца файла генеалогии. В нашем случае данные о количественном признаке находятся в последнем сорок седьмом столбце, поэтому количественный признак необходимо указать явно. Также мы явно задаем анализируемые маркеры, т.к. по умолчанию анализ будет проведен для всех маркеров. 54 Первую часть составляет перечисление параметров анализа. Вторую часть составляют результаты анализа (рис.28). Для каждого маркера вначале выведены частоты каждого аллеля, которые посчитаны на основе данных файла генеалогии. Вывод самих результатов анализа состоит из логарифма вероятности нулевой и альтернативной гипотезы, значения величины χ2 для тестируемых данных, количества степеней свободы, уровня значимости и доверительного интервала для каждого аллеля (Кендалл М., Стьюарт А., 1976). Если уровень значимости менее 0,05, то налицо сопряженность количественного признака с данным маркером. Если же уровень значимости более 0,05, то для подобного вывода оснований нет. 55 Рисунок 28 - Вывод программы UNPHASED для анализа сопряженности количественного признака с первым и четвертым маркером по отдельности Если сделан вывод о сопряженности признака с маркером, то разумно поставить вопрос, какие аллели соответствуют высоким значениям признака, а какие — низким. Для ответа на этот вопрос необходимо задать относительную аллель, с которой будут сравниваться остальные. По умолчанию берется первая аллель (чтобы задать другую аллель можно воспользоваться опцией –reference). Если доверительный интервал (95%Lo, 95%Hi) некоторого аллеля содержит 0 (т.е. его концы имеют разные знаки), то делается вывод о том, что различие значений количественного признака для этого и первого аллеля несущественно. В противном случае различие значений количественного признака для аллелей существенно. В нашем случае, мы делаем вывод об отсутствии сцепления количественного признака с первым маркером (уровень значимости — 0,95) и о наличии сцепления количественного признака с четвертым маркером (уровень значимости — 0,0004). Доверительный интервал второго аллеля (равно как третьего и четвертого) четвертого маркера не содержит нуля. Это говорит о существенности разницы количественного признака между носителями первого и второго (а также первого и третьего, первого и четвертого) аллеля. Выполнив команду unphased -pedfile asp.ped -datafile asp.dat -trait trait -marker mrk4 -reference 2, сравним значения признака для второго и остальных аллелей (рис.29). Как и следовало ожидать доверительный интервал первого аллеля не включает 0, что 56 еще подтверждает существенность разницы количественного признака между носителями первого и второго аллеля. Зато два других доверительных интервала включают 0, поэтому разница между значениями признака для второго и третьего (а также второго и четвертого) аллеля несущественна. Рисунок 29 - Вывод программы UNPHASED для анализа сопряженности количественного признака с аллелями четвертого маркера при втором аллеле в качестве относительного Также можно провести анализ сцепления для гаплотипа, образованного несколькими маркерами. Для этого служит опция -window, параметром которой является количество подряд идущих маркеров, которые будут проанализированы вместе. Например, если в анализ включено 20 маркеров и задана опция -window 4, то будет проведен отдельный анализ для каждой из 17 четверок маркеров (1 2 3 4, 2 3 4 5, …, 17 18 19 20). В нашем примере зададим совместный анализ первого и четвертого маркера: unphased -pedfile asp.ped -datafile asp.dat -trait trait -marker mrk1 mrk4 –window 2. Вывод результатов анализа представлен на рисунке 30. Как видим, имеет место сопряженность признака с гаплотитом. При этом разница значения количественного признака для гаплотипов несущественна, для гаплотипов 1-1 и 1-4 существенна. 57 1-1 и 1-2 Рисунок 30 - Вывод программы UNPHASED для анализа сопряженности количественного признака с первым и четвертым маркером совместно Также есть возможность сравнения двух гаплотипов между собой при помощи опции -compare … -with … Например, -compare 1 2 -with 1 3. 58 2 ГЕНОМНЫЕ ТЕХНОЛОГИИ – AP-PCR, DNA-ARRAY AND FIAV. МАТЕРИАЛЫ НАУЧНОГО СЕМИНАРА ПРИГЛАШЕННОГО ИССЛЕДОВАТЕЛЯ 2.1 Технологии DNA-array Синтез ДНК-чипов непосредственно нуклеотидов к на (DNA-array) поверхности - чипа это синтез путем олигонуклеотидов поэтапного добавления растущему концу цепи. Это направление интенсивно развивается в последние годы в мире Технология синтеза ДНК на стекле может использоваться не только для синтеза иммобилизованных нуклеотидов, но и для синтеза праймеров исключительно высокой чистоты, поскольку все они в процессе синтеза остаются иммобилизованными на мембране. Технологии DNA array все шире используются для генотипирования SNP. На сегодняшний день для генотипирования SNP , применяется большое разнообразие геномных технологий включая SBE (single base extension) (Syvanen A.C. e.a., 1990; Chen X. e.a., 1999), 5’-экзонуклеазные технологии «TagMan» (Livak K.J. e.a., 1995), лигазную детекцию (Tobe V.O. e.a., 1996), различные типы гибридизации (Wang D.G. e.a., 1998; Howell W.M. e.a., 1999), расщепление FLAP-эндонуклеазами (Mein C.A. e.a., 2000). Эти методы успешно используются для генотипирования Масштабные исследования микроматриц и SNP, флуоресцентного незначительных развитие количеств технологий сканирования привели SNP. изготовления к разработке эффективных методов геномных технологий – DNA array параллельного генотипирования нескольких тысяч SNP (Pastinen T. e.a., 2000). Один из наиболее часто применяемых сегодня принципов в мультиплексных системах генотипирования - минисеквенирование, в котором ДНК полимераза элонгирует детектируемый праймер, присоединяя единственный нуклеотид непосредственно на сайт SNP (Milani L., Syvänen A. 59 C., 2009). Специфика реакции одно-нуклеотидной элонгации дает возможность количественного определения SNP в геномной ДНК для анализа повторяющихся последовательностей (Peiffer D.A. e.a., 2006), генотипирования пула образцов ДНК (Lindroos K. e.a., 2002), в РНК - для аллель-спецефичного экспрессионного анализа (Liljedahl U. e.a., 2004; Milani L. e.a., 2007) или количественной оценки альтернативного сплайсинга (Milani L. e.a., 2006). Этот подход расширяет возможность выявления в геноме потери гетерозиготности и повторяющихся последовательностей (Peiffer D. A. e.a., 2006). Такой подход применяется в технологиях SBE с применением tag-array гибридизации и аллель-специфичном удлинении праймеров (Syvanen A.C. e.a., 1990; Syvanen A.C., 1999; Fan J.B. e.a., 2000; Hirschhorn J.N. e.a., 2000). Для аллель-специфического удлинения праймеров два аминомодифицированных детектируемых праймера, каждый содержащий один из вариантов нуклеотидов SNP на 3’-конце наносится и ковалентно связывается с химически-активированной поверхностью слайда посредством аминогруппы на 5’-конце. Фланкирующий SNP участок ДНК амплифицируется с SNPспецифичными праймерами, в присутствие T7 или T3 РНК-полимеразы, распознающей последовательность с 5' конца. Одновременно в одной мультиплексной ПЦР реакции может быть амплифицировано несколько SNP. ПЦР продукты затем транскрибируются в РНК, которая гибридизуется на чипе, содержащем два детектируемых праймера для каждого SNP. На иммобилизованном детектируемом праймере происходит отжиг на сайте SNP. Ферменты обратной транскрипции и флуоресцентно меченые нуклеотиды делают возможным визуализацию реакции специфического различных аллелей детектируемых праймеров. удлинения Генотип определяется сравнением интенсивности сигнала двух детектируемых праймеров SNP представленных на чипе (Syvanen A.C. e.a., 1990; Pastinen T. e.a., 1997; Pasanen T. e.a., 2003; Saarela J., 2006). Принцип использоапния «tagged» полимеразной цепной реакции впервые описан для анализа экспрессии генов у дрожжей (Shoemaker D.D. e.a., 1996) и 60 позже применен для генотипирования SNP (Cai H. e.a., 2000). В системе Tagarray минисеквенирования иммобилизованные на используются чипе. “cTags”-олигонуклеотиды, Мультиплексная минисеквенирования протекает в растворе с реакция циклического праймерами с 5'-Tag последовательностями и флуоресцентно-мечеными дидезоксинуклеотидами (ddNTPs) необходимыми для отжига непосредственно на SNP-сайте. Праймер несёт 5' последовательность комплементарную одному из cTag-ов, иммобилизованном на чипе посредством 3'-аминогруппы. После элонгации праймера минисеквенированием, SNP разделяются путем гибридизации с соответственным cTag-ом с определенной локализацией на чипе. Включение флуоресцентно меченых ddNTPs, терменирующих элонгацию, позволяет охарактеризовать каждый SNP по измерению интенсивности флуоресцентного сигнала, после сканирования чипа (Hirschhorn J.N. e.a., 2000; Lindroos K. e.a., 2002; Milani L., Syvänen A.C., 2009) (рис.31, 32). A Преципитация этанолом B ← Мультиплексная ПЦР → ↓ Гибридизация ПЦР продуктов с иммобилизованными детектируемыми праймерами ↓ Обработка Экзонуклеазой I и щелочной фосфатазой ↓ ← Приготовление микрочипа: нанесение специфических праймеров Нанесение cTag праймеров Реакция минисеквенирования в растворе с tag-мечеными праймерами → ↓ Реакция минисеквенирования на микрочипе Гибридизация tagпраймеров на микрочипе ↓ ↓ Детекция сигнала Детекция сигнала Рисунок 31 - Схема генотипирования с использованием специфичных праймеров на микрочипе (А) и использованием технологии «Tag-arrays» (В). (Lindroos K. e.a., 2003) 61 Рисунок 32 - Принцип “Tag-array” минисеквенирования в формате 384- луночного (А) и 96-луночного (B) “array of arrays”. Каждый из “subarrays” на слайде содержит до 200 (А) или 600 (В) cTag-ов. Мультиплексная реакция циклического минисеквенирования протекает в растворе с праймерами с 5'-Tag последовательностями и флуоресцентно-мечеными дидезоксинуклеотидами (ddNTPs) для отжига на SNP-сайте (С). Tag-последовательность праймера гибридизуется с комплементарной cTag-последовательностью, иммобилизованной на слайде (D). Генотипы определяются измерением флуоресценции встроившихся нуклеотидов. Показана часть одного subarray с результатом для двух SNP. Образец гомозиготен (А/А) для SNP 1 и гетерозиготен (C/T) для SNP 2.(Milani L., Syvänen A. C., 2009) Создание отдельных реакционных камер для минисеквенирования каждого образца достигается применением силиконовой резиновой сетки (Lindroos K. e.a., 2003; Lovmar L. e.a., 2003; Chen D. e.a., 2007; Milani L., Syvänen A.C., 2009). Количество детектируемых SNP и исследуемых образцов зависит от диаметра реакционных камер. Представленная система сочетает принцип высокоспецифичного генотипирования путем минисеквенирования в формате микроматриц и параллельный анализ, она может быть использована для любой панели SNP человека и других организмов (Andres O.e.a., 2008; Chen D. e.a., 2007). 62 2.2 Мутационный анализ на ДНК чипе с применением технологий AP-PCR Для проведения мутационного анализа на ДНК чипах используют метод случайных праймеров AP-PCR. Сочетании технологии ДНК чипов и метода случайных праймеров позволяет вести широкомасштабный поиск новых мутаций. С этой целью разрабатываются новые технологии ДНК чипов на основе полимеразных и лигазных реакций. Лигазные реакции применяются для поиска как точечных мутаций, так и более протяженных – делеций, инсерций. Поскольку гибридизация на ДНК чипах недостаточно специфична, то ведётся активная разработка альтернативных гибридизационному методов детекции мутаций на ДНК-чипах. Это обуславливает возможность одновременного анализа множества различных субстратов, а, следовательно, и детекции большого количества возможных мутаций. Сущность лигазного метода состоит в синтезе двух различных олигонуклеотидных проб 3' и 5', концы которых комплементарны мутантной форме исследуемого сайта. При гибридизации с исследуемой последовательностью 3' и 5' концы проб находятся в непосредственном соседстве. При наличии мутации эти концевые нуклеотиды оказываются полностью комплементарны исследуемой поверхности и соединяются друг с другом лигазой. На конце одного из олигонуклеотидов, не участвующем в лигировании находится репортёрная метка, которая сохраняется при дальнейшей обработке чипа, если произошло лигирование и детектируется соответствующими методами. Если последовательность не мутантная, то соответствующие концы олигонуклеотидных проб оказываются не полностью комплементарными исследуемой последовательности. Они не могут быть соединены лигазой высокотребовательной к полной комплементарности лигируемых концов. При реализации этой реакции на чипе один из олигонуклеотидов иммобилизован на чипе в соответствующей ячейке. А другой находится в растворе вместе с исследуемой пробой и его конец, не 63 участвующий в гибридизации является меченым. После проведения гибридизации и лигирования осуществляется обработка чипа в условиях, вызывающих отделение всех нелигированных репортёрных проб, чип отмывается и оставшиеся на поверхности лигированные пробы детектируются вследствие наличия репортёрной метки на их конце. Такой чип позволяет проводить независимую детекцию любого числа проб меченных одинаковым образом. В то время как для жидкофазных реакций требуется мечение каждой пробы различной меткой, поскольку детекция всех проб производится в одном объёме. Другим ещё более важным направлением, где применяются лигазные реакции, стало их использование при работе с чипами, содержащими короткие олигонуклеотидные последовательности, содержащие все возможные комбинации оснований данной длины. Такие чипы содержат очень большое количество ячеек, поскольку число всех возможных последовательностей олигонуклеотидов данной длины равно 4n, где n - длина нуклеотида. Для n = 9 это количество равно 262144, (для n=10 - 1048576). Такие чипы очень перспективны для проведения мутационного анализа, поскольку с их помощью можно производить анализ любой последовательности. Очень важно, что чипы для мутационного анализа должны содержать большое количество олигонуклеотидов, которое не может быть меньше числа оснований в исследуемой последовательности. Поэтому чипы для анализа всех синтезируются в возможных основном мутаций методом длинных последовательностях фотолитографии. Сущность предложенного подхода состоит в том, что комбинаторная проба из 9 нуклеотидов синтезируется на 5' конце 20 нуклеотидной якорной последовательности, одинаковой во всех ячейках чипа. После синтеза пробы добавляется последовательность комплементарная якорной. После её гибридизации чип готов к использованию. При этом в реакцию вводится фрагментированная исследуемая ДНК. 5' последовательности молекул, гибридизировавшиеся с пробой, соединяются лигазой с последовательностью, 64 комплементарной якорной. Таким образом, после лигирования последовательность комплементарная 9 нуклеотидной комбинаторной пробе оказывается связанной с комплементарным 20 нуклеотидным участком. Общая протяжённость дуплекса достигает 29 нуклеотидов. Используемая система действует как ловушка, обеспечивая прочное связывание и накопление на чипе комплементарных последовательностей. Это позволяет производить мутационный анализ довольно длинных фрагментов ДНК до 5000 азотистых оснований. Кроме того, подобная схема, позволяющая селективно распознавать 5' концы любых последовательностей идеально применима для анализа любых сложных наборов ДНК фрагментов, образующихся в процессе осуществления различных методов геноиндентификационного анализа, таких как рестриктазные (RFLP) или полимеразные (AFLP, RAPD, AP-PCR). Эта технология подходит для создания экспериментальных чипов небольшого объема в небольших лабораториях. Одновременное исследование большого количества SNP ставшее возможным связи с синтезом ДНК чипов фотолитографическим методом открывает новые перспективы в данной области исследований. Так применение ДНК-чипов с количеством ячеек 100 млн и длиной олигонуклеотидов 30 оснований позволяет анализировать неперекрывающимися пробами всю последовательность генома человека длиной 3 млрд. оснований. Количество одновременно анализируемых SNP, экспрессируемых генов, длина подвергаемых мутационному анализу последовательностей, прямо зависит от количества ячеек чипа и их размеров. Итак, главными преимуществами фотографических технологий является возможность синтеза большого количества олигонуклеотидов и их одновременный синтез непосредственно на поверхности чипа. При этом количество олигонуклеотидов определяется только разрешающей способностью методов и не оказывает влияния на сложность методики, скорость синтеза и его стоимость. 65 На сегодняшний день существует только одна фирма, осуществляющая синтез ДНК-чипов методом фотолитографии - это компания Affymetrix. 2.3 Метод FIAV как инструмент для быстрого нахождения аллельных вариантов генов Быстрая идентификация аллельных вариантов основанная на технологии DNAmicroarrays с применением информационной составляющей в виде базы данных полиморфных сайтов ассоциированных с патологиями человека (www. fiav.ru) позволяет в короткий срок подготовить ДНК биочип для индивидуального исследования пациента и провести анализ на наличие мутаций в генах актуальных для нозологической картины пациента. На сегодняшний день создано множество Интернет-ресурсов для обзора и поиска данных по молекулярной биологии, организованных в форме биоинформационных баз данных. Однако существующие базы данных ориентированы, как правило, на специалистов и не могут удовлетворить потребности практического врача в четко организованной информации. Основными причинами этого являются принципиальные различия в форматах хранения информации, что затрудняет поиск; избыточность информации, выдаваемый в результате запроса, что требует дополнительных временных затрат на ее анализ; наконец, далеко не все базы данных содержат информацию о заболеваниях, вызываемых генетическими нарушениями. База данных FIAV ориентированна на специализированный круг пользователей и одинаково удобна как для врачей-терапевтом, так и для молекулярных биологов. В разработанной базе данных содержится информация об однонуклеотидных полиморфизмах функциональных групп генов, вызывающих различные мультифакторные заболевания. Предлагаемая база данных постоянно обновляется, имея интерактивные связи с крупнейшими мировыми биоинформационными базами данных и способна осуществлять поиск как по известному гену, влияющему на развитие заболевания, так и по заболеванию. Помимо функции поиска, 66 база данных оснащена интегрированной системой, осуществляющей выбор праймеров для ПЦР, что позволяет быстро формировать необходимые панели для исследований и проводить доклиническую диагностику заболеваний, с учетом этнической принадлежности, пола, места проживания, семейного анамнеза. 67 ИЗГОТОВЛЕНИЕ МИКРОМАТРИЦ НУКЛЕИНОВЫХ КИСЛОТ ВЫСОКОЙ ПЛОТНОСТИ С БОЛЬШИМ ЧИСЛОМ ОЛИГОНУКЛЕОТИДОВ, МИКРОДЕЛЕЦИЙ, ПОВТОРЯЮЩИХСЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ АССОЦИИРОВАННЫХ С СЕРДЕЧНОСОСУДИСТЫМИ ЗАБОЛЕВАНИЯМИ И РАЗРАБОТКА СПОСОБА БЫСТРОЙ ИДЕНТИФИКАЦИИ АЛЛЕЛЬНЫХ ВАРИАНТОВ 3 3.1 Синтез олигонуклеотидов для изготовления микроматриц высокой плотности Для синтеза олигонуклеотидов заданной последовательности используют амидофосфитный метод. Cинтез ведут на автоматических синтезаторах АSM800 (Новосибирск, OOO «Биоссет»). Олигонуклетид синтезируется в направлении от 3'- к 5'-концу. Синтез проводится на твердофазном носителе - CPG (controlled pore glass) на котором ковалентно связан 3'-концевой олигонуклеотид. Мономерами при синтезе служат фосфорамидиты нуклеозидов, структурная формула показана на рисунке 33. Рисунок 33 – Структурная формула фосфорамидита нуклеозидов Синтез начинается с деблокирования нуклеозида, находящегося на 5'конце синтезируемого олигонуклеотида, при этом с 5'-OH группы удаляется 68 диметокситритильная (DMTr) защитная группа. Схема синтеза приведена на рисунке 34. Рису нок 34 – Схема синтеза Следующая стадия - конденсация, при которой активированный фосфорамидит нуклеозида кавалентно присоединяется к свободной 5'гидроксильной группе концевого детритилированного нуклеозида. Эффективность такого присоединения около 99.5%. Для того, чтобы не накапливалось ошибочных олигонуклеотидов за счет оставшегося 0,5% непрореагировавших 5'-концевых гидроксильных групп - их блокируют ("кэпируют") с помощью реакции ацетилирования. Минимальное количество молекул, которые оказались незаблокированными продолжают участвовать в ситнезе, и в результате образуются более короткие продукты (олигонуклеотиды с пропущенными основаниями). После реакции конденсации и "кэпирования" два концевых основания синтезируемого олигонуклеотида оказываются связанными нестабильной 69 фосфитной триэфирной связью. Перевод ее в стабильную фосфотриэфирную связь осуществяется за счет реакции окисления, которая завершает цикл присоединения одного основания. Затем вновь следует стадия детритилирования и цикл повторяется. После присоединения последнего основания олигонуклеотид снимается с твердой фазы путем аммонолиза – добавлением концентрированного аммиака при нагреве до 50-60°С, и с него удаляются оставшиеся защитные группы. Выход целевого продукта в процессе синтеза равен эффективности реакции конденсации в степени (n-1), где n-длина олигонуклеотида. Эффективность конденсации в течение реакции находится на уровне 99 99,5%. Таким образом, чем больше длина олигонуклеотида, тем выше процент некондиционного продукта. Так, для 15-звенного минимальный конечный выход составит около 80%, а для 35-звенного олигонуклеотида - 60%. Для введения флуоресцентной метки на 3’-конец конец олигонуклеотидов используется специальный сорбент CPG c иммобилизированными на него флуорофорами с якорными группами (Glеn Rеsеаrсh, USA), по которым продолжается фосфорамидитный синтез олигонуклеотидов. Очистка олигонуклеотидов от солей и остатков реактивов проводится с помощью переосаждения солями лития, очистка целевого олигонуклеотида от коротких фрагментов осуществлялась с помощью препаративного полиакриламидного гель-электрофореза. Контроль качества синтезируемых олигонуклеотидов осуществляется методом аналитического гель-электрофореза и спектрофотометрически. Для определения концентрации олигонуклеотидов измеряют оптическую плотность при 260нм и по следующей формуле: , где NA, NC, NG, NT - количество соответствующего основания в олигонуклеотиде, OD - оптическая плотность при 260 нм, выраженная в ОЕ/мл. 70 Зная концентрацию олигонуклеотида в пмоль/мкл, можно вычислить концентрацию в мкг/мл: C(мкг/мкл) = С(пмоль/мкл)хMwх10-6 Молекулярную массу (Mw) олигонуклеотида рассчитывают по формуле: Mw = 249,2xNA + 225,2xNC + 265,2xNG + 240,2xNT + 64x(длина нуклеотида - 1) + 2. Готовые нуклеотиды, не используемые немедленно для нанесения на биочип, лиофилизируют. Растворение олигонуклеотидов проводят в стерильной деионизованной воде. Алгоритм действий оператора при работе с автоматическим синтезатором ДНК АSM-800: 1. Включить питание ДНК-синтезатора, затем включить управляющий компьютер. 2. Проверить наличие достаточного количества реактивов и места в емкости для сброса. 3. Проверить давление гелия в газовой системе. 4. Запустить программу управляющую синтезатором. 5. Запустить процедуру продувки системы. 6. Ввести в окно задания последовательности нуклеотидов. 7. Установить в синтезатор колонки с соответствующим носителем. 8. Провести проверку установки колонок и их промывку. 9. При положительном результате проверки установки колонок - запустить синтез, при отрицательном – переустановить колонки и заново проверить. 10. При первом и последнем шаге синтеза осуществить визуальный контроль выхода третильной группы по окраске промывочного раствора. 11. По окончании синтеза снять колонки с синтезатора, извлечь из них остатки растворителя центрифугированием, либо продувкой под вакуумным насосом. 12. Установить в синтезатор колонки пустышки и выключить питание. 71 13. Извлечь носитель из колонок и добавить концентрированный аммиак для проведения аммонолиза и отделения продукта от CPG. 14. Переосадить олигонуклеотид добавлением солей лития. 15. Провести препаративный акриламидный электрофорез для очистки целевого олигонуклеотида от коротких фрагментов. 16. Определить концентрацию и количество олигонуклеотида. 17. Лиофилизировать полученный олигонуклеотид. Пример синтеза праймеров для идентификации полиморфного локуса гена: APOE (ID:348) 7083 CGC ⇒ TGC rs11542029 5' tgcttttgggattacctgcgct-g 3' 5' cgcttttgggattacctgcgct-g 3' 5' agcttttgggattacctgcgct-g 3' 5' tgcttttgggattacctgcgct-g 3' В синтезатор устанавливаются колонки с иммобилизованным на поверхности носителя нужным нуклеотидом, в данном случае (G). Последовательность олигонуклеотида вводится в окно задания, после старта программы синтеза в автоматическом режиме синтезатор подает необходимые реагенты на колонку. 3.2 Изготовление олигонуклеотидных микроматриц 3.2.1 Изготовление олигонуклеотидных микроматриц для исследования SNP 3.2.1.1 Выбор SNP SNP, ассоциированные с сердечно-сосудистыми патологиями, были отобраны из базы данных FIAV. ДНК выделяли из образцов венозной крови по фенол-хлороформной методике, измеряли количество спектрофотометрически при 260/280 нм и 72 хранили выделенную ДНК при 4ºС в буфере ТЕ (10 мМ Трис-HCl, pH 7.4, 1 мM ЭДТА, pH 8.0). 3.2.1.2 Подбор олигонуклеотидных праймеров ПЦР праймеры. Длина фланкирующей последовательности от 15 до 50 пар оснований, при их создании использовалось программное обеспечение FIAV. Для мультиплексной ПЦР-реакции подбирались праймеры со сходными температурой плавления и содержанием G/C. Каждая пара ПЦР-праймеров была протестирована in silico ПЦР для верификации специфичности ДНКфрагментов, которые будут амплифицированы. Праймеры для реакции минисеквенирования. Праймеры минисеквенирования, необходимые для непосредственного отжига на сайте SNP, состоят из ~20 оснований, их температура плавления – 55-60ºС. 5' конец каждого праймера содержит Tag-последовательность, комплементарную последовательности cTag, нанесенной на чип. Все Tag-последовательности имеют следующие параметры: длина 20 оснований, схожая температура плавления, они уникальны и не комплементарны друг другу, генспецифическому участку праймера и генам человека (Hirschhorn J.N. e.a., 2000). Tag-последовательности идентифицированы из генома бактериофага λ с использованием PRIMER 3.0 (http://frodo.wi.mit.edu/primer3/input.htm). Идентифицировали из генома человека с использованием базы данных FIAV. Комплементарная Tag-последовательность. В состав комплементарной Tag-последовательности входит 15 Т- остатков на 3’ конце, которые являются спейсером и 3’-аминогруппа, ковалентно связывающая cTags со стеклом. 3.2.1.3 Изготовление микрочипа 3.2.1.3.1 Печать микрочипа В буфере для печати (150 мкМ фосфатный буфер, pH 8.5) растворяли cTag-и в конечной концентрации 50 мкМ. Синтезированные cTag хранили при -20ºС, количество циклов замораживания-оттаивания не превышало 10. 73 Аликвоты растворов cTag (5-10 мкл) переносили в стерильный, свободный от нуклеаз полипропиленовый планшет и закрепляли его в принтере. Слайды Epoxide Coated Slides (Corning) для контактной печати олигонуклеотидов размещали в принтере, используя магнитные пластины. Готовили MCP310S-пин для печати, промывая его в 10 мл буфера для печати. Наносили образцы из планшета на слайд в соответствии с протоколом. Данный пин наносит 1 nl раствора cTag на слайд, формируя пятно диаметром 400 мкм. Олигонуклеотиды иммобилизовали на слайд в дублях, в формате “array of arrays” (Pastinen T. e.a., 2000) с помощью автоматического контактного принтера BioOdyssey Calligrapher MiniArayer. 3.2.1.3.2 Обработка слайда после печати Инкубировали слайд во влажной камере (70-75%) при температуре 2025ºС 12-17 часов. Необходимый уровень влажности поддерживался размещением в камере насыщенного раствора солей NH4Cl и KNO3. Остаточные активные группы на поверхности слайда блокировали раствором для блокировки, содержащим 5хSSC, 0.1% SDS и 0.1 мг/мл BSA. Перед использованием раствор подогревали до 42ºC. Инкубировали слайды в растворе для блокировки в течение 45-60 минут при 42ºС. Затем дважды инкубировали слайды в растворе 0.1хSSC по 5 минут при комнатной температуре. Переносили слайды в деионизированную H2O и дважды инкубировали по 30 секунд. Сушили слайды центрифугированием при 1600 g в течение 2 минут. Каждый напечатанный слайд тестировали на качество печати. Для этого после блокировки на слайде 3’-флуоресцентно меченый контрольный олигонуклеотид (5’-AAA AAA AAA ANN NNN NNN NN – флуорофор – 3’) гибридизовали с любым cTag-ом, иммобилизованным на слайде. Контрольные 74 олигонуклеотиды в концентрации 300 нМ в гибридизационном растворе (5xSSC, 30% формамид, 0.1% SDS) наносили на слайд на 5 минут, затем промывали и сканировали. 3.2.1.4 Изготовление сетки для создания отдельных гибридизационных камер на слайде Сетку из силиконовой резины изготавливали при помощи перевернутого микропланшета с V-образными лунками, использовали её многократно (Pastinen T. e.a., 2000; Lindroos K. e.a., 2003; Fredriksson M. e.a., 2004; Milani L., Syvänen A.C., 2009). Соединяли 2 компонента Elastosil RT (625A и 625B) в 50 мл пробирке Falcon в соотношении 9:1, перемешивали в течение 30 минут. Распределяли раствор в перевернутом микропланшете с V-образными лунками так, чтобы уровень раствора не доходил до верхнего края лунки на 1-2 мм. Оставляли силиконовую сетку для затвердения на 12-24 часа при комнатной температуре. Снимали силиконовую сетку с планшета и скальпелем разрезали ее на части, соответствующие размеру слайда. После каждого использования силиконовую сетку промывали в 10% растворе хлора, ополаскивали в воде и сушили. 3.2.1.5 Генотипирование 3.2.1.5.1 Мультиплексаная ПЦР и очистка ДНК-образцы амплифицировали методом мультиплексной ПЦР, затем верифицировали их в 2% агарозном геле. Для приготовления 100 мкл реакционной смеси использовали: праймеры для мультиплексной ПЦР в концентрации 0.2 – 1.0 мкМ, 10 – 50 нг ДНК, 3.5 U ДНК полимеразы AmpliTaq Gold (Applied Biosystems), 3 мМ MgCl2 и 200 мкМ dNTPs. Продукты мультиплексной ПЦР каждого образца пулировали. 75 Готовили мастер-микс для очистки ПЦР продуктов (табл.6). Экзонуклеаза I и щелочная фосфатаза необходимы для инактивации и удаления излишков dNTPs и праймеров ПЦР. Таблица 6 - Мастер-микс для очистки ПЦР продуктов Реагент Конечная концентрация ПЦР продукты Объем для одной реакции (мкл) 7.1 50 mM MgCl2 1.6 7.61 мM 1 M Tris-HCl pH 9.5 0.5 0.05 M 20 U/μL Экзонуклеаза I 0.3 0.57 U/μl 1 U/μL Щелочная фосфатаза Общий объем 1.0 10.5 0.10 U/μl Добавляли 3.4 мкл смеси для очистки к ПЦР продуктам до конечного объема 10.5 мкл. Инкубировали при 37ºС 60 минут. Инактивировали ферменты нагреванием смеси до 85ºС в течение 15 минут. 3.2.1.5.2 Циклическое минисеквенирование Готовили мастер-микс с реагентами для минисеквенирования для двух отдельных реакций с использованием двух ddNTPs меченых Cy5 и Cy3: Су5ddUTP и Cy3-ddATP – для одной реакции; Cy5-ddGTP и Cy3-ddCTP для второй (табл.7). Количество Су5-ddUTP на 20% превышало количество остальных флуоресцентномеченых ddNTP. Флуорофоры в этой смеси светочувствительны. 4.5 мкл смеси для реакции минисеквенирования добавляли к очищенным ПЦР продуктам до конечного объема 15 мкл. Выполняли реакцию минисеквенирования в термоциклере по следующей схеме: «горячий старт» 3 минуты при 96ºС, затем 33 цикла 20 сек при 95ºС и 20 сек при 55ºС. 76 Таблица 7 - Мастер-микс для реакции минисеквенирования Реагент Объем для одной реакции (мкл) 10.50 1.50 Конечная концентрация 2 x 0.015 0.10 мкМ 0.30 0.02 % 25 U/μl Klen Thermase 0.04 0.067 U/μl H2O 2.60 Общий объем 15.00 Очищенные ПЦР продукты 100 нМ каждого пулированного праймера 100 мкМ флуоресцентно меченных ddNTPs 1% тритон X-100 10 нМ 3.2.1.5.3 Гибридизация Слайды помещали на специальную подставку, на них размещали силиконовую резиновую решетку, затем плексигласовую крышку и плотно закрепляли при помощи винтов. Конструкцию подогревали до 42ºС. Готовили гибридизационную смесь для каждого образца. Для этого к 15 мкл продуктов реакции минисеквенирования добавляли 7 мкл гибридизационного раствора (5xSSC, 30% формамид, 0.1% SDS) до конечного объема 22 мкл. В гибридизационную смесь также вносили олигонуклеотиды для контроля гибридизации – флуоресцентномеченые Tag-олигонуклеотиды в концентрации 0.25 нМ. Вносили 20 мкл каждого варианта гибридизационной смеси в отдельную камеру для гибридизации на слайде. Гибридизовали слайды 2 часа при 42ºС во влажной и темной камере. 3.2.1.5.4 Промывка Готовили 3 раствора для промывки: 1 – 4xSSC; 2 – 2xSSC и 0.1 % SDS; 3 0.2xSSC. После гибридизации вынимали слайды из камеры и немедленно ополаскивали в растворе 1 при комнатной температуре. Затем дважды промывали слайды в растворе 2 при 42ºС в течение 5 минут, и дважды в растворе 3 при комнатной температуре в течение 1 минуты. 77 Сушили слайды центрифугированием при 900 об/мин в течение 5 минут. 3.2.1.5.5 Сканирование Интенсивность флуоресцентного сигнала регистрировали на сканере GenePix 4100, который позволяет сканировать слайд при длинах волн 635 нм и 532, соответствующих эмиссии флуорофоров Cy3 и Cy5, наиболее часто используемых красителей в технологии микрочипов. 3.2.2 Изготовление олигонуклеотидных микроматриц для исследования микроделеций 3.2.2.1 Отбор мутаций Делеции, ассоциированные с сердечно-сосудистыми патологиями, были отобраны из базы данных FIAV. ДНК выделяли из образцов венозной крови по фенол-хлороформной методике, измеряли ее количество спектрофотометрически при 260/280 нм и хранили выделенную ДНК при 4ºС в буфере ТЕ (10 мМ Трис-HCl, pH 7.4, 1 мM ЭДТА, pH 8.0). 3.2.2.2 Подбор олигонуклеотидных праймеров 3.2.2.2.1 Праймеры для реакции минисеквенирования Для каждой олигонуклеотидные мутации на праймеры, слайд наносили которые были прямые и обратные подобраны согласно последовательности дикого типа гена. Каждый олигонуклеотид содержал ~25 пар оснований, 15-Т последовательность и аминогруппу на 5’ конце для ковалентного связывания с поверхностью слайда. Олигонуклеотиды были подобраны таким образом, чтобы праймер элонгировался на один нуклеотид на сайте делеции в APEX-реакции (Arrayed Primer Extension reaction) (Schrijver I. e.a., 2007). 3.2.2.2.2 ПЦР праймеры Длина фланкирующей последовательности ~200 пар оснований, при их создании использовалось программное обеспечение PRIMER 3.0 (http://frodo.wi.mit.edu/primer3/input.htm). Для мультиплексной ПЦР-реакции 78 подбирались прямые и обратные праймеры длиной ~50 пар оснований со сходными температурой плавления и содержанием G/C. Каждая пара ПЦР-праймеров была протестирована in silico ПЦР для верификации специфичности ДНК-фрагментов, которые будут амплифицированы. 3.2.2.3 Изготовление микрочипа 3.2.2.3.1 Печать микрочипа В буфере для печати (150 мкМ фосфатный буфер, pH 8.5) растворяли смесь прямых и обратных праймеров для минисеквенирования в конечной концентрации 25 мкМ. Переносили аликвоты (5-10 мкл) смеси праймеров в стерильный, свободный от нуклеаз полипропиленовый планшет и закрепляли его в принтере. Слайды Epoxide Coated Slides (Corning) для контактной печати олигонуклеотидов размещали в принтере, используя магнитные пластины. Готовили MCP310S-пин для печати, промывая его в 10 мл буфера для печати. Данный пин наносит 1 nl раствора cTag на слайд, формируя пятно диаметром 400 мкм. Наносили образцы из планшета на слайд в соответствии с протоколом. Олигонуклеотиды иммобилизовали на слайд в дублях, в формате “array of arrays” (Pastinen T. e.a., 2000) с помощью автоматического контактного принтера BioOdyssey Calligrapher MiniArayer. 3.2.2.3.2 Обработка слайда после печати Инкубировали слайд во влажной камере (70-75%) при температуре 2025ºС 12-17 часов. Необходимый уровень влажности поддерживали размещением в камере насыщенного раствора смеси NH4Cl и KNO3. Остаточные реактивные группы на слайде блокировали раствором для блокировки, содержащим 5хSSC, 0.1% SDS и 0.1 мг/мл BSA. Перед использованием раствор подогревали до 42ºC. 79 Инкубировали слайды в растворе для блокировки в течение 45-60 минут при 42ºС. Затем дважды переносили слайды в 0.1хSSC раствор, инкубировали по 5 минут при комнатной температуре. Дважды переносили слайды в деионизированную H2O и инкубировали по 30 секунд. Сушили слайды центрифугированием при 1600 g в течение 2 минут. Хранили слайды в сухом, темном месте при комнатной температуре. 3.2.2.4 Изготовление сетки для создания отдельных гибридизационных камер Сетку из силиконовой резины изготавливали при помощи перевернутого микропланшета с V-образными лунками, использовали её многократно. Соединяли 2 компонента Elastosil RT (625A и 625B) в 50 мл пробирке Falcon в соотношении 9:1, перемешивали в течение 30 минут. Распределяли раствор в перевернутом микропланшете с V-образными лунками так, чтобы уровень раствора не доходил до верхнего края лунки на 1-2 мм. Оставляли силиконовую сетку для затвердения на 12-24 часа при комнатной температуре. Снимали силиконовую сетку с планшета и скальпелем разрезали ее на части, соответствующие размеру слайда. После каждого использования силиконовую сетку промывали в 10% растворе хлора, ополаскивали в воде и сушили. 3.2.2.5 Генотипирование 3.2.2.5.1 Мультиплексаная ПЦР и очистка амплифицированных продуктов ДНК-образцы амплифицировали методом мультиплексной ПЦР, затем верифицировали их в 2% агарозном геле. Для реакции амплификации использовали мастер-микс следующего состава: 5’ и 3’ праймеры, 10хПЦР буфер, 25 мкМ MgCl2, 2.5 мкМ dNTP, Taq ДНК полимераза, геномная ДНК и деионизованная вода. 80 Пулированные ПЦР продукты концентрировали, очищали на колонках и верифицировали в 3% агарозном геле. Готовили смесь для инактивации непрореагировавших dNTPs и очистки от них ПЦР продуктов следующего состава: 50 мМ MgCl2, 1 M Tris-HCl pH 9.5 и 1 U щелочной фосфатазы. Добавляли 4 мкл смеси для очистки к 30 мкл ПЦР продуктов. Инкубировали при 37ºС 60 минут. Инактивировали ферменты нагреванием смеси до 85ºС в течение 15 минут. 3.2.2.5.2 APEX- реакция Амплифицированные ПЦР продукты денатурировали в течение 10 минут при 95ºС, затем быстро помещали на лед для охлаждения. В двух пробирках готовили по 25 мкл смеси для APEX-реакции: 16 мкл денатурированных продуктов амплификации, 2 U TermoSequenase DNA polymerase, 3 мкл буфера (260 мМ Tris-HCl pH 9.5 и 65 мМ MgCl2) и деионизованная вода. В одну из пробирок добавляли по 0.75 мкл Су5-ddUTP и Cy3-ddATP; во вторую - Cy5-ddGTP и Cy3-ddCTP. Количество Су5-ddUTP на 20% превышало количество остальных флуоресцентномеченых ddNTP. Для контроля отжига и герметичности камер минисеквенирования применяли смесь буфера для отжига и H2O (без ДНК). Слайды помещали на специальную подставку, на них размещали силиконовую резиновую решетку, затем плексигласовую крышку и плотно закрепляли при помощи винтов. Конструкцию подогревали до 58ºС. Добавляли 20 мкл каждого образца или контроля нагретого до 58ºС в лунки на слайде. Инкубировали слайды в темной камере 20 минут при 58ºС. 3.2.2.5.3 Промывка После инкубации промывали слайды в 0.3% растворе Alconox в течение 3 минут. 81 Затем дважды промывали слайды в деионизованной воде по 90 секунд при 95ºС. Наносили на слайд и равномерно распределяли по его поверхности реагент (SlowFade Light Antifade Reagent), препятствующий обесцвечиванию. 3.2.2.5.4 Сканирование Интенсивность флуоресцентного сигнала регистрировали на сканере GenePix 4100, который позволяет сканировать слайд при длинах волн 635 нм и 532, соответствующих эмиссии флуорофоров Cy3 и Cy5, наиболее часто используемых красителей в технологии микрочипов. 3.3 Образец микроматрицы В таблице 8 представлен фрагмент базы данных FIAV, формирующей олигонуклеотиды для нанесения их на микроматрицы. Таблица 8 - Фрагмент базы данных FIAV, формирующей фланкирующую SNP Ген (ID) APOE (348) AGT (183) CYP1A1 (1543) CYP2D6 (1565) ref SNP rs11542029 rs11542040 rs11542041 rs11542035 rs41382345 rs11542034 rs11542032 rs61751078 rs61751077 rs61731499 rs11568053 rs699 rs4762 rs34829218 rs5039 rs28399430 rs45500996 rs36121583 rs4646422 rs75467367 rs1058172 Фланкирующая SNP последовательность (5'→ 3') agcggccagcgctgggaactggcactgggt C/T gcttttgggattacctgcgctgggtgcaga tacaaatcggaactggaggaacaactgacc A/C cggtggcggaggagacgcgggcacggctgt ctgggcgcggacatggaggacgtgtgcggc A/C gcctggtgcagtaccgcggcgaggtgcagg aggacgtgtgcggccgcctggtgcagtacc A/G cggcgaggtgcaggccatgctcggccagag tgtgcggccgcctggtgcagtaccgcggcg A/T ggtgcaggccatgctcggccagagcaccga tgcaggccatgctcggccagagcaccgagg A/G gctgcgggtgcgcctcgcctcccacctgcg gtgtaccaggccggggcccgcgagggcgcc A/G agcgcggcctcagcgccatccgcgagcgcc cccacagagtctacccaacagcttaacaag C/T ctgaggtcttggaggtgaccctgaaccgcc ttgaagcggatgagagagagcccacagagt C/T tacccaacagcttaacaagcctgaggtctt ggaccatccacctgaccatgccccaactgg C/T gctgcaaggatcttatgacctgcaggacct gacaggatggaagactggctgctccctgac A/G ggagccagtgtggacagcaccctggctttc tgacaggatggaagactggctgctccctga C/T gggagccagtgtggacagcaccctggcttt ctgatagccaggcccagctgctgctgtcca C/T ggtggtgggcgtgttcacagccccaggcct tagagagaggccagggtgccaaagacagcc A/G ttggggagaggacggtggccccatggacca ctcgtcatccacaatgagagtacctgtgag C/T agctggcaaaggccaatgccgggaagccca tgccactgggcgtgaaggtggacatgaccc C/G catctatgggctaaccatgaagcatgcctg tgctgcaacgggtggaattcagcgtg C/T cactgggcgtgaaggtggacatgac gagamcrttgsccgctgggaggtctttctc G/T tcctggctatcctgctg aaggcctgaagaatccaccagggccatggg A/G ctggcctctgattgggcacatgctgaccct agccccggcccagccaccatggtgtctttg C/G tttcctggtgaccccatccccctatgagct acaccactgccgtgattcatgaggtgcagc A/G ctttggggacatcgtccccctgggtgtgac 82 SLC38A1(81539) MTHFR (4524) CAV1 (857) CBS (875) CCR5 (1234) COL4A1 (1282) CYBB (1536) DDC (1644) DNASE1 (1773) FOXP3 (50943) GNMT (27232) IDS (3423) rs3915951 rs1058170 rs17002853 rs28371710 rs28371706 rs72552262 rs76318550 rs35737219 rs2274976 rs72552099 rs45438591 rs61751037 rs34040148 rs71322503 rs1799863 rs34418657 rs56345960 rs62625034 rs1800945 rs3742207 rs34843786 rs9515185 rs13306300 rs11575542 rs11575377 rs11575376 rs6263 rs6262 rs11575292 rs6264 rs8176927 rs61741279 rs34907394 rs45545238 rs8176928 rs34923865 rs8176919 rs1799891 rs34186031 rs74162067 rs17847095 rs55711326 rs59395427 rs1064458 rs1803785 rs34180481 rs1803783 rs1803781 rs1803782 gacccattgtggggacgcatgtctgtccag G/T ccgtgtccaacaggagatcgacgacgtgat tcaatgatgagaacctgcgcatagtggtgg C/G tgacctgttctctgccgggatggtgaccac gcgaggtgctgaatgctgtccccgtcctcc C/T gcatatcccagcgctggctggcaaggtcct ggcaagaagtcgctggagcagtgggtgacc A/G aggaggccgcctgcctttgtgccgccttcg acaccgccgaccgcccgcctgtgcccatca C/T ccagatcctgggtttcgggccgcgttccca atggggctagaagcactgrtgcccctggcc A/G tgatagtggccatcttcctgctcctggtgg tcacacttctttttttccaaatggctgttt G/T tgagacttcttctactttcacgatcagaaa ggcgtcaggacgcagggtcatggagcctcc A/G tttctctcgcattctgggtgggcctgttga aggacgaggcctttgccctgtggattgagc A/G gtggggaaagctgtatgaggaggagtcccc atgtggggggaggagctgaccagtgaagaa A/C gtgtctttgaagtcttcgttctttacctct ctgaagcacttgaaggagaaggtgtctgcg A/G gagccgatttcatcatcacgcagcttttct ttgggaaaatattcagcaatgtccgcatca A/G cttgcagaaagaaatataaatgacatttca atcaacaagattgggaagaagttcggcctg A/C agtgtgagctctgtgagtgccctggctttg aggccgaacttcttcccaatcttgttgatt C/T tgaccataggggtgtccccgattttcttca ttgtgggcaacatgctggtcatcctcatcc A/T gataaactgcaaaaggctgaagagcatgac ctcctgacaatcgataggtacctggctgtc G/T tccatgctgtgtttgctttaaaagccagga atacagtcagtatcaattctggaagaattt C/G cagacattaaagatagtcatcttggggctg gaccagccccaagatgactatctttaatgt A/C tggaaattcttccagaattgatactgactg gctcccgagcgagcaagctcagttt A/T cacccgatccactggggagcaggaa ccagggaattaaaggtgatcaaggcgatca A/C ggcgtcccgggagctaaaggtaggagagtt ctgcttctctcttcggtttcagggttttc C/T tggtgaacccgggtacccaggactcatagg gaagggcggcgggcagcagcagcagccaga C/G gctgagccggggccccatggtggcgcgccc gagagccagatgcaggaaaggaacaatgcc A/G gcttcctcagctacaacatctacctcactg ctcgcacggtggaatctgcccatgtgcagc A/G ggcctgggaacacatcaaagagctggcggc aaaaggctgtctgctttttaccctctagat G/T gttgccaccctggggaccacaacatgctgc ataaaaggctgtctgctttttaccctctag A/T tggttgccaccctggggaccacaacatgct aaagccatcccctcagatggcaacttcgcc A/G tgcgtgcgtctgccctgcaggaagccctgg taattggtggagtgaaattaaaagccatcc C/T ctcagatggcaacttcgccatgcgtgcgtc cacgtttgaggacatcatcaacgacgttga G/T aagataatcatgcctggggtaagtgtgtat cgaaggagagggaaggagatggtggattac A/G tggccaactacatggaaggcattgagggac tctctgtgccctgtgctctcccaggatgag G/T ggcatgaagctgctgggggcgctgctggca tctgtgccctgtgctctcccaggatgaggg A/G catgaagctgctgggggcgctgctggcact gctgacgagggtggcattggacatcttggt C/G tccccaaatgtctggatgttgaaggctgcg cctgagccgctatgacatcgccctggtcca C/G gaggtcagagacagccacctgactgccgtg agctataaggagcgctacctgttcgtgtac A/G ggtgggtggtctagaaagccaggaagcccc ccgcagggctcgcagccatcatcgtagtag G/T agctgtccaccgcagacacctggtcaggcc tactactacgatgatggctgcgagccctgc A/G ggaacgacaccttcaaccgagagccagcca tccacagaggtcagggagtttgccattgtt C/G ccctgcatgcggccccgggggacgcagtag tgggtgtagctgtggtgtcagcgctgtcgg A/G gatcagccactggaaggtggggcttgtcca atcgtagctgctggcagccaaggccctgtc A/G tcccagcctggtctggcccccgggaggccc ggggaaccttccagggccgagatcttcgag G/T cggggcccatgcctcctcttcttccttgaa gccccgcctcgaagatctcggccctggaag C/G ttccccctgggccccgggcccccagcaggt actccattatgctggtggaagagggcttca A/G tgtgacgagtgtggatgccagtgacaagat tgtataatgattcccaaggtggagatcttt C/T ccagttgttgatgccttgagttttgccaac gacatccatgcaggggaactgtatt A/T tgtggattctgacccattgcaggat taggcaatcagttcacggggattaccaggg -/G aggtacggatcctcttccaagtcacggaat ggacttgcaggactgcaggttccac A/C tcgctgccccgttccttcatttcac ctggatggacatcaggcaacgggaa A/G acgtccaagccttaaacatcagtgt accataccgatgattctccgtatag C/G tggtcttttccaccttatcatcctt 83 KCNQ1 (3784) PMM2 (5373) rs2522018 rs2522019 rs179489 rs34320941 rs28730756 rs34150427 rs2304472 rs34258285 rs3743808 tcgcgcccggcgccccaggtcccgcgcccc A/C tgcgtccccggccgcgcccgccgcgcccc cgcccggcgccccaggtcccgcgccccctg C/T gtccccggccgcgcccgccgcgcccccagt ctgcaggagatcgtgctggtggtgttcttc C/G ggacggagtacgtggtccgcctctggtccg gcggtgaacgagtcaggccgcgtggagttc A/G gcagctacgcagatgcgctgtggtgggggg aaggccccccggagccacactctgctgtca C/G ccagccccaaacccaagaagtctgtggtgg atcacccagccctgcggcagtggcggctcc A/G tcgaccctgagctcttcctgcccagcaaca gatccgcctaccactccgattttgatcttc A/T gcctcaatttttgtaggaagtcatccattt gggacaagagatactgtctgcgacatgtgg A/C aaatgacggttataagaccatttatttctt ggtgcacaaacacttctctacttactggca C/T agttttgtctccaaagaaataaatggtctt На рисунке 35 показана схема расположения олигонуклеотидов. 400 мкм 600 мкм Рисунок 35 - Схема расположения на стекле 80 ячеек для изготовления микроматриц нуклеиновых кислот высокой плотности В таблице 9 представлен дизайн микроматрицы с олигонуклеотидами генов, ассоциированных с сердечно-сосудистыми заболеваниями. В каждой ячейке иммобилизованы прямые и обратные олигонуклеотидные праймеры для детекции SNP. 84 Таблица 9 – Дизайн микроматрицы с олигонуклеотидами генов, ассоциированных с сердечно-сосудистыми заболеваниями контроль AGT 15283 C-T IDS 27293 ins G AGT 15283 C-T IDS 27293 ins G APOE 7819 A-C AGT 16317 C-T APOE 7819 A-C AGT 16317 C-T CYP1A1 3012 C-G SLC38A1 1269 G-T CYP1A1 3012 C-G SLC38A1 1269 G-T MTHFR 20411 A-G CYP2D6 1535 C-G MTHFR 20411 A-G CYP2D6 1535 C-G CAV1 39484 A-G CBS 12410 A-C CAV1 39484 A-G CBS 12410 A-C CCR5 7925 A-T COL4A1 145899 A-C CCR5 7925 A-T COL4A1 145899 A-C CYBB 31410 A-G DNASE1 7441 G-T CYBB 31410 A-G DNASE1 7441 G-T FOXP3 15818 A-G GNMT 6486 A-G FOXP3 15818 A-G GNMT 6486 A-G IDS 27569 C-T KCNQ1 5299 A-C IDS 27569 C-T KCNQ1 5299 A-C PMM2 9030 A-T CBS 12378 C-T PMM2 9030 A-T CBS 12378 C-T APOE 7909 A-C CYP1A1 3040 C-T APOE 7909 A-C CYP1A1 3040 C-T MTHFR 20234 A-G IDS 27506 A-T MTHFR 20234 A-G IDS 27506 A-T KCNQ1 5302 C-T PMM2 20245 A-C KCNQ1 5302 C-T PMM2 20245 A-C APOE 7083 C-T AGT 16337 C-T APOE 7083 C-T AGT 16337 C-T KCNQ1 130662 C-G PMM2 20289 C-T KCNQ1 130662 C-G PMM2 20289 C-T IDS 27194 A-C APOE 7925 A-G IDS 27194 A-C APOE 7925 A-G CYP1A1 3079 G-T MTHFR 16687 A-C CYP1A1 3079 G-T MTHFR 16687 A-C CCR5 8152 G-T COL4A1 5141 C-G CCR5 8152 G-T COL4A1 5141 C-G DDC 107168 A-G DNASE1 7443 A-G DDC 107168 A-G DNASE1 7443 A-G FOXP3 11481 G-T MTHFR 14779 A-G FOXP3 11481 G-T MTHFR 14779 A-G APOE 7931 A-T CYP1A1 5423 A-G APOE 7931 A-T CYP1A1 5423 A-G CCR5 8340 C-G COL4A1 106751 C-T CCR5 8340 C-G COL4A1 106751 C-T DDC 66400 G-T DNASE1 7540 C-G DDC 66400 G-T DNASE1 7540 C-G FOXP3 11457 C-G APOE 7964 A-G FOXP3 11457 C-G APOE 7964 A-G AGT 9544 A-G CYP2D6 8356 A-G AGT 9544 A-G CYP2D6 8356 A-G CCR5 8343 A-C DDC 66398 A-T CCR5 8343 A-C DDC 66398 A-T AGT 9543 C-T CYP2D6 8248 G-T AGT 9543 C-T CYP2D6 8248 G-T IDS 13932 A-G AGT 9360 C-T IDS 13932 A-G AGT 9360 C-T CYP2D6 7954 C-G CCR5 8777 A-T CYP2D6 7954 C-G CCR5 8777 A-T DDC 42255 A-G DNASE1 7943 C-G DDC 42255 A-G DNASE1 7943 C-G IDS 9334 C-G KCNQ1 147673 C-G IDS 9334 C-G KCNQ1 147673 C-G DNASE1 8246 A-G AGT 9150 A-G DNASE1 8246 A-G AGT 9150 A-G CYP2D6 7557 C-T DDC 42235 C-T CYP2D6 7557 C-T DDC 42235 C-T DNASE1 8729 G-T APOE 8080 A-G DNASE1 8729 G-T APOE 8080 A-G AGT 8897 C-T CYP2D6 6807 A-G AGT 8897 C-T CYP2D6 6807 A-G DDC 26554 G-T DNASE1 8758 A-G DDC 26554 G-T DNASE1 8758 A-G CYP2D6 6112 C-T DNASE1 9084 C-G CYP2D6 6112 C-T DNASE1 9084 C-G CYP2D6 5121 A-G DNASE1 9354 A-G CYP2D6 5121 A-G DNASE1 9354 A-G DDC 26420 A-G KCNQ1 407924 A-G DDC 26420 A-G KCNQ1 407924 A-G контроль 85 4 РАЗРАБОТКА ПРОГРАММЫ ВНЕДРЕНИЯ РЕЗУЛЬТАТОВ НИР В ОБРАЗОВАТЕЛЬНЫЙ ПРОЦЕСС Результаты НИР были реализованы при разработке специализированной магистерской программы «Бионформатика» - руководитель д.б.н., профессор Т.П. Шкурат. Программа магистратуры Южного федерального университета утверждена Ученым Советом 05.03.2010. Приказом ректора ЮФУ №1909 от 13.05.2010 «О введении магистерских программ в Южном федеральном университете в 2010-2011 учебном году» открыта специализация «Биоинформатика». В ходе реализации НИР были подготовлены учебные пособия с модульно квалиметрическим обеспечением:  «Биоинформационные базы данных нуклеотидных последовательностей человека и методы оценки их валидности»;  «Геномные технологии для регистрации генных и хромосомных мутаций»;  «Достижения геномной биоинформатики». Учебно- методические пособия самостоятельной исследовательских работе с проектов, будут использоваться магистрами при базами данных, магистерских при выполнении диссертаций, а научно- также при прочтении специальных курсов «Алгоритмы и программные системы в биоинформатике» и «Гены и геномы». 86 СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ 1 Holmans, P. Nonparametric linkage / P. Holmans; ed. by D.J. Balding, M. Bishop, C. Cannings // Handbook of Statistical Genetics: Wiley. – 2001. – P. 487-505. Strachan, T. Human Molecular Genetics 2 [Электронный ресурс] 2 / T. Strachan, A.P. Read. - New York and London: Garland Science, 1999. URL http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=hmg (дата обращения: 12.12.2009). 3 Nickerson, D.A. DNA sequence diversity in 9.7-kb region of the human lipoprotein lipase gene / D.A. Nickerson, S.L. Taylor, K.M. Weiss e.a. // Nat Genet. – 1998. – V. 19. – P. 223-240. Козлов, М.В. Введение в математическую статистику / М.В. 4 Козлов, А.В. Прохоров. – М.: Изд-во Московского Университета, 1987. 5 Stephens, M. A comparison of Bayesian methods for haplotype reconstruction from population genotype data [Электронный ресурс] / M. Stephens, P. Donnelly // Am J Hum Genet. – 2003. – V. 73. – P. 1162-1169. URL http://stephenslab.uchicago.edu/MSpapers/Stephens2003a.pdf (дата обращения: 15.12.2009). 6 Cudworth, A.G. Evidence for HLA-linked genes in ‘juvenile’ diabetes mellitus / A.G. Cudworth, J.G. Woodrow // Br Med J. – 1975. – V. 3. – № 5976. – P. 133-135. 7 nucleotide Carlson, C.S. Selecting a maximally informative set of singlepolymorphisms for association analyses using linkage disequilibrium / C.S. Carlson, M.A. Eberle, M.J. Rieder e.a. // Am J Hum Genet. – 2004. – V. 74. – P. 106-120. 8 Ao, S.I. CLUSTAG: hierarchical clustering and graph methods for selecting tag SNP / S.I. Ao, K. Yip, M. Ng e.a. // Bioinforamatics. – 2005. – V. 21. – P. 1735-1736. 87 9 Barnes, M.R. Bioinformatics for Geneticists. 2nd ed. / M.R. Barnes. - WILEY, 2007. 10 Halldorsson, B.V. Optimal selection of SNP markers / B.V. Halldorsson, S. Istrail, F.M. De La Vega // Hum Hered. – 2004. – V. 58. – P. 190-202. 11 Ke, X.A comparison of tagging methods and their tagging space / X.A. Ke, M.M. Miretti, J. Broxholme e.a. // Hum Mol Genet. – 2005. – V. 14. – P. 27572767. 12 Morton N.E. The optimal measure of allelic association / N.E. Morton, W. Zhang, P. Taillon-Miller e.a. // Proc Nat Acad Sci. – 2001. – V. 98. – P. 52175221. 13 Hill, W. Maximum likelihood estimation of gene location by linkage disequilibrium / W. Hill, B. Weir // Am J Hum Genet. – 1994. – V. 54. – P. 705-714. 14 Kaplan, N.L. Thu use of linkage disequilibrium for estimating the recombination fraction between a marker and a disease gene / N.L. Kaplan, B.S. Weir; ed. by Donnely P.I. – New-York: Springer-Verlag, 1997. – P. 207-219. 15 Edwards, A.W.F. The measure of association in 2 x 2 table / A.W.F. Edwards // J Roy Stat Soc A. – 1963. – V. 126. – P. 109-114. 16 Sham, P.C. Statistics in Human Genetics. London: Arnold Publishers / P.C. Sham. New York: John Wiley and Sons Inc, 1998. 17 Севастьянов, Б.А. Курс теории вероятностей и математической статистики / Б.А. Севастьянов. – М.: Наука. Гл. ред. физ.-мат. лит., 1982. 18 Гмурман, В.Е. Теория вероятностей и математическая статистика. 9-е изд. / В.Е. Гмурман. – М.: Высшая школа, 2003. 19 Terwilliger, J.D. Program SIBPAIR – sib pair analysis on nuclear families [Электронный ресурс] / J.D. Terwilliger, D. Joseph //, Columbia University Medical Center. URL: ftp://linkage.cpmc.columbia.edu (дата обращения: 12.12.2009). 20 Abecasis, G.R. A general test of association for quantitative traits in nuclear families / G.R. Abecasis, L.R. Cardon, W.O. Cookson // Am J Hum Genet. – 2000. – V. 66. – P. 279-292. 88 21 Whittemore, A.S. A class of tests of linkage using affected pedigree members / A.S. Whittemore, J. Halpern // Biometrics. – 1994. – V. 50. – P. 118-127. 22 Goldgar, D.E. Multipoint analysis of human quantitativegenetic variation / D.E. Goldgar // Am J Hum Genet. – 1990. – V. 47. – P. 957-967. 23 Generic Genome Browser Help [Электронный ресурс] // HapMap Project site. http://hapmap.ncbi.nlm.nih.gov/gbrowse 27.10.2005. URL: (дата обращения: help.html 2.05.2010). 24 PHOEBE Biostatistics group. GENESTAT version 2.0 – statistics in genetics [Электронный ресурс] / PHOEBE Biostatistics group // GENESTAT. 10.09.2007. http://www.genestat.org/index.php?n=GeneStat.MeasuresOfLD URL: (дата обращения: 2.05.2010). 25 Amos, C.I. Robust variance components approach for assedding genetic linkage in pedigrees / C.I. Amos // Am J Hum Genet. – 1994. – V. 54. – P. 535-543. 26 Abecasis, G.R. Merlin – rapid analysis of dense genetic maps using sparse gene flow trees [Электронный ресурс] / G.R. Abecasis, S.S. Cherny, W.O. Cookson e.a. // Nat Genet. – 2002. – V. 30. – № 1. – P. 97-101. URL http://www.sph.umich.edu/csg/abecasis/publications/pdf/Nat.Genet.vol.30pp.97.pdf. 27 Heath, S. Markov chain segregation and linkage analysis for oligogenetic models / S. Heath // Am J Hum Genet. – 1997. – V. 61. – P. 748760. 28 Jensen, C.S. Blocking Gibbs sampling in very large probabilistic expert systems / C.S. Jensen, A. Kong, U. Kjaerulff // Int J Hum Comput Stud. – 1995. – V. 42. – P. 647-66. 89 29 Кендалл, М. Многомерный статистический анализ и временные ряды / М. Кендалл, А. Стьюарт. – М.: Наука. Гл. ред. физ.-мат. лит., 1976. – Т.3. 30 Spielman, R.S. Transmission test for linkage disequilibrium: the insulin gene region and insulin-dependent diabetes mellitus / R.S. Spielman, R.E. McGinnis, W.J. Ewens // Am J Hum Genet. – 1993. – V. 52. – P. 506-516. 31 Hedrick, P.W. Mutation and linkage disequilibrium in human mtDNA [Электронный ресурс] / P.W. Hedrick,S. Kumar // Eur. J. Hum. Genet. – 2001. – V. 9. - № 12. – P. 969-972. URL http://www.nature.com/ejhg/journal/v9/n12/pdf/5200735a.pdf (дата обращения: 12.12.2009). 32 The International HapMap Consortium. The International HapMap Project // Nature. – 2003. – V. 426. – P. 789-796. 33 International HapMap Consortium. A haplotype map of the human genome // Nature. – 2005. – V. 437. – P. 1299-1320. 34 Lewontin R. On measures of gametic disequilibrium / R. Lewontin // Genetics. – 1989. – V. 120. – P. 849-852. 35 Liljedahl, U. Detecting imbalanced expression of SNP alleles by minisequencing on microarrays / U. Liljedahl, M. Fredriksson, A. Dahlgren, A.C. Syvanen // BMC Biotechnol. – 2004. – V. 4. – P. 24. 36 Genetics, MERLIN Tutorial [Электронный ресурс] // Center for Statistical University of Michigan School of Public Health. URL : http://www.sph.umich.edu/csg/abecasis/Merlin/tour/ (дата обращения: 02.05.2010). 37 Nielsen, R. Genomic scans for selective sweeps using SNP data / R. Nielsen, S. Williamson, Y. Kim e.a. // Genome Res. – 2005. – V. 15. – P. 1566-1575. 38 Pritchard, J.K. Linkage disequilibrium in humans: models and data / J.K. Pritchard, M. Przeworski / Am J Hum Genet. – 2001. – V. 69. – P. 1-14. 39 Sobel, E. Descent graphs in pedigree analysis: applications to haplotyping, location scores, and marker sharing statistics / E. Sobel, K. Lange // Am J Hum Genet. – 1996. – V. 58. – P. 1323-1337. 90 40 Weir, B.S. Measures of human population structure show heterogeneity among genomic regions / B.S. Weir, L.R. Cardon, A.D. Anderson e.a. // Genome Res. – 2005. – V. 15. – P. 1468-1476. 41 Дубина, И.Н. Математические основы эмпирических социально-экономических исследований / И.Н. Дубина. – Барнаул: Изд-во Алтайского ун-та, 2006. 42 Clark, A.G. Haplotype structure and population genetic inferences from nucleotide-sequence variation in human lipoprotein lepase / A.G. Clark, K.M. Weiss, D.A. Nickerson e.a. // Am J Hum Genet. – 1998. – V. 63. – P. 595-612. 43 Dudbridge, F. Likelihood based association analysis for nuclear families and unrelated subjects with missing genotype data / F. Dudbridge // Hum Hered. – 2008. – V. 66. – P. 87-98. 44 de Bakker, P.I. Efficiency and power in genetic association studies / P.I. de Bakker, R. Yelenskiy, I. Pe’er e.a. // Nat Genet. – 2005. – V. 37. – P. 1217-1223. 45 Syvanen, A.C. A primer-guided nucleotide incorporation assay in the genotyping of apolipoprotein E / A.C. Syvanen, K. Aalto-Setala, L. Harju e.a. // Genomics. – 1990. – V. 8. – P. 684–692. 46 Chen, X., Levine, L., Kwok, P. Y. (1999) Genome Res. 9, 492– 47 Livak, K. J., Marmaro, J., Todd, J. A. (1995) Nat. Genet. 9, 341– 48 Tobe, V. O., Taylor, S. L., Nickerson, D. A. (1996) Nucleic Acids 498. 342. Res. 24, 3728–3732. 49 Wang, D. G., Fan, J. B., Siao, C. J., Berno, A., Young, P., Sapolsky, R., Ghandour, G., Perkins, N., Winchester, E., Spencer, J., et al. (1998) Science 280, 1077–108. 50 Howell, W. M., Jobs, M., Gyllensten, U., Brookes, A. J. (1999) Nat. Biotechnol. 17, 87–88. 91 51 Mein, C. A., Barratt, B. J., Dunn, M. G., Siegmund, T., Smith, A. N., Esposito, L., Nutland, S., Stevens, H. E., Wilson, A. J., Phillips, M. S., et al. (2000) Genome Res. 10, 330–343. 52 Pastinen, T. A system for specific, high-throughput genotyping by allele- specific primer extension on microarrays / T. Pastinen, M. Raitio, K. Lindroos e.a. // Genome Res. – 2000. – V. 10. – P. 1031–1042. 53 Milani L. Genotyping single nucleotide polymorphisms by multiplex minisequencing using tag-arrays / L. Milano, A.C. Syvänen // Methods Mol Biol. – 2009. – V. 529. – P.215-29. 54 Peiffer, D.A. High-resolution genomic profiling of chromosomal aberrations using Infinium whole-genome genotyping / D.A. Peiffer, J.M. Le, F.J. Steemers e.a. // Genome Res. – 2006. – V. 16. – P. 1136–1148. 55 Syvanen A.C. From gels to chips: 'minisequencing' primer extension for analysis of point mutations and single nucleotide polymorphisms / A.C. Syvanen // Hum Mutat. – 1999. – V. 13. – P. 1–10. 56 Fan, J. B., Chen, X., Halushka, M. K., Berno, A., Huang, X., Ryder, T., Lipshutz, R. J., Lockhart, D. J. & Chakravarti, A. (2000) Genome Res. 10, 853–860. 57 Hirschhorn J.N. SBE-TAGS: an array-based method for efficient single- nucleotide polymorphism genotyping / J.N. Hirschhorn, P. Sklar, K. Lindblad-Toh e.a. // Proc Natl Acad Sci U S A. – 2000. – V. 97. - № 22. – P. 12164-12169. 58 Pastinen, T. Minisequencing: a specific tool for DNA analysis and diagnostics on oligonucleotide arrays / T. Pastinen, A. Kurg, A. Metspalu e.a. // Genome Res. – 1997. – V. 7. – P. 606-614. 59 Pasanen, T. DNA Microarray Data Analysis / T. Pasanen, J. Saarela, I. Saarikko e.a. // CSC – Scientific Computing Ltd. – 2003. 60 Saarela, J. Genotyping systems, in DNA Microarray Data Analysis / J. Saarela; ed. by J. Tuimala, M.Minna Laine. – 2006. – P. 32-34. 61 Shoemaker, D.D. Quantitative phenotypic analysis of yeast deletion mutants using a highly parallel molecular bar-coding strategy / D.D. Shoemaker, D.A. Lashkari, D. Morris e.a. // Nat. Genet. – 1996. – V. 14. – P. 450–456. 92 62 Cai, H. Flow cytometry-based minisequencing: a new platform for high-throughput single-nucleotide polymorphism scoring / H. Cai, P.S. White, D. Torney e.a. // Genomics. – 2000. – V. 66. – P. 135-143. 63 Lindroos, K. Multiplex SNP genotyping in pooled DNA samples by a four-colour microarray system / K. Lindroos, S. Sigurdsson, K. Johansson e.a. // Nucleic Acids Res. – 2002. – V. 30. – P. 70. 64 Lindroos, K. Genotyping SNPs by Minisequencing Primer Extension Using Oligonucleotide Microarrays / K. Lindroos, U. Liljedahl, A.C. Syvänen // Methods in Molecular Biology/ - 2003. – V. 212. – P. 149-165. 65 Lovmar, L. Quantitative evaluation by minisequencing and microarrays reveals accurate multiplexed SNP genotyping of whole genome amplified DNA / L. Lovmar, M. Fredriksson, U. Liljedahl e.a. // Nucleic Acids Res. – 2003. – V. 31. – P. 129. 66 Chen, D. High-resolution high-throughput SNP mapping in Drosophila melanogaster / D. Chen, A. Ahlford, F. Schnorrer e.a. // Nature Methods. – 2007. – V. 5. – P. 323-329. 67 Andres, O. A microarray system for Y chromosomal and mitochondrial single nucleotide polymorphism analysis in chimpanzee populations / O. Andres, A.-C. Ronn, M. Bonhomme e.a. // Mol Ecol Resources. – 2008. – V. 8. – P. 529-539. 68 Fredriksson, M. Assessing hematopoietic chimerism after allogeneic stem cell transplantation by multiplexed SNP genotyping using microarrays and quantitative analysis of SNP alleles / M. Fredriksson, G. Barbany, U. Liljedahl e.a. // Leukemia. – 2004. – V.18. – P. 255-266. 69 Schrijver, I. Comprehensive arrayed primer extension array for the detection of 59 sequence variants in 15 conditions prevalent among the (Ashkenazi) Jewish population / I. Schrijver, M. Külm, P.I. Gardner e.a // J Mol Diagn. – 2007. – V. 9. - № 2. – P. 228-236. 93

этап 3 - НИИ Биологии - Южный федеральный университет

Related documents

Products

Support

этап 3 - НИИ Биологии - Южный федеральный университет

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib