Автореферат диссертации «Управление процентным риском

advertisement
На правах рукописи
БЕЛОНОГОВА НАДЕЖДА МИХАЙЛОВНА
РАЗРАБОТКА МЕТОДОВ КАРТИРОВАНИЯ ГЕНОВ НА ОСНОВЕ
РОДОСЛОВНЫХ СЛОЖНОЙ СТРУКТУРЫ
03.02.07 – Генетика
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата биологических наук
Новосибирск 2010
Работа выполнена в лаборатории рекомбинационного и сегрегационного анализа
Учреждения Российской академии наук Институт цитологии и генетики Сибирского
отделения РАН, г. Новосибирск и на кафедре цитологии и генетики Новосибирского
государственного университета
Научный руководитель:
д.б.н., профессор
Аксенович Татьяна Иосифовна
Институт цитологии и генетики
СО РАН, г. Новосибирск
Официальные оппоненты:
д.б.н., профессор
Маркель Аркадий Львович
Институт цитологии и генетики
СО РАН, г. Новосибирск
д.б.н. Бажан Сергей Иванович
ГНЦ ВБ «Вектор», Кольцово
Ведущее учреждение:
НИИ медицинской генетики
ТНЦ СО РАМН, г. Томск
Защита диссертации состоится 7 апреля 2010 г. на утреннем заседании диссертационного совета Д 003.011.01 в Институте цитологии и генетики СО РАН в конференцзале Института по адресу: 630090, г. Новосибирск, пр. Лаврентьева, д.10, тел/факс:
(383)3331278, e-mail: dissov@bionet.nsc.ru
С диссертацией можно ознакомиться в библиотеке Института цитологии и генетики
СО РАН.
Автореферат разослан 2 марта 2010 г.
Ученый секретарь
диссертационного совета,
доктор биологических наук
Хлебодарова Т.М.
I. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность проблемы
Картирование генетических локусов, контролирующих различные признаки человека и животных, является важной и актуальной проблемой современной генетики.
За последние годы были успешно секвенированы геномы многих видов, и все же
функции большинства генов и фенотипическое проявление их аллельных вариантов
во многом остаются неизвестными. Успешное картирование генов позволяет глубже
понять механизмы развития многих распространенных заболеваний, разработать
эффективные профилактические и терапевтические меры и методы ранней диагностики.
За последние десятилетия генетика значительно продвинулась в этом направлении. С помощью рекомбинационного анализа были картированы многие локусы, в
том числе участвующие в контроле таких широко распространенных заболеваний
как диабет, болезнь Альцгеймера, некоторые формы рака (Risch, 2000; Gulcher et al.,
2001; Botstein and Risch, 2003). Главным образом были картированы гены большого
эффекта, оказывающие сильное влияние на фенотип, поскольку такие гены проще
всего обнаружить. Однако, основная часть наследуемых признаков формируется при
совместном участии большого числа генов, каждый из которых в отдельности оказывает незначительный эффект (Lohmueller et al., 2003; Hirschhorn and Daly, 2005;
Collins, 2007). Поиск аллелей малого эффекта – важная задача генетической эпидемиологии, поскольку предполагается, что такие аллели играют существенную роль в
развитии многих распространенных болезней, в том числе, гипертонии, сахарного
диабета, ишемической болезни сердца, нейродегенеративных заболеваний и многих
форм рака (Hirschhorn and Daly, 2005; Mayeux, 2005).
Между тем, картирование генов со слабо выраженным эффектом сопряжено с рядом трудностей. Чтобы достичь необходимой мощности статистических тестов,
нужны большие выборки, включающие десятки и сотни тысяч людей. В результате
формируются большие массивы данных, обработка которых создает вычислительные проблемы. Многие существующие пакеты программ не в состоянии работать с
выборками такого размера. В настоящее время не существует статистических методов, достаточно полно учитывающих специфику комплексных болезней и обладающих достаточно высокой мощностью для того, чтобы надежно картировать генетические локусы сложных признаков.
В качестве объекта для исследований такого рода особый интерес представляют
изолированные популяции человека. Известно, что в таких популяциях редкие аллельные варианты встречаются с относительно высокой частотой, что увеличивает
шансы успешно картировать их позицию в геноме (Terwilliger et al., 1998; Peltonen,
2000; Peltonen et al., 2000; Chapman and Thompson, 2001; Rannala, 2001). В последние
годы в нескольких странах Европы были собраны большие родословные и сформированы большие массивы данных по изолированным популяциям человека (см.,
например, Aulchenko et al., 2004). Однако анализировать данные такого объема практически невозможно с применением существующих методов. Исследователи вынуждены дробить родословные на фрагменты и анализировать их по отдельности, теряя
при этом генетическую информацию. Прогресс в данной области существенно зависит от разработки новых эффективных аналитических методов, которые позволили
бы извлечь максимум полезной информации из доступного материала.
1
Цели и задачи исследования
Целью исследования является разработка новых, эффективных методов статистического анализа, позволяющих картировать гены комплексных признаков человека.
Для достижения цели были поставлены следующие задачи:
1. Разработать новые методы и алгоритмы анализа, повышающие эффективность
картирования локусов комплексных признаков на материале больших родословных, включающие:
a. алгоритм оптимизации подсчета функции правдоподобия на материале
большой родословной;
b. метод полногеномного анализа ассоциаций, учитывающий эффект родительского (материнского/отцовского) происхождения аллелей, на больших родословных.
2. С помощью существующих и новых методов картирования провести анализ
некоторых комплексных признаков человека: роста и индекса массы тела.
Научная новизна
Разработан ряд новых методов и алгоритмов, позволяющих оптимизировать процесс поиска генов комплексных признаков на родословных сложной структуры:
 разработан и реализован в виде компьютерной программы алгоритм оптимизации подсчета функции правдоподобия большой родословной; на ряде примеров
показано, что он ускоряет вычислительные процедуры в 1.8–3.2 раза;
 описана модель генетического контроля количественного признака, включающая эффект родительского (материнского/отцовского) происхождения аллелей, и
на ее базе создан метод картирования генов, позволяющий быстро производить
полногеномный анализ с использованием большого числа генетических маркеров;
показано, что разработанный метод обладает большей мощностью, чем существующие аналоги.
С использованием существующих и новых методов картирования проведен анализ комплексных признаков человека: роста и индекса массы тела. Обнаружены новые районы локализации генов, контролирующих эти признаки. Впервые показана
ассоциация анализируемых признаков с рядом локусов, обладающих эффектом родительского происхождения аллелей.
Теоретическая и практическая ценность
В рамках подхода генетического картирования предложены новые алгоритмы и
модели, их свойства проверены в модельном эксперименте и на реальных данных.
Впервые полногеномный анализ ассоциаций произведен с учетом эффекта родительского происхождения аллелей. В результате анализа комплексных признаков человека найдены новые генетические варианты, в том числе показана ассоциация индекса массы тела с генами молекул клеточной адгезии LOC338667/CDON, NLGN1,
CNTNAP5 и CNTN3, влияющими на развитие и функционирование нервной системы.
Результаты анализа подтверждают существующие представления о механизмах генетического контроля роста и индекса массы тела человека и роли регуляторных генов в определении разнообразия по данным признакам. В перспективе, полученные
результаты будут способствовать прогрессу в области диагностики генетической
предрасположенности к ожирению, диабету, раку, когнитивным расстройствам и
другим распространенным заболеваниям.
2
Личный вклад автора
Разработка алгоритмов и методов генетического анализа, реализация их в виде
компьютерных программ, а также весь статистический анализ выполнены автором
самостоятельно. Материал (родословная, значения признаков и генотипов большого
числа маркеров) был собран и любезно предоставлен сотрудниками Медицинского
центра Эразмус (Роттердам) в рамках совместного исследования РФФИ-NWO.
Апробация работы
Результаты работы докладывались на Европейской Конференции по Генетике Человека (Ницца, 2007) и на Съезде Вавиловского Общества Генетики и Селекции
(Москва, 2009).
Структура и объем работы
Работа состоит из 5 глав, введения, заключения и выводов, содержит 9 рисунков,
14 таблиц и приложение. Объем работы – 122 страницы.
Публикации
По теме диссертации опубликовано 9 работ, в том числе статьи в журналах “Computational Biology and Chemistry”, “Human Genetics”, “European Journal of Human Genetics”, “Annals of Human Genetics”.
II. ОСНОВНОЕ СОДЕРЖАНИЕ ИССЛЕДОВАНИЯ
Оптимизация подсчета функции правдоподобия больших родословных
Большая часть методов генетического картирования основана на оценке максимального правдоподобия. Функция правдоподобия для произвольной родословной в
общей форме может быть записана следующим образом:

 
LH   P( X | G ) P(G ),


G

где X – матрица наблюдаемых фенотипов для всех членов родословной, G – матрица их ненаблюдаемых генотипов (Elston and Stewart, 1971), а суммирование выполняется по всем возможным генотипическим конфигурациям. Сложность расчета
этой формулы определяется числом возможных генотипических комбинаций и может быть записана как
N
CC   | g i |,
i 1
где N – число особей в родословной, а |gi| - число возможных генотипов для i-го члена родословной. Если родословная большая, или число возможных генотипов велико, значение функции правдоподобия невозможно вычислить за реальное время.
Проблему можно решить с использованием так называемой свертки по методу
Эльстона—Стюарта (Elston and Stewart, 1971). В основе идеи свертки лежит тот
факт, что некоторые части функции правдоподобия условно независимы, и правдоподобие этих частей можно оценивать последовательно. Объем вычислительных ресурсов, который требуется для подсчета значения функции правдоподобия этим путем, в большой степени зависит от выбора условно независимых частей функции и
от порядка их свертки. Было предложено несколько алгоритмов выбора оптимальной последовательности свертки (Thomas, 1986; Harbron, 1995; Fernandez and
3
Fernando, 2002), но все они были разработаны для родословных, содержащих петли.
До сих пор считалось, что только при анализе родословных с петлями последовательность свертки имеет решающее значение. Для родословных без петель единицей
свертки является ядерная родословная (ЯР), и сложность расчета функции правдоподобия пропорционально числу ЯР. Считалось, что порядок свертки для таких родословных может быть любым. Но даже для родословной без петель порядок свертки
может играть существенную роль. Использование оптимальной последовательности
свертки позволяет значительно сократить время вычисления функции правдоподобия. Для этой цели мы разработали новый алгоритм, позволяющий определить оптимальную последовательность свертки родословной без петель.
Процедура свертки
Любая родословная может быть представлена набором ЯР, где одна ЯР связана с
другой через одну единственную особь, входящую в состав обеих ЯР (рис. 1A,B).
Таких особей называют коннекторами. ЯР с единственным коннектором называется
конечной ЯР. В родословной без петель каждая операция свертки переносит информацию о конечной ядерной ЯР на генотипы соответствующего коннектора. В результате число ЯР в родословной сокращается на единицу. Если при этом число
коннекторов у следующей ЯР сокращается до одного, то эта ЯР становится конечной. Чтобы вычислить значение функции правдоподобия всей родословной, нужно
последовательно свернуть все ЯР. Если родословная не содержит петель, то все ЯР
можно свернуть, используя всего два типа свертки: свертка на родителя и свертка на
потомка. При этом свертка на родителя всегда предпочтительнее, поскольку осуществляется с минимальным объемом вычислений. Тип свертки, используемый для
конкретной ЯР, может зависеть от последовательности предыдущих сверток. Таким
образом, общий порядок свертки может сильно влиять на длительность расчета значения функции правдоподобия.
В двух случаях свертка ЯР всегда может быть осуществлена оптимальным способом: 1) конечная ЯР всегда может быть свернута на родителя, если ее коннектор –
один из родителей; 2) последняя ЯР может быть свернута на родителя при любой
последовательности свертки всей родословной. Функция правдоподобия для всей
родословной может быть посчитана без использования свертки на потомка, если в
родословной нет ни одной ЯР, такой что оба ее родителя имеют своих предков в родословной. Если в родословной есть хотя бы одна такая ЯР, родословную не удастся
свернуть, используя только свертку на родителя. В этом случае время вычисления
функции правдоподобия будет зависеть от того, какие именно ЯР будут свернуты на
потомка.
Алгоритм оптимального порядка свертки
Представим родословную в виде ориентированного графа H, где ЯР являются
вершинами, а направленным ребрам присвоены веса (рис. 1C). Например, соседние
ядерные родословные ЯР1 и ЯР2, имеющие общего коннектора К1-2, будут представлены вершинами V1 и V2, соединенными двумя противоположно направленными ребрами, C1-2 и С2-1. Веса ребер C1-2 и С2-1 определяются временем вычисления свертки
ЯР1 или ЯР2 на коннектора К1-2.
Выберем одну из вершин графа, VR, и создадим простой взвешенный граф Т, где
ЯР – вершины, и две соседние ЯР соединены ребром тогда и только тогда, если между ними есть ребро в графе H. Вес ребра между Vi и Vj в графе Т равен весу того из
4
A
B
C
D
v1
v1
C2-1
C1-2
B
C2-5
v4
C3-6
C5-2
v5
C6-3
C8-5
v4
v5
v6
C6-8
C7-4
C8-5
C8-6
v7
v7
v8
C8-9
v9
C3-6
C5-2
v6
C4-7
C7-4
C4-2
C6-8
C5-8
v3
v2
v3
v2
C2-4
C4-2
C2-1
C8-11
C9-8
C11-8
C10-8
C8-10
v8
C9-8
C11-8
v11
v9
C10-8
v11
v10
v10
Рис. 1. Построение графа на основе родословной. A) Исходная родословная; B) Та
же родословная, представленная набором ядерных родословных; C) Взвешенный
граф родословной: жирные стрелки указывают предпочтительное направление
свертки – на родителя, потенциальные конечные вершины показаны серым цветом;
D) Взвешенное корневое дерево с корнем в вершине V1.
двух соответствующих ребер графа H, которое направлено в сторону VR. Граф Т –
взвешенное корневое дерево, корень которого – вершина VR (рис. 1D).Любая вершина графа H может служить корнем для построения взвешенного корневого дерева.
Операция свертки равносильна обрезанию листа графа Т, то есть вершины, связанной только с одной другой вершиной. Свертка начинается с листьев и завершается у
корня. Известно, что существует единственный путь между любой вершиной и корнем дерева Т. Поэтому порядок обрезания листьев полностью определяется выбором
корневой вершины. Таким образом, время вычисления, С, для свертки родословной
можно рассчитать как сумму весов всех ребер Т плюс время свертки корневой ЯР.
Корневое дерево с минимальным значением С соответствует оптимальному порядку
свертки.
В общем случае, любую вершину графа H можно рассматривать как потенциальный корень, и значения С нужно было бы посчитать для всех возможных корневых
деревьев Т. Но учитывая тот факт, что граф H был построен на основе родословной,
некоторые вершины можно исключить из списка возможных решений. Оптималь-
5
ным может быть только такой порядок свертки, при котором оба родителя корневой
ЯР являются основателями в исходной родословной. Действительно, если один из
родителей выбранной ЯР имеет предков в родословной, то эта ЯР может быть свернута на родителя, и выбор соседней ЯР в качестве корня может оказаться более эффективным. Решение гарантированно окажется среди ЯР, в которых родители не
имеют предков в родословной. Поэтому достаточно сравнить значения С только для
тех деревьев Т, корни которых соответствуют таким ЯР.
Таким образом, предлагаемый алгоритм поиска оптимального порядка свертки
родословной включает следующие этапы.
1. Родословная представляется в виде графа H, где ЯР служат вершинами.
2. Вес каждого ребра Ci-j графа Н определяется как время вычисления свертки ядерной родословной i на коннектора ij.
3. Определяется набор потенциальных решений – набор ЯР, в которых родители не
имеют предков в исходной родословной.
4. Для каждой ЯР из этого набора создается взвешенное корневое дерево Т, общий
вес С рассчитывается как сумма весов всех ребер Сi-j графа Т плюс время вычисления свертки корневой ЯР на родителя.
5. Оптимальный порядок свертки соответствует дереву с минимальным общим весом.
Мы протестировали алгоритм на трех больших родословных разного размера и с
разным числом генотипированных особей (табл. 1). Родословные содержали множественные петли, которые были разрезаны.
Таблица 1 показывает, что среднее время вычисления при случайном выборе порядка свертки в 1.8–3.2 раз больше минимального. При произвольном выборе порядка
свертки всех трех родословных очень низка вероятность того, что время вычисления
функции будет минимальным или близким к минимальному (табл. 1). Следовательно, предлагаемый алгоритм может существенно сократить время вычисления значения функции правдоподобия.
Табл. 1. Структура родословной и вычислительная сложность расчета функции
правдоподобия.
Число
Вычислительная сложность (CC)
Минимум
РодосГенотипиСредняя,
(Опти- Средняя/
ловная Особей рованных ЯР Максимум
± s.e.
мальная минимум
особей
свертка)
Человекa 114
112
39 6.760∙104 6.557±0.093∙104 3.054∙104
2.15
b
7
7
6
Лиса
1845
1056
788 1.335∙10 1.311±0.001∙10 4.126∙10
3.18
c
7
6
6
Песец
952
617
359 2.664∙10 8.279±0.229∙10 4.604∙10
1.80
a
фрагмент родословной из голландской изолированной популяции человека (Pardo
et al., 2009)
b
фрагмент родословной чернобурой лисы, составленной по записям скрещиваний
Экспериментальной Фермы Института цитологии и генетики СО РАН
c
фрагмент родословной песца, составленной по записям скрещиваний Пушкинской
пушной фермы, Московский р-н (Axenovich et al., 2007)
6
Разработанный алгоритм и компьютерная программа PedPeel являются частью
пакетов программ, предназначенных для комплексного сегрегационного и параметрического рекомбинационного анализа признаков в больших родословных
MQscore_SNP и MAN_H_PG. Эти пакеты доступны по интернет-адресу
http://mga.bionet.nsc.ru/soft/index.html. Программа PedPeel внесена в библиотеку программ для генетического анализа, созданную в Рокфеллеровском университете
(http://linkage.rockefeller.edu/soft/).
Анализ ассоциаций с учетом эффекта родительского происхождения аллелей
Основной причиной эффекта родительского происхождения аллелей является геномный импринтинг. Суть его состоит в том, что материнский и отцовский аллели
одного и того же гена в разной степени участвуют в формировании организма потомка (Назаренко, 2004; Лебедев, 2008; Ubeda, 2008). Импринтинг обусловливает частичное или полное замолкание аллеля, унаследованного от родителя определенного
пола. Существенная роль импринтинга в индивидуальном развитии млекопитающих
была широко признана наукой в последние годы. Считается, что > 1% генов млекопитающих проявляют эффект родительского происхождения аллелей при экспрессии, однако большая часть этих генов до сих пор не идентифицирована.
На уровне признака импринтинг проявляется следующим образом. Для импринтированного гена с аллелями А и а можно выделить два типа гетерозигот. Обозначим гетерозиготный генотип Аа, если аллель А достался потомку от матери, и аА, если аллель А был унаследован от отца. Если ген контролирует качественный признак,
то будет отличаться пенетрантность и/или экспрессивность генотипов Аа и аА. Если
признак количественный, то эти два типа гетерозигот будут отличаться по среднему
значению этого признака: (E (yi) | Aа) ≠ (E (yi) | аA). Зависимость проявления аллеля в
признаке потомка от пола родителя, передавшего ему этот аллель, получила название эффекта родителя.
Существуют указания на то, что импринтированные гены могут участвовать в
контроле многих широко распространенных заболеваний человека, в том числе рака,
диабета, ожирения, кожных заболеваний, когнитивных и поведенческих расстройств, играть роль в развитии астмы, алкоголизма, аутизма, болезни Альцгеймера, шизофрении и других психических заболеваний (Назаренко, 2004; Лебедев, 2008;
Millington, 2006; Crespi, 2008; Rampersaud, 2008; Stoger, 2008). Поиск генов, участвующих в развитии заболеваний со сложным генетическим контролем, можно сделать более эффективным, если учесть эффект импринтинга в модели полногеномного анализа ассоциаций.
При анализе ассоциаций на семейных данных наибольшую статистическую мощность показывает метод измеренных генотипов – MG (Measured Genotype) (Hopper
and Mathews, 1982; Boerwinkle et al., 1986; Lange et al., 2005; Aulchenko et al., 2007).
Однако в рамках этого подхода до сих пор не была реализована аналитическая модель, учитывающая родительское происхождение аллелей.
Метод измеренных генотипов обычно реализуется с помощью критерия отношения правдоподобия. Возьмем диаллельный маркерный локус с аллелями А и а. Зададим вектор генотипов g с элементами 0 для генотипа АА, 1 для генотипа Аа и 2 для
генотипа аа. Вектор g можно ввести в смешанную аналитическую модель, которая
описывает как эффект анализируемого маркера, так и полигенную дисперсию:
7
yi    k g g i    j cij  Gi  ei
(1)
,
j
где yi – значение количественного признака i-ой особи, μ – среднее значение этого
признака, kg – величина аллельного эффекта, βj – эффект j-той ковариаты, cij – значение вектора j-той ковариаты для i-той особи, G и e – вектора полигенных эффектов и
средовых остатков. При необходимости в данную модель можно включить еще один
параметр, описывающий эффект доминирования.
Поскольку современные вычислительные возможности не позволяют производить
этим методом полногеномный анализ на родословных большого размера, недавно
были предложены подходы к быстрой аппроксимация данного метода (Aulchenko et
al., 2007; Chen and Abecasis, 2007). Стратегия, предложенная в работе (Aulchenko et
al., 2007), носит название GRAMMAR (Genomewide Rapid Association using Mixed
Model And Regression) и включает три этапа. На первом этапе используется модель
yi      j cij  Gi  ei
j
и вычисляются средовые остатки признака, свободные от полигенной компоненты
дисперсии
yi*  eˆi  yi  (ˆ   ˆ j cij  Gˆ i ) ,
j
где êi , ̂ , ̂ j и Ĝi – оценки еi, μ, βj and Gi. На втором этапе маркеры тестируются
на ассоциацию с полученными средовыми остатками путем простой линейной регрессии:
yi* = μ + kggi + ei.
По результатам регрессионного анализа отбираются маркеры с наиболее высокими значениями статистики. Для этих маркеров проводится третий этап анализа – тестирование методом измеренных генотипов согласно модели (1).
Нашей целью была разработка метода, позволяющего тестировать эффект родительского происхождения аллелей в рамках метода измеренных генотипов (MG), в
том числе производить поиск этого эффекта по всему геному и на больших родословных с использованием поэтапной стратегии анализа (GRAMMAR).
Описание метода
Чтобы ввести в модель эффект родителя, необходимо провести различие между
двумя типами гетерозигот. Обозначим гетерозиготный генотип Аа, если аллель А
был унаследован от матери, и аА, если аллель А был унаследован от отца. Зададим
вектор родительского происхождения аллелей р как [(число аллелей А материнского
происхождения) – (число аллелей А отцовского происхождения)]. Вектор будет содержать значения 0, 1, –1 и 0 для генотипов АА, Аа, аА и аа, соответственно. Чтобы
учесть информацию об эффекте родителя при картировании методом измеренных
генотипов, мы предлагаем ввести этот вектор родительского происхождения аллелей
в качестве ковариаты в смешанную линейную модель:
yi    kg gi  kp pi    j cij  Gi  ei ,
(2)
j
где kр – величина эффекта родительского происхождения аллелей, а остальные обозначения те же, что в формуле (1). Если анализ проводится методом GRAMMAR, то
8
вектор родительского происхождения аллелей можно ввести в регрессионную модель на втором этапе анализа:
yi* = μ + kggi + kppi + ei.
По результатам анализа этой регрессионной модели можно отобрать маркеры с
наиболее высокими значениями статистики и провести для них анализ методом измеренных генотипов согласно модели (2).
Родительское происхождение аллелей потомка можно определить, если известны
генотипы родителей. При определенных сочетаниях генотипов отца и матери это
можно сделать на основе генотипов единственного диаллельного маркера. Но если
потомок и оба родителя гетерозиготны по этому маркеру, то такой информации недостаточно для того, чтобы восстановить родительское происхождение аллелей.
Проблему можно решить, если доступны генотипы сразу по многим локусам. В этом
случае можно восстановить гаплотипы, унаследованные потомком от отца и от матери. Мы предлагаем использовать информацию о фланкирующих локусах посредством гаплотипирования для того, чтобы восстановить родительское происхождение
аллелей.
Таким образом, предлагаемый метод состоит из двух этапов:
(1)определение родительского происхождения аллелей в родословной произвольной
сложности. Для диаллельных маркеров это можно сделать с помощью многоточечной реконструкции гаплотипов согласно наиболее вероятному паттерну наследования;
(2)использование вероятностей родительского происхождения аллелей в анализе методом измеренных генотипов в качестве ковариаты в линейной смешанной модели или в регрессионной модели на втором этапе анализа методом GRAMMAR.
Эффективность метода
Мы сравнили нашу процедуру на основе GRAMMAR с существующим аналогичным подходом на основе TDT (Transmission/Disequilibrium Test – тест передачи/неравновесия, Spielman et al., 1993), доступным в пакете QTDT (Abecasis et al.,
2000). Мы смоделировали количественный признак на трех типах родословных:
ядерные родословные (ЯР), идеализированная популяция свиней (ИПС) и большая
реальная родословная изолированной популяции человека (ERF, Erasmus Rucphen
Family). В каждой выборке было по 1010 фено- и генотипированных особей. Наследуемость количественного признака была установлена на уровне 0.3, 0.5 или 0.8.
Мощность оценивалась для значений главного аллельного эффекта 1, 2 и 3% от общей дисперсии признака. При этом эффект родителя объяснял 0.5, 1 и 1.5% от общей дисперсии, соответственно.
Мы оценивали родительское происхождение аллелей, сравнивая гаплотипы родителей и потомков. Эффективность определения родительского происхождения аллелей с помощью такой реконструкции гаплотипов показана в таблице 2. Для всех типов родословных гаплотипирование оказалось значительно более эффективным инструментом по сравнению с методом, использующим генотипы единственного локуса. Реконструкция гаплотипов позволила определить родительское происхождение
аллелей почти для всех гетерозиготных потомков, для которых это было теоретически возможно (табл. 2). Вероятность ошибочного установления родительского происхождения аллелей при гаплотипировании была очень низка (< 0.003%). Преиму-
9
Табл. 2. Доля особей, для которых было определено родительское происхождение
аллелей.
Метод
Среднее число
По
генотипам
единРодословная
информативныха
ственного
По гаплотипамb, %
особей
локуса, %
ИПС
157.4
87.5
99.9
ЯР
106.4
89.4
97.3
ERF
55.1
66.0
97.5
а
только особи, гетерозиготные по анализируемому локусу и имеющие хотя бы одного генотипированного родителя, считались информативными
b
для каждой особи рассматривался только наиболее вероятный гаплотип
ИПС
ЯР
ERF
Рис. 2. Статистическая мощность предлагаемого теста, учитывающего эффект родительского происхождения аллелей наряду с основным аллельным эффектом, (черные линии и кружки) и существующего аналогичного теста на основе TDT (серые
кривые и кружки). Кривые – аппроксимации мощности, рассчитанные исходя из линейной зависимости между параметром нецентральности и размером эффекта локуса. Кружки указывают эмпирическую оценку мощности при  = 0.01. Ось Y каждой
панели указывает мощность, ось X – долю общей дисперсии признака, которая объясняется аллельным эффектом анализируемого локуса. Размер эффекта родителя равен половине размера соответствующего аллельного эффекта.
10
щества данного подхода особенно заметны для родословной человека, где доля особей с восстановленным родительским происхождением аллелей увеличилась с 66%
до 98% от теоретически возможного (табл. 2).
Ошибки I рода для тестов на основе TDT находились в хорошем соответствии с номинальным 5%-ным уровнем, тогда как для тестов на основе GRAMMAR эти значения были ниже. Наблюдалась слабая тенденция к снижению ошибки первого рода с
увеличением наследуемости. Рисунок 2 показывает мощность разных методов при
детекции импринтированного локуса. Тест на основе GRAMMAR всегда показывал
самую высокую мощность, особенно на родословных ЯР и ERF. Хотя мощность
обоих тестов была одинакова для родословной ИПС и наследуемости 50% и 80%,
мощность GRAMMAR здесь недооценена по причине консервативности теста (более
низких ошибок I рода). На родословной человека (ERF) мощность теста на основе
TDT сильно упала. В действительности мощность была еще ниже, чем показано на
рисунке 2, поскольку 16–29% тестов не было выполнено из-за недостаточной информативности данных для проведения теста. По умолчанию пакет QTDT не анализирует выборки с < 30 информативных особей. Среднее число информативных мейозов было 26.3 среди неуспешных реализаций TDT и 40.3 среди успешных.
Таким образом, мы показали, что наша процедура детекции эффекта родительского происхождения аллелей является более мощной по сравнению с традиционным
подходом на основе TDT и позволяет анализировать данные, не информативные для
метода TDT. Мы также проверили свойства предлагаемого теста при анализе локуса,
не проявляющего эффекта родителя. Статистика теста не была завышена, т.е. тест не
давал ложноположительных результатов. Высокая скорость анализа позволяет применять предлагаемый метод для полногеномного сканирования.
Картирование генов, контролирующих рост взрослого человека
Рост взрослого человека детерминируется как средовыми, так и генетическими
факторами. Доля последних велика, она составляет 85–95% (Phillips and Matheny,
1990; Carmichael and McGue, 1995; Silventoinen et al., 2003; Visscher et al., 2007;
Axenovich et al., 2009). Первые генетические исследования роста были выполнены
более 120 лет назад Ф. Гальтоном (Galton, 1886). Вскоре рост стал рассматриваться
как модельный признак – пример классического полигенного наследования, обеспечиваемого малыми аддитивными эффектами большого числа генов (Fisher, 1918).
В течение почти ста лет предпринимались многочисленные попытки поиска генетических вариантов, контролирующих рост. Эти попытки долгое время были безуспешны, поскольку для картирования генов малого эффекта нужны огромные выборки. Только недавно, в 2008 году, при анализе выборки из ~63 000 человек были
обнаружены 54 локуса, надежно ассоциированные с нормальным ростом человека
(Gudbjartsson et al., 2008; Lettre et al., 2008; Weedon et al., 2008). Каждый из этих локусов объяснял 0.1–0.5% дисперсии роста, но взятые в совокупности, они могли
предсказать не более 7% разнообразия признака в выборке. Учитывая, что генетическая компонента составляет 85–95% дисперсии признака, становится ясно, что известные сейчас 54 локуса – это лишь малая часть генов, детерминирующих рост, и
предстоит еще огромная работа по картированию остальных генов. Успешная идентификация этих генов позволит глубже понять механизмы роста и развития, а также
прояснить генетическую архитектуру комплексных признаков и выявить наиболее
эффективные способы их генетического анализа. Картирование локусов, контроли-
11
рующих рост, желательно еще и потому, что были найдены ассоциации между ростом и некоторыми заболеваниями человека, включая рак (Gunnell et al., 2001). Для
идентификации новых генов, контролирующих рост, необходимо либо повышать
информативность выборок, либо увеличивать статистическую мощность методов
анализа.
Целью исследования, представленного в этой главе, является поиск новых генов,
контролирующих рост. Для анализа мы использовали материал огромной родословной из голландской изолированной популяции, поскольку выборки из изолированных популяций являются наиболее информативными для генетического картирования (Peltonen et al., 2000). Еще один эффективный способ увеличения мощности методов картирования заключается в уточнении модели наследования признака. Известно, что наследование роста сопряжено с эффектом родительского происхождения аллелей (Fradin et al., 2006). Таким образом, в данном исследовании мы провели
полногеномный анализ ассоциаций с применением не только классической аддитивной модели аллельного эффекта, но и разработанной нами модели, учитывающей
родительское происхождение аллелей.
Материал для анализа (родословная, значения признаков и генотипов большого
числа маркеров) был собран и любезно предоставлен сотрудниками Медицинского
центра Эразмус (Роттердам, Нидерланды) в рамках совместного исследовательского
проекта. Родословная ERF включала 23 612 человек, потомков 22 пар основателей,
живших в районе Рюкфен в 19-м веке. Для части ныне живущих членов родословной
были известны фенотипы и генотипы по SNP маркерам панели Illumina 312K. После
контроля качества данных итоговая выборка составила 989 человек для анализа аллельного эффекта и 452 человека – для анализа эффекта родительского происхождения аллелей. Анализ аллельного эффекта был проведен для 261 807 SNP маркеров,
анализ эффекта родителя – для 254 482 SNP маркеров (только аутосомы).
Наиболее сильные свидетельства в пользу ассоциации были получены для локусов ANXA5 (рис. 3, слева), SFRP5, LOC392288/ACER2 (рис. 3, справа),
ZNF775/REPIN1/RARRES2, TSPAN9. Кроме того, значения р < 5 × 10 5 получены еще
для 24 локусов. Большинство найденных локусов содержит гены, информация о
функции которых или исследования нокаутных мышей позволяют предположить их
влияние на рост человека. В основном это гены, вовлеченные в процессы передачи
сигналов и регуляцию транскрипции (среди них ANXA5 и SFRP5), участвующие в
построении цитоскелета и кодирующие мембранные белки. С помощью аналитической модели, учитывающей эффект родительского происхождения аллелей были
идентифицированы гены факторов транскрипции, участников сигнальных путей
Rho/Rac- и G-белков, а также гены с пока неизвестной функцией. Значительную долю представляют регуляторные гены, играющие важную роль в эмбриогенезе (в том
числе гены локуса ZNF775/REPIN1/RARRES2).
Картирование генов, контролирующих индекс массы тела человека
Индекс массы тела (ИМТ) определяется как отношение массы тела в килограммах
к квадрату роста в метрах, измеряется в кг/м2 и показывает, таким образом, соотношение веса и роста человека (см., например, Mascie-Taylor and Goto, 2007; Eknoyan,
2008). С середины прошлого века ИМТ активно используется в медицинской практике для диагностики ожирения. Хотя ИМТ не измеряет напрямую долю жировой
-
12
Рис. 3. Локусы с самым высоким значением статистики при анализе аллельного эффекта (ANXA5 на хромосоме 4, слева) и эффекта родительского происхождения аллелей (LOC392288/ACER2 на хромосоме 9, справа) на рост. Позиции маркеров rs6823721 и
rs7865226, показавших самое высокое значение статистики, занимают центральное положение по оси Х. Верхняя часть графиков
показывает значения р в отрицательной логарифмической шкале для каждого маркера в интервале ±1Mb от позиции центрального маркера. Гены, лежащие в данном интервале, изображены разными цветами. Черная линия на нижней части графика показывает частоту рекомбинации, сМ/Mb, пунктирная линия – генетическое расстояние от центрального маркера, сМ. Позиции маркеров,
генов и рекомбинационная карта (выборка CEU, HapMap) соответствуют сборке 36.3 NCBI reference.
ткани, он позволяет до некоторой степени оценить, является ли масса тела недостаточной, нормальной, или избыточной.
Наследуемость ИМТ оценивается по разным данным от 20 до 90% (Maes et al.,
1997; Magnusson and Rasmussen, 2002; Hebebrand and Hinney, 2009; Lee, 2009). Как и
в случае с ростом, несмотря на значительные усилия, полиморфные генетические варианты, влияющие на разнообразие по ИМТ в популяции, долгое время не были
обнаружены. Моногенными формами ожирения удалось объяснить 7% случаев тяжелого ожирения с ранним проявлением у детей (Farooqi and O'Rahilly, 2006). Тем не
менее, за последний год наметился прогресс в картировании генетических факторов
немоногенного, несиндроматического ожирения на основе анализа ИМТ. Как и в
случае с ростом, был произведен мета-анализ результатов полногеномного анализа
ассоциаций с привлечением огромных выборок. В январе 2009 года Nature Genetics
опубликовал результаты двух больших исследований с двухэтапной стратегией поиска (Thorleifsson et al., 2009a; Willer et al., 2009). Исследователи сообщили об ассоциации 11 генетических локусов с ИМТ, 4 из которых находятся в пределах или
вблизи генов FTO, MC4R, BDNF и SH2B1, связь которых с ИМТ уже была обнаружена ранее.
Мы провели полногеномный анализ ассоциаций для признака ИМТ. Материал и
методы картирования были такими же, как при анализе роста. Исследованная выборка включала 814 человек для анализа аллельного эффекта и 451 человек для анализа эффекта родительского происхождения аллелей.
Наиболее сильные свидетельства в пользу ассоциации были получены для локусов SASH1, C10orf11, LOC338667/CDON, NLGN1 и CNTNAP5. Значения р < 5 × 10-5
получены еще для 19 локусов.
При анализе аллельного эффекта были идентифицированы гены факторов транскрипции и модуляторов сигнальных путей, участвующих в развитии и функционировании нервной системы, в процессе гемопоэза, организаторы цитоскелета и гены с
неизвестной функцией (среди них C10orf11 и SASH1).
При анализе эффекта родительского происхождения аллелей три самых сильных
сигнала картирования (LOC338667/CDON, NLGN1 и CNTNAP5) независимо указывают на молекулы клеточной адгезии, предположительно функционирующие в
нервной ткани и необходимые для развития нервной системы, поддержания синаптической пластичности и, возможно, влияющие на формирование поведения, функцию памяти. Их влияние дополняется эффектом генов регуляторов энергетического
обмена.
В целом, функциональные категории генов, найденных при полногеномном анализе роста и ИМТ в нашем исследовании, соответствуют функциональным категориям, отмеченным в других полногеномных сканах (Liu et al., 2006; Dong et al., 2007;
Johnson and O'Donnell, 2009). Многие локусы совпадают с идентифицированными
ранее при попытках картирования генов роста и ИМТ/веса тела человека. Среди генов, локализованных с помощью модели родительского происхождения аллелей,
многие участвуют в процессах раннего развития, что согласуется с существующими
представлениями о генетическом импринтинге. Обнаруженные нами гены, таким
образом, могут рассматриваться в качестве кандидатных локусов в отношении признаков роста, ИМТ и, возможно, ожирения.
15
При анализе эффекта родительского происхождения аллелей на признаке ИМТ
четыре из пяти локусов с самыми высокими значениями статистики указывают на
гены молекул клеточной адгезии, по крайней мере некоторые из которых являются
специфичными для нервной ткани. По оценкам, на гены молекул клеточной адгезии
приходится всего около 2% SNP маркеров панелей генотипирования (Dong et al.,
2007). Вероятность того, что четыре раза из пяти гены этой функциональной категории были идентифицированы в силу случайных событий, равна 6 × 10-7, причем эта
оценка даже не учитывает тканевую специфичность продуктов найденных генов, на
которую указывает структурная гомология с поверхностными белками нейронов. Все
это иллюстрирует высокую степень неслучайности установленных ассоциаций, а
также подтверждает роль нервной системы и молекул адгезии нейронов в генетической регуляции массы тела.
ВЫВОДЫ
1. Разработан новый, эффективный алгоритм поиска оптимальной последовательности вычислительных операций при подсчете функции правдоподобия методом
Эльстона—Стюарта. Показано, что данный алгоритм позволяет сократить время
вычислений в 1.8–3.2 раза. Алгоритм реализован в программе PedPeel, доступной
по интернет-адресу http://mga.bionet.nsc.ru/soft/index.html и является частью пакетов MQscore_SNP и MAN_H_PG.
2. Разработан новый метод анализа аллельных ассоциаций с учетом родительского
происхождения аллелей. Предложен новый подход к определению родительского
происхождения аллелей путем восстановления гаплотипов. Показано, что мощность разработанного метода значительно выше, чем у существующих аналогов.
3. Произведен полногеномный анализ ассоциаций на материале большой родословной из изолированной популяции человека. Установлена ассоциация локусов генов-регуляторов апоптоза ANXA5 и SFRP5 с ростом и генов SASH1 и C10orf11 с
индексом массы тела.
4. Полногеномный анализ ассоциаций был впервые выполнен с учетом эффекта родительского происхождения аллелей. Установлена ассоциация локусов
LOC392288/ACER2, ZNF775/REPIN1/RARRES2, TSPAN9 с ростом человека. Получены новые свидетельства в пользу ассоциации генов клеточной адгезии
(LOC338667/CDON, NLGN1, CNTNAP5 и CNTN3) с индексом массы тела. Результаты анализа указывают на возможность импринтинга по всем этим локусам.
16
СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Аксенович, Т.И. и Белоногова, Н.М. Картирование генов с помощью неравновесия по сцеплению или аллельных ассоциаций: Учеб. пособие / Новосибирский
гос. ун-т, 2008. – 98 с.
2. Белоногова, Н.М., Аксенович, Т.И. и Аульченко, Ю.С. Эффект родительского
происхождения аллелей в полногеномном анализе аллельных ассоциаций // ВОГиС, 2009. – часть 1, с. 390.
3. Aulchenko, Y.S., Amin, N., Belonogova, N.M., de Koning, D., Haley, C. and van
Duijn, C. M. Powerful methods for whole-genome association analysis of quantitative
traits in samples of related individuals // Eur. J. Hum. Genet., 2007. – V. 15, P. 25.
4. Aulchenko, Y.S., Struchalin, M.V., Belonogova, N.M., Axenovich, T.I., Weedon,
M.N., Hofman, A., Uitterlinden, A.G., et al. Predicting human height by Victorian and
genomic methods // Eur J Hum Genet., 2009. – V. 17, P. 1070-5.
5. Axenovich, T.I., Zorkoltseva, I.V., Belonogova, N.M., Struchalin, M.V., Kirichenko,
A.V., Kayser, M., Oostra, B.A., et al. Linkage analysis of adult height in a large pedigree from a Dutch genetically isolated population // Hum Genet., 2009. – V. 126, P.
457-71.
6. Belonogova, N.M. and Aulchenko, Y.S. A powerful approach to detect parent-of-origin
effects in whole-genome association scans of quantitative traits // Eur. J. Hum. Genet.,
2007. – V. 15, P. 26.
7. Belonogova, N.M. and Axenovich, T.I. Optimal peeling order for pedigrees with incomplete genotypic information // Comput Biol Chem., 2007. – V. 31, P. 173-7.
8. Belonogova, N.M., Axenovich, T.I. and Aulchenko, Y.S. A powerful genome-wide
feasible approach to detect parent-of-origin effects in studies of quantitative traits // Eur
J Hum Genet, 2009, doi:10.1038/ejhg.2009.167.
9. Kirichenko, A.V., Belonogova, N.M., Aulchenko, Y.S. and Axenovich, T.I. PedStr
software for cutting large pedigrees for haplotyping, IBD computation and multipoint
linkage analysis // Ann Hum Genet., 2009. – V. 73, P. 527-31
Подписано к печати 18.02.2010
Формат бумаги 60 х 90 1/16. Печ. л. 1. Уч. изд. л. 0,7
Тираж 100 экз. Заказ 8
Ротапринт Института цитологии и генетики СО РАН
630090, Новосибирск, пр. ак. Лаврентьева, 10.
17
Download