Потерявшаяся наследственность

advertisement
Скрытая наследуемость
(Missing Heritability Problem)
Рубанович А.В.
Институт общей генетики им. Н.И. Вавилова РАН
rubanovich@vigg.ru
6 ноября 2008 Brendan Maher вводит
термин «missing heritability»
В чем(2002)
проблема
и откуда
она взялась?
GWAS
- GenomeWide
Association
Studies
Ведьвека
мы просмотрели
(или почти все?)
В начале
мы научилисьвсе
генотипировать
одновременно
изменчивые
в генах
по всем наиболеесильно
изменчивым
генамсайты
(GWAS
или широкогеномное
сканирование)
Оказалось:
Мы отличаемся друг от друга примерно каждым
тысячным нуклеотидом (1-2 SNP на 1000 п.н.),
99.9%
нуклеотидов
но эффекты этих различий
слишком
малы, чтобы объяснить
у нас большинства
одинаковы! признаков
изменчивость и наследуемость
1,1 vs. 15 !
значит «слишком
малы»:
Где Что
остальная
наследуемость?
Если (не дай Бог!) у Ваших родителей диабет I типа, то для Вас
вероятность заболеть диабетом в 15 раз выше, чем для всех прочих.
Т.е. признак наследуется, и должны быть генетические различия между
здоровыми и диабетиками.
GWAS находит эти различия - аллельные варианты для ~ 20-40 SNP ,
-8, но эффект мизерный!
p
<
10
но при этом среди носителей «генотипов предрасположенности»
доля больных диабетом лишь в 1,1 раз больше
Still missing!
Публикации 2010 -2011 (Nature, PNAS, PloS)
Красивая аналогия с астрофизикой:
«dark matter» - 83% вселенной
Замкнутая картина вселенной невозможна без постулата о
существовании скрытой от нас «темной материи»
«Missing mass» - Fritz Zwicky (1933)
«Серебряная» Пуля
Темная материя
вокруг галактик
Гало из «темной материи», вокруг нашей Milky Way
(компьютерная реконструкция)
Припомним некоторые понятия,
чтобы говорить на одном языке
Виды генетической изменчивости:
 Структурная изменчивость:
делеции, инсерции, дупликации (CNV),
тандемные повторы (STR, VNTR)
 Изменчивость отдельных нуклетидов: SNP – их более 10 млн.
…GATCAGGCGATTACACGCAATG…
…GATCATGCGATTACCCGCAATG…
…GATCAGGCGATTACACGCAATG…
…GATCAGGCGATTACCCGCAATG…
…GATCAGGCGATTACCCGCAATG…
…GATCATGCGATTACACGCAATG…
…GATCAGGCGATTACCCGCAATG…
SNP1
G>T
SNP2
C>A
Для 2 SNP возможны 4 гаплотипа
GC
GA TC TA
Если SNP1 и SNP2 не сцеплены, то
PGC = PG PC
D = PGC – PG PC
, D` = D/Dmax
Неравновесие по сцеплению:
D` = 1, если не все возможные гаплотипы встречаются в популяции
(например, только GC, GA, TC)
При D` ~ 1 в данных по SNP1 содержится информация о SNP2 (и наоборот)
Генотипы и предрасположенности
 Анализ родословных (linkage study)
lod  log
P( родословная | rec  0)
P( родословная | rec  1 / 2)
3/5
2/6
3/2
5/2
4/3
При сцеплении маркера с заболеванием lod > 3
3/5 3/2 4/5
Успешно:
редкие менделирующие заболевания
Безуспешно: распространенные мультифакториальные заболевания
 Ассоциативные исследования (association study):
статистическая сопряженность фенотипа и маркера ( )
Контроль
Больные
Case - control
Количественный признак
Показатели степени сопряженности признаков
 Количественные признаки: r - коэффициент корреляции
 Качественные признаки: OR - отношение шансов (Odd Ratio)
Случаи, когда
Больные Здоровые маркер сработал
Носители
маркера
Свободны от
маркера
D
D
M
a
b
M
c
d
ad
OR 
bc
Случаи, OR
когда=маркер
1 - нет эффекта
не сработал
OR >> 1 - сильный эффект
FAQ: почему OR, а не r ?
ANS: r ~ 1, если табл. сопряженности диагональна:
Бывает, что r ~ 0, но при этом OR >> 1:
 Маркер - необходимое
условие заболевания
 Маркер - достаточное
условие заболевания
D
D
M
M
D
D
*
0
0
*
*
*
0
*
*
0
*
*
Как характеризуют наследуемость?
 В широком смысле:
V
Доляr изменчивости
(вариансы,корреляция,
дисперсии) признака,
2 думаете,
Если
= 0.7 – это «хорошая»
вспомните, что при
HВы
 G  что обусловленная
генетической изменчивостью
этом изменчивость
Y лишь на 50% обусловлена изменчивостью X (0.72 = 0.49)
V
P
Это
определение
восходит
к регрессионному
анализу:нужны
Y ~ X числа.
Пока
это
все только слова
– для
вычисления корреляций
Коэффициент
Cor(Y,X)2 = Каким
Y, обусловленная X
= Доля изменчивости
числом характеризовать
генотип?
детерминации
Наследуемость = (Корреляция «генотип - фенотип»)2
Простейшая модель –аддитивность действия генов.
Например, в случае, когда Р - предрасположенность к заболеванию
Общее число «рисковых» аллелей
G = во
всех генах предрасположенности = GA
 В узком смысле:
h 
2
VG A
VP
«аддитивно объясненной»
= Cor(P,GA)2 = Доляизменчивости
фенотипа
Всегда
h2  H 2
Как оценивали наследуемость, не зная генотипы?
В предположении, что вся генетическая изменчивость аддитивна
Рпотомок = (Рмать + Ротец)/2
 Сопоставляя фенотипы родственников
Степень родства
Корреляция
фенотипов
Родительское среднее – потомки,
монозиготные близнецы
Родители – потомки,
сибсы
Дедушки – внуки,
Полусибсы
h2/2
….
….
Кошмар Дженкина:
Vпот = Vрод/2
h2
h2/4
Sir Francis Galton (1822-1911)
 Оценивая результаты искусственного отбора
P потом ки  P родители
h 
P отбор  P родители
2
Sir Ronald Aylmer Fisher (1890-1962)
Родители Отбор
Потомки
Как оценивали наследуемость, не зная генотипы?
В предположении, что вся генетическая изменчивость аддитивна
 Сопоставляя фенотипы родственников
Степень родства
Корреляция
фенотипов
Родительское среднее – потомки,
монозиготные близнецы
Родители – потомки,
сибсы
Дедушки – внуки,
Полусибсы
h2/2
….
….
h2
Самое удивительное,
что это работает!
rMZ = 2rDZ
Для 86 признаков
rMZ отличается в среднем от
h2/4
2rDZGen.,
не 2008
более, чем на 0,5%
Hill et. al, PloS
 Оценивая результаты искусственного отбора
P потом ки  P родители
h 
P отбор  P родители
2
rMZ - 2rDZ
Неоднозначная роль математических моделей
в развитии биологии
 «Оценки» числа генов, ответственных
за количественный
признак
(50-60 г.г.)
Математической
биологии
не бывает!
Математики и математизированные
Тысячи работ
с «оценками»
наследуемости
и числа
биологи
любят
выстраивать
новые
генов по результатам селекционных экспериментов
миры, не имеющие отношение к
Израиль Гельфанд (1913-2009)
 «Оценки»
числа
мишеней и числа ударовреальной
в радиобиологии
(40-70 г.г.)
биологии
«Моцарт»
математики
P потом ки  P родители
h2 
P отбор  P родители
Выживаемость, %
Сотни работ с «оценками» числа и объемов
мишеней по кривым выживаемости
Внук, Михаил Гельфанд,
Доза облучения
лидер отечественной
1/объем
Современныебиоинформатики
биоинформатики
0.1
мишени
полагают, что все эти

0.01
математические построения лишь
от реальных задач
 Математическая генетика популяций (30-80отвлекали
г.г)
Число
мишеней
1
Тысячи статей и сотни монографий, посвященных
формальным нюансам взаимоотношений отбора,
рекомбинаций, дрейфа, мутаций и т.д.
Sergey Gavrilets, Prof. Math., Ecol. and Evol.
Biol., University of Tennessee (USA):
От всего этого остался лишь Харди – Вайнберг!
Вернемся к «missing heritability»: суть и масштабы
проблемы (по Рeter Visccher, AJHG 2011)
Cor(P,GA)2 << h2
Фенотип
GWAS: корреляции
между фенотипом
и
Диабет 1 типа
аллелями
#SNP
41
% объясненной
h2, %Эпидемиология:
наследуемости
корреляции между
90 родственниками
30
Диабет 2 типа
18
30-60
6
Шизофрения
17
70-80
1,3
Рассеянный склероз
33
30-80
20
Рак груди
300
30
27
Болезнь Крона
32
60-80
14
Анкилозный спондилит
8
> 90
22
Биполярное расстройство (МДС)
Инфаркт миокарда с зубцом Q
42
60-70
2
25
37-60
14
Минеральная плотность костей
30
60-80
7
Рост
40
80
5
Индекс массы тела (BMI)
35
40-60
2-4
Вернемся к «missing heritability»: суть и масштабы
Генетика – не самая молодая наука.
Почему только сейчас?
Генотипы и предрасположенности
Хроники по Walter Bodmer (Nat. Genet., 2008)
Группы крови
(1910-1960)
~20 loci
Иммуногенетика ~20 loci
(1965-…) HLA (Хр 6)
Форез белков
(1960-1980)
~100 loci
Ford (1945) – полиморфизм АВ0
AB0 и рак желудка (Aird,
OR =1953)
1.3
4с и болезнь Ходжкина (Amiel,
OR = 1967)
2.8
Анкилозный
OR = 100! спондилит, псориаз, …
Механизм
доОсознание
сих пор тотального характера
неясен!
генетической изменчивости
loci
Маркеры приианализе
Убедительных
регулярных
родословных,с судебная
взаимосвязей
фенотипами
медицина
не
обнаружено
loci
Гипервариабельны:
эволюционные древа,
идентификация личности
RFLP
(1975-…)
>105
ATCATCATC…
ATCATCATC…A
TCATCATC…
VNTR, STR
(1985-…)
>105
GATCAGGCGA
GATCCTGCGA
GATCAGGCGA
SNP
(1998-…)
>108 loci
PCR-генотипирование
кандидидатных локусов, GWAS
Генотипы и предрасположенности в XXI веке.
После открытия PCR (1983)
2000
2002
Сиквенс единичных геномов
2004
2006
2008
2010
2012
2000-2005: идентификация 10 млн. SNP
Популяционная изменчивость по SNP (4 популяции по ~100 человек)
Выявление блочной структуры генома. Описание гаплотипов.
2007-2008-…: нашествие GWAS
Каталог GWAS
Популяционная изменчивость по сиквенсу:
180 человек – полный сиквенс
700 человек – сиквенс экзонов 900 генов
Единый каталог гаплотипов по SNP
www.hapmap.org
Цель проекта: характеризация изменчивости нуклеотидов, которая встречается во
всех популяциях человека - т.н. «common SNP».
Для них, как правило, Minor Allele Frequency (MAF)Представлены
> 0.1
только SNP!
Между соседними буквами сотни
База первичных данных доступна всем и выглядит так:
консервативных нуклеотидов
Популяция
YRI, CEU, CHB либо JPT
+ 7 популяций (2007)
#
Гаплотипы по всем хромсомам
GCCCAAATGCC…GCTTAGCACA
~ 60-100
4.7 млн. SNP (2010)
«Горячая точка»
Основная неожиданность: гаплотипы всех хромосомрекомбинации
имеют
блочную
структуру,
(их ~330
000)
т.е. распадаются на независимые блоки, состоящие из скоррелированных SNP
Единый каталог гаплотипов по SNP
www.hapmap.org
Для этого блока возможны
27 =128 гаплотипов
SNP3 и SNP7
сопряжены
D’ = 1
D’ = 0.5
D’ = 0
SNP3 и SNP11
независимы
Но SNP в блоке статистически зависимы.
Это означает, что в популяции встречаются
лишь 3-4 гаплотипа, например, так:
CGCAATG (40%)
AACAATG (35%)
CGGGATG (15%)
CGCAGAA (9%)
Остальные (1%)
Вывод: нет необходимости генотипировать все 7 SNP. Можно выбрать один, т.н.
tagSNP (например, SNP3) и по нему приблизительно судить об остальных 6 SNP
Прямые и непрямые ассоциации SNP с фенотипом
 Прямые ассоциации – их ищут, когда полагают, что
кандидатный ген является причинным, или тесно сцеплен с ним.
 GWAS основан на непрямых ассоциациях – генотипируют по
300 000 –600 000 tagSNP, которые захватывают все основные блоки
гаплотипов (т.е. все 10 млн. SNP, среди которых возможно есть
причинный
ген)исследованиях часто
В отечественных
просто ген, на который есть чип 
Кандидатный ген
Причинный ген
GWAS
Причинный ген
© Francis Collins, 2008
Ассоциации, индуцированные сцеплением генов
Нейтральный
наблюдаемый
маркерный ген:
аллели M > m
MAF = pm > 0.1
ORm - индуцированный эффект = ?
ORm  1 pc

D
ORc  1 pm
Неравновесие по
D =нетривиально,
pc,m – pc pчто
Здесь
m
сцеплению:
Приведенное неравновесие индуцированные ассоциации
  редких
Dдля
D / Dмаркеров
по сцеплению:
больше
max
Причинный
невидимый ген с
редкой мутацией:
аллели С > c
MAF = pc < 0.01
ORc >> 1 – эффект редкой невидимой мутации
D
D зависит от расстояния (частоты рекомбинаций)
и числа поколений с момента возникновения мутации
Поколения
Ассоциации, индуцированные сцеплением генов
Нейтральный
наблюдаемый
маркерный ген:
аллели: M > m
MAF = pm > 0.1
ORm - индуцированный эффект = ?
ORm  1 pc

D
ORc  1 pm
Неравновесие по
сцеплению:
Приведенное неравновесие
по сцеплению:
Причинный
невидимый ген с
редкой мутацией:
аллели С > c
MAF = pc < 0.01
D = pc,m – pc pm
D  D / Dmax
ORc >> 1 – эффект невидимый редкой мутации
Скорей всего, почти всегда из 4 бывают лишь 3 гаплотипа:
М C
m C
М c
m
c
Тогда D  1 и ORm  1  (ORc  1) pc / pm
Как выглядят результаты GWAS?
ATGGATTCTGGTATGTTCTAGCGCTTGCACCATCCCATTTAACTGTAAGAAGAATTG
CACGGTCCCAATTGCTCGAGAGATTTCTCTTTTACCTTTTTTTACTATTTTTCACTCT
CCCATAACCTCCTATATTGACTGATCTGTAATAACCACGATATTATTGGAATAAATAG
GGGCTTGAATTTGGAAAAAAAAAAAAACTGAAATATTTTCGTGATAAGTGATAGT
GATATTCTTCTTTTATTTGCTACTGTTACTAAGTCTCATGTACTAACATCGATTGCTT
CATTCTTTTTGTTGCTATATTATATGTTTAGAGGTTGCTGCTTTGGTTATTGATAACG
GTTCTGGTATGTGTAAAGCCGGTTTTGCCGGTGACGACGCTCCTCGTGCTGTCTTC
CCATCTATCGTCGGTAGACAAGACACCAAGGTATCATGGTCGGTATGGGTCAAAA
AGACTCCTACGTTGGTGATGAACTCAATCCAAGAGAGGTATCTTGACTTTACGTTA
CCCAATTGAACACGGTATTGTCACCAACTGGGACGATATGGAAAAGATCTGGCAT
Последовательности длиной 500 000 – 1 000 000
CATACCTTCTACAACGAATTGAGAGTTGCCCCAGAAGAACACCCTGTTCTTTTGA
нуклеотидов для огромных выборок:
CTGAAGCTCCAATGAACCCTAAATCAAACAGAGAAAAGATGACTCAAATTATGTT
несколько тысяч больных и столько же здоровых!
TGAAACTTTCAACGTTCCAGCCTTCTACGTTTCCATCCAAG
CCGTTTTGTCCTTGTACTCTTCCGGTAGAACTACTGGTATTGTTTTGGATTCCGGTG
ATGGTGTTACTCACGTCGTTCCAATTTACGCTGGTTTCTCTCTACCTCACGCCATTT
TGAGAATCGATTTGGCCGGTAGAGATTTGACTGACTACTTGATGAAGATCTTGAGT
GAACGTGGTTACTCTTTCTCCACCACTGCTGAAAGAGAAATTGTCCGTGACATCA
При меньших выборках эффекты будут заведомо
AGGAAAAACTATGTTACGTCGCCTTGGACTTCGAACAAGAAATGCAAACCGCTGC
TCAATCTTCTTCAATTGAAAAATCCTACGAACTTCCAGATGGTCAAGTCATCACTA
статистически незначимы (105-106 сравнений )
TTGGTAACGAAAGATTCAGAGCCCCAGAAGCTTTGTTCCATCCTTCTGTTTTGGGT
TTGGAATCTGCCGGTATTGACCAAACTACTTACAACTCCATCATGAAGTGTGATGT
CGATGTCCGTAAGGAATTATACGGTAACATCGTTATGTCCGGTGGTACCACCATGTT
CCCAGGTATTGCCGAAAGAATGCAAAAGGAAATCACCGCTTTGGCTCCATCTTCC
ATGAAGGTCAAGATCATTGCTCCTCCAGAAAGAAAGTACTCCGTC
Как выглядят результаты GWAS:
Manhattan Plot – достоверность вдоль хромосом
Логарифм P-value
8 SNP, ассоциированных с шизофренией
p = 10-7
p = 10-5
При GWAS необходим уровень значимости
эффектов SNP ~ 10-8 - 10-7.
По Бонферрони: 0.05/5105 = 10-7
22 хромосомы
почечная
карцинома identifies two susceptibility loci
GWAS of renal
cell carcinoma
on 2p21 and 11q13.3
M. Purdue, …(97 авторов)…, P. Brennan. Nature Genetics, 2011, 43,1
Пики частоты
рекомбинации
Только для
2 SNP значимость
ассоциаций подтвердилась в 2
независимых исследованиях
(OR = 1.18, p = 10-7, MAF = 0.9)
Единый каталог GWAS
Признак
Болезнь
Ген
Уровень эффекта
Сюрпризы GWAS
Результаты GWAS устойчиво демонстрируют:
 Плохую воспроизводимость
В различных GWAS находят непересекающиеся группы
ассоциированных SNP
 Эффекты отдельных SNP крайне малы:
При этом в чипах стараются tagSNP
Предрасположенность к заболеваниям - OR = 1.1 – 1.3
особенно плотно расположить
Количественные признаки – менее 1% объясненной вариансы
именно в кодирующих экзонах
 Ассоциированные SNP в основном расположены в
некодирующих районах (40%), либо в интронах (40%) и…
 не сцеплены с несинонимичными заменами, которые могли бы
повлиять на функционирование генного продукта
 Ассоциированные SNP находят совсем не в тех генах или
участках хромосом, в которых их рассчитывают найти
Распределение значений OR для рисковых аллелей
ассоциированных с одним из 16 широко распространенных заболеваний
(92 SNP, подтвержденные в нескольких GWAS)
Prof. Peter Visscher,
Univ. of Queensland, Australia
N. Wray, M. Goddard, P. Visscher. Prediction of individual genetic risk of complex disease.
Current Opinion in Genetics & Development 2008, 18
Сюрпризы GWAS
Результаты GWAS устойчиво демонстрируют:
 Плохую воспроизводимость
В различных GWAS находят непересекающиеся группы
ассоциированных SNP
 Эффекты отдельных SNP крайне малы:
Предрасположенность к заболеваниям - OR = 1.1 – 1.3
Количественные признаки – менее 1% объясненной вариансы
 Ассоциированные SNP часто расположены в некодирующих
районах, либо …
 не сцеплены с несинонимичными заменами, которые могли бы
повлиять на функционирование генного продукта
 Ассоциированные SNP находят совсем не в тех генах или
участках хромосом, в которых их рассчитывают найти
The Genome in the Form of GWAS as a “Teacher”
of Unexpected Lessons
and Connections
Неожиданное
участие генов
Teri Manolio,
Director of office for
Population Genomics,
NHGRI
Неожиданные
сочетания
заболеваний
T. Manolio. N Engl J Med 2010; 363
Очевидные недостатки GWAS

Требует огромных выборок (из-за множественности
сравнений критический уровень значимости < 10-7)

Статистические артефакты: сомнения всегда остаются!

GWAS основан на чипах, а не на секвенировании! Он видит только
уже известные общие варианты, на которые можно изготовить чипы.
GWAS не видит:
- неизвестные ранее SNP
- редкие мутации (MAF < 0.01)
- тандемные повторы (STR, VNTR)
- структурную изменчивость (CNV)

При этом GWAS не регистрирует:
- эффекты генов вблизи горячих точек рекомбинации
- слабые эффекты (из-за требования pvalue < 10-7)

Основной вариант GWAS - это «case - control». Отсюда:
- плохая воспроизводимость для различных популяций
- крайняя чувствительность к стратификации выборок
(этнос, пол, возраст, среда и т.д.)
Возможные объяснения парадокса
«missing heritability» (по Peter Visccher, 2011)
В порядке роста правдоподобия и не исключая друг друга
 Оценки наследования по родословным ошибочны
 Неаддитивность действия генов (эпистаз)
 Взаимодействия генотип – среда (GxE)
 Эпигенетические эффекты
 Низкая мощность обнаружения малых эффектов «общих
полиморфизмов»
 Гетерогенность заболеваний – много различных заболеваний
сходны по фенотипу
 Общие варианты в проблемных участках генома,
напр., в горячих точках рекомбинации
 Мутации, не относящиеся к SNP (напр., CNV, STR)
 Редкие мутации с большим эффектом
Выявить взаимодействия GxG и GxE в рамках GWAS
можно лишь при огромных выборках
Число пар из 1 млн SNP = 1012  критическое Pvalue < 10-14
Редкий пример: взаимодействие генов HLA-C и ERAP1 в
предрасположенности к псориазу (0,59 Mb, выборки 2622/5667)
Значимость
взаимодействия
Pval = 710−6
который усугубляется при
Сильный
эффект ERAP1*A
наличии алллеля
алллеля HLA-C*A
Nat. Gen. (2010) 42
Взаимодействия GxG могут быть причиной более
высоких оценок наследуемости по родословным,
чем по GWAS
Тесно сцепленные несинонимичные SNP, MAF = 0.5
SNP1
A>G
SNP2
C>T
Предположим, что для гаплотипов AC, GT – признак  (в равной степени)
AT, GC – признак 
Тогда эффект аллеля А в среднем = AC  + AT  = 0,
и все «однолокусые» эффекты = 0
Наследуемость по родословным и по GWAS
 Анализ родословных: 1 локус – 4 аллеля
h2 = Cor (родители, потомки) = 0,71
0,5
0,25
Признак
 GWAS: 2 биаллельных нейтральных локуса
h2 = 0
Возможные объяснения парадокса
«missing heritability» (по Peter Visccher, 2011)
В порядке роста правдоподобия и не исключая друг друга
 Оценки наследования по родословным ошибочны
 Неаддитивность действия генов (эпистаз)
 Взаимодействия генотип – среда (GxE)
 Эпигенетические эффекты
 Низкая мощность обнаружения малых эффектов «общих
полиморфизмов»
 Гетерогенность заболеваний – много различных заболеваний
сходны по фенотипу
 Общие варианты в проблемных участках генома,
напр., в горячих точках рекомбинации
 Мутации, не относящиеся к SNP (напр., CNV, STR)
 Редкие мутации с большим эффектом
Уровень метилирования
Часто является эффективным биомаркером,
D. Fradin et al.
PLoS ONE, 2012, 2
но его наследуемость сильно зависит от популяции и эффектов GxE
Fraser et al. Population-specificity of human DNA methylation. Genome Biology, 2012, 13
Возможные объяснения парадокса
«missing heritability» (по Peter Visccher, 2011)
В порядке роста правдоподобия и не исключая друг друга
 Оценки наследования по родословным ошибочны
 Неаддитивность действия генов (эпистаз)
 Взаимодействия генотип – среда (GxE)
 Эпигенетические эффекты
 Низкая мощность обнаружения малых эффектов «общих
полиморфизмов»
 Гетерогенность заболеваний – много различных заболеваний
сходны по фенотипу
 Общие варианты в проблемных участках генома,
напр., в горячих точках рекомбинации
 Мутации, не относящиеся к SNP (напр., CNV, STR)
 Редкие мутации с большим эффектом
Гетерогенность заболеваний: слепота
Complex genetic diseases: controversy over the Croesus code
A. Wright, N. Hastie. Genome Biology. 2001, 2(8)
Гетерогенность эффектов
(разнонаправленная плейотропия)
Высокая частота во
всех популяциях
человека и приматов
A. Wright, N. Hastie. Genome Biology. 2001, 2(8)
Возможные объяснения парадокса
«missing heritability» (по Peter Visccher, 2011)
В порядке роста правдоподобия и не исключая друг друга
 Оценки наследования по родословным ошибочны
 Неаддитивность действия генов (эпистаз)
 Взаимодействия генотип – среда (GxE)
 Эпигенетические эффекты
 Низкая мощность обнаружения малых эффектов «общих
полиморфизмов»
 Гетерогенность заболеваний – много различных заболеваний
Наиболее вероятное
сходны по фенотипу
объяснение парадокса
 Общие варианты в проблемных участках«missing
генома,heritability»
напр., в горячих точках рекомбинации
 Мутации, не относящиеся к SNP (напр., CNV, STR)
 Редкие мутации с большим эффектом
Крупные CNV часто ассоциированы с
психогенными заболеваниями
Редкие CNV
OR = 15, но
частота в популяции ~ 0.0002
Доля объясненной
заболеваемости ~ 0. 28%
T. Manolio et al. Finding the missing
heritability
«Общие»
CNVof complex diseases
Частота в популяции ~ 0.55
Genome differedOR
from
theДоля
reference
= 1,3.
объясненной
заболеваемости
15%
in only 0.1% of SNPs, but
in 1.2% of ~CNVs.
Nature, 2009, 461
Возможные объяснения парадокса
«missing heritability» (по Peter Visccher, 2011)
В порядке роста правдоподобия и не исключая друг друга
 Оценки наследования по родословным ошибочны
 Неаддитивность действия генов (эпистаз)
 Взаимодействия генотип – среда (GxE)
 Эпигенетические эффекты
 Низкая мощность обнаружения малых эффектов «общих
полиморфизмов»
 Гетерогенность заболеваний – много различных заболеваний
сходны по фенотипу
 Общие варианты в проблемных участках генома,
напр., в горячих точках рекомбинации
 Мутации, не относящиеся к SNP (напр., CNV, STR)
 Редкие мутации с большим эффектом
Проблема «Missing Heritability» возродила дискуссию
«Rare vs. Common»
 Гипотеза «common disease - rare variants».
Предрасположенность к широко распространенным заболеваниям
определяется редкими аллелями (мутациями, MAF < 0.01) с высокой
пенетратностью
(Pritchard, 2001; Prixhard & Cox, 2002)
 Гипотеза «common disease - common variants».
Предрасположенность к широко распространенным заболеваниям
определяется аллелями высоко полиморфных генов
(Reich & Lander, 2001)
GWAS фактически целиком основан на этой гипотезе
10 лет, 500 000 000$, 700 GWAS для 300 заболеваний,
и вечные дебаты о природе фенотипической изменчивости
Проблема «Missing Heritability» возродила дискуссию
«Rare vs. Common»
Менделисты
(1900-1940)
Биометрики
У. Бейтсон
К. Пирсон
Г. де Фриз
R. Fisher
Классическая (1960-1980)
гипотеза
Балансовая
гипотеза
A1B1C1D1E1G1F1
A2B2C2D2E2G2F2
+++++++++
++++m++++
Г. Дж. Меллер
Ф.Г. Добржанский
Rare
Jonathan Pritchard,
Prof. of Howard
Hughes Medical
Institute
(2000-…)
Common
Eric Lander,
Director of the Broad
Inst. of Massachusetts,
Harvard Univ.
Проблема «Missing Heritability» возродила дискуссию
«Rare vs. Common»
Хорхе Луис Борхес (1899 - 1986)
«Быть может, всемирная история – это история различных
интонаций при произнесении нескольких метафор»
Аргументы в пользу гипотезы
«common disease - rare variants»
(по Greg Gibson)
Rare and common variants: twenty arguments
Nature Rev. Genetics, Feb. 2012, 13
 Вредные мутации в "генах предрасположенности" находятся под действием
отбора и не могут стать «common variants»
 Ассоциации заболеваний с «общими» вариантами почти никогда не удается
объяснить с функциональных позиций
 Многие семейные формы заболеваний обусловлены редкими аллелями с
высокой пенетрантностью
 Редкие CNV часто ассоциированы с психогенными заболеваниями
 Массовое секвенирование экзомов показывает, что несинонимичные замены
имеют низкую MAF, а «общие» варианты преобладают в межгенных областях
Проект 1000 геномов - генетическая изменчивость,
выявляемая при массовом секвенировании (с 2008)
http://www.1000genomes.org
Этап 1
 2 тройки «мать-отец-ребенок»
Глубокое секвенирование
Полные гаплотипы
 179 человек из 4 популяций
Полногеномное секвенирование
Статистические гаплотипы
Т
 697 человек из 7 популяций
Секвенирование 8140 экзонов 906 генов
Без гаплотипов
Неизвестно АТ
А или ТА
Проект 1000 геномов - генетическая изменчивость,
выявляемая при массовом секвенировании
Обнаружено
#
Из них новых, %
SNP
15 млн.
55
Короткие Indel
1 млн.
Крупные CNV
20 000
57
61 (делеции)
89 (дупликации)
 В среднем каждый человек является носителем 250-300
аллелей типа «loss-of-function variants» и …
 носителем 50-100 аллелей, ранее зарегистрированных как
варианты, вовлеченные в наследственные заболевания (NHGRI)
 de novo по 2 тройкам : в половых клетках зарегистрировано
1028 нуклеотидных замен (10-8 на нуклеотид за поколение)
Nature, 2010,467
Проект 1000 геномов - генетическая изменчивость,
выявляемая при массовом секвенировании
Доля SNP
Среди уникальных SNP
преобладают стоп-кодоны
Среди «общих» вариантов
преобладают SNP в
межгенных областях
Частота аллеля (MAF)
Уникальные SNP
Nature, 2010,467
Проект 1000 геномов - генетическая изменчивость,
выявляемая при массовом секвенировании
Несинонимичные SNP: Condel score
Среди уникальных SNP
преобладают ущербные
Ущербные
Доля SNP
Мягкие
Consensus Deleteriousness
score of missense SNPs
Частота аллеля (MAF)
Уникальные SNP
Среди «общих» SNP
преобладают мягкие
замены
Nature, 2010,467
Что могут противопоставить сторонники гипотезы
«common disease - common variants»?
Что могут противопоставить сторонники гипотезы
«common disease - common variants»?
 Для ряда заболеваний ассоциации с «общими» аллельными
вариантами реально существуют и уверенно воспроизводятся
Для ряда заболеваний ассоциации с «общими»
аллельными вариантами реально существуют
Заболевание
«Общий»
полиморфизм
Язва 12-перстной кишки
AB0*В
Тромбоз вен
F5*Leiden
Болезнь Альцгеймера
APOE*Е4
ВИЧ
CCR5*Δ32
Колоректальный рак
Диабет I типа
APC*3920A
PTPN22
Диабет II типа
PPARG, KCJN11
© Gibson & Muse, A Primer of Genome Science, 2002
Что могут противопоставить сторонники гипотезы
«common disease - common variants»?
 Для ряда заболеваний ассоциации с «общими» аллельными
вариантами реально существуют и уверенно воспроизводятся
 Для модельных объектов (мухи, мыши) проблемы с
«missing heritability» не возникают
 Распределение частот рисковых аллелей не соответствует
гипотезе «common disease - rare variants»
Распределение частот рисковых аллелей
не соответствует гипотезе «common disease - rare variants»
Распределение частот рисковых
аллелей для наиболее значимых
результатов GWAS (genome.gov )
417 SNP – 17 заболеваний
Теоретическое распределение частот
рисковых аллелей для ассоциаций,
индуцированных сцеплением с
редкими вариантами
ORm  1 pc

ORc  1 pm
Мода ~ 0.4!
N.Wray, S. Purcell, P.Visscher. Synthetic Associations Created by Rare Variants Do Not
Explain Most GWAS Results. PLoS Biology, 2011, 9, 1
Что могут противопоставить сторонники гипотезы
«common disease - common variants»?
 Для ряда заболеваний ассоциации с «общими» аллельными
вариантами реально существуют и уверенно воспроизводятся
 Для модельных объектов (мухи, мыши) проблемы с
«missing heritability» не возникают
Количественные признаки,
которые «валлелей
2 шагах от
 Распределение частот рисковых
незаболевания»
соответствует
давление при диабете)
гипотезе «common disease -(напр.,
rare variants»
 Изменчивость «эндофентипов» удается удовлетворительно
объяснить «общими» полиморфизмами
 Редкие варианты не объясняют «эпидемиологические сдвиги»,
напр., рост диабета и заболеваний сердца в Индии и Китае за
последние 10 лет
 В недавних работах показано, что GWAS (common SNP)
в состоянии объяснить 45% изменчивости роста человека
(«главный модельный признак» со времен Гальтона)
«Общие» SNP объясняют большую долю изменчивости
роста человека
J. Yang, …, P. Visscher. Nature Genetics, 2010, 42, 7
Common SNPs explain a large proportion of the heritability
for human height
#SNP
% объясненной
P-value
вариансы роста
Выборка
Источник
50
< 10-7
5
 30 000
4 GWAS (2008)
294 831
-
45
3 925
P. Visscher (2010)
Т.е. все SNP c MAF > 0.1
независимо от P-value
Genome-partitioning of genetic variation for
complex traits using common SNPs
Jian Yang, Teri A. Manolio, …, Peter M. Visscher. Nat. Genetics 2011
Вклад в долю объясненной
вариансы пропорционален
длине хромосомы
Аналогичный подход в отношении
предрасположенностей
2900 SNP объясняют 100%
наследуемости диабета II типа
Bayesian inference analyses of the polygenic architecture of rheumatoid arthritis
E. Stahl, D. Wegmann et al. Nature Genetics, March 2012
Как преодолеть кризис, связанный с
«missing heritability» (из частных бесед):
Евгений Рогаев, Univ. of Massachusetts Medical School, ИОГен РАН
Идея GWAS порочна по своей сути. Только «глубокое
секвенирование» позволит разобраться с генетикой
предрасположенности.
Юрий Дуброва, Dep. of Genetics Univ. of Leicester
На практике биоинформатика обходится дороже чипов. И остается
при этом самым слабым местом ассоциативных исследований.
Никита Хромов-Борисов, СПбГМУ
Прежде чем заниматься геномикой, следовало бы поначалу
внедрить в клиническую практику регистрацию родословных.
Это и дешевле и эффективнее.
Джон Крейг Вентер:
ветеран войн - генетик - бизнесмен - организатор науки
Der Spiegel Interview with Craig Venter
http://www.spiegel.de/international/world/0,1518,709174-2,00.html
 SPIEGEL: “Why is it taking so long for the results of genome
research to be applied in medicine?”
 VENTER: “Because we have, in truth, learned nothing from
the genome other than probabilities. How does a 1 or 3 percent
increased risk for something translate into the clinic? It is
useless information.”
07/29/2010
 Всем спасибо,
выводов не будет – «still missing»!
Но напоследок несколько советов:

Никогда не упускайте возможность полистать Nature

Почаще заглядывайте в «HapMap», «NHGRI» и «1000 Genomes».
Даже если Вы непосредственно не занимаетесь генотипированием.
Все новости – там!
Каталог GWAS

Попробуйте определить свой психотип:
сделайте свой выбор между «rare» и «common».
Даже не пытайтесь занять промежуточную позицию! 
Слайды доступны всем!
Download