Возрастные изменения сплайсинга генов в мозге приматов М.С.Гельфанд

advertisement
Возрастные изменения
сплайсинга генов
в мозге приматов
М.С.Гельфанд
Институт проблем передачи информации им. А.А.Харкевича РАН
РНЦХ РАМН 29.III.2013
Brave New World
Методы (и чего от них ждать)
• Roche, 454 (2004)
–
–
–
–
До 400-500 нт (парные)
Плохое разрешение polyN
100 мегабаз за проход (обещано 500)
Дорого ($1000 за мегабазу)
• Solexa/Illumina, GA II (2005) (уже есть HiSeq)
– 75 (в обзоре 35, обещано 100) нт (парные)
– 50 млн. фрагментов за проход (до 3 гигабаз), 4 дня
– $500 за мегабазу (?? – сейчас явно меньше, ~30 тыс за проход)
• Applied Biosystems, Solid 2.0 (2007)
– 35 нт, одииночные
– 3-10 гигабаз за проход, 5-9 дней
– $10 за мегабазу
• Helicos (2009). Single molecule (no amplification)
–
–
–
–
Доллар за мегабазу
23 нт (кажется, уже 35).
Делеции в polyN
Миллионы молекул, большие гигабазы
Типичные задачи
• Секвенирование de novo
– Инфекционные болезни, метагеномика
• Пересеквенирование геномов
– Медицинская генетика, предрасположенности
– Секвенирование опухолей, driver mutations,
сигнальные пути
• Секвенирование транскриптомов, анализ
экспрессии
– Классификация измерений (например,
дифференциальная диагностика)
– Выбор генов, дифференциально экспрессирующихся
в двух классах (до/после, рак/норма, диагностика)
– Поиск групп совместно регулируемых генов,
временные ряды.
• RNA-Seq – методы и проблемы
• Возрастные изменения сплайсинга в мозге
человека
• Возрастные изменения сплайсинга в мозге
человека, шимпанзе и макаки
Данные
• «риды» - короткие (<100нт) фрагменты
транскриптов
• «парные риды» - концы фрагментов примерно
известной длины (скажем, ~1000нт)
Illumina распределение ошибок по
ридам
Картирование. Профиль покрытия
Biases inherent in NGS technology
Biases inherent in NGS technology
Sequencing errors
at 3'-end of reads
Biases inherent in NGS technology
Sequencing errors
at 3'-end of reads
CG-rich regions
are higher covered
Biases inherent in NGS technology
Sequencing errors
at 3'-end of reads
G -> T and A -> C
errors
CG-rich regions
are higher covered
Biases inherent in NGS technology
Sequencing errors
at 3'-end of reads
G -> T and A -> C
errors
CG-rich regions
are higher covered
Sequences preceding
errors are G-rich
Biases inherent in NGS technology
Sequencing errors
at 3'-end of reads
CG-rich regions
are higher covered
Sequences preceding
errors are G-rich
G -> T and A -> C
errors
Nucleotide content bias
across the read
Biases inherent in NGS technology
Sequencing errors
at 3'-end of reads
CG-rich regions
are higher covered
PCR biases
Sequences preceding
errors are G-rich
G -> T and A -> C
errors
Nucleotide content bias
across the read
Biases inherent in NGS technology
Sequencing errors
at 3'-end of reads
CG-rich regions
are higher covered
Mappability bias
PCR biases
Sequences preceding
errors are G-rich
G -> T and A -> C
errors
Nucleotide content bias
across the read
Biases inherent in NGS technology
Sequencing errors
at 3'-end of reads
CG-rich regions
are higher covered
Mappability bias
PCR biases
Sequences preceding
errors are G-rich
G -> T and A -> C
errors
Nucleotide content bias
across the read
Higher coverage
of the 3'-end
Biases inherent in NGS technology
Sequencing errors
at 3'-end of reads
CG-rich regions
are higher covered
Mappability bias
PCR biases
Sequences preceding
errors are G-rich
G -> T and A -> C
errors
Nucleotide content bias
across the read
Higher coverage
of the 3'-end
Contamination by
under-spliced RNAs
Biases inherent in NGS technology
Sequencing errors
at 3'-end of reads
CG-rich regions
are higher covered
Mappability bias
PCR biases
Sequences preceding
errors are G-rich
G -> T and A -> C
errors
Nucleotide content bias
across the read
Higher coverage
of the 3'-end
Contamination by
under-spliced RNAs
Influence of RNA
secondary structure
Biases inherent in NGS technology
Sequencing errors
at 3'-end of reads
PCR biases
CG-rich regions
are higher covered
Coverage non-uniformity
across transcripts
Sequences preceding
errors are G-rich
G -> T and A -> C
errors
Nucleotide content bias
across the read
Higher coverage
of the 3'-end
Mappability bias
Contamination by
under-spliced RNAs
Influence of RNA
secondary structure
Given a broad variety of modern sequencing protocols,
platforms and versions thereof,
with protocol- and platform-specific biases,
to what extent are the obtained sequence data consistent
across platforms and labs?
Data
mRNA
Genome
Illumina
46 exp.
61 exp.
SOLiD
3 exp.
7 exp.
 117 (all) publicly available experiments in SRA (October 10, 2010)
 26 labs all over the world.
 For each experiment, a subset of ~1.5G bases was selected.
Methods
• Mapping to the reference human genome (hg19) with bowtie:
 <26 bp – 1 mismatch
 26-50 bp – 2 mismatches
 >50 bp – 3 mismatches
Illumina – base space
SOLiD – color space
• Per-nucleotide gene coverage profiles
• Single-exon genes
• Average Pearson correlation coefficients
Clustering
of experiments
Clustering
of experiments
Illumina RNA
DNA SOLiD
Illumina DNA
RNA SOLiD
Clustering
of experiments
Illumina RNA
DNA SOLiD
Illumina DNA
RNA SOLiD
Clustering of experiments
Correlation of gene coverage profiles
• Within the same lab
• R = 0.46 ± 0.14
Between different labs
R = 0.27 ± 0.10
неравномерность покрытия
Clustering after normalization for 3' bias
Альтернативный сплайсинг
DNA
transcription
premRNA
Splicing and processing
AAA
mRNA
Translation
Protein
AAA
Elementary alternatives
Cassette exon
Alternative
donor site
Alternative
acceptor site
Retained intron
Определение экзон-интронной
структуры
• картированием на известные гены
(в т.ч. всевозможные пары экзонов)
– при этом не находятся новые экзоны
• de novo
– стопки ридов – потенциальные экзоны
– риды, картирующиеся в разные стопки => потенциальные
пары экзон-экзон => границы экзонов + интроны
хорошее соответствие экзонов и
покрытых участков
ненулевое покрытие интронов,
провалы в экзонах
ненулевое покрытие интронов –
сравнимо с экзонами
• RNA-Seq – методы и проблемы
• Возрастные изменения сплайсинга в мозге
человека
• Возрастные изменения сплайсинга в мозге
человека, шимпанзе и макаки
Возрастные изменения сплайсинга
в мозге человека
по 6 смешанных
образцов (по 5
индивидуальных
в каждом)
13
индивидуальных
образцов
Данные
•
•
•
•
•
181 555 729 read pairs for Dataset 1
274 927 771 reads for Dataset 2
average sample coverage of 18 million reads
64% mapped reads (up to 3 mismatches)
93% mapped reads within gene boundaries
– 85% within exons
– 25% on the splice junctions
• genes with sufficient coverage
– 9 929 in Dataset 1
– 8 617 in Dataset 2
• splice junctions
– 200 464 annotated
– 21,644 novel
Значимые изменения
• inclusion ratio (IR)
– e = риды,
поддерживающие экзон
• junctions
• внутренние
– i = риды (junctions),
поддерживающие интрон
inclusion ratio=
i
(l (exon)+ l (read )− 1)
i
e
+
(l (exon)+ l (read )− 1) (l ( read )− 1)
• логистическая регрессионная модель
k at
IR = logit intercept + Fa a + Ft t 
nat



k at
2












=
logit
intercept+
F
t
+
F
+F
t

ln
a
+
F
+F
t

ln
a
IR
t
a
t:a
a2
t:a2
nat

• SVI (splicing variation index) = IRmax – IRmin / Irmax
• множественное тестирование:
Benjamini–Hochberg correction, q-value ≤ 0.05
logit=exp/(1+exp)
до 40% генов меняют сплайсинг с
возрастом
IR самосогласованы
sig.12
sig.1
sig.2
not
sig.
Корреляция между данными из
первого и второго набора
Корреляция между
префронтальной
корой и мозжечком
Контроль: ПЦР
Paralemin
Tau
Из 35 протестированных примеров, для 27 (79%)
результаты ПЦР согласуются с RNAseq
HIPK2
IR согласованы с qPCR
IR согласованы с белками (mass spec)
Распределения
коэффициента
корреляции между
частотами включения
вычисленными,
основываясь на данных
RNAseq и mass-spec
Интересные гены с значимыми
изменениями на уровне
транскриптома и протеома
•
•
•
•
•
•
MART (Wang and Liu 2008)
DBN1 (Shim and Lubec 2002)
paralemmin (Kutzleb et al. 1998)
RTN2 (Roebroek et al. 1998)
SRCIN1 (Di Stefano et al. 2004)
BIN1 (WechslerReya et al. 1997)
Splicing patterns
from unsupervised clustering of IR profiles
Паттерны изменения IR с возрастом
Типы возрастные паттернов и типы АС
Типы возрастные паттернов и NMD
20% генов, меняющих сплайсинг с возрастом,
имеют различные паттерны изменений в
разных областях мозга
Protocadherin gamma cluster
Overrepresented GO terms
•
•
•
•
•
•
•
•
•
•
Neuronal differentiation
Axon guidance
Neurogenesis
Response to unfolded proteins
Cellular macromolecular complex assembly
Cell morphogenesis involved in neuron differentiation
Muscle contraction
Neuron projection development
Coated pit
Structural molecule activity
При старении больше включаются
менее консервативные сегменты
Down
Flat
Up
Up < down, p-value = 0.0002
Flat < down, p-value = 0.06
1398
300
899
• RNA-Seq – методы и проблемы
• Возрастные изменения сплайсинга в мозге
человека
• Возрастные изменения сплайсинга в мозге
человека, шимпанзе и макаки
Differences among species | splicing |
experiment
Gene assembling
Human
1. LiftOver of splicing
sites
Chimp
Rhesus
ok! ok!
ok!
2. Expressed segment:
region between two
neighboring sites with
sufficient coverage
coverage
less than 1
bad
gap > 5nt
bad ok!
good
Gene 1
Gene 2
3. Gene assembling
alternative
segments
intron
retention
constitutive
introns
constitutive
exons
Значимые изменения
• inclusion ratio (IR)
– i = риды (junctions),
поддерживающие интрон
– e = риды,
поддерживающие экзон
• junctions
• внутренние
i
(l (exon)+ l (read )− 1)
inclusion ratio=
i
e
+
(l (exon)+ l (read )− 1) (l ( read )− 1)
• Биномиальная регрессионная модель
IR ~ species + tissue + age + species:age
IR ~ species + age + age2 + species:age + species:age2
(age = sqrtsqrt “real age”)
• SVI (splicing variation index) = IRmax – IRmin / IRmax
Differences among species | splicing | verification
human-chimpanzee
human-macaque
Sanity check: PCA, Splicing vs Gene expression
Differences among species | splicing | result
Significant exons
Not significant exons
20% of genes changes splicing with age
Correction of age by lifespan
Correction of age by lifespan
Correction of age by lifespan
Example 1. spermidine/spermine N1acetyltransferase family member 2
Human
Chimp
Rhesus
Example 2. small nucleolar RNA host
gene 11
Human
Chimp
Rhesus
Example 3. adaptor-related protein
complex 1, gamma 2 subunit
Human
Chimp
Rhesus
«Человеко-специфичный» возрастной
паттерн у удержанных интронов
Удержанные интроны - последние
Человеко-специфичные удержанные
интроны более консервативны
template
• text
Download