Математические модели регуляции экспрессии гена

advertisement
Математические модели регуляции экспрессии гена Мария Самсонова Санкт-­‐Петербургский политехнический университет Экспрессия гена
•  Процесс в результате которого из гена
получается белок.
•  Этот процесс включает в себя этапы
транскрипции и трансляции.
•  Чаще всего регулируется сложным образом
на многих уровнях.
Транскрипция
•  Процесс синтеза одноцепочечной РНК
на двуцепочечной ДНК как матрице.
•  Большая часть генома
транскрибируется.
•  Гены, кодирующие белки, составляют
небольшую часть генома (около 2%).
•  Для мРНК (messenger RNA,
информационная РНК) матрицей
служат гены, кодирующие белки.
Регуляция на уровне
транскрипции
TRANSCRIPTION
FACTOR
GENE
ACAGTGA
PROTEIN
Регуляция на уровне
транскрипции
TRANSCRIPTION
FACTOR
GENE
ACAGTGA
PROTEIN
Трансляция
Регуляция на уровне
трансляции: миРНК
Генные сети
Биология переходит от качественного описания объектов к количественному описанию законов их функционирования Новые методы получения количественных данных РНК : Northern blot, ДНК-­‐чипы, РНК-­‐
секвенирование, in situ гибридизация + конфокальная микроскопия Белок: Масс-­‐спектроскопия, иммуннохимия, Western blot Метаболиты: масс-­‐спектроскопия Quantitative information
on gene
expression at the protein
level
Surkova et al (2008) “Characterization of the
Drosophila segment determination
morphome”, Developmental Biology 313:844
Secondary antibodies, !
conugated with!
fluorophore!
Primary antibodies!
Protein!
Quantitative gene expression data
at cellular resolution
1. Crop, align and segment embryos
(DGE 215:374, 2005)
2. Define embryo age
(Math. Biosciences 159:145, 2002 & Bioinformatics 18: s87-s95,
2002)
3. Remove the background
(DGE 215:320, 2005)
4. Register the data
(Bioinformatics 17:3-12, 2001)
5. Average the data
Сегментация изображений – определение положения ядер и
средней интенсивности флуоресценции белков изучаемых генов в
каждом ядре индивидуального эмбриона
Два изображения разных генов сегментации, полученные у одного эмбриона и изображение гистонов. Ядра X-1, X, X+1!
Каждый эмбрион содержит ~ 2700 ядер Среднюю интенсивность флуоресценции белков сканированных генов получаем усредняя значения пикселей в ядре Пиксель – мельчайшая единица цифрового изображения Положения ядер находим путем представления инвертированного изображения гистонов в виде топографической поверхности. На этой поверхности каждый пиксель классифицируем в соответствии с заданным порогом яркости. Все значения ниже порога считаем белыми, выше -­‐
черными. Таким образом изображение в градация серого превращается в черно-­‐белое изображение, которое позволяет отделить ядра на изображении от неинформативных областей. Координаты! Средняя
интенсивность!
ядра!
флуоресценции
0
1
2
3
4
5
6
7
8
9
10
3.67
4.05
4.00
5.01
5.07
5.44
5.52
5.78
6.26
6.62
6.69
41.54
45.39
37.37
39.89
52.14
43.47
47.36
36.91
50.78
40.14
54.79
53.69
53.89
54.7
59.46
58.82
62.25
56.72
56.86
64.35
59.30
60.07
25.93
27.08
22.85
26.56
29.04
30.51
28.94
26.26
30.60
32.01
29.52
Получение количественных данных Удаление фона
Одной из главных причин возникновения фона является неспецифическое взаимодействие первых и вторых антител с другими белками эмбриона. Двумерный паттерн экспрессии Eve у мутанта интенсивность исходное изображение Длина эмбрио
на в % Картина экспрессии у нуль-­‐мутанта по гену eve, окрашенного для выявления белка Eve изображение без фона Аппроксимация фона параболоидом , и преобразование значений интенсивности флуоресценции: S (x, y ) = α11 x 2 + α 22 y 2 + α12 xy + α1 x + α 2 y + α 0
⎛ ai − S ( xi , yi )
⎞
⎟
anorm,i = max ⎜
255
,
0
⎜ 255 − S ( x , y )
⎟ ,
i
i
⎝
⎠
i = 1.....N
Получение количественных данных Rel Prot Conc!
Reference Quantitative Data on
Segmentation gene expression in late cycle 14A
Rel Prot Conc!
255!
255!
0!
Bcd!
Hb!
Cad!
Hb!
Kr!
0!0!
0!
20!
40!
60!
80!
20!
100!
60!
80!
100!
gap genes
A-P Position (%)!
255!
Rel Prot
Conc!
Maternal genes
40!
gt!
kni!
tll!
0!0!
Eve!
H!
Run!
Ftz!
20!
40!
60!
80!
100!
A-P Position (%)!
pair-rule genes
Reference data has cellular resolution in space, 6.5 minute resolution in time and
span about 1,5 hours of development.
FlyEx database http://urchin.spbcas.ru/flyex and http://flyex.sunysb.edu/flyex
RNA-­‐Seq Технология RNASeq включает : -­‐ подготовку библиотеки, -­‐ ее амплификацию и секвенирование, -­‐ картирование прочтений на геном, -­‐ нормализацию данных и -­‐ оценку дифференциальной экспрессии генa Работы Уильяма Харвея по изучению
кровеносной системы животных
На основании экспериментальных данных и математических расчетов сформулировал теорию кровообращения и привел экспериментальные доказательства в ее пользу. (1578 – 1657)
Предсказал, что должны существовать кровеносные
сосуды, соединяющие артерии с венами.
Гипотеза Гарвея получила блестящее подтверждение
через 50 лет, когда Марчелло Мальпиги
открыл капилляры.
Развитие молекулярной биологии привело к
возникновению биоинформатики
•  Биоинформатика создает алгоритмы, вычислительные
и статистические методы и теории, базы данных для
решения фундаментальных и практических задач,
возникающих при обработке и анализе молекулярнобиологических данных.
•  Данные для биоинформатики - молекулы
нуклеиновых кислот и белков.
•  В фокусе внимания - структура и
функция отдельного гена или белка.
•  Редукционистский подход к
изучению живого.
Постгеномная эра развития
молекулярной биологии
•  Триггером послужили работы
по расшифровке геномов, геном человека был
расшифрован в 2003 году.
•  Постгеномная биология должна объяснить как
взаимодействия биологических молекул ‒
генов, белков и метаболитов - перекодируются
в организованное и целесообразное поведение
клеток, органов и организмов.
•  Переход от редукционизма к холизму, когда
биологический процесс или объект
рассматривается как единое целое.
Биологические процессы и объекты - сложныe
системы
биопленки
• 
• 
Новые (эмержентные свойства)
Самоорганизация
Необходимость анализа сложных биологических систем -­‐ вызов для современной математики, который во многом обусловит ее дальнейшее развитие. Организация бактерий в биопленки
обеспечивает их физиологическую
и функциональную стабильность
(в частности устойчивость к
антибиотикам)
Системная биология
•  Объясняет функции и поведение биологических
объектов и процессов, исходя из молекулярнобиологической информации о компонентах изучаемого
ансамбля и их взаимодействия.
•  оперирует с динамическими и количественными
данными
и поэтому
•  широко использует математические методы.
Методы математического моделирования:
теория вероятностей, статистика,
распознавание образов, теория
оптимального управления, теория
динамических систем, анализ изображений.
Методология
Три типа моделей •  Основанные на дифференциальных уравнениях •  Термодинамические модели •  Гибридные модели Дифференциальные уравнения !"#$%&'(&& )*++&"&,-*./0,#& 1".2,&,*&:
dx
= ax ,
dt
3)&$0 x = x(t) - +1,4-*5 #% 6&"&7&,,#' t, dx / dt 6"#*32#),.5 8%#' +1,4-** , ! 9 6.".7&%&".
:*++&"&,-*./0,#& 1".2,&,*& - 1".2,&,*&, $253;2.<=&&
3,.>&,*& 6"#*32#),#' +1,4-** $ $.7#' +1,4-*&',
3,.>&,*57* ,&3.2*$*7#' 6&"&7&,,#', >*$/.7* (6.".7&%".7*)
:*++&"&,-*./0,;& 1".2,&,*5 7#?1% @;%0 /*,&',;7* *
,&/*,&',;7*.
A /*,&',#7 )*++&"&,-*./0,#& 1".2,&,* ,&*32&$%,.5
+1,4-*5 * &B 6"#*32#),;& 2C#)5% 2 1".2,&,*& %#/04# 2
6&"2#' $%&6&,* (* ,& 6&"&7,#D.<%$5 )"1? $ )"1?#7).
Кинетические уравнения Закон действующих масс
Скорость реакции пропорциональна произведению концентраций
веществ, вступающих в реакцию
Уравнение Михаэлиса -­‐ Ментен Взаимодействие ТФ с ДНК Dfree + Pfree K ac DP Kdis Один ТФ ν  можно понимать как статистический вес состояния, в котором ТФ связан с ДНК Пространственно-­‐распределенные системы Пространственно-­‐распределенные системы !"#$%&'(%)
(1) % (2) *+%,"-%. / &01%&02&"#3
3+',&0&%4 +0'/(%%--%5536%% ,%-':
ut = D!u + g (u )
5"+#'17&82 ,8,"- /"."+"9" ":&",'& &' 6'/"&0 ;%/'
-1) -%5536%%,
J = ! Du x
6'*%:'&&"# -1) *"."/' J % 3+',&0&%% &0+'6+8,&":.%
-1) *1".&":.% u:
ut = g (u ) ! J x
Уравнения реакции-­‐диффузии могут характеризоваться различным динамическим поведением, включая формирование узоров, бегущих и спиральных волн или хаотическое движение. Механизмы формирования плана строения тела у дрозофилы Тело дрозофилы состоит из сегментов Формированию сегментов предшествует детерминация судьбы клеток; это процесс контролируется генами сегментации Результатом детерминации клеток является дифференцированная экспрессия генов сегментации: разные гены «работаят» в разных клетках Границы сегментов маркированы характерной картиной экспрессии генов сегментации Quanttatve Data Each equation describes the rate of change in concentration of
Jaeger et al (2004) 430: 368-­‐371 each segmentation gene product in each nucleus Manu etal., (2009) PLoS Biol., 7,3, 1000049 Kozlov et al (2012) PLoS Comp. Biol., 8:1002635 Fit model to Data – oбратная задача математического моделирования В результате подгонки решений уравнений модели к данным находим параметры модели Model Equa\on Помимо топологии модель предсказывает какие регуляторы формируют границы областей экспрессии генов Модель правильно предсказывает картины экспрессии генов сегментации у мутантов по гену Kr Quanttatve Data Each equation describes the rate of change in concentration of
each segmentation gene product in each nucleus Fit model to Data – oбратная задача математического моделирования Методы решения обратной задачи
У многих систем
число параметров и уравнений велико
целевая функция и ограничения на параметры не линейны
целевая функция часто имеет вид:
!(x
2
"
x
)
i,mod
i,data
i
Функционал выпуклый!
Глобальные методы случайного поиска
Численный отжиг , генетические и эволюционные алгоритмы
Эволюционные алгоритмы Методы случайного поиска, иммитирующие механизмы естественной эволюции, такие как наследование, мутации, отбор и кроссинговер -­‐  Глобальный метод, меньше вероятность того, что решение сойдется к локальному минимуму -­‐  Использует только информацию о функционале качества -­‐ Легко распарaллеливается Identifiability Analysis
For the analysis of the results of model fi‘ng and predicton of dynamical behavior of the model at different parameter values it is necessary to know how reliable the obtained estmates are, that consttutes the identfiability problem. Structural noniden\fiability Uncertainty in parameter values is caused by strong correlaton or functonal dependency of parameters. It is possible to only identfy a linear combinaton of parameters while each parameter cannot be identfied individually. Prac\cal noniden\fiability Insufficient or too noisy data used for fi‘ng cause the parameter uncertainty or overfi‘ng Наиболее часто неидентифицируемые параметры выявляются путем анализа чувствительности модели к параметрам Identifiability Analysis:
Asymptotic confidence regions
The (1-α) confidence region for
θ*
is determined by
S (θ ) -­‐ score Conclusions: The most of regulation parameters are identifiable .
Parameters [H<-B], [K<-K], [K<-H], [K<-G], [K<-N], [G<-B], [G<-T], [N<-B] are
practically non-identifiable as the confidence interval cover both positive and
negative values.
Корреляции между параметрами: анализ коллинеарности матрицы чувствительности Model cross-­‐validaton Two general approaches: A. Partton the entre dataset randomly into k subsets. Fit parameter values using the data contained in k-­‐1 subsets Use parameter values to make predictons for the subset le™ out and record the error Repeat k tmes so that each subset is le™ out exactly once. B. Construct a random dataset , in which the expression pa›erns are randomly shuffled with respect to gene or gene regulatory region. Fits the randomly shuffled gene expression pa›erns to data Calculate the score Термодинамические модели Сайты связывания ТФ ТФ имеют высокое сродство к сайтам связывания. Длина сайтов связывания обычно 6 – 20 нуклеотидов. Сайты связывания обычно располагаются поблизости от генов, часто перед сайтом начала транскрипции. Transcription
MCM1
SBF
MCM1
motif
SBF
motif
Start Site
Gene X
Особенности сайтов связывания ТФ
•  Малая длина •  Высокая вариабельность •  ~ Постоянство длины •  Часто несколько копий •  Вырожденность, низкая сложность h›p://webdisk.berkeley.edu/~dap5/data_04/motfs/bicoid.gif T A A T C C C Motif ( Consensus
String )
h›p://webdisk.berkeley.edu/~dap5/data_04/motfs/bicoid.gif W A A T C C N h›p://webdisk.berkeley.edu/~dap5/data_04/motfs/bicoid.gif W = T or A
N = A,C,G,T
Motif
Мотив
•  Общая подпоследовательность
«паттерн» во всех сайтах
присоединения ТФ
•  Сжатое представление информации о
вариабельности позиций сайта
Альтернативный способ представления мотива
МПП- матрица позиционных подсчетов (PCM), МПЧ – матрица позиционных
частот (PFM/PPM), МПВ – матрица позиционных весов (PWM, PSSM)
Задаем оценку сходства
Мы предполагаем, что справедлива нулевая гипотеза – вхождения сайта в последовательность нет NLog likelihood N
Prato (
S
|
PFM
)
Pi (Si | PFM )
P(S | PFM )
i
i
Score = log
= log ∏
= ∑ log
P( S | B)
P(Si | B)
P ( Si | B )
i =1
i =1
Background DNA (B) PFM A C G T Positon Weight Matrix (PWM) .1 .2 .1 .4 .1 .1 A: 0.25
.2 .2 .2 .2 .5 .1 T: 0.25
.4 .5 .4 .2 .2 .1 G: 0.25
.3 .1 .2 .2 .2 .7 C: 0.25
A C G T -­‐1.3 -­‐0.3 -­‐1.3 0.6 -­‐1.3 -­‐1.3 -­‐0.3 -­‐0.3 0.3 -­‐0.3 1 -­‐1.3 0.6 1 0.6 -­‐0.3 -­‐0.3 -­‐1.3 0.3 -­‐1.3 -­‐0.3 -­‐0.3 -­‐0.3 1.4 Сканирование и оценивание
последовательности
Common threshold = 60% of maximum score Делаем то же самое с комплементарной цепью ДНК
(reverse complement)
Экспериментальные методы
идентификации мотивов
•  Футпринтинг •  SELEX •  Protein binding microarray •  Bacterial one-­‐hybrid system Вычисление сродства сайта к участку ДНК Most widely used approach is that of Berg and von Hippel (1988), which calculates binding affinites relatve to the consensus sequence. Main assumptons: •  binding energies for protein contacts with each individual base pair are additve. •  binding energy of a bp depends on both the frequency in the motf's PWM and the background frequency for each nucleotde. Binding affinity: , where Ws, WT are PWM scores of sequence S and consensus sequence T. Binding affinity for T can be measured experimentally or le™ as a free parameter Kmax Термодинамические модели ü  Transcriptonal regulaton is a physical process that takes place in a cell at approximately constant temperature. ü  Also referred to as fractonal occupancy models. ü  Основаны на принципах биофизики и статистической физики. Предсказывают уровень экспрессии гена исходя из нуклеотидной последовательности регуляторного района и уровней концентраций ТФ. Термодинамическая модель состоит из двух частей The first part is the true “thermodynamic” piece of the model, which is derived using basic chemical stoichiometric and equilibrium equatons. The second part translates binding sites into gene expression. Термодинамическая модель, часть 1 It is assumed that •  RNA polymerase (RNAP), is recruited by bound TFs. •  TF occupy TF binding sites on DNA •  An occupancy state represents a TF binding configuraton on DNA •  Different configuratons may lead to different transcriptonal outputs. To derive a model •  consider all possible occupancy states, calculate their statstcal weights and probability •  include physical constraints, e.g. the fact that overlapping binding sites cannot be occupied simultaneously. An enhancer containing one actvator and one repressor binding site, which are overlapping, and one single actvator binding site Each TF-­‐DNA interacton can have two states, bound and unbound. The two actvator binding sites allow for a possible cooperatve interacton, and the non-­‐overlapping repressor and actvator sites allow for a possible antagonistc interacton. The statstcal weight of state i is equal to the product of binding affinites, concentraton levels and interacton parameters. At the second step one needs to translate binding states into gene expression: Two approaches: ü  transcriptonal output is modelled as proportonal to the probability of RNAP binding, which is related to the actve state of the enhancer. R0 is а maximum rate . In the absence of any ac[vators there is leakage at a rate given by R0 exp(-­‐θ),where θ is a posi[ve number. M is the number of adaptor factors that have been recruited by bound ac[vators, Q are repressors, called “quenchers” (Janssens et al., 2006; Kim et al., 2013). ü  Transcriptonal output is modelled as a nonlinear sigmoidal functon in which actvators have a positve and repressors a negatve influence (Segal et al., 2008). An enhancer containing one actvator and one repressor binding site, which are overlapping, and one single actvator binding site Thermodynamic models of gene expression vs. differental equaton based models Models based on differental equatons are phenomenological. Thermodynamic models are statc. We need to validate model assumptons about thermodynamic equilibrium, the types of interactons between bound TFs, the correlaton between RNAP binding to the promoter and gene expression . 
Related documents
Download