Распознавание регуляторных сигналов Д.А. Равчеев, М.С. Гельфанд Факультет биоинженерии и биоинформатики МГУ

advertisement
Распознавание
регуляторных сигналов
Факультет биоинженерии и биоинформатики МГУ
2-й курс (набор 2006 года)
Осенний семестр 2007
Д.А. Равчеев, М.С. Гельфанд
В. Ю. Макеев (некторые слайды)
Транскрипция и трансляция в прокариотах
Прокариоты
Эукариоты
1. Сопряжение
транскрипции и
трансляции
1.Транскрипция
2. Котранскрипция
нескольких генов
(опероны)
(синтез пре-мРНК)
2. Процессинг пре-мРНК

кэпирование

сплайсинг

полиаденилирование
3. Экспорт мРНК
4.Трансляция
Сплайсинг ( эукариоты )
Сборка сплайсосомы
Разрез на 5’ конце интрона,
образование «аркана»
Разрез на 3’ конце интрона,
соединение экзонов
Транскрипция в прокариотах :
Инициация транскрипции
Направление транскрипции
Старт транскрипции
Промотор
Транскрипция в прокариотах :
Регуляция транскрипции
Активация
Репрессия
Структура ДНК-связывающего домена
CI, фаг 
Структура ДНК-связывающего домена
Cro, фаг 
Белок-ДНКовые взаимодействия
CI
Cro
Регуляция транскрипции у эукариот
Регуляция транскрипции у эукариот
Регуляторные модули ( В. Ю. Макеев )
 Один и тот же ген может регулироваться несколькими
регуляторными модулями, работающими в разных
условиях
 Расстояние от регуляторного модуля до кодирующих
областей может достигать
100 000 пар оснований
Представление сигналов

Консенсус

Pattern (“образец” - консенсус с
вырoжденными позициями)

Матрица частот, nucleotide frequency matrix

Позиционная весовая матрица (или профиль)
positional weight matrix, PWM, profile

Логические правила

РНКовые сигналы – вторичная структура
Консенсус
Сайты связывания PurR E. coli
cvpA
purM
purT
purL
purE
purC
purB
purH
purA1
purA2
guaB
purR1
purR2
consensus
CCTACGCAAACGTTTTCTTTTT
GTCTCGCAAACGTTTGCTTTCC
CACACGCAAACGTTTTCGTTTA
TCCACGCAAACGGTTTCGTCAG
GCCACGCAACCGTTTTCCTTGC
GATACGCAAACGTGTGCGTCTG
CCGACGCAATCGGTTACCTTGA
GTTGCGCAAACGTTTTCGTTAC
TTGAGGAAAACGATTGGCTGAA
TTTAAGCAAACGGTGATTTTGA
TAGATGCAATCGGTTACGCTCT
TAAAGGCAAACGTTTACCTTGC
AACGAGCAAACGTTTCCACTAC
ACGAAAACGTTTTCGT
Образец
Сайты связывания PurR E. coli
cvpA
purM
purT
purL
purE
purC
purB
purH
purA1
purA2
guaB
purR1
purR2
CCTACGCAAACGTTTTCTTTTT
GTCTCGCAAACGTTTGCTTTCC
CACACGCAAACGTTTTCGTTTA
TCCACGCAAACGGTTTCGTCAG
GCCACGCAACCGTTTTCCTTGC
GATACGCAAACGTGTGCGTCTG
CCGACGCAATCGGTTACCTTGA
GTTGCGCAAACGTTTTCGTTAC
TTGAGGAAAACGATTGGCTGAA
TTTAAGCAAACGGTGATTTTGA
TAGATGCAATCGGTTACGCTCT
TAAAGGCAAACGTTTACCTTGC
AACGAGCAAACGTTTCCACTAC
consensus
ACGAAAACGTTTTCGT
pattern
amGAAAaCGkTTwCwT
Матрица частот
Сайты связывания PurR E. coli
a
m G A A A
a
C G
k
T
T
w C w
T
10
0
2
1
2
8
2
1
10
1
0
2
0
13
0
0
1
0
4
8
0
0
1
12
0
0
1
12
4
1
3
5
0
2
0
11
j
A
C
G
T
0
0
13
0
1
12
0
0
13
0
0
0
13
0
0
0
0
0
13
0
Информационное содержание :
I = j b f (b, j) [log f (b, j) / p (b)]
где
f (b, j) – частота нуклеотида b в позиции j
p (b) – частота нуклеотида в геноме
0
11
1
1
1
4
5
3
Диаграмма Лого (Logo)
Сайты связывания PurR E. coli
I = j b f (b, j) [log f (b, j) / p (b)]
Позиционная весовая матрица
(профиль)
a
m G A A A
a
C G
k
T
T
w C w
T
10
0
2
1
2
8
2
1
10
1
0
2
0
13
0
0
1
0
4
8
0
0
1
12
0
0
1
12
4
1
3
5
0
2
0
11
j
A
C
G
T
0
0
13
0
1
12
0
0
13
0
0
0
13
0
0
0
0
0
13
0
0
11
1
1
1
4
5
3
W(b, j) = ln [N (b, j)+0,5] – 0,25 i ln [N (i, j)+0,5]
A 1,6 -0,2 -0,8
C -1,4 1,0 -0,8
G 0,2 -0,2 2,5
T -0,3 -0,7 -0,8
0,0
2,1
-1,1
-1,1
2,5
-0,8
-0,8
-0,8
2,5
-0,8
-0,8
-0,8
1,6
-0,3
-1,4
0,2
-0,8
2,5
-0,8
-0,8
-0,8
-0,8
2,5
-0,8
-0,4
-1,5
0,7
1,3
-1,1
-1,1
0,0
2,1
-1,1
-1,1
0,0
2,1
0,3
-0,8
0,0
0,5
-1,3
1,8
-0,2
-0,2
-0,8
0,3
0,5
0,0
-1,2
0,4
-1,2
1,9
Позиционная весовая матрица
(профиль)
A 1,6 -0,2 -0,8
C -1,4 1,0 -0,8
G 0,2 -0,2 2,5
T -0,3 -0,7 -0,8
0,0
2,1
-1,1
-1,1
2,5
-0,8
-0,8
-0,8
2,5
-0,8
-0,8
-0,8
1,6
-0,3
-1,4
0,2
-0,8
2,5
-0,8
-0,8
-0,8
-0,8
2,5
-0,8
-0,4
-1,5
0,7
1,3
-1,1
-1,1
0,0
2,1
-1,1
-1,1
0,0
2,1
0,3
-0,8
0,0
0,5
-1,3
1,8
-0,2
-0,2
-0,8
0,3
0,5
0,0
 Термодинамическая мотивировка : свободная энергия
Предположение: независимость соседних позиций
-1,2
0,4
-1,2
1,9
Составление выборки

Начало:




GenBank
специализированные банки данных (EcoCyc, RegDB)
литература (обзоры)
литература (оригинальные статьи)

Исправление ошибок

Проверка литературных данных
 предсказанные сайты

Удаление дубликатов
Перевыравнивание

Первоначальное выравнивание по биологическим
признакам
 промоторы: старт транскрипции
 участки связывания рибосом: стартовый кодон
 сайты сплайсинга: экзон-интронные границы

Выделение сигнала в скользящем окне

Перевыраванивание

и т.д. пока не сойдётся
Начала генов Bacillus subtilis
Позиционное информационное содержание
до и после перевыравнивания
после
до
Download