Браузер для генома п. Лисий Нос 7 ноября 2013 Симонов Сергей

advertisement
Браузер для генома
Симонов Сергей Александрович
к.ф.-м.н. Центр Геномной Биоинформатики
им Ф. Добржанского, СпБГУ
п. Лисий Нос
7 ноября 2013
Карта современной науки
(РР ноябрь 2013)
План
 Биоинформатика
 Геном
– протеом
 Элементы
генома
 Визуализация
генома
Биоинформатика
1012 клеток
В каждой клетке –
Геном длиной 3.2*109
Азбука Морзе
Коды Хаффмена (префиксные)
A=1, C=2, G=3, T=4
1
2
n
a1x +a2x +…anx =b,
9
n=3.2*10
15
A=A(до); c=B(ре); g=C(ми); t=D(фа)
Зачем?
Не знаешь функцию – изучай структуру
Примеры элементов в геноме
 Повторы
50%
 Гены
1-4%
 Экзоны
 Интроны
 Эндоретровирусы
0.0… %
SNP, SNV, Metilated site … 0.00… %
Как «читают» геном?

Берут образец

Выделяют ДНК

Режут на фрагменты

Секвенируют, получая риды (reads)

Сибирают риды в контиги, скафолды, хромосомы, геном
Есть исходный геном (reference)

Что в нем можно закодировать?

4 типа нуклеотида

20 аминокислот

Генетический код основан на триплетах – т.н. Кодонах

Есть Старт-кодон и три стоп кодона.
 Т.о.
Можно видеть, что код неоднозначный.
 То
же самое для большинства геномных элементов
– «похоже», но не тождественно!
 Около
500 000 белков в базе данных.
 Как
сравнивать последовательности?
 Локально.
Алгоритм Смита-Ватермана.
Динамическое программирование
 Глобально.
 Эвристика
Алгоритм Нудельмана-Вунша
- БЛАСТ
Сколько вычислений?
 109
мега
 1012
гига
 1015
пета
 1018
экса
Производительность суперкомпьютеров на уровне пета.
К 2016 ожидается превышение экса
Вирусы
Структура вируса
Итак. С помощью алгоритмов
выравнивания можно находить:

Повторы

Белки

Вирусы

СНИПы

Другие элементы
Несколько ссылок
http://humbio.ru/humbio/molevol/000199bc.htm
http://www.ncbi.nlm.nih.gov огромная
про геномные элементы
база данных с генетической
информацией
http://webgbrowse.cgb.indiana.edu
- открытый для всех геномный
браузер
http://Garfield2.dobzhanskycenter.org
- мой геномный браузер
Как увидеть цельную картину и сохранить
возможность пристального взгляда?
 Браузер
– как средство «поглазеть»…
 Посмотреть
в интернете (IE, FireFox, Chrome, Safari,
etc
 Увидеть
геном (NCBI, Ensembl, UCSC, Gbrowse,
Jbrowse etc).
СПАСИБО
Симонов Сергей Александрович
к.ф.-м.н. Центр Геномной Биоинформатики
им Ф. Добржанского, СпБГУ
Download