Что такое биоинформатика?

advertisement
Семинар № 5
Биоинформатика
•
•
•
•
Что такое биоинформатика?
Программы и базы данных
Аннотация генов
Задача выравнивания
последовательностей
• Филогенетические деревья
• Задачи биоинформатики
Что такое биоинформатика?
Под биоинформатикой обычно понимают использование
компьютеров для решения биологических задач
(синоним – вычислительная молекулярная биология).
Направления:
•
•
•
математические методы компьютерного анализа
в сравнительной геномике (геномная биоинформатика).
разработка алгоритмов и программ для предсказания
пространственной структуры белков (структурная
биоинформатика).
исследование стратегий, соответствующих вычислительных
методологий, а также общее управление информационной
сложности биологических систем
Что такое биоинформатика?
На конец 2011 года число проаннотированных бактериальных
геномов – 1826. Нужна автоматизация!!!
Программы и базы данных
Поиск публикаций:
•
SCHOLAR – scholar.google.com
•
PubMed – www.ncbi.nlm.nih.gov/pubmed/
•
MOLBIOL – molbiol.ru
•
Чтение и хранение статей – программа MENDELEY
Базы данных и инструменты их анализа:
•
NCBI – www.ncbi.nlm.nih.gov - все последовательности (США)
•
EMBL-RBI – www.ebi.ac.uk – все последовательности
(Евросоюз)
•
ExPASy Proteomics Server – au.expasy.org
•
UniProt – www.uniprot.org
•
KEGG – Kyoto Encyclopedia of Genes and Genomes (Япония)
•
Protein Data Bank – www.pdb.org
Взаимосвязи метаболитов
Анализ генетических последовательностей
Основные задачи:
•Выравнивание и определение сходства двух
последовательностей
•Построение множественных выравниваний
•Распознавание генов
•Предсказание сайтов связывания регуляторных белков
•Предсказание вторичной структуры РНК
Как определить ген по белку?
Для E.coli, чей геном отсеквенирован в 1997 году, до сих пор
неизвестны функции 25% найденных генов!
Зачем это надо
Триклозан – антибактериальный препарат, входящий в мыло «Safeguard»,
считавшийся универсальным. Его мишенью является белок,
закодированный в гене fabI. Этот белок катализирует одну из реакций
синтеза жирных кислот – необходимого компонента любой клетки. При
этом у животных нет аналога этого белка, поэтому такой препарат
безопасен для человека. Компьютерный анализ бактериальных геномов
показал, что стрептококки не имеют белка fabI, а его функцию выполняет
совсем другой белок fabR. Поэтому триклозан не действует на
стрептококки.
Аннотация геномов
Аннотация генома – предсказание и нахождение участков,
кодирующих РНК и / или белки, регуляторных участков, и т.д.
Первый геном – фаг ΦX174 (1977 год)
Методы аннотации:
•Поиск в геноме участков РНК из транскриптома и участков
белков из протеома
•Сравнение с известными геномами (выравнивание)
•Алгоритм GenMark – использование скрытых марковских
моделей (HMM)
•Поиск регуляторных участков типа промоторов.
Генетический код: синонимы
TTT
TTC
TTA
TTG
CTT
CTC
CTA
CTG
ATT
ATC
ATA
ATG
GTT
GTC
GTA
GTG
F
F
L
L
L
L
L
L
I
I
I
M/ start
V
V
V
V
TCT
TCC
TCA
TCG
CCT
CCC
CCA
CCG
ACT
ACC
ACA
ACG
GCT
GCC
GCA
GCG
S
S
S
S
P
P
P
P
T
T
T
T
A
A
A
A
TAT
TAC
TAA
TAG
CAT
CAC
CAA
CAG
AAT
AAC
AAA
AAG
GАT
GАC
GАA
GАG
Y
Y
stop
stop
H
H
Q
Q
N
N
K
K
D
D
E
E
TGT
TGC
TGA
TGG
CGT
CGC
CGA
CGG
AGT
AGC
AGA
AGG
GGT
GGC
GGA
GGG
C
C
stop
W
R
R
R
R
S
S
R
R
G
G
G
G
Открытые рамки считывания
Ген должен располагаться внутри области от стопкодона до следующего стоп-кодона (в той же фазе)
Сигналы на границах генов
dnaN
gyrA
serS
bofA
csfB
xpaC
metS
gcaD
spoVC
ftsH
pabB
rplJ
tufA
rpsJ
rpoA
rplM
ACATTATCCGTTAGGAGGATAAAAATG
GTGATACTTCAGGGAGGTTTTTTAATG
TCAATAAAAAAAGGAGTGTTTCGCATG
CAAGCGAAGGAGATGAGAAGATTCATG
GCTAACTGTACGGAGGTGGAGAAGATG
ATAGACACAGGAGTCGATTATCTCATG
ACATTCTGATTAGGAGGTTTCAAGATG
AAAAGGGATATTGGAGGCCAATAAATG
TATGTGACTAAGGGAGGATTCGCCATG
GCTTACTGTGGGAGGAGGTAAGGAATG
AAAGAAAATAGAGGAATGATACAAATG
CAAGAATCTACAGGAGGTGTAACCATG
AAAGCTCTTAAGGAGGATTTTAGAATG
TGTAGGCGAAAAGGAGGGAAAATAATG
CGTTTTGAAGGAGGGTTTTAAGTAATG
AGATCATTTAGGAGGGGAAATTCAATG
… после выравнивания
dnaN
gyrA
serS
bofA
csfB
xpaC
metS
gcaD
spoVC
ftsH
pabB
rplJ
tufA
rpsJ
rpoA
rplM
cons.
num.
ACATTATCCGTTAGGAGGATAAAAATG
GTGATACTTCAGGGAGGTTTTTTAATG
TCAATAAAAAAAGGAGTGTTTCGCATG
CAAGCGAAGGAGATGAGAAGATTCATG
GCTAACTGTACGGAGGTGGAGAAGATG
ATAGACACAGGAGTCGATTATCTCATG
ACATTCTGATTAGGAGGTTTCAAGATG
AAAAGGGATATTGGAGGCCAATAAATG
TATGTGACTAAGGGAGGATTCGCCATG
GCTTACTGTGGGAGGAGGTAAGGAATG
AAAGAAAATAGAGGAATGATACAAATG
CAAGAATCTACAGGAGGTGTAACCATG
AAAGCTCTTAAGGAGGATTTTAGAATG
TGTAGGCGAAAAGGAGGGAAAATAATG
CGTTTTGAAGGAGGGTTTTAAGTAATG
AGATCATTTAGGAGGGGAAATTCAATG
tacataaaggaggtttaaaaat
0000000111111000000001
5755779156663678679890
C
белок N
трансляция
мРНК
5’
3’
сплайсинг
3’
д
транскрипция
а
д
а
экзон
5’
интрон
пре-мРНК
межгенный
экзон
интрон
экзон
межгенный
ДНК
Вычислительная эволюционная биология
Задачи:
•Изучение эволюции организмов путем анализа изменений в
ДНК, а не признаков в строении и физиологии;
•Сравнение геномов для изучения механизмов эволюционных
событий (дупликация генов, перенос генов, и т.д.);
•Построение математических моделей популяций для
предсказания поведения системы во времени;
•Построение системы отслеживания и анализа публикаций о
генетических особенностях большого числа видов.
New ATP-dependent transporters
+ CbiN
CbiM
Ni2+
Co2+
NikM
+ NikN
+ NikL, NikK
+ NikL
Анализ экспрессии генов и белков
Измерение активности генов в различные периоды развития
организма – многие гены работают только в какой-то
определенный период или при определенных условиях.
Взаимодействия белок-белок и белок-ДНК
Белок-белок
Белок-ДНК
Сравнительная геномика
Сравнительная геномика изучает связь структуры генома и его
функций.
Метод – поиск схожести и различий в белках, РНК и
регуляторных участках у разных организмов.
Структурная биология
Определение оптимальной вторичной и третичной структуры
для белков, РНК, ДНК и их комплексов.
Пример: Rosetta@Home — вычисление третичной структуры
белков из их аминокислотных последовательностей.
Структурная биология
Задачи:
• определение (предсказание) участков белковой молекулы,
важных для той или иной функции данного белка (затем экспериментальная проверка);
• сравнительный анализ структур родственных белков,
классификация белков на основе их пространственной
структуры;
• анализ структур комплексов двух или нескольких молекул
белка, комплексов молекул белка с другими молекулами;
предсказание воздействия молекул химических веществ (в
частности, потенциальных лекарств) на молекулы белков;
• предсказание структуры белка по структуре белка с
похожей последовательностью
Структурная биология в фармацевтике
Если малая молекула может существенно изменить структуру
белка бактерии или вируса, при этом не взаимодействуя с
белками человека – то такой белок является потенциальной
мишенью, а малая молекула – лекарством.
Основные биоинформационные программы
•ACT (Artemis Comparison Tool) — геномный анализ
•Arlequin — анализ популяционно-генетических данных
•BioEdit — редактор множественного выравнивания
нуклеотидных и аминокислотных последовательностей
•BioNumerics — коммерческий универсальный пакет
программ
•BLAST — поиск родственных последовательностей в базе
данных нуклеотидных и аминокислотных
последовательностей
•ClustalW — множественное выравнивание нуклеотидных и
аминокислотных последовательностей
…
http://ru.wikipedia.org/wiki/Биоинформатика
Перспективы
Download