Получение белка в клетке. Мировые хранилища информации о

advertisement
Получение белка в клетке.
Мировые хранилища
информации о геноме и
протеноме
Алексей Сальников
Процессы в клетке
Структура прокариотической
клетки
Структура эукариотической
клетки
Клеточное ядро
ДНК
CNOP
ACGT
Детали строения молекул в
микроскоп не видны!
~ 0,00001 мм
Существуют сложные и дорогие методы
расшифровки структуры молекул
Белок
RRNFSKQASE ILNEYFYSHL
SNPYPSEEAK EELARKCGIT
VSQVSNWFGN KRIRYKKNI
Пространственная структура
Последовательность
Этапы получения белка в
клетке
●
●
●
Транскрипция —
получение РНК полекулы
по последовательности
гена
Трансляция — синтез
белковой цепочки
Фолдинг — сворачивание
белка в определённую
структуру
Транскрипция
Транскрипция
Транскрипция
Регуляторные области
(промотер)
Регуляторные области
(энхансер)
Вторичная структура РНК
Сплайсинг
Альтернативный сплайсинг
●
В человеческом геноме 30-40 тысяч
генов, а различных матричных РНК,
участвующих в трансляции 100-150
тысяч.
Хранение генетической
информации
gatcctccatatacaacggtatctccacctcaggtttagatctcaacaacggaaccattg
ccgacatgagacagttaggtatcgtcgagagttacaagctaaaacgagcagtagtcagct
ctgcatctgaagccgctgaagttctactaagggtggataacatcatccgtgcaagaccaa
gaaccgccaatagacaacatatgtaacatatttaggatatacctcgaaaataataaaccg
ccacactgtcattattataattagaaacagaacgcaaaaattatccactatataattcaa
agacgcgaaaaaaaaagaacaacgcgtcatagaacttttggcaattcgcgtcacaaataa
attttggcaacttatgtttcctcttcgagcagtactcgagccctgtctcaagaatgtaat
aatacccatcgtaggtatggttaaagatagcatctccacaacctcaaagctccttgccga
gagtcgccctcctttgtcgagtaattttcacttttcatatgagaacttattttcttattc
tttactctcacatcctgtagtgattgacactgcaacagccaccatcactagaagaacaga
acaattacttaatagaaaaattatatcttcctcgaaacgatttcctgcttccaacatcta
cgtatatcaagaagcattcacttaccatgacacagcttcagatttcattattgctgacag
ctactatatcactactccatctagtagtggccacgccctatgaggcatatcctatcggaa
aacaataccccccagtggcaagagtcaatgaatcgtttacatttcaaatttccaatgata
cctataaatcgtctgtagacaagacagctcaaataacatacaattgcttcgacttaccga
gctggctttcgtttgactctagttctagaacgttctcaggtgaaccttcttctgacttac
tatctgatgcgaacaccacgttgtatttcaatgtaatactcgagggtacggactctgccg
acagcacgtctttgaacaatacataccaatttgttgttacaaaccgtccatccatctcgc
tatcgtcagatttcaatctattggcgttgttaaaaaactatggttatactaacggcaaaa
acgctctgaaactagatcctaatgaagtcttcaacgtgacttttgaccgttcaatgttca
ctaacgaagaatccattgtgtcgtattacggacgttctcagttgtataatgcgccgttac
ccaattggctgttcttcgattctggcgagttgaagtttactgggacggcaccggtgataa
actcggcgattgctccagaaacaagctacagttttgtcatcatcgctacagacattgaag
gattttctgccgttgaggtagaattcgaattagtcatcggggctcaccagttaactacct
ctattcaaaatagtttgataatcaacgttactgacacaggtaacgtttcatatgacttac
ctctaaactatgtttatctcgatgacgatcctatttcttctgataaattgggttctataa
В конце 1970-х годов был изобретён относительно
быстрый и дешёвый метод экспериментального определения
последовательности оснований в ДНК
выделение
Организм
секвенирование
ДНК «в пробирке»
...TGCCACAAATCAC...
Последовательность
Для хранения все возрастающей
информации о
последовательностях ДНК в 1982
году был основан GenBank
GenBank — хранилище последовательностей нуклеиновых кислот в
виде компьютерных файлов
Объем GenBank’а:
1982: 680 338 букв в 606 последовательностях
1992: 101 008 486 букв в 78 608 последовательностях
2002: 28 507 990 166 букв в 22 318 883 последовательностях
2005: 56 037 734 462 букв в 52 016 762 последовательностях
2007: 71 292 211 453 букв в 67 218 344 последовательностях
(из ~200 000 организмов)
Размер файлов — 251 Gb
Первый “банк данных”
1965 -1978
Атлас белковых
последовательностей и
их структур
Первая версия атласа содержала описание 65 (!) последовательностей
белков
Банки данных
•
Архивные
(примеры: PDB, GenBank)
за содержание каждой записи отвечает её автор-экспериментатор
• Курируемые
за содержание записей отвечают специальные люди — кураторы
• Автоматические
записи генерируются компьютерными программами
International Nucleotide
Sequence Database
Collaboration
GenBank
(США)
DDBJ
(Япония)
Ежедневный обмен
данными
EMBL
(Европа)
Банки структурной биологической
информации
GenBank, EMBL, DDBJ
RefSeq
Архивные базы
последовательностей нуклеиновых
кислот
TrEMBL
Автоматическая база
предсказаний
последовательностей белков
Автоматическая база
различных посл-ей ДНК/РНК
SwissProt
Курируемая база
последовательностей
белков
PDB
Архивная база пространственных
структур макромолекул
И многие другие...
Банк данных TrEMBL
TrEMBL (Translated EMBL)
Формальная трансляция всех кодирующих нуклеотидных
последовательностей из банка EMBL
Автоматическая классификация и аннотация
Текущий релиз 37.8 (5 февраля 2008) содержит 5 329 119 записей
Банк данных Swiss-Prot
С 1987 поддерживается в сотрудничестве между
Swiss Institute of Bioinformatics (SIB)
European Bioinformatics Institute (EBI)
Амос Байрох
Руководитель группы Swiss-Prot в
Швейцарском Институте Биоинформатики
Банк данных Swiss-Prot
Статистика роста
количества документов
1986
2001
2006
Текущий релиз 54.8 (5 февраля 2008) содержит 349 480 записей
Структура документа GenBank’а
Описание
Последовательность
Документ Swiss-Prot
Описание документа: идентификатор,
имя, дата создания и модификации
Аннотация
последовательности
Последовательность
Download