Функциональная аннотация М.Гельфанд «Сравнительная геномика» БиБи, 4 курс

advertisement
Функциональная аннотация
М.Гельфанд
«Сравнительная геномика»
БиБи, 4 курс
осень 2009
Цель аннотации
• Что
– функция
• Когда
– Регуляция
• Экспрессии
• Время жизни
• Где
– Локализация
• Внутри/снаружи
• Органеллы и компартменты
• Как
– Механизм
• Специфичность, регуляция
Функции (условно)
• Ферменты
– Метаболизм (катаболизм, анаболизм)
– Биосинтез макромолекул
• Транспортеры
• Регуляторы
– Рецепторы
– Белки сигнальных каскадов
– Факторы транскрипции и т.п.
• Структурные и «вспомогательные» белки
– Цитоскелет, движение, деление
– Межклеточные взаимодействия (рецепторы)
– Шапероны. Большие комплексы
Gene Ontology
Три иерархии
• Молекулярная функция
• Биологический процесс
• Компонент клетки
Пример: цитохром с
– Транспорт электронов
– Окислительное фосфорилирование
– Внутренняя мембрана митохондрии
Геномные базы:
• FlyBase (дрозофила)
• SGD (Saccharomyces Genome Database)
• MGD (Mouse Genome Database)
Молекулярная функция - примеры
• Широкие категории:
– Каталитическая активность
– Транспортная активность
– Связывание
• Узкие категории:
– Адениат-циклазная активность
– Связывание Ca2+
Можно и по-другому (EC, TC) – это потом
Биологический процесс - примеры
• Широкие категории:
– Cellular physiological processes
– Перенос сигнала (signal transduction)
• Узкие категории:
– Метаболизм пиримидинов
– Транспорт альфа-глюкозидов
– Асимметричное деление клеток
GO:
процессы
Структура иерархии: сеть
Biological process
• Cellular process
– Cellular physiolgical process
• Cell division
– Asymmetric cell division
» Regulation of asymmetric cell division
– Regulation of cell division
» Regulation of asymmetric cell division
• Regulation of cellular physiological process
– Regulation of cell division
» Regulation of assymmetric cell division
• Physiological process
– Cellular physiolocical process
• …
– Regulation of physiological process
• …
Упражнение
Нарисовать пути, ведущие к:
(А-Д)
(Е-К)
(Л-Н)
(О-П)
(Р-С)
(Т-Я)
GO:0045782 : positive regulation of cell budding
GO:0004612 : phosphoenolpyruvate carboxykinase (ATP) activity
GO:0019568 : arabinose catabolism
GO:0003726 : double-stranded RNA adenosine deaminase activity
GO:0030660 : Golgi vesicle membrane
GO:0030570 : pectate lyase activity
GO:0019319 : hexose biosynthesis
GO:0047689 : aspartate racemase activity
GO:0006068 : ethanol catabolism
GO:0004129 : cytochrome-c oxidase activity
GO:0030334 : regulation of cell migration
GO:0003705 : RNA polymerase II transcription factor activity, enhancer binding
используя AmiGO
http://www.geneontology.org  AmiGo
http://www.godatabase.org/cgi-bin/amigo/go.cgi?
search_constraint=terms&action=replace_tree&session_id=7922b112
5244220
BLAST home page
Параметры BLAST: wordsize
• Цистеиновые протеазы из люцернового
долгоносика и коровьего клеща: 61%
тождества, а BLASTN не находит. Для
ДНК Wordsize=11(min 7), для белков =3.
Similarity ≠ homology
• BLAST e-value is a measure of nonrandomness of sequence similarity
• Possible causes of similarity:
– homology
– domain homology
– low complexity, coiled-coil, transmembrane
and other types of regions with non-standard
amino acid composition
• Homology ≠ same function. Normally:
– similar (general) function
(e.g. enzymatic activity)
– maybe different specificity
Предсказание специфичности:
дерево распадается на две ветви – все нормально
(A novel type of Ni /Co ABC transporters. Transmembrane component CbiM/NikM)
+ CbiN
CbiM
Ni2+
Co2+
NikM
+ NikN
+ NikL, NikK
+ NikL
Предсказание специфичности: все смешалось – нет
предсказания ( The NiCoT transporters family)
Предсказание специфичности: смена специфичности – ошибки
(The NikABCDE family of ABC transporters. Substrate-binding component NikA)
Noradrenaline transporter in an archaeon?
SOURCE
ORGANISM
FEATURES
source
Protein
Methanococcus jannaschii.
Methanococcus jannaschii
Archaea; Euryarchaeota; Methanococcales; Methanococcaceae;
Methanococcus.
Location/Qualifiers
1..492
/organism="Methanococcus jannaschii"
/db_xref="taxon:2190"
1..492
/product="sodium-dependent
noradrenaline transporter"
CDS
1..492
/gene="MJ1319"
/note="similar to EGAD:HI0736 percent identity: 38.5;
identified by sequence
similarity;
putative"
/coded_by="U67572:71..1549"
/transl_table=11
Now corrected:
Hypothetical sodium-dependent transporter MJ1319.
Lesson(s)
1. Avoid overprediction (homology does not
necessarily mean same cellular role or
specificity)
Similarity to hypothetical proteins:
somebody else’s errors…
The only correct
annotation!
Genes with curious functional
assignments
• C75604: Probable head morphogenesis
protein, Deinococcus radiodurans
• O05360: Automembrane protein H,
Yersinia enterocolitica
• Q8TID9: Benzodiazepine (valium)
receptor TspO, Methanosarcina
acetivorans
• NP_069403: DR-beta chain MHC class II,
Archaeoglobus fulgidus
Errors in experimental papers
SwissProt:
DEFINITION Hypothetical 43.6 kDa protein.
ACCESSION
...
KEYWORDS
SOURCE
ORGANISM
P48012
Hypothetical protein.
Debaryomyces occidentalis
Debaryomyces occidentalis
Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;
Saccharomycetales; Saccharomycetaceae; Debaryomyces.
[CAUTION] Was originally (Ref.1) thought to be
3-isopropylmalate dehydrogenase (LEU2).
PIR:
DEFINITION
3-isopropylmalate dehydrogenase
ACCESSION
KEYWORDS
- yeast(Schwanniomyces occidentalis).
S55845
oxidoreductase.
(EC 1.1.1.85)
SwissProt entry DSDX_ECOLI
-!- CAUTION: An ORF called dsdC was
originally (Ref.3) assigned to the wrong
DNA strand and thought to be a D-serine
deaminase activator, it was then
resequenced by Ref.2 and still thought to
be "dsdC", but this time to function as a
D-serine permease. It is Ref.1 that showed
that dsdC is another gene and that this
sequence should be called dsdX. It should
also be noted that the C-terminal part of
dsdX (from 338 onward) was also sequenced
(Ref.6 and Ref.7) and was thought to be a
separate ORF (don't worry, we also had
difficulties understanding what happened!).
Lesson(s)
1. Avoid overprediction (homology does not
necessarily mean same cellular role or
specificity)
2. Check carefully the source(s) of
annotations in the list of homologs
mastermind protein of Drosophila
Filtering of
low-complexity
segments
• often
insufficient
• may lose
non-trivial
information
Lesson(s)
1. Avoid overprediction (homology does not
necessarily mean same cellular role or
specificity)
2. Check the source(s) of annotations in the
list of homologs
3. Beware of similarity in low-complexity
regions, non-globular domains,
transmembrane segments
Homology of domains
I64228: “DNA polymerase homolog”
(in fact, 5’-3- exonuclease)
Bacterial DNA polymerases
Klenow fragment
BLAST domains page
InterPro domains
Lesson(s)
1. Avoid overprediction (homology does
not necessarily mean same cellular
role or specificity)
2. Check the source(s) of annotations in
the list of homologs
3. Beware of similarity in low-complexity
regions, non-globular domains,
transmembrane segments
4. Do not extend domain homology to
annotation of the whole protein
PROSITE
• Множественное выравнивание  консервативные
позиции  паттерны
• Вырожденные паттерны
• P-loop ATPases:
• [GA]x(4)GK[ST]
• Очень малая избирательность
caspases/paracaspases/metacaspases
Профили. PSI-BLAST
• Значимость (E=0.005), 1 лишний на 200
поисков
• Ручная прочистка при итерациях
• Автоматически – до схождения
• Асимметрия
Lesson(s)
1. Avoid overprediction (homology does not
necessarily mean same cellular role or
specificity)
2. Check the source(s) of annotations in the
list of homologs
3. Beware of similarity in low-complexity
regions, non-globular domains,
transmembrane segments
4. Do not extend domain homology to
annotation of the whole protein
5. Правильный паттерн должен
сохраняться у (близких) ортологов;
должны сохраняться основные
каталитические остатки
Анализ белка в отсутствие гомологов
• Сигнальные пептиды. SignalP (нейронная сеть)
• Трансмембранные сегменты. Две дюжины
серверов (TMHMM, PHDhtm, HMMTOP)
–
–
–
–
–
Гидрофобные/гидрофильные
Сигнал на границе
Топология (положительные внутри)
Использование выравниваний
Бета-белки. Порины
• Локализация. PSORT, TargetP
• Coiled coil. COILS, Parcoil/Multicoil
• Вторичная и пространственная структура.
Threading
• Сравнительная геномика и негеномные данные
Download