Document 4864401

advertisement
gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca
gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta
ggtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca
acggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcgggctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggca
aattgaaaactttcgtcgatcaggaatttgcccaaataaaacatgtcctgcatggcattagtttgttggggcagtgcccggatagcatcaacgctgcgctgatttgccgtggcgaga
tgtcgatcgccattatggccggcgtattagaagcgcgcggtcacaacgttactgttatcgatccggtcgaaaaactgctggcagtggggcattacctcgaatctaccgtcgatattg
agtccacccgccgtattgcggcaagccgcattccggctgatcacatggtgctgatggcaggtttcaccgccggtaatgaaaaaggcgaactggtggtgcttggacgcaacggttccg
actctgctgcggtgctggctgcctgtttacgcgccgattgttgcgagatttggacggacgttgacggggtctatacctgcgacccgcgtcaggtgcccgatgcgaggttgttgaagt
tgtcctaccaggaagcgatggagctttcctacttcggcgctaaagttcttcacccccgcaccattacccccatcgcccagttccagatcccttgcctgattaaaaataccggaaatc
aagcaccaggtacgctcattggtgccagccgtgatgaagacgaattaccggtcaagggcatttccaatctgaataacatggcaatgttcagcgtttctggtccggggatgaaaggga
tcggcatggcggcgcgcgtctttgcagcgatgtcacgcgcccgtatttccgtggtgctgattacgcaatcatcttccgaatacagcatcagtttctgcgttccacaaagcgacttgc
gagctgaacgggcaatgcaggaagagttctacctggaactgaaagaaggcttactggagccgctggcagtgacggaacggctggccattatctcggtggtaggtgatggtagcacct
tgcgtgggatctcggcgaaattctttgccgcactggcccgcgccaatatcaacattgtcgccattgctcagggatcttctgaacgctcaatctctgtcgtggtaaataacgatgatg
ccactggcgtgcgcgttactcatcagatgctgttcaataccgatcaggttatcgaagtgtttgtgattggcgtcggtggcgttggcggtgcgctgctggagcaactgaagcgtcagc
gctggctgaagaataaacatatcgacttacgtgtctgcggtgttgccaactcgaaggctctgctcaccaatgtacatggccttaatctggaaaactggcaggaagaactggcgcaag
aagagccgtttaatctcgggcgcttaattcgcctcgtgaaagaatatcatctgctgaacccggtcattgttgactgcacttccagccaggcagtggcggatcaatatgccgacttgc
gcgaaggtttccacgttgtcacgccgaacaaaaaggccaacacctcgtcgatggattactaccatcagttgcgttatgcggcggaaaaatcgcggcgtaaattcctctatgacacca
ttggggctggattaccggttattgagaacctgcaaaatctgctcaatgcaggtgatgaattgatgaagttctccggcattctttctggttcgctttcttatatcttcggcaagttag
aaggcatgagtttctccgaggcgaccacgctggcgcgggaaatgggttataccgaaccggacccgcgagatgatctttctggtatggatgtggcgcgtaaactattgattctcgctс
aaacgggacgtgaactggagctggcggatattgaaattgaacctgtgctgcccgcagagtttaacgccgagggtgatgttgccgcttttatggcgaatctgtcacaactcgacgatc
ttgccgcgcgcgtggcgaaggcccgtgatgaaggaaaagttttgcgctatgttggcaatattgatgaagatggcgtctgccgcgtgaagattgccgaagtggatggtaatgatccgc
tcaaagtgaaaaatggcgaaaacgccctggccttctatagccactattatcagccgctgccgttggtactgcgcggatatggtgcgggcaatgacgttacagctgccggtgtctttg
atctgctacgtaccctctcatggaagttaggagtctgacatggttaaagtttatgccccggcttccagtgccaatatgagcgtcgggtttgatgtgctcggggcggcggtgacacct
gatggtgcattgctcggagatgtagtcacggttgaggcggcagagacattcagtctcaacaacctcggacgctttgccgataagctgccgtcagaaccacgggaaaatatcgtttat
tgctgggagcgtttttgccaggaactgggtaagcaaattccagtggcgatgaccctggaaaagaatatgccgatcggttcgggcttaggctccagtgcctgttcggtggtcgcggcg
atggcgatgaatgaacactgcggcaagccgcttaatgacactcgtttgctggctttgatgggcgagctggaaggccgtatctccggcagcattcattacgacaacgtggcaccgtgt
ctcggtggtatgcagttgatgatcgaagaaaacgacatcatcagccagcaagtgccagggtttgatgagtggctgtgggtgctggcgtatccggggattaaagtctcgacggcagaa
agggctattttaccggcgcagtatcgccgccaggattgcattgcgcacgggcgacatctggcaggcttcattcacgcctgctattcccgtcagcctgagcttgccgcgaagctgatg
gatgttatcgctgaaccctaccgtgaacggttactgccaggcttccggcaggcgcggcaggcggtcgcggaaatcggcgcggtagcgagcggtatctccggctccggcccgaccttg
gctctgtgtgacaagccggaaaccgcccagcgcgttgccgactggttgggtaagaactacctgcaaaatcaggaaggttttgttcatatttgccggctggatacggcgggcgcacga
ctggaaaactaaatgaaactctacaatctgaaagatcacaacgagcaggtcagctttgcgcaagccgtaacccaggggttgggcaaaaatcaggggctgttttttccgcacgacctg
gaattcagcctgactgaaattgatgagatgctgaagctggattttgtcacccgcagtgcgaagatcctctcggcgtttattggtgatgaaatcccacaggaaatcctggaagagcgc
gcttatcgtgcgctgcgtgatcagttgaatccaggcgaatatggcttgttcctcggcaccgcgcatccggcgaaatttaaagagagcgtggaagcgattctcggtgaaacgttggat
ccaaaagagctggcagaacgtgctgatttacccttgctttcacataatctgcccgccgattttgctgcgttgcgtaaattgatgatgaatcatcagtaaaatctattcattatctca
aggccgggtttgcttttatgcagcccggcttttttatgaagaaattatggagaaaaatgacagggaaaaaggagaaattctcaataaatgcggtaacttagagattaggattgcgga
taacaaccgccgttctcatcgagtaatctccggatatcgacccataacgggcaatgataaaaggagtaacctgtgaaaaagatgcaatctatcgtactcgcactttccctggttctg
gctcccatggcagcacaggctgcggaaattacgttagtcccgtcagtaaaattacagataggcgatcgtgataatcgtggctattactgggatggaggtcactggcgcgaccacggc
gctcccatggcagcacaggctgcggaaattacgttagtcccgtcagtaaaattacagataggcgatcgtgataatcgtggctattactgggatggaggtcactggcgcgaccacggc
gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta
ggtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca
acggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcgggctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggca
gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca
gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca
Нуклеотидные последовательности
(номенклатура, правила записи и чтения)
А.Б.Рахманинова, 2007 г.
Повторяем...
Нуклеиновые кислоты - линейные
гетерополимеры нуклеотидов
Азотистое основание цитозин
Нуклеозид цитидин
1
Нуклеотид цитидинмонофосфат (ЦМФ)
9
N-гликозидная связь
5'
4'
3'
1'
2'
Нумерация атомов углерода
в остатке рибозы
Аденозин-5'-монофосфат (АМФ),
Аденозин-5'-дифосфат (АДФ),
Аденозин-5'-трифосфат (АТФ)
Номенклатура стандартных азотистых
оснований, нуклеозидов и нуклеотидов
РНК:
Азотистое
Рибонуклеозид
основание
Рибонуклеотид = рибонуклеозид-5'-фосфат
Aденин(A)
Аденозин (Adenosine)
аденозин-5'-фосфат, адениловая кислота, АМФ (Adenylate,
AMP)
Гуанин (G)
Гуанозин (Guanosine)
гуанозин-5'-фосфат, гуаниловая кислота, ГМФ (Guanylate,
GMP)
Урацил (U)
Уридин (Uridine)
уридин-5'-фосфат, уридиловая кислота, УМФ (Uridylate, UMP)
Цитозин (C)
Цитидин (Cytidine)
цитидин-5'-фосфат, цитидиловая кислота, ЦМФ (Cytidylate,
CMP)
ДНК:
Азотистое
Дезоксирибонуклеотид =
2'-дезоксирибонуклеозид
основание
2'-дезоксирибонуклеозид-5'-фосфат
Aденин(A)
2'-дезоксиаденозин
(Deoxyadenosine)
2'-дезоксиаденозин-5'-фосфат, 2'-дезоксиадениловая кислота,
(Deoxyadenylate. dAMP)
Гуанин (G)
2'-дезоксигуанозин
(Deoxyguanosine)
2'-дезоксигуанозин-5'-фосфат, 2'-дезоксигуаниловая кислота
(Deoxyguanylate, dGMP)
Тимин (Т)
Тимидин (Thymidine)
тимидиловая кислота (Thymidylate, TMP)
Цитозин (C)
2'-дезоксицитидин
(Deoxycytidine)
2'-дезоксицитидин-5'-фосфат, 2'-дезоксицитидиловая кислота,
(Deoxycytidylate, dCMP)
Повторяем:
ДНК
3'
фосфодиэфирные связи,
сахарофосфатный остов,
антипараллельные цепи,
3'- и 5'- конец,
канонические пары.
OH
N
H2N
OH
N
O
O
N
H3C
O
A
N
O
NH
5'
OH
O
P
N
T
O
N
O
O
O
O
HN
G
N
O
P
N
O
O
NH2
HN
OH
N
O
A
N
O
T
N
O
N
O
P
O
O
H2N
O
N
N
O
P
O
O
OH
O
O
O
H2N
O
N
P
P
N
OH
O
O
CH3
C
O
OH
N
NH2
OH
O
O
P
NH
O
OH
N
N
OH
N
O
G
O
C
O
NH2
O
P
HO
5'
OH
3'
O
Разработка
эффективных методов
секвенирования
привела к быстрому
росту известных
последовательностей
Как записывают последовательности нуклеиновых кислот ?
1. Последовательность = последовательность однобуквенных символов.
Никаких дефисов и обозначений фосфодиэфирных связей.
2. Одни и те же однобуквенные символы для последовательностей РНК и
ДНК (при записи РНК обычно ‘U’  ‘T’ ).
Любая последовательность по умолчанию считается ДНК
(т.е. полимером 2'-дезоксирибонуклеотидов).
3. Одни и те же символы используются для обозначения азотистых
оснований, нуклеозидов и нуклеотидов
Допустимы заглавные и строчные буквы, хотя рекомендованы заглавные.
4. Последовательность записывается в направлении 5'→3'
Пример:
5'-CTCGAC-3'
Nomenclature Committee of the International Union of Biochemistry (NC-IUB)
Nomenclature for incompletely specified bases in nucleic acid sequences
Recommendations 1984
Biochem. J. (1985) 229, 281-286
Описание сайтов связывания
с регуляторными белками
Описание сайтов
рестрикции
Восстановление предковой
последовательности
Описание вырожденности
генетического кода
1 ----TGGtACAGCATTTGCA
2 ----TGGCACAGCcTTcGCA
3 ----TGGCAttaGcTTTGCA
4 ----TGGCACgatAgTcGCA
5 ----TGGCACAGGcTgTGCt
6 ----TGGCACAGatTTcGCt
7 ----TGGtACAaGAccTGCA
8 ----TGGCACgattTTTtCA
9 ----TGGCAagcaAaTTGCA
10 ----gGGCgCAGCcTTcGCA
11 ----TGGtAtcGCAaTTGCt
12 ----TGGagCgcGAaTTGCA
13 ----TGGtAtgttcccTGCA
CONSENSUS.......TGGCACrrsmtTTGCA
Общепринятые однобуквенные обозначения для стандартных
азотистых оснований (остатков нуклеозидов и нуклеотидов)
и вырожденных позиций в выравниваниях нуклеиновых кислот
Символ
G
A
T
C
R
Y
M
K
S
W
H
B
V
D
N
Расшифровка
Происхождение обозначения
G, guanine (гуанин)
A, adenine, (аденин)
T/U, thymine/uracyl
(тимин в ДНК и урацил в РНК)
C, cytosine (цитозин)
A или G, purine(пурины)
C или T или U,
pyrimidine (пиримидин)
A или C
G или T
G или C
A или T
A или C или T , но не G
G или T или C, но не A
G или C или A , но не T или U
G или A или T , но не C
G или A или T или C
puRine
pYrimidine
aMino
K eto
Strong interaction (3 H bonds)
Weak interaction (2 H bonds)
в алфавите 'H' следует за 'G'
'B' следует за 'A'
'V' следует за 'U'
'D' следует за 'C'
aNy
Образец теста:
1. Нарисовать 
структурную
формулу аденина
2.  Назвать соединение
_____________________________________
3. Дан фрагмент последовательности и-РНК

Написать последовательность ДНК, которая
послужила матрицей при синтезе этой и-РНК. 
b. Написать, как, скорее всего, будет записан
соответствующий фрагмент гена в EMBL.

Подсказка: не забудьте отметить концы!
5’-atgtccaccgatggc-3’
a.
4. *Написать консенсус для выравнивания
___________________________
___________________________
сagcagattaatc
tagcatttttatc
tagcatttttgtc
cagcaatttaatc
tagccatttaatc
=============
Консенсус: ___________________________
ttttacctctttttagtgatattgtgatatagagcaaaaatcccgacattgtgtcgggattgtttttaaactcttgttgattttaatttttcaatcgcttctttattaaagaagtagtgtgtgcc
acaacactcacattgcatatcaatacggcctttatgttcggctaatatttcgtcaatttcttcatcagagatgagcagtagatgcagaactagaacgctcagcagagcagccaca
gaaaaattgtacatcttgtgctggataaagattaacggtttcttcgtgatataaacgataggagtaactcttctgcagggagaccaaataattcttcatcttttactgttgctgcgagc
gtagttaaatgctcaaaatcttctggtgtaccagaaccatcaggcataatttgtaataacatacctgctgccactggcttgccttcatattctccagtacgaataattaattgagtttg
aagactcatattttcagtgaagtttcgatcgcccttaggaggggccgcgctttctctttcaa
GenBank
EMBL
DDBJ
компьютерный поиск гена, трансляция и компьютерная
аннотация
Базы данных
научной литературы
~2 500 000
последовательностей
UniParc
Экспертиза
UniRef
(UniProt Archive)
200 000 последовательностей
PIR-PSD
(UniProt
non-redundant
Reference
databases)
The EMBL Nucleotide Sequence Database
(также просто БД EMBL)
http://www.ebi.ac.uk/embl/Documentation/User_manual/usrman.html
Статистика EMBL
Total nucleotides
(current 182,255,914,181)
Number of entries
(current 103,223,161)
Статистика EMBL
Homo sapiens
Mus musculus
Rattus norvegicus
marine metagenome
Bos taurus
Pan troglodytes
Canis lupus familiaris
Zea mays
Macaca mulatta
Monodelphis domestica
Other
Класс данных
3.1 Data Class
The data class of each entry, representing a methodological approach to the generation of the data
or a type of data, is indicated on the first (ID) line of the entry. Each entry belongs to exactly one
data class.
Class
----------CON
ANN
PAT
EST
GSS
HTC
HTG
MGA
WGS
TPA
STS
STD
Definition
----------------------------------------------------------Entry constructed from segment entry sequences, drawing
annotation from segment entries
Entry constructed from segment entry sequences with its own
annotation
Patent
Expressed Sequence Tag
Genome Survey Sequence
High Thoughput CDNA sequencing
High Thoughput Genome sequencing
Mass Genome Annotation
Whole Genome Shotgun
Third Party Annotation
Sequence Tagged Site
Standard (all entries not classified as above)
ID
AC
PR
DT
DE
KW
OS
OC
OG
RN
RC
RP
RX
RG
RA
RT
RL
DR
CC
AH
AS
FH
FT
XX
SQ
CO
bb
//
-
identification (begins each entry; 1 per entry)
accession number (>=1 per entry)
project identifier (0 or 1 per entry)
date (2 per entry)
description (>=1 per entry)
keyword (>=1 per entry)
organism species (>=1 per entry)
organism classification (>=1 per entry)
organelle (0 or 1 per entry)
reference number (>=1 per entry)
reference comment (>=0 per entry)
reference positions (>=1 per entry)
reference cross-reference (>=0 per entry)
reference group (>=0 per entry)
reference author(s) (>=0 per entry)
reference title (>=1 per entry)
reference location (>=1 per entry)
database cross-reference (>=0 per entry)
comments or notes (>=0 per entry)
assembly header (0 or 1 per entry)
assembly information (0 or >=1 per entry)
feature table header (2 per entry)
feature table data (>=2 per entry)
spacer line (many per entry)
sequence header (1 per entry)
contig/construct line (0 or >=1 per entry)
(blanks) sequence data (>=1 per entry)
termination line (ends each entry; 1 per entry)
FT
FT Key
Location/Qualifiers=value
FT CDS
1..1000
/codon=(seq:"cug",aa:Ser)
/codon=(seq:"tga",aa:Trp)
http://www.ebi.ac.uk/embl/WebFeat/index.html
Download