Нуклеотидные последовательности

advertisement
gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca
gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta
ggtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca
acggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcgggctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggca
aattgaaaactttcgtcgatcaggaatttgcccaaataaaacatgtcctgcatggcattagtttgttggggcagtgcccggatagcatcaacgctgcgctgatttgccgtggcgaga
tgtcgatcgccattatggccggcgtattagaagcgcgcggtcacaacgttactgttatcgatccggtcgaaaaactgctggcagtggggcattacctcgaatctaccgtcgatattg
agtccacccgccgtattgcggcaagccgcattccggctgatcacatggtgctgatggcaggtttcaccgccggtaatgaaaaaggcgaactggtggtgcttggacgcaacggttccg
actctgctgcggtgctggctgcctgtttacgcgccgattgttgcgagatttggacggacgttgacggggtctatacctgcgacccgcgtcaggtgcccgatgcgaggttgttgaagt
tgtcctaccaggaagcgatggagctttcctacttcggcgctaaagttcttcacccccgcaccattacccccatcgcccagttccagatcccttgcctgattaaaaataccggaaatc
aagcaccaggtacgctcattggtgccagccgtgatgaagacgaattaccggtcaagggcatttccaatctgaataacatggcaatgttcagcgtttctggtccggggatgaaaggga
tcggcatggcggcgcgcgtctttgcagcgatgtcacgcgcccgtatttccgtggtgctgattacgcaatcatcttccgaatacagcatcagtttctgcgttccacaaagcgacttgc
gagctgaacgggcaatgcaggaagagttctacctggaactgaaagaaggcttactggagccgctggcagtgacggaacggctggccattatctcggtggtaggtgatggtagcacct
tgcgtgggatctcggcgaaattctttgccgcactggcccgcgccaatatcaacattgtcgccattgctcagggatcttctgaacgctcaatctctgtcgtggtaaataacgatgatg
ccactggcgtgcgcgttactcatcagatgctgttcaataccgatcaggttatcgaagtgtttgtgattggcgtcggtggcgttggcggtgcgctgctggagcaactgaagcgtcagc
gctggctgaagaataaacatatcgacttacgtgtctgcggtgttgccaactcgaaggctctgctcaccaatgtacatggccttaatctggaaaactggcaggaagaactggcgcaag
aagagccgtttaatctcgggcgcttaattcgcctcgtgaaagaatatcatctgctgaacccggtcattgttgactgcacttccagccaggcagtggcggatcaatatgccgacttgc
gcgaaggtttccacgttgtcacgccgaacaaaaaggccaacacctcgtcgatggattactaccatcagttgcgttatgcggcggaaaaatcgcggcgtaaattcctctatgacacca
ttggggctggattaccggttattgagaacctgcaaaatctgctcaatgcaggtgatgaattgatgaagttctccggcattctttctggttcgctttcttatatcttcggcaagttag
Нуклеотидные последовательности
(номенклатура, правила записи и чтения)
gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca
gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta
ggtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca
acggtgcgggctgacgcgtacaggaaacacagaaaaaagcccgcacctgacagtgcgggctttttttttcgaccaaaggtaacgaggtaacaaccatgcgagtgttgaagttcggca
aattgaaaactttcgtcgatcaggaatttgcccaaataaaacatgtcctgcatggcattagtttgttggggcagtgcccggatagcatcaacgctgcgctgatttgccgtggcgaga
tgtcgatcgccattatggccggcgtattagaagcgcgcggtcacaacgttactgttatcgatccggtcgaaaaactgctggcagtggggcattacctcgaatctaccgtcgatattg
agtccacccgccgtattgcggcaagccgcattccggctgatcacatggtgctgatggcaggtttcaccgccggtaatgaaaaaggcgaactggtggtgcttggacgcaacggttccg
actctgctgcggtgctggctgcctgtttacgcgccgattgttgcgagatttggacggacgttgacggggtctatacctgcgacccgcgtcaggtgcccgatgcgaggttgttgaagt
tgtcctaccaggaagcgatggagctttcctacttcggcgctaaagttcttcacccccgcaccattacccccatcgcccagttccagatcccttgcctgattaaaaataccggaaatc
aagcaccaggtacgctcattggtgccagccgtgatgaagacgaattaccggtcaagggcatttccaatctgaataacatggcaatgttcagcgtttctggtccggggatgaaaggga
tcggcatggcggcgcgcgtctttgcagcgatgtcacgcgcccgtatttccgtggtgctgattacgcaatcatcttccgaatacagcatcagtttctgcgttccacaaagcgacttgc
gagctgaacgggcaatgcaggaagagttctacctggaactgaaagaaggcttactggagccgctggcagtgacggaacggctggccattatctcggtggtaggtgatggtagcacct
tgcgtgggatctcggcgaaattctttgccgcactggcccgcgccaatatcaacattgtcgccattgctcagggatcttctgaacgctcaatctctgtcgtggtaaataacgatgatg
ccactggcgtgcgcgttactcatcagatgctgttcaataccgatcaggttatcgaagtgtttgtgattggcgtcggtggcgttggcggtgcgctgctggagcaactgaagcgtcagc
gctggctgaagaataaacatatcgacttacgtgtctgcggtgttgccaactcgaaggctctgctcaccaatgtacatggccttaatctggaaaactggcaggaagaactggcgcaag
aagagccgtttaatctcgggcgcttaattcgcctcgtgaaagaatatcatctgctgaacccggtcattgttgactgcacttccagccaggcagtggcggatcaatatgccgacttgc
gcgaaggtttccacgttgtcacgccgaacaaaaaggccaacacctcgtcgatggattactaccatcagttgcgttatgcggcggaaaaatcgcggcgtaaattcctctatgacacca
ttggggctggattaccggttattgagaacctgcaaaatctgctcaatgcaggtgatgaattgatgaagttctccggcattctttctggttcgctttcttatatcttcggcaagttag
ДНК
3'
Повторяем:
 фосфодиэфирные связи;
 сахарофосфатный остов;
 антипараллельные цепи;
 3'- и 5'- конец;
 канонические пары.
OH
N
H2N
OH
N
O
O
H3C
O
A
N
N
O
NH
5'
OH
O
P
N
T
O
N
O
O
O
NH2
O
HN
G
N
O
P
N
O
O
NH2
HN
OH
N
O
A
N
O
T
N
O
O
P
O
O
H2N
O
N
N
O
P
O
O
N
OH
O
O
O
H2N
O
N
P
P
N
OH
O
O
CH3
C
O
OH
N
OH
O
O
P
NH
O
OH
N
N
OH
N
O
G
O
C
O
NH2
O
P
HO
5'
OH
3'
O
Рост числа известных последовательностей
Почему?
3’
ДНК
ATCGTGCAGTGCGTAAACGTAGCAGTCGA
5’
РНК
5’
UACGACGUCACGCAU
3’
Запись:
Последовательность = последовательность однобуквенных символов.
Никаких дефисов и обозначений фосфодиэфирных связей.
AGCTGACGATGCAAATGCGTGACGTGCTA
ДНК
РНК
5’
3’
UACGACGUCACGCAU
Направление: 5’ -> 3’
Одни и те же буквы используются для записи ДНК и РНК
(исключение: U)
Общепринятые однобуквенные обозначения для стандартных
азотистых оснований (остатков нуклеозидов и нуклеотидов)
и вырожденных позиций в выравниваниях нуклеиновых кислот
Символ
G
A
T
C
R
Y
M
K
S
W
H
B
V
D
N
Расшифровка
Происхождение обозначения
G, guanine (гуанин)
A, adenine, (аденин)
T/U, thymine/uracyl
(тимин в ДНК и урацил в РНК)
C, cytosine (цитозин)
A или G, purine(пурины)
C или T или U,
pyrimidine (пиримидин)
A или C
G или T
G или C
A или T
A или C или T , но не G
G или T или C, но не A
G или C или A , но не T или U
G или A или T , но не C
G или A или T или C
puRine
pYrimidine
aMino
K eto
Strong interaction (3 H bonds)
Weak interaction (2 H bonds)
в алфавите 'H' следует за 'G'
'B' следует за 'A'
'V' следует за 'U'
'D' следует за 'C'
aNy
http://www.bioinformatics.org/sms/iupac.html
http://www.chick.manchester.ac.uk/SiteSeer/IUPAC_codes.html
Банки данных нуклеотидных
последовательностей
AGCTGAAA
ATGCGATCGATC
ATCGTAGCT
ATTGC
ACGTA
AAA
AAATTTCGCG
ATCTG
ATC
SRA
Trace Archive
GenBank
EMBL
DDBJ
INSDC
(International Nucleotide Sequence Database Collaboration)
GenBank
-
EMBL
банки-архивы
обмениваются данными
1 запись = 1 эксперимент
границы экспериментальные, а не естественные
DDBJ
ID - identification (begins each entry; 1
per entry)
AC - accession number (>=1 per entry)
PR - project identifier (0 or 1 per entry)
DT - date (2 per entry)
DE - description (>=1 per entry)
KW - keyword (>=1 per entry)
OS - organism species (>=1 per entry)
OC - organism classification (>=1 per
entry)
OG - organelle (0 or 1 per entry)
RN - reference number (>=1 per entry)
RC - reference comment (>=0 per entry)
RP - reference positions (>=1 per entry)
RX - reference cross-reference (>=0 per
entry)
RG - reference group (>=0 per entry)
RA - reference author(s) (>=0 per entry)
RT - reference title (>=1 per entry)
RL - reference location (>=1 per entry)
DR - database cross-reference (>=0 per
entry)
CC - comments or notes (>=0 per entry)
AH - assembly header (0 or 1 per entry)
AS - assembly information (0 or >=1 per
entry)
FH - feature table header (2 per entry)
FT - feature table data (>=2 per entry)
XX - spacer line (many per entry)
SQ - sequence header (1 per entry)
CO - contig/construct line (0 or >=1 per
entry)
FT Key
Location/Qualifiers=value
http://www.ebi.ac.uk/embl/WebFeat/index.html
SRA
Trace Archive
GenBank
EMBL
DDBJ
INSDC
(International Nucleotide Sequence Database Collaboration)
Нуклеотидные банки NCBI
GenBank
- содержит то же, что EMBL
RefSeq
- http://www.ncbi.nlm.nih.gov/refseq/
- 1 запись = 1 последовательность
- Границы естественные, а не экспериментальные
Genome
- Включает последовательности полных геномов
Нуклеотидные банки NCBI
Nucleotide
- виртуальный банк
- включает все перечисленное
Методы поиска
- SRS
http://www.dkfz.de/menu/cgi-bin/srs7.1.3.1/wgetz?-page+top
- Поиск NCBI
http://www.ncbi.nlm.nih.gov/
- ENA
http://www.ebi.ac.uk/ena/
- MRS
http://mrs.cmbi.ru.nl/m6/
Download