Поиск гомологов белка PFLB_ECOLI в геномах

advertisement
Программы пакета BLAST
Найти ближайшего гомолога белка PFLB_ECOLI в геноме Pasteurella multocida
AC (EMBL): AE006043.
Координаты выравнивания в записи: 1165..3483.
CDS гомолога аннотирован.
Координаты в нуклеотидной последовательности 1156..3486.
AC белка в UniProt: Q9CPG6.
E-value этой находки равен 0. BLAST не предлагает другие гомологи с E-value < 0,01, но существует еще две
находки с очень большим E-value.
Задание выполнено с помощью следующих программ в командной строке Unix:
formatdb:
formatdb -i pm_genome.fasta -p F -n pm
TBLASTN:
blastall -p tblastn -d pm -i X.fasta -o Y.fasta
Поиск гомологов белка PFLB_ECOLI в геномах трех бактерий
(Vibrio cholerae, Pseudomonas aeruginosa, Pasteurella multocida)
E-value находки из предыдущего пункта остался равным 0. Всего имеется находок с E-value < 0,01 две:
 AC (EMBL): AE006043 (Pasteurella multocida).
Координаты выравнивания в записи: 1165..3483.
 AC (EMBL): AE004262 (Vibrio cholerae).
Координаты выравнивания в записи: 4345.. 6612.
Их E-value = 0.
Задание выполнено с помощью следующих программ в командной строке Unix:
genpath=/home/export/samba/public/tmp
genomes="$genpath/vc_genome.fasta $genpath/pa_genome.fasta $genpath/pm_genome.fasta"
formatdb:
FTBLASTN:
formatdb -i "$genomes" -n 3g -p
blastall -p tblastn -d pm -i X.fasta -o Y.fasta
Поиск гомологов гена белка PFLB_ECOLI в геномах трех бактерий
(Vibrio cholerae, Pseudomonas aeruginosa, Pasteurella multocida)
Получен большой список гомологов, но из них всего лишь две находки имеют E-value < 0,01. Они
совпадают с найденными в пункте 2.
Их E-value соответственно равны 3e-54 и e-133 для AE006043 и AE004262.
Задание выполнено с помощью следующих программ в командной строке Unix:
BLASTN:
blastall -p blastn -d 3g -i X.fasta -o Y.fasta
Программы поиска Fasta и Megablast
Найти гомологов гена белка PFLB_ECOLI в геноме Pasteurella multocida
Найдены два достоверных гомолога:


AC: AE006043. E-value: 4.7e-112.
AC: AE006042. E-value: 1.1e-21.
Первая находка соответствует результатам 1-3 пунктов. Вторая же находка новая. Это значит, что
нуклеотидные последовательности похожи, но белковые последовательности различаются. Это можно
объяснить ошибкой программ: fasta34 или TBLASTN.
Задание выполнено с помощью следующих программ в командной строке Unix:
fasta34:
fasta34 X.fasta vm_genome.fasta 6
Оценка возможностей поиска нуклеотидного фрагмента в BLAST-банке из трех геномов
(Vibrio cholerae, Pseudomonas aeruginosa, Pasteurella multocida)
Фрагмент генома Pasteurella multocida, относящийся к участку, кодирующему гомолог белка PFLB_ECOLI
(AE006043), длиной 100 оснований:
aagtaatgttaatttgttgaaaattaaaatattttaacaataaattgatctggcgtaaga
aaaaatggctttgggtgttttttgaacaaaaaagcgcttt
Задание выполнено с помощью следующих программ в командной строке Unix:
MEGABLAST: megablast -d 3g -i X.fasta -o Y.fasta
Поскольку программа по умолчанию использует для поиска последовательности длинной в 28 нуклеотидов,
то достаточно заменить каждый 29-й нуклеотид, чтобы Megablast не дал результата. Попробуем:
aagtaatgttaatttgttgaaaattaaTatattttaacaataaattgatctggcgAaaga
aaaaatggctttgggtgttttttTaacaaaaaagcgcttt
На 100 нуклеотидов надо заменить 3.
Сколько гомологов глициновых тРНК E.coli находит discontigous Megablast в геномах
(Vibrio cholerae, Pseudomonas aeruginosa, Pasteurella multocida)?
Задание выполнено посредством программы Megablast.
Используем следующие параметры:
-t – длина разрывного слова (16, 18, 21).
-W – определяет длину слова, по которому происходит поиск гомологов (11 или 12).
-N – тип разрывного слова: оптимальный или кодирующий. Выберем параметр, при котором происходит
выдача обоих вариантов (2).
-D – определяет способ вывода данных.
Выберем следующий вариант:
megablast -d 3g -i glu_ec.fasta -o glu_megablast.fasta -t 16 -W 11 -N 2
При таких параметрах найдено 88 гомологов.
Download