локальных выравниваний

advertisement
Поиск гомологичных
последовательностей
Осваиваем программу
BLAST
Посмотрите обучающую программу
о том как пользоваться BLAST
NCBI Blast Tutorial
http://www.youtube.com/watch?v=HXEpBnUbAMo
Скопировать сюда
Попробуйте найти эту
последовательность сами через
поиск в базе данных Protein
Параметры
Выбор базы данных
Прокрутите
вниз
Выбор алгоритма
удобно, можно вернуться и
изменить параметры поиска
Раскройте параметры
алгоритма
Пока можно оставить
параметры по
умолчанию
Нажмите на
кнопку BLAST
Откроется промежуточное окно поиска
В зависимости от загруженности сервера, надо подождать
прокрутите вниз
прокрутите вниз
Поизучайте выравнивания.
Обратите внимание на вес
(Score) и ожидание (E-value).
Вес получается из матриц
счета с учетом пропусков и
несовпадений (им
присваивается отрицательный
вес)
Expect - ожидание ожидаемое число
последовательностей, которые
при выравнивании будут иметь
данный вес или лучше (см
теорию дальше).
Элементы теории
локального выравнивания
• Задача: по заданной последовательности
найти другие в базе данных
последовательностей, которые
“показывают схожесть” на статистически
значимом уровне.
• Цели:
– мы предполагаем, что похожие
последовательности кодируют белки со
схожими функциями => предсказывание
функций
– мы предполагаем, что похожие
последовательности произошли от одного
общего предка => проследить эволюционную
историю
Алгоритм BLAST
•
Программы BLAST (Basic Local
Alignment Search Tools) представляют
собой набор алгоритмов для
сравнения последовательностей.
Были впервые опубликованы в 1990
году для поиска оптимального
локального выравнивания данной
последовательности с другими в базе
данных последовательностей.
–
–
Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990)
“Basic local alignment search tool.” J. Mol. Biol. 215:403-410.
Altschul SF, Madden TL, Schaeffer AA, Zhang J, Zhang Z, Miller
W, Lipman DJ (1997) “Gapped BLAST and PSI-BLAST: a new
generation of protein database search programs.” NAR 25:33893402.
11
12
Какие результаты
выдает BLAST…
• BLAST выдает “неожидаемые”
выравнивания
-
•
отличные от случайных
Допущения
-
•
Случайные последовательности
Постоянный композиционный состав
Выводы
-
“Неожидаемая схожесть” подразумевает
эволюционную гомологию
Эволюционная гомология: происхождение от общего предка
Не всегда подразумевает подобную функцию
13
Программы BLAST
Программа
Описание
blastp
Сравнивает исходную аминокислотную последовательность с
последовательностями из базы данных белков
blastn
Сравнивает исходную нуклеотидную последовательность с
последовательностями из базы данных нуклеотидных
последовательностей
blastx
Сравнивает исходную нуклеотидную последовательность,
оттранслированную в аминокислотную по всем шести рамкам
считывания, с последовательностями из базы данных белков.
Используется для нахождения потенциальных продуктов трансляции
неизвестной нуклеотидной последовательности.
tblastn
Сравнивает исходную аминокислотную последовательность с базой
данных нуклеотидных последовательностей, динамически
транслируемых по всем шести рамкам считывания
tblastx
Сравнивает все шесть трансляций исходной нуклеотидной
последовательности со всеми шестью трансляциями из базы данных
нуклеотидных последовательностей.
14
Дополнительные программы
BLAST
Программы
Характеристики
Непрерывный
Для близких последовательностей
Разрывный
Для межвидового сравнения
PSI-BLAST
Автоматически генерирует матрицу счета
специфичную к позициями (Position Specific
Score Matrix, PSSM)
RPS-BLAST
Совершает поиск в базе данных матриц
PSSMs, сгенерируемых программой PSIBLAST.
Megablast
Специфичен к
позициям
15
Алгоритм BLAST
•
•
Параметр,
можно менять
•
Вес совпадений считается по
матрицам счета
Последовательности разбиты на
слова (words) (по умолчанию длина
n=3)
–
Обеспечивает скорость и вычислительную эффективность
Алгоритм BLAST расширяет
исзначальный “зародыш” (“seed”) до
сегмента с большим весом (High
Scoring Pairs, HSP)
16
При поиске близких
последовательностей важна
статистика
•
•
Различие между настоящим
совпадением и артефактом делается
с помощью оценок вероятности, что
совпадение могло быть случайным.
Мы обсудим значение весов (scores,
S) и ожиданий (e-values, E), которые
ассоциируются с выравниваниями,
отобранными BLAST.
17
Как считается вес (score, S)
•
•
•
Качество каждого попарного
выравнивания представлено в виде
веса, по которому так же определяется
порядок расположения найденных
последовательностей.
Для вычисления веса выравнивания,
используются матрицы весов. Вес
считается по каждому выравненному
основанию (ДНК) или аминокислоте
(белок).
Общий вес выравнивания есть сумма
весов для каждой позиции.
18
Матрица весов
•
Матрицы замен
используются для
аминокислотных
выравниваний
•
Более простая
унитарная
матрица
используется для
ДНКвыравнивания (+1
для совпадения, 2 для
несовпадения)
6
19
BLOSUM vs PAM
BLOSUM 45
BLOSUM 62
PAM 250
PAM 160
PAM 100
Более разошедшиеся
•
BLOSUM 90
Менее разошедшиеся
По умолчанию в программе BLAST 2.0
используется матрица BLOSUM 62. Хотя она
предназначена для поиска умеренно
разошедшихся белков, ее использование
довольно эффективно при поиске более
близких последовательностей. Поиск дальних
родственников может оказаться более
эффективен с другими матрицами.
20
Что означают значения веса
(score) и ожидания (e-value).
•
Качество выравнивания
представлено весом Score (S).
•
Вес выравнивания расчитывается как сумма замен и пропусков.
Вес замен берется из матриц (PAM, BLOSUM), а вес пропусков
назначается эмпирически.
•
Значимость каждого выравнивания
вычисляется в виде ожидания E value
(E).
•
Ожидание. Число различных выравниваний с весом равным или
большим, чем S, которое ожидается найти в данной базе данных
случайным образом. Чем меньше E-value, тем более значим вес.
E-value - это не вероятность, а ожидание. Причина, по которой
программы BLAST выдают не вероятности, а ожидани, состоит в
том, что гораздо легче понять значения ожидания в 5 или 10
последовательностей, чем вероятности 0.993 и 0.99995. Однако
при E<0.01 значения вероятностей и ожиданий практически
совпадают.
•
21
Что надо знать о E-values
•
Низкие значения E-values означают,
что последовательности гомологичны
๏
•
‣
‣
‣
Однако, высокие не означают негомологичность
Статистическая значимость зависит
как от размера выравненного участка
так и от размера базы данных
Important consideration for comparing results across different
searches
E-value увеличивается с увеличением размера базы
данных
E-value уменьшается с увеличением размера участка
выравнивания
22
Гомология: некоторые
соображения
•
•
•
•
Схожесть не является индикатором
гомологии
Вообще говоря, если две
последовательности схожи со
статистической значимостью по всей
длине, то, вероятно, они гомологичны
Участки с низкой сложностью могут
быть схожи с высокой степенью
значимости, но не быть гомологами
Гомологичные последовательности
не всегда схожи с высокой степенью
значимости
23
Предполагаемые порогвые
значения BLAST
•
•
Для поиска в базах данных нуклеотидных
последовательностей надо рассматривать
результаты со значениями ожиданий (Evalues) меньше 10-6 и процентом
идентичности последовательностей 70%
или более
Для поиска в базах данных
аминокислотных последовательностей,
надо рассматривать результаты со
значениями ожиданий (E-values) меньше
10-3 и процентом идентичности
последовательностей 25% или более
24
Как работает BLAST?
•
•
Качество и относительная скорость поиска
программ BLAST (важные свойства при учете
того, что базы данных постоянно растут)
достигается с помощью подхода, при котором
исходная последовательность и
последовательности базы данных разбиваются
на фрагменты (слова, "words"), и
первоначальный поиск совпадений
производится между фрагментами.
После изначального нахождения совпадающих
“слов” выравнивание расширяется по обоим
направлениям с целью сгенерить
выравнивание с весом, превышающим
некоторое пороговое значение S.
25
Алгоритм BLAST
26
Алгоритм BLAST
27
Расширение выравнивания до достижения
максимального веса
High Scoring Segment Pair (HSP)
Минимальный вес (S)
Пороговый вес
для первого
совпадающего
слова (T)
28
Как работает BLAST?
Параметры
W : Размер слова (Word) – найти совпадающие слова
между последовательностями
длина 2-3 для aминокислот, 6-11 для нуклеотидов.
T : Порог (Threshold) – оставить только слова с весом >T
обычно 11-13
X : Потеря веса – остановить расширять выравнивание,
когда потеря >X
S : Вес (Score) – Финальный вeс сегмента
Как работает BLAST?
Алгоритм:
1.
Выравнивает исходную последовательность с
последовательностью из базы данных.
2.
Находит “хиты” (“hits”): короткие выравненные
сегменты длины W без пробелов с весом не меньше T.
3.
Расширяет выравнивание до тех пор, пока вес не
уменьшится на величину X от некоторого максимума,
который будет обозначен как наилучший вес
Этот шаг потребляет основное время процессора (>90%)
Как работает BLAST?
Как нам быстро избавиться от ненужных
последовательностей?
• Разеделить базу данных на слова длины W (по
умолчанию: W = 3 для белков и и W = 7 для ДНК)
• Сохранить слова в специальной таблице, в которой
можно производить быстрый поиск
WTDFGYPAILKGGTAC
WTD
TDF
DFG
FGY
GYP
…
Как работает BLAST?
BLAST: как избавиться от ненужных
последовательностей
• Когда пользователь вводит исходную последовательность, она делится
на слова
• Поиск в базе данных происходит последовательно по соседним словам
• Вес для соседних слов определяется согласно матрице весов
(например, BLOSUM62 для белков) с некоторым пороговым значением
GFC (20)
GFB
GPC (11)
WAC (5)
Как работает BLAST?
Последовательность базы данных
Соседнее слово
Ищем зародыш: хиты на
одной диагонали, которые
можно объединить
По крайней мере, 2 хита на
одной диагонали на
расстоянии друг от друга
меньше, чем определенный
порог
Исходная последовательность (Query)
Стадия фильтрации –
множество несвязанных хитов
фильтруются, экономя
огромное количество
времени!
Как работает BLAST?
Расширение сегмента вдоль выравнивания
• Прекращает расширение, когда вес выравнивания
уменьшается на X ниже полученного максимального
значения
• Не рассматривает сегменты с весом < S
ASKIOPLLWLAASFLHNEQAPALSDAN
JWQEOPLWPLAASOIHLFACNSIFYAS
Score=15
Score=17
Score=14
Расширение выравнивания до достижения
максимального веса
High Scoring Segment Pair (HSP)
Минимальный вес (S)
Пороговый вес
для первого
совпадающего
слова (T)
35
Как работает BLAST?
Результат – ЛОКАЛЬНОЕ выравнивание
• В результате BLAST выдает набор локальных
выравниваний между исходной последовательностью
и различными найденными хитами
Для одной
последовательности
может быть два
участка c высоким
весом. Обратите
внимание на
координаты
37
Задание 1
1. Найти последовательности двух субединиц белка
гемоглобина человека (hemoglobin subunit alpha
and hemoglobin subunit beta) через NCBI protein
database. Через BLAST найти близких
родственников. Выбрать 10 разных видов. Найти
полные последовательности выбранных 10 видов
через NCBI protein database по
идентификационному номеру. Сохранить их все в
формате fasta в текстовый файл. Мы их будем
использовать для построения филогенетических
деревьев
Подсказка:
hemoglobin subunit alpha [Homo sapiens]
http://www.ncbi.nlm.nih.gov/protein/4504347?report=fasta
Задание 2
Найти структуру гемоглобина
человека в базе данных pdb.
Окрасить так, чтобы было видно
две субъединицы. Посмотреть
гемоглобин с кислородом, без
кислорода и при болезни
серповидно-клеточной анемии.
Подсказка:
http://www.rcsb.org/pdb/results/results.do?outformat=&qrid=2FD86D00&tabto
show=Current
Задание 3
1. Посмотреть интересное видео о проекте “Дерево жизни” Discovering the Great Tree of Life
http://www.youtube.com/watch?v=9R8hpPY_9kY
Cледующая лекция
Проект «Дерево жизни» (TOL, Tree of Life).
Горизонтальный обмен генов. Основные понятия о
филогенетических деревьях. Гомологи, ортологи,
паралоги. Метод расстояний. Невзвешенный метод парной
группировки (UPGMA). Метод ближайшего соседа.
Бутстрэп. Программы для построения деревьев – PHYLIP,
PAUP, сlustalw.
Download