Предсказание границ структурных доменов по

advertisement
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
имени М.В. ЛОМОНОСОВА
_____________________________________________________________________________
ФАКУЛЬТЕТ БИОИНЖЕНЕРИИ И БИОИНФОРМАТИКИ
ПРЕДСКАЗАНИЕ ГРАНИЦ СТРУКТУРНЫХ ДОМЕНОВ ПО
ПОСЛЕДОВАТЕЛЬНОСТИ
Отчет по биоинформатике
студента 4 курса
Кузнецова Виктора Петровича
Москва 2012
1
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ ...................................................................................................................... 3
ОБЩАЯ ИНФОРМАЦИЯ ОБ АЛГОРИТМЕ ................................................................ 5
1. Базы данных........................................................................................................... 5
2. Процедура выполнения алгоритма ..................................................................... 5
3. Постобработка данных......................................................................................... 7
4. Производительность метода ............................................................................... 8
5. Оценка порогового значения T............................................................................ 9
ПРИМЕРЫ И РЕЗУЛЬТАТЫ РАБОТЫ ПРИ РАЗЛИЧНЫХ УСЛОВИЯХ................ 10
1. Наличие гомологов................................................................................................ 10
2. Изменчивость базы данных RPS.......................................................................... 10
3. Эффект избыточности белковой последовательности...................................... 11
4. Сравнение с другими программами для прогнозирования границ доменов... 12
5. Сравнение с другими основанными на последовательности методами в CASP7....14
ВЫВОДЫ ......................................................................................................................... 15
СПИСОК ЛИТЕРАТУРЫ ............................................................................................... 15
2
ВВЕДЕНИЕ
В данном отчете я хочу рассказать об одном из алгоритмов предсказания доменной
организации полипептида на основе его первичной структуры. В основном отчет
составлен на основе обзора статьи [1] об алгоритме FIEFDom.
В настоящее время прогноз расположения доменов белков часто является
предварительным шагом как в экспериментальных, так и в расчетных экспериментах. 3D
структура является ключом к пониманию функционирования белка, однако время,
стоимость и специфичность, необходимые для получения экспериментальных данных
большого набора белков, могут быть непомерно высоки. Возникает необходимость
быстрого, легкого и главное точного способа предсказания структуры на основе
вычислительных методов [2-4]. При правильном подходе можно рассматривать белки не
как отдельные структурные единицы, а как набор определенных доменов, способных
вместе взаимодействовать и образовывать полную структуру. Даже при условии
невозможности получить точную трехмерную модель белка, полученные данные можно
использовать для упрощения кристаллизации, необходимой для рентгеноструктурного
анализа. Прогнозирование доменной организации может широко использоваться при
множественном выравнивании, а так же при моделировании новых белковых структур с
заданными свойствами.
Почти все ныне существующие методы предсказания границ доменом можно
разделить на 3 типа [5]: предсказание на основе гомологии, распознавание положения
доменов и предсказание доменов «с ноля». Наиболее популярным на данный момент
является предсказание доменной организации на основе гомологии. Имея пару близких
гомологов с уже известной структурой можно с высокой точностью определить
расположение доменов, все лишь оперируя множественным выравниванием. Такие базы
данных, как CATH [7], SCOP [8], Pfam [9], CDD [10] или SMART [11], на основе сильного
сходства первичной структуры прекрасно распределяют домены. Такой прогноз очень
эффективен, однако имеет один значительный минус – наличие близких гомологов. При
предсказании доменной организации структуры, имеющей только отдаленных гомологов,
могут возникнуть проблемы и неточности. При распознавании структуры совершается
поиск гомологичных белков по базе, содержащей большое количество структур. При
таком методе для получения данных о гомологии используется PSI-BLAST [12] или же
сравниваются
заранее
предсказанные
вторичные
структуры.
Для
распознавания
совершенно новых белковых структур данные методы не подходят. Нужен метод,
3
который сможет предсказывать структуру на основе только лишь аминокислотной
последовательности. Одними из программ, основанных на данном, методе являются
Snapdragon [13], RosettaDOM [14], DomCut [15] и Armadillo [16]. Первые две программы
изначально использовались для предсказания третичной структуры, фактически эти
знания можно применить и для разделения на домены. Определение границ весьма точно,
однако ресурсозатратно и требует много времени, поэтому были придуманы методы
определения границ доменов на основе биохимических свойств аминокислот. Несмотря на
быстроту и независимость от гомологов этот метод не часто используется по причине не
высокой точности. Единственным вариантом для сочетания и точности и быстроты
выполнения задачи является гибридный метод нахождения доменных границ. Гибридные
методы различны между собой и сочетают между собой получение данных из нескольких
источников информации. Старые гибридные методы не были популярны, так как их
использование не сильно увеличивало производительность и точность алгоритмов поиска.
Например, в Biozon [17], поиск основан на MSA, физико-химических свойствах
аминокислот, вторичных структурах, границе экзонов и интронов и т.д., которые
взаимодействуют как искусственная нейронная сеть (NNs) [18-20]. KemaDom [21] –
другой гибридный метод, который использует для предсказания вторичной структуры три
опорных вектора: доступность растворителя, энтропию аминокислотных остатков и
физико-химические свойства аминокислот.
Метод FIEFDom (Fuzzy Integration of Extracted Fragments for Domains), описанный в
статье основан на получении аминокислотной последовательности, а также профиля
последовательности, с использованием неопределенного оператора среднего (FMO).
Профиль
представляет
собой
вероятностную
таблицу
положения
определенной
аминокислоты по последовательности. Выбор FMO был основан на его простоте и
удобстве в использовании. Метод FIEFDom хорош тем, что не требует каких либо
изменений при увеличении, как размеров баз данных, так и их количества. Так же при
подсчетах можно самостоятельно выбрать те базы данных, из которых будет получена
информация. Алгоритм хорошо работает для широкого круга белков: от белков с большим
количеством близких гомологов, до тех, что имеют только удаленных. Программа
доступна для скачивания по ссылке: http://www.bhsai.org/downloads/fiefdom [6].
4
ОБЩАЯ ИНФОРМАЦИЯ ОБ АЛГОРИТМЕ
Базы данных.
SCOP (http://scop.mrc-lmb.cam.ac.uk/scop/) – вручную курируемая база данных,
содержащая информацию о структурных доменах. Эта база данных, как правило,
принимается в качестве стандарта для классификации структуры белка [22]. Для анализа
различных аспектов FIEFDom использовались следующие ASTRAL SCOP [23] базы
данных: SCOP 1.65 (30%) (т. е. база данных ASTRAL SCOP версии 1,65, содержащая
домен последовательностей с максимально 30%
идентичностью последовательности),
SCOP 1,69 (20%) , SCOP 1,69 (30%), SCOP 1.69 (40%), SCOP 1,73 (30%) и SCOP 1,73
(95%).
Таблица 1. Доменный состав белков, содержащихся в базах данных SCOP
использованных в данной работе
Данные в первой строке показывают количество белков, в той или иной базе структур и
содержащих только один домен. Во второй строке, содержащих 2 домена и т.д. В
последней строке показано суммарное количество белков, содержащихся в базе.
В связи с дефицитом белков, содержащих более четырех доменов по базе SCOP, в
исследовании рассматривались только белки, содержащие до четырех доменов. Каждая из
этих представленных баз данных представляет собой RPS. Для многодоменных белков 20
остатков (количество в 20 остатков не критично) до и после истинной границы области
определены, как остаточные границы. Еще следует заметить то, что данный метод не
позволяет определять домены с несмежными последовательностями. По данным,
предоставленным в статье, менее 7% доменов, занесенных в базу SCOP, являются
смежными.
5
Процедура выполнения алгоритма
Данный алгоритм состоит из трех основных стадий. Сначала создается оценочная
матрица для каждой позиции исходно заданной последовательности (PSSM), основанная
на большой базе данных известных последовательностей. Данная матрица генерируется
при помощи PSI-BLAST. Далее сгенерированная матрица используется для поиска
близких RPS. Наконец, находки, полученные в предыдущем шаге, обрабатываются и
прогнозируется доменная организация, путем использования FMO. Результат: Pb –
вероятность аминокислотного остатка быть границей домена. Рассмотрим эти этапы
подробнее.
На первом этапе, при создании PSSM создается профиль на основе трех PSI-Blast
итераций с использованием non-redundant базы (ftp://ftp.ncbi.nih.gov/blast/db) [24]. Все
настройки
выставлены
по
умолчанию.
На
втором
этапе,
профиль
заданной
последовательности используется для сравнения с белками в RPS. Опять же используется
PSI-BLAST, однако теперь порог среднего значения (e-value) устанавливается на уровень
10 000. Высокий порог гарантирует, что мы будем иметь как мелкие, так и большие
белковые фрагменты в выравнивании. Порог в 10 000 был получен в их предыдущей
работе по предсказанию вторичной структуры [25]. На третьем этапе, полученные
фрагменты анализируются и рассчитываются по следующей формуле [25]:
Значение S можно обозвать «непохожестью». К примеру, фрагменты белков в RPS,
которые имеют высокое сходство последовательностей с частью исходно заданной
последовательности, имеют высокий e-value, а, следовательно, и низкое значение S.
Для каждого аминокислотного остатка Pb рассчитывается исходя из того, являются
ли выровненные и ним остатки частью доменных границ (B). Pb исходно заданного белка
вычисляется по формуле для FMO:
6
В данной формуле r-идентификатор текущего аминокислотного остатка, K – число
последовательностей, остатки которых выровнялись с текущим остатком r. Bj(r) равно 0,
если остаток выровненного фрагмента j последовательности является частью домена и
равно 1, при условии, что этот остаток принадлежит к границе домена. Sj – значение для
фрагмента j последовательности, которое уже было получено ранее. m – fuzzifier [26]
(параметр неопределенности), который контролирует вклад значения S. В эксперименте,
описанном в статье, используется значение параметра, равное 1,5 [25]. Пока точно не
ясно, однако считается, что изменение этого параметра не сильно влияет на точность
вычисления. Получаем, что Pb варьирует от 0 до 1, где ноль указывает на малую
вероятность остатку r быть часть границы домена, а 1, напротив, свидетельствует о
высоких шансах входить в состав граничной области.
Рисунок 1. Выравнивание фрагментов белковых последовательностей из RPS с исходно
заданной последовательностью. Остатки, обозначенные как “D” лежат в белковых
доменах, в то время, как остатки, помеченные как “B” лежат на границе домена. Остаток
из
заданной
последовательности
выровнен
с
5
фрагментами
белковых
последовательностей, следовательно K=5, в четырех случаях Вj = 0, так как остатки
белковых фрагментов лежат в вне границы региона, в одном случае Вj = 1. Важность
данного взноса оценивается значением S, которое приведено справа для каждой
последовательности. Pb = 0.0804, если считать параметр m = 1.5
Постобработка данных
После получения Pb для каждого из аминокислотных остатков, Pb смазывается на
ширину W (W=5 для данного эксперимента). Смазывается – значит, вычисляется среднее
значение для остатков, попадающих в заданную ширину. Далее отбираются только те
регионы, чье Pb больше, чем порог T, в данном случае порог T был выбран равным 0,4.
Отбираются только те участки, которые лежат на расстоянии более 40 аминокислотных
остатка друг от друга. Если участки сближены, то выбирается тот, чье Pb больше, а второй
7
не учитывается в дальнейших вычислениях. Так же участок не должен лежать ближе, чем
на 40 аминокислотных остатка к концу последовательности. Результат частичной работы
алгоритма показан на рисунке 2. Предсказанные программой доменные границы (91 и 314
остатки) очень хорошо совпадают с фактически существующими границами доменов,
сосредоточенных на остатках 98 и 313.
Рисунок 2. Предварительное предсказание граница домена для фермента Escherichia coli
MuRF (PDB ID 1GG4, цепь A). Четко определены границы региона, в котором
расположены границы домена и получены границы доменов, которые обозначены
пунктирной линией 91 и 314. В то время, как истинные границы 98 и 313. Почти весь
фоновый шум отфильтрован, за исключением COOH и NH2 концов последовательности.
Производительность метода
Главными
критериями
оценки
производительности
метода
являются
три
характеристики: точность, чувствительность и специфичность [16, 27, 28]. Эти показатели
вычисляются по формулам, приведенным ниже, где TP означает истинно положительные
находки (доменные границ правильно предсказанные в качестве доменных границ), FP
означает ложные срабатывания (регионы, неправильно предсказанные в качестве
доменных границ) и FN выступает за ложные негативы (пропущенные границы области).
Предполагается, что если предсказанные границы области находятся в пределах 20
аминокислотных
остатков
и
обозначаются
как
границы
доменов,
то
такое
8
прогнозирование
истинное
положительное.
Использование
термина
истинно
отрицательное не представляется возможным при поиске доменных границ. Для набора
данных с максимальной идентичности последовательностей 30%, средняя точность
прогноза границ доменов данного метода составляет 97% для одного однодоменного
белка и 58% для многодоменного белка.
Оценка порогового значения T
Данный пункт является очень важным, именно поэтому он вынесен отдельно.
Пороговое значение T, выше которого регионы на кривой Pb обозначаются в качестве
потенциальных областей, содержащих доменные границы необходимо, чтобы отличить
шумы от действительных областей, в которых расположены границы. Для исследования
влияния изменения значения T на показатели производительности, было использовано
пошаговое изменение порога. Как показали исследования значение Т сильно влияет на
показатели производительности только в диапазоне между 0,0 и 0,3. При увеличении
порогового значения чувствительность, специфичность и точность практически не
изменялись. На уровне 0,3-0,5 эти величины выходили на плато. На рисунке 3 показана
ROC-кривая средних мультидоменных предсказаний при постепенном изменении
значения Т. Значение 0,4 было выбрано оптимальным как для одно, двудоменных белков,
так и для многодоменных в целом.
9
Рисунок 3. Влияние порогового параметра T на показатели производительности. (а) – ROC
кривая влияния порогового значения на чувствительность и специфичность. (b) –
Зависимость точности определения доменных границ от значения параметра T. T
варьирует от 0 до 1 с шагом в 0,1.
ПРИМЕРЫ И РЕЗУЛЬТАТЫ РАБОТЫ ПРИ РАЗЛИЧНЫХ УСЛОВИЯХ
На основные показатели производительности метода могут влиять различные
факторы, именно поэтому необходимо произвести оценку изменения работоспособности
программы при изменении факторов.
Наличие гомологов
В nr-базе данных некоторые белки имеют больше гомологов, чем другие. С одной
стороны, если белки имеют много гомологов в базе данных, то профиль богат
эволюционной информацией. Использование таких профилей приводит к более
чувствительным поискам в RPS, что в итоге приводит к повышению точности
прогнозирования. Показатели производительности представлены в первой строке таблицы
2. С другой стороны, для белков, которые не имеют гомологов в базе данных, оценочная
матрица возвращается, как BLOSUM62 [29], используемая в алгоритме выравнивания.
Выравнивание
профиль-последовательность
в
этом
случае
такой
же
как
и
последовательность-последовательность. Показатели производительности такой системы
показаны во второй строке таблицы 2. В итоге получаем весьма печальные результаты,
особенно для двудоменных и тредоменных структур. Сравнение показывает важность
использования профиля для поиска необходимых фрагментов. При его отсутствии
точность метода снижается на 13%.
10
Изменчивость базы данных RPS
Базы данных постоянно пополняются. И новая информация добавляется в RPS в
виде новых последовательностей белков. Алгоритм был запущен на различных версиях
SCOP на одном и том же уровне идентичности последовательностей. Все основные
параметры выполнения алгоритма абсолютно одинаковы, за исключением RPSs. Это
основное и уникальное преимущество данной программы, как заявляют авторы.
Показатели производительности для разных баз данных колеблются в пределах нормы,
как показано в таблице 2 (3-5 строки). Точность метода для однодоменных белков
остается постоянной, равной 97%. На рисунке 4а показаны значения точности прогнозов в
зависимости от версии базы данных. Заметно, что при обновлении базы увеличивается и
точность определения границ доменов без переподготовки модели. Количественно было
определено, что на каждую 1000 новых последовательностей, добавленных в базу,
точность в среднем, увеличивается на 2,3%.
Эффект избыточности белковой последовательности
Такая избыточность может быть смоделирована с помощью RPSs одинаковой
версии ASTRAL SCOP, но с различными порогами идентичности последовательностей.
Повышение максимальной идентичности последовательности увеличивает количество
доступных последовательностей в RPS, тем самым повышает шансы найти необходимые
нам фрагменты. В данном эксперименте используется метод jack-knife, что означает, что
каждая последовательность в RPS используется в качестве исходно заданной, в то время
как оставшиеся белки используются в качестве базы данных для поиска фрагментов.
Эксперимент проводится максимум при 40% идентичности, так как при более высоком
пороге метод jack-knife не будет объективен [30].
Данные по этому методу представлены в таблице 2 (6-8 строки) а так же на рисунке
4b. При низких значениях идентичности последовательности средняя точности прогноза
составляет порядка 33%, когда при увеличении идентичности на 10%, точность
увеличивается аж до 52%. Однако, при дальнейшем увеличении, такого скачка не
наблюдается и при повышении идентичности до 40% точность становиться равна 60%.
Резкое увеличение и выход на плато наблюдается для всех основных показателей
производительности метода.
Так же была исследована ситуация, когда в RPS были доступны все
последовательности, за исключением последовательностей, принадлежащих к тому же
11
семейству,
что
и
заданная
последовательность.
Далее
были
добавлены
последовательности представителей супер-семейства, результаты показали, что FIEFDom
это метод распознавания доменов, который в основном базируется на выравнивании
фрагментов последовательностей представителей супер-семейства.
Таблица 2. Влияние различных факторов на производительность метода
А – точность, Sp – специфичность, Sn – чувствительность.
One, Two, Three, Four – количество доменов.
Методы
выравнивания:
PS
–
профиль/последовательность,
SS
–
последовательность/последовательность
Рисунок 4. (а) График зависимости средней точности от версии базы данных, (b) График
зависимости средней точности от идентичности последовательностей в базе данных.
Разными цветами отмечена зависимость для разных типов (по количеству доменов)
белков.
12
Сравнение с другими программами для прогнозирования границ доменов
FIEFDom будет сравниваться с двумя другими программами PPRODO [31] и
DOMPro [32], так как они обе являются относительно новыми и находятся в свободном
доступе, а так же как и FIEFDom используют белковые профили. В дополнение, авторы
этих программ заявили об успешном участии в CASP [31, 33] соревнованиях. Сравнение
пройдет в 2 этапа. Первый этап направлен на понимание того, как программы могут с
наборами данных, которые являются более поздними по сравнению с их RPS. Второй этап
направлен на понимание того, как программы, направленные на работу с базами данных
SCOP смогут работать с белками, взятыми из базы данных CATH [7].
PPRODO – основанная на нейронных сетях система предсказания границ доменов,
которая строит профили, используя PSI-BLAST. При условии непрерывного сигнала на
выходе с порогом больше 0,25 аминокислота считается частью границы домена.
DOMPro объединяет информацию из профилей, предсказывает вторичную
структуру, доступность растворителя, используя рекурсивные NNs.
PPRODO обучалась на двудоменых белках, полученных из SCOP 1.65 (выпущена в
августе 2003 года), DOMPro обучался на многодоменных белках базы данных CATH
версии 2.5.1 (выпущена в январе 2004 года). Для справедливого сравнения различных
методик, авторы использовали FIEFDom с RPS из SCOP 1.65 (30%) (выпущена в августе
2003 года). На первом этапе сравнения использовалась база SCOP 1,73 (30%) (выпущена в
сентябре 2007 года). В таблице 3 приведены характеристики производительности трех
систем.
Из результатов, можно утверждать, что ждя обучения в PPRODO использовались
только двудоменные белки, а в DOMPкщ использовались только многодоменные белки,
следовательно, не справедливо сравнивать результаты напрямую. Для разрешения этих
проблем, эксперимент повторили дважды с измененными RPSs, один раз с RPS,
содержащие только двудоменные белки и второй раз с RPS, содержащие только
многодоменные белки. Итоги в таблице 3.
Из этих результатов видно, что FIEFDom успешно удерживает высокие уровни
производительности по сравнению с другими двумя программами. Стоит обратить
внимание, что PPRODO был оптимизирован для прогнозирования двудоменных белков, а
значит, он имеет тенденцию делить многодоменные белки в два домена. Эта overpredict
тенденция разделения границ доменов является одной из основных причин меньшей
точности по сравнению с FIEFDom. С другой стороны, уменьшение точности наблюдается
и в модели DOMPro из-за underpredict тенденции.
13
Для второго сравнения, необходимо было предсказать границы доменов по набору
данных используемом для разработки DOMPro и содержащем 963 однодоменных белков и
354 многодоменных белков. В таблице 4 приведены результаты. Применение FIEFDom на
RPS с одно- и многодоменными белками, RPS только с двудоменными белками, и RPS с
многодоменными белками дает, в среднем, лучшие результаты по сравнению с PPRODO и
DOMPro.
Таблица 3. Показатели эффективности трех программ на более обновленных базах
данных, по сравнению с теми, на которых происходило обучение.
Таблица 4. Показатели эффективности трех программ на основе базы данных
CATH
Сравнение с другими основанными на последовательности методами в CASP7
Было
произведено
сравнение
предсказания
количества
доменов.
Производительность метода определялась на основе 97 целей, включенных в CASP7.
Кроме того были совершены попытки предсказания границ доменов, а не только поиск
количества доменов. Чтобы оценить результаты, полученные в данном эксперименте,
была определена средняя точность прогнозирования как одного, так и многодоменного
белков. Если положение хотя бы одного домена в многодоменном белке было предсказано
не правильно, то прогноз считался как «частичный успех». Если позиции всех доменов в
многодоменном белке были предсказаны правильно, это считалось как "полный" успех.
14
Результаты в таблице 5, показывают, что FIEFDom имеет сопоставимую или большую
точностью по сравнению с другими методами.
Таблица 5. Сравнение с другими основанными на последовательности методами в
CASP7
ВЫВОДЫ
FIEFDom представляет собой гибкий инструмент, который может предсказывать
доменные границы. Он работает как для белков, которые имеют только удаленных
гомологов, так и для белков имеющих множество близких гомологов с уже известной
структурой. Однако данный алгоритм не умеет определять несмежные домены и его
точность сильно зависит от составленного профиля. Из-за ускорения методов
секвенирования, появляется большое количество новых полных геномов. И несомненно,
как отмечают и сами авторы, данный метод может легко усваивать «новую информацию»
без необходимости изменения алгоритма. С обновлением баз данных FIEFDom только
улучшает свои показатели.
СПИСОК ЛИТЕРАТУРЫ
1. Rajkumar Bondugula, Michael S. Lee, Anders Wallqvist, (2008), FIEFDom: a
transparent domain boundary recognition system using a fuzzy mean operator, 452–462
Nucleic Acids Research, 2009, Vol. 37, No. 2
2. Dill,K.A., Ozkan,S.B., Weikl,T.R., Chodera,J.D. and Voetz,V.A. (2007) The protein
folding problem: when will it be solved? Curr. Opin. Struct. Biol, 17, 342-346.
3. Buchete,N.V., Straub,J.E. and Thirumalai,D. (2004) Development of novel statistical
potentials for protein fold recognition. Curr. Opin. Struct. Biol, 14, 225-232.
4. Zhang,Y. (2008) Progress and challenges in protein structure prediction. Curr. Opin.
Struct. Biol, 18, 342-348.
5. Bryson,K., Cozzetto,D. and Jones,D.T. (2007) Computer-assisted protein domain
boundary prediction using the DomPred server. Curr. Protein Pept. Sci., 8, 181-188.
6. Rajkumar Bondugula, Michael S. Lee, Anders Wallqvist, (2008), FIEFDom:
http://www.bhsai.org/downloads/fiefdom
15
7.
Orengo,C.A., Michie,A.D., Jones,S., Jones,D.T., Swindells,M.B. and Thornton,J.M.
(1997) CATH - a hierarchic classification of protein domain structures. Structure., 5,
1093-1108.
8. Murzin,A.G, Brenner,S.E., Hubbard,T. and Chothia,C. (1995) SCOP: a structural
classification of proteins database for the investigation of sequences and structures. J.
Mol. Biol, 247, 536-540.
9. Bateman,A., Birney,E., Cerruti,L., Durbin,R., Etwiller,L., Eddy,S.R., Griffiths-Jones,S.,
Howe,K.L., Marshall,M. and Sonnhammer,E.L. (2002) The Pfam protein families
database. Nucleic Acids Res., 30, 276-280.
10. Marchler-Bauer,A., Panchenko,A.R., Shoemaker,B.A., Thiessen,P.A., Geer,L.Y. and
Bryant,S.H. (2002) CDD: a database of conserved domain alignments with links to
domain three-dimensional structure. Nucleic Acids Res., 30, 281-283.
11. Letunic,!, Copley,R.R., Pils,B., Pinkert,S., Schultz,J. and Bork,P.(2006) SMART 5:
domains in the context of genomes and networks. Nucleic Acids Res., 34, D257-D260.
12. Altschul,S.F., Madden,T.L., Schaffer,A.A., Zhang,J., Zhang,Z., Miller,W. and
Lipman,D.J. (1997) Gapped BLAST and PSI-BLAST: a new generation of protein
database search programs. Nucleic Acids Res., 25, 3389-3402.
13. George,R.A. and Heringa,J. (2002) SnapDRAGON: a method to delineate protein
structural domains from sequence data. J. Mol. Biol, 316, 839-851.
14. Kim,D.E., Chivian,D., Malmstrom,L. and Baker,D. (2005) Automated prediction of
domain boundaries in CASP6 targets using Ginzu and RosettaDOM. Proteins,
61(Suppl.7), 193-200.
15. Suyama,M. and Ohara,0. (2003) DomCut: prediction of inter-domain linker regions in
amino acid sequences. Bioinformatics., 19, 673-674.
16. Dumontier,M., Yao,R., Feldman,H.J. and Hogue,C.W. (2005) Armadillo: domain
boundary prediction by amino acid composition. J. Mol Biol, 350, 1061-1073.
17. Nagarajan,N. and Yona,G. (2004) Automatic prediction of protein domains from
sequence information using a hybrid learning system. Bioinformatics., 20, 1335-1360.
18. Cheng,J., Sweredoski,M.J. and Baldi,P. (2006) DOMpro: Protein Domain Prediction
Using Profiles, Secondary Structure, Relative Solvent Accessibility, and Recursive
Neural Networks. Data Min. Knowl. Discov., 13, 1-10.
19. Nagarajan,N. and Yona,G. (2004) Automatic prediction of protein domains from
sequence information using a hybrid learning system. Bioinformatics., 20, 1335-1360.
20. Sim,J., Kim,S.Y. and Lee,J. (2005) PPRODO: prediction of protein domain boundaries
using neural networks. Proteins, 59, 627-632.
21. Chen,L., Wang,W., Ling,S., Jia,C. and Wang,F. (2006) KemaDom: a web server for
domain prediction using kernel machine with local context. Nucleic Acids Res., 34,
W158-W163.
22. Day,R., Beck,D.A., Armen,R.S. and Daggett,V. (2003) A consensus view of fold space:
combining SCOP, CATH and the Dali Domain Dictionary. Protein Sci., 12, 2150-2160.
23. Brenner,S.E., Koehl,P. and Levitt,M. (2000) The ASTRAL compendium for protein
structure and sequence analysis. Nucleic Acids Res., 28, 254-256
24. Ye,J., McGinnis,S. and Madden,T.L. (2006) BLAST: improvements for better sequence
analysis. Nucleic Acids Res., 34, W6-W9.
25. Bondugula,R. and Xu,D. (2007) MUPRED: a tool for bridging the gap between template
based methods and sequence profile based methods for protein secondary structure
prediction. Proteins, 66, 664-670.
26. KellerJ.M., Gray,M.R. and Given,J.A. (1985) A Fuzzy K-Nearest Neighbor Algorithm.
IEEE Trans. Syst. Man Cybernetics., 15. 580-585.
27. Gewehr,J.E. and Zimmer,R. (2006) SSEP-Domain: protein domain prediction by
alignment of secondary structure elements and profiles. Bioinformatics., 22, 181-187.
16
28. CAFASP4. Critical Assessment of Fully Automated Structure Prediction (CAFASP).
http://cafasp4.cse.buffalo.edu/dp/upda-te.html (21 November 2008, date last accessed).
29. HenikofLS. and HenikoffJ.G (1992) Amino acid substitution matrices from protein
blocks. Proc. Natl Acad. Sci. USA, 89. 10915-10919.
30. Wallner,B. and Elofsson,A. (2005) All are not equal: a benchmark of different homology
modeling programs. Protein Sci., 14. 1315-1327.
31. Sim,J., Kim,S.Y. and Lee,J. (2005) PPRODO: prediction of protein domain boundaries
using neural networks. Proteins, 59, 627-632.
32. Cheng,J., Sweredoski,M.J. and Baldi,P. (2006) DOMpro: Protein Domain Prediction
Using Profiles, Secondary Structure, Relative Solvent Accessibility, and Recursive
Neural Networks. Data Min. Knowl. Discov., 13, 1-10.
33. Cheng, J. (2007) DOM AC: an accurate, hybrid protein domain prediction server. Nucleic
Acids Res., 35, W354-W356.
17
Download