Г Л А В А 11 ОПРЕДЕЛЕНИЕ ВИДА ОТБОРА В ПОСЛЕДОВАТЕЛЬ

advertisement
Г Л А В А 11
ОПРЕДЕЛЕНИЕ ВИДА ОТБОРА В ПОСЛЕДОВАТЕЛЬНОСТЯХ БЕЛКОВ И НУКЛЕИНОВЫХ КИСЛОТ
По исходу для организма мутации подразделяются на нейтральные,
благоприятные (адаптивные) и вредные (отрицательные). Наиболее часто
происходят генные мутации, приводящие к замене нуклеотидов. Синонимичные замены (не вызывающие изменения аминокислоты) в большинстве случаев являются нейтральными, а несинонимичные (приводящие к
изменению кодируемой аминокислоты) могут быть нейтральными, благоприятными и вредными.
Для того чтобы мутация закрепилась в популяции, должна возрасти
частота мутантного аллеля под действием естественного отбора, дрейфа
генов, рекомбинаций, миграций и других факторов.
Большинство новых мутаций, появляющихся в популяции, являются
вредными, так как они уменьшают в большинстве случаев приспособленность их носителей. Вид отбора, действующий против подобных мутаций
и, в конечном итоге, элиминирующий их из популяции, называется очищающим (отрицательным). Мутантный аллель может иметь такую же
приспособленность, как и ''наилучший'', то есть мутация окажется селективно нейтральной. В таком случае отбор не будет влиять на ее дальнейшую судьбу. Чрезвычайно редко могут появляться мутации, дающие некоторые селективные преимущества их носителям. Такие мутации могут
закрепляться в популяции посредством позитивного (положительного)
отбора [58].
Селекционные тесты (тесты отбора) – это группа методов, предназначенных для определения вида отбора в аминокислотных последовательностях белков и/или нуклеотидных последовательностях РНК и ДНК, а также
в их частях.
При рассмотрении селекционных тестов используются следующие
показатели: общее количество синонимичных (Sd) и несинонимичных (Nd)
замен нуклеотидов, общее количество синонимичных (S) и несинонимичных (N) сайтов, доля синонимичных (pS) и несинонимичных (pN) различий, число синонимичных (синонимичная дистанция, dS) и несинонимичных замен (несинонимичная дистанция, dN) на синонимичный и несинонимичный сайт, соотвественно.
136
Очищающий отбор на уровне нуклеотидных последовательностей характеризуется преобладанием количества синонимичных замен на синонимичный сайт над количеством несинонимичных на несинонимичный сайт
(pS>pN, dS>dN). Следует отметить, что в случае жесткого очищающего отбора количество несинонимичных замен равно 0, в то время как на синонимичные в большинстве случаев не накладываются никакие ограничения,
так как они преимущественно нейтральны. Очищающий отбор встречается
наиболее часто, он характерен для нуклеотидных последовательностей,
кодирующих структурно-функционально сформированные белки.
Позитивный отбор характеризуется преобладанием произошедших
несинонимичных замен нуклеотидов на несинонимичный сайт над синонимичными на синонимичный сайт (pS<pN, dS<dN). Этот вид отбора выявляется достаточно редко [39], однако имеет важное биологическое и медицинское значение [177]. Его выявление на уровне всей кодирующей
белок области нуклеотидной последовательности, наводит на мысль о
недавней дупликации гена-предшественника, что приводит к возникновению новых в структурно-функциональном отношении белков. Это основано на гипотезе Гудмэна о том, что дупликация гена является одним из
механизмов возникновения функциональной дивергенции [108, 158].
Следует отметить, что вторым механизмом функциональной дивергенции
является эффект Дикхайзена-Хартла, при котором доля несинонимичных
замен будет достаточно высока, но менее таковой синонимичных, что
приведет к выявлению ложноочищающего отбора [97]. Выявление позитивного отбора на уровне небольшого участка нуклеотидной последовательности свидетельствует о его важной биологической функции.
Если наблюдается равенство произошедших синонимичных и несинонимичных замен на сайт, то это свидетельствует об отсутствии отбора
(pS=pN, dS=dN).
К селекционным тестам, используемым при анализе эволюции нуклеотидных последовательностей, относятся дифференции дистанций, Zтест, ASL-тест, тест Фишера и тест Голдмана-Янга.
11.1. Дифференции дистанций и Z-тест
Существует простой способ определения, какой вид отбора происходит в изучаемом гене (последовательности ДНК). Он заключается в сравнении и вычислении разницы значений несинонимичной и синонимичной
дистанций (дифференции дистанций, Dd), рассчитанных с помощью различных методов (оригинальным и модифицированным методами Ней-
137
Годжобори, Памилло-Бьянчи-Ли, Ли-Ву-Ло и Кумара) [150]. Для этого
пользуются формулой:
(11.1).
Dd = dN – dS
Вариансу Dd (V(Dd)) вычисляют по формуле:
(11.2).
V(Dd) = V (dN) + V(dS)
Значение V(Dd) в данном случае является приблизительным, так как
рассчитывается как сумма V (dN) и V(dS), что возможно благодаря тому, что
dN и dS теоретически не зависят друг от друга. Вариансу V(D) можно также
рассчитать с помощью бутстрэп метода, описанного ниже.
Положительная величина дифференции позволяет предположить позитивный отбор, отрицательная величина – очищающий отбор, а Dd = 0 свидетельствует об отсутствии отбора. Для определения статистической достоверности этого предположения необходимо провести Z-тест [144, 150].
Этот тест используется при сравнении большого количества кодонов или
высоких значениях Sd и Nd (>10). Первоначально выдвигается нулевая гипотеза
(Н0) о том, что dN = dS. Для подтверждения или опровержения ee необходимо
последовательно выдвинуть три альтернативные гипотезы (Н1):
dN ≠ dS тест на наличие отбора (1)
dN > dS положительный отбор (2)
dN < dS очищающий отбор (3).
Расчет величины Z производится по формуле:
Z = Dd / s(Dd)
(11.3),
где s(Dd) = (V(Dd))1/2. Для альтернативных гипотез (2) и (3) следует использовать однонаправленный тест, а для (1) – двухнаправленный тест.
Для однонаправленных тестов значения Z, равные 1,64, 1,96 и 2,81, соответствуют статистической достоверности 95% (р < 0,05), 99% (р < 0,01) и
99,9% (p <0,001). Этот тест соответствует степеням свободы t-теста. Уровень значений, на котором отклоняется нулевая гипотеза, зависит от вида
Z-теста. Чаще всего применяется уровень достоверности, равный 95%.
Если нуклеотидные последовательности короткие, то pS или pN могут
быть больше 0,75, что не позволит рассчитать dN или dS. В таком случае
следует определять разницу значений несинонимичной и синонимичной
р-дистанций (р-дифференцию, Dp) и ее вариансу (V(Dр)) можно вычислить по формулам:
(11.4),
Dр = рN – рS
(11.5).
V(Dр) = V (рN) + V(рS)
Вариансу р-дифференции можно также вычислить с помощью бутстрэпметода (описан ниже), а нулевая гипотеза о том, что pS = pN может аналогично
проверяться Z-тестом. В данных литературы имеется сообщение о том, что для
определения положительного отбора лучше использовать pS и pN, чем dN и dS.
При сравнении более двух последовательностей необходимо рассчитать среднее число синонимичных и несинонимичных замен на сайт для
проведения Z-теста описанным выше способом. Значение V(Dd) определяется с помощью бутстрэп-метода.
138
139
11.2. Метод бутстрэп
Метод бутстрэп (bootstrap) используется в молекулярной эволюции
как альтернативный метод для вычисления значений варианс дистанций
(dS, dN, pS и pN) и дифференций (V(Dр), V(Dd)) [144, 150].
Основа метода бутстрэп заключается в создании с помощью метода
повторяющихся моделей (resampling method) пары последовательностей,
содержащих количество случайных кодонов, равное таковому в сравниваемых последовательностях. Наиболее оптимально установить количество
повторов (B) автоматически (чаще 500 или 1000). При каждом повторе рассчитывается промежуточная величина, а затем варианса.
В случае больших значений Sd, Sn, S и N этот метод позволяет получить более точные значения варианс дистанций, чем указанные выше
формулы. Это связано с тем, что метод бутстрэп не основывается на гипотезе о том, что sdi и ndi определяются через pSsi и pNni. Следует отметить,
что для определения V(Dd) и V(Dp) методом бутстрэп достаточно лишь
значений Dd или Dp, а значения варианс dS, dN, pS и pN не нужны. Метод
бутстрэп следует использовать при работе с большими значениями Sd, Sn,
S и N, а также при расчете варианс дистанций при сравнении более двух
последовательностей. Еще одним показанием к применению этого метода
является ASL-тест.
11.3. ASL-тест
В 1993 г. появился более простой метод Эфрона-Тибширани для
оценки достоверности дифференции дистанций, названный ими ASLтестом (тестом достижения уровня достоверности) и основанный на методе бутстрэп. Значение ASL рассчитывается по формуле:
ASL = ВS / В
(11.6),
где ВS – это количество повторов бутсрэпа, в которых определенная им величина D (Db), меньше 0. Если значение ASL меньше 5% или 1%, то соответствующая дифференция статистически достоверна. Однако ASL-тест является
менее точным, чем Z-тест [150].
11.4. Тест Фишера
Этот тест позволяет определить вероятность положительного отбора
при сравнении малого количества кодонов или малых значениях Sd и Nd
(<10), потому что в этом случае Z-тест оказывается слишком либеральным
в отклонении нулевой гипотезы и дает некорректные результаты. Тест Фишера может быть проведен только для пар последовательностей нуклеотидов [144, 152].
Первоначально необходимо вычислить с помощью оригинального
или модифицированного методов Нея-Годжобори количество наблюдаемых синонимичных (Sd) и несинонимичных замен (Nd), а также количество синонимичных (S) и несинонимичных сайтов (N). Полученные данные
вносятся в таблицу сопряженности 2 × 2.
Затем выдвигается нулевая гипотеза (Н0) dN = dS и альтернативная
гипотеза на положительный отбор (Н1): dN > dS. Если вероятность отклонения нулевой гипотезы в пользу альтернативной меньше 0,05, то это
свидетельствует о позитивной селекции.
Классическим примером проведения селекционного теста Фишера
является тест для соответствующих антиген-узнающим сайтам участков
генов главного комплекса тканевой совместимости человека (табл. 11.1)
[108, 118, 119]. Используя эти данные, М. Ней и С. Кумар в 2000 г. провели точный тест Фишера и получили Р = 0,018 [150]. Следовательно, нулевая гипотеза отклоняется в пользу альтернативной, а значение несинонимичной дистанции достоверно выше синонимичной. Таким образом, эволюция соответствующих антиген-узнающим сайтам участков генов главного комплекса тканевой совместимости человека происходила в режиме
позитивного отбора [150].
11.5. Тест Голдмана-Янга
Обозначим lnL2 – логарифм величины максимального сходства (maximum likelihood, ML) для полученной ω, а lnL1 – логарифм величины ML
при ω = 1 (нулевая гипотеза). Тогда соотношение логарифмов сходства
(likelihood ratio, LR) определяется по формуле:
(11.7).
LR = 2(lnL2 – lnL1)
Когда количество синонимичных и несинонимичных замещений существенно велико и используется соответствующая модель, то LR приблизительно соответствует χ2 распределено с одной степенью свободы. Таким
образом, когда полученное ω > 1 и LR ≥ 3,84, то можно утверждать, что частота несинонимичных замен достоверно (на уровне 5%) выше таковой для
синонимичных, что свидетельствует о позитивной селекции.
Таблица 11.1
Таблица сопряженности 2×2 для соответствующих антигенузнающим сайтам участков генов главного комплекса тканевой совместимости человека
Показатель
Синонимичные
сайты (S)
Несинонимичные сайты (N)
Сумма (S + N)
Количество сайтов, в
которых наблюдаются замены (Хd)
Количество сайтов, в
которых не наблюдаются замены (Х - Хd)
Общее количество
сайтов (Х)
Sd (1)
S – Sd (40)
S (41)
Nd (20)
N – Nd (110)
N (130)
Sd + Nd (21)
T – Sd – Nd (150)
T (171)
Примечание. Значения S и N получены консервативным методом НеяГоджобори.
Тест Голдмана-Янга обычно рассматривается как составная часть метода Голдмана-Янга, основанного на моделях сходства с замещениями
кодонов и предназначенного для вычисления синонимичной и несинонимичной дистанций [150].
Соотношение наблюдаемых несинонимичных и синонимичных замещений обозначается как ω. Если ω < 1, то это свидетельствуют об очищающем
отборе, ω = 0 – о нейтральности замен и ω >1 – о позитивном отборе. Таким
образом, если полученное значение ω статистически достоверно выше 1, то
можно утверждать, что имеет место позитивный отбор.
11.6. Сравнительный анализ селекционных тестов на примере
мРНК, кодирующих алкогольдегидрогеназы мыши и человека
140
141
Нами изучены [58] последовательности мРНК, кодирующих алкогольдегидрогеназы (АДГ) классов 1-4 мыши и человека. Выравнивание
последовательностей произведено с помощью программы Clustal W. Следует отметить, что попарное выравнивание и сравнение алкогольдегидрогеназы класса 1 мыши проводилось с тремя типами (α, β и γ) АДГ класса 1
человека, так как они возникли на уровне приматов.
Для определения картины замен в сравниваемых последовательностях вычислен индекс несоответствия (index disparity – ID) и определена
вероятность (Р) отклонения нулевой гипотезы о гомогенной картине замен нуклеотидов на 5%-ном уровне. Если величина Р>0,05, то картина
замен гомогенна, в обратном случае – гетерогенна. Расчетное соотношение транзиций и трансверсий (R) для гетерогенной картины замен рассчитано методами Тамуры и Тамуры-Нея. Значения синонимичной и несинонимичной дистанций вычислены модифицированным методом НеяГоджобори, а их вариансы – методом бутстрэп. Для определения вида
отбора проведены Z-тест и тест Фишера.
При сравнении последовательностей мРНК, кодирующей АДГ класса
1 мыши с таковой, соответствующей АДГ класса 1А человека, получено
значение ID=1,3528 и Р=0,0000, с АДГ класса 1В человека – ID=0,5816 и
Р=0,0020, а с АДГ класса 1С человека – ID=1,1348 и Р=0,0000. При сравнении АДГ класса 2 мыши и человека получено значение ID=0,6817 и
Р=0,0120, класса 3 мыши и человека – ID=1,0943 и Р=0,0000 и, наконец,
класса 4 мыши и человека – ID=0,8560 и Р=0,0000. Для всех проведенных
попарных сравнений Р<0,05, что свидетельствует о гетерогенной картине
замещений. Средняя величина R для последовательностей мРНК, кодирующих АДГ класса 1 мыши и АДГ класса 1А человека, равна R=1,4583,
для той же последовательности мРНК мыши и мРНК, кодирующей АДГ
класса 1В человека, – R=1,4213, а для нее и мРНК, кодирующей АДГ
класса 1С человека, – R=1,3643. При сравнении мРНК, кодирующих АДГ
класса 2 мыши и человека, среднее значение R=1,6107, класса 3 мыши и
человека – R=2,0222, а класса 4 мыши и человека – R=2,0471. Полученные значения синонимичной (dS) и несинонимичной (dN) дистанций, а
также их вариансы представлены в табл. 11.2.
Максимальное значение несинонимичной дистанции наблюдается
при сравнении последовательностей мРНК, кодирующих АДГ класса 2
мыши и человека (0,1812±0,0175), что объясняется тем, что данные последовательности относятся к разным структурно-функциональным подтипам алкогольдегидрогеназ класса 2. Минимальное значение несинонимичной и синонимичной дистанций характерно для сравнения мРНК,
кодирующих АДГ класса 3 мыши и человека (0,0404±0,0079,
0,3836±0,0434). Это обусловлено тем, что алкогольдегидрогеназа класса 3
(глутатион-зависимая формальдегид дегидрогеназа) является наиболее
филогенетически древним представителем этого семейства ферментов с
консервативной структурой и функцией [92].
Таблица 11.2
Синонимичные и несинонимичные дистанции, дифференции дистанций, вероятности отклонения нулевой гипотезы в пользу альтернативных по результатам Z-теста для мРНК, кодирующих алкогольдегидрогеназы классов 1-4 мыши и человека
Наиболее простым и распространенным способом определения вида
отбора в сравниваемых последовательностях мРНК является вычисление
дифференции несинонимичной и синонимичной дистанций. Во всех случаях проведенных попарных сравнений получены отрицательные значения дифференции дистанций, что позволяет предположить очищающий
отбор. Для определения статистической достоверности этого предположения проведен Z-тест. Значения вероятности отклонения нулевой гипотезы в пользу соответствующих альтернативных приведены в табл. 11.2.
Во всех проведенных попарных сравнениях при тесте на наличие отбора
получены значения Р = 0,0000. Следовательно, нулевая гипотеза отклоняется в ходе теста на наличие отбора. При выдвижении альтернативной
гипотезы о положительном отборе – Р = 1,0000. Это означает, что нулевая
гипотеза не может быть отклонена в пользу альтернативной. И, наконец,
при выдвижении альтернативной гипотезы об очищающем отборе – Р =
0,0000, что позволяет отклонить нулевую гипотезу в пользу этой альтернативной гипотезы. Таким образом, эволюция последовательностей мРНК,
кодирующих алкогольдегидрогеназы классов 1-4 мыши и человека, происходила в режиме очищающего отбора.
142
143
АДГ
класса 1
мыши и
АДГ
класса
1А человека
0,1058±
0,0138
0,6182±
0,0629
АДГ
класса 1
мыши и
АДГ
класса
1В человека
0,1037±
0,0136
0,5760±
0,0635
АДГ
класса 1
мыши и
АДГ
класса
IС человека
0,0929±
0,0126
0,6057±
0,0608
Dd
−0,5124
−0,4723
P (dN=dS)
0,0000
P (dN>dS)
P (dN<dS)
Сравниваемые
мРНК
dN
dS
АДГ
класса 2
мыши и
человека
АДГ
класса 3
мыши и
человека
АДГ
класса 4
мыши и
человека
0,1812±
0,0175
0,4799±
0,0515
0,0404±
0,0079
0,3836±
0,0434
0,0608±
0,0097
0,4673±
0,0471
−0,5128
−0,2987
−0,3432
−0,4065
0,0000
0,0000
0,0000
0,0000
0,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
Для определения наличия положительного отбора на малых участках
последовательностей мРНК, соответствующих 10 аминокислотным сайтам
N-терминального конца алкогольдегидроназ класса 3 мыши и человека,
изучены синонимичные и несинонимичные замены. Количество синонимичных замен (Sd) равно 2, количество наблюдаемых несинонимичных
замен (Nd) равно 2, а количество синонимичных и несинонимичных сайтов
составило 6,6 и 23,4 соответственно (табл. 11.3).
Таблица 11.3
Таблица сопряженности 2×2 для участков мРНК, соответствующих
10 аминокислотным сайтам N-терминального конца алкогольдегидрогеназ класса 3 мыши и человека
Показатель
Количество сайтов, в
которых наблюдаются замены (Хd)
Количество сайтов, в
которых не наблюдаются замены (Х - Хd)
Общее
количество сайтов
(Х)
Синонимичные
сайты (S)
Sd (2)
S - Sd (4,6)
S (6,6)
Несинонимичные сайты (N)
Nd (2)
N - Nd (21,4)
N (23,4)
Сумма (S + N)
Sd + Nd (4)
T - Sd - Nd (26)
T (30)
Вычисление оригинального критерия χ2 (без поправки на непрерывность) дает χ2=2,11, а так как n=1, то Р больше 0,10. Однако, использование критерия χ2 в данном случае не совсем корректно, так как не соблюдается условие: в любой из граф таблицы сопряженности ожидаемое число должно быть не менее 5 [43]. Поэтому следует использовать точный
критерий Фишера, основанный на переборе всевозможных способов заполнения таблицы сопряженности. Тест Фишера, проведенный с помощью программы MEGA, дает Р = 0,2245, что свидетельствует о том, что
нулевая гипотеза не может быть отклонена в пользу соответствующей альтернативной. Таким образом, эволюция участков последовательностей
мРНК, соответствующих 10 аминокислотным сайтам N-терминального
конца алкогольдегидроназ класса 3 мыши и человека, происходила в режиме отсутствия положительного отбора [58].
144
Download