Методы анализа метагенома микробиоты человека Тяхт А.В. группа биоинформатики

advertisement
Методы анализа метагенома
микробиоты человека
Тяхт А.В.
группа биоинформатики
НИИ физико-химической медицины ФМБА России
55-я Всероссийская молодёжная научная конференция с международным участием
«Современные проблемы фундаментальных и прикладных наук»
Всероссийская молодежная научная школа
«Проблемы медицинской биоинформатики»
в рамках фестиваля науки (Школа ПМБ)
19-26 ноября 2012 г., Долгопрудный
• Метагеном - совокупность генетического материала
микроорганизмов, полученного напрямую из среды.
• Метагеном - совокупность генетического материала
микроорганизмов, полученного напрямую из среды.
• Метагеном - совокупность генетического материала
микроорганизмов, полученного напрямую из среды.
• Метагеном - совокупность генетического материала
микроорганизмов, полученного напрямую из среды.
Биологические объекты
• Бактерии, археи
• Вирусы
• Эукариоты (грибки,
дрожжи,…)
Биологические объекты
• Бактерии, археи
• Вирусы
• Эукариоты (грибки,
дрожжи)
• Хозяин!
Биологические объекты
• Бактерии, археи
• Вирусы
• Эукариоты (грибки,
дрожжи,…)
• Хозяин!
• Лабораторные загрязнения
Основные задачи метагеномики
Кто здесь?
Что они делают?
Основные задачи метагеномики
Кто здесь?
Таксономический состав
Что они делают?
Функциональный состав
Основные задачи метагеномики
Кто здесь?
Таксономический состав
Применение
в медицине
Что они делают?
Функциональный состав
Методы определения
бактериального состава
• По наличию культивирования
– Культурно-зависимые
• Бактериальный посев
Методы определения
бактериального состава
• По наличию культивирования
– Культурно-зависимые
• Бактериальный посев
Методы определения
бактериального состава
• По наличию культивирования
– Культурно-зависимые
• Бактериальный посев
• Изоляция отдельного вида
Методы определения
бактериального состава
• По наличию культивирования
– Культурно-зависимые
SOLiD
• Бактериальный посев
• Изоляция отдельного вида
– Культурно-независимые
• ДНК-секвенирование
Ion Torrent
454
Illumina
Типы метагеномного
секвенирования различаются:
• По составу
– Маркерные гены (16S rRNA и др.)
– Полногеномное (shotgun = whole-genome = WGS)
• По производительности
– По Сенгеру (метод «обрыва цепи»)
– Высокопроизводительное (high-throughput
sequencing) – Illumina, SOLiD, 454, Ion Torrent, …
• По длине ридов (ДНК-прочтений)
– Длинные (400-1000 пн)
– Короткие (35-100 пн)
Анализ микробного состава с помощью
секвенирования последовательностей 16S рРНК
• Длина около 1500 пн
• Выделяется из тотального ДНК с
помощью «универсальных» праймеров
к высоко консервативным участкам
• Секвенируется целиком либо
вариабельные области V1-V3, V3-V5,
V4
• Внутривидовое сходство сиквенса
98-99%
• Для эукариот можно использовать
18S рРНК.
Анализ микробного состава с помощью
секвенирования последовательностей 16S рРНК
• Длина около 1500 пн
• Выделяется из тотального ДНК с
помощью «универсальных» праймеров
к высоко консервативным участкам
• Секвенируется целиком либо
вариабельные области V1-V3, V3-V5,
V4
• Внутривидовое сходство сиквенса
98-99%
• Для эукариот можно использовать
18S рРНК.
Классификация -> дерево микробного сообщества
Пример классификатора:
RDP Classifier
Классификация -> дерево микробного сообщества
Пример классификатора:
RDP Classifier
• Листья – операционные таксономические единицы, OTU
• Взвешенные/невзвешенные деревья
Сравнение бактериальных сообществ
1) Больше или меньше разнообразие? (число листьев)
2) Метрика сходства - ?
Евклидова не подходит (распределение численности не нормально).
Учет структуры дерева жизни: UniFrac (“unique fraction”)
QIIME software
Knight et al.
UniFrac + методы сокращения размерности и визуализации,
матрица расстояний –> облако точек:
• PCoA (principal coordinates analysis)
• MDS (multi-dimensional scaling)
Knight et al.
Проблемы метагеномного анализа с
помощью секвенирования 16S рРНК
• Специфичность праймеров
– Частичное решение: «Коктейль праймеров»
• Разное число копий 16S на геном
• Технические артефакты:
– Риды-химеры (решение: ChimeraSlayer, …)
– Риды-дубликаты (решение: поиск и отбрасывание
копий)
• Неоднозначность классификации (структуры
филогенетического дерева)
– Пример: ветвь Clostridiales
16S секвенирование неадекватно представляет
соотношение численности микроорганизмов
22 вида бактерий смешаны в равных долях по числу клеток, секвенированы несколько раз:
Courtesy:
Mark Reimers
Полногеномный анализ
(shotgun aka whole-genome)
Короткие риды
Длинные риды
Таксономическая
классификация
.
+
Предсказание генов
-
+
Выравнивание на
шаблонные ДНКпоследовательности
(референс)
+
+
Сборка de novo
.
+
Функциональный
анализ после
выравнивания
+
+
Анализ спектра kмеров
+
+
Много и дешево
Мало и дорого
Микробиота (микробиом) кишечника





300-1000 видов бактерий
Число клеток ~ 1015:
на 2 порядка раз больше, чем клеток человека
Число генов в метагеноме ~ 106:
на 2 порядка больше, чем генов человека
Функции:

Метаболизм

Предотвращение колонизации патогенами

Регуляция имуннитета

Защита от воспалительных заболеваний

Связь с нервной системой
(ось «кишечник-мозг»)
75% видов не поддаются культивации
Микробиота (микробиом) кишечника





300-1000 видов бактерий
- Ожирение
Число клеток ~ 1015: - Воспалительные заболевания кишечника
на 2 порядка раз больше, чем клеток человека
- Аутоимунные заболевания
Число генов в метагеноме ~ 106:
на 2 порядка больше, чем генов человека
Функции:

Метаболизм

Предотвращение колонизации патогенами

Регуляция имуннитета

Защита от воспалительных заболеваний

Связь с нервной системой
(ось «кишечник-мозг»)
75% видов не поддаются культивации
Проект MetaHIT:
каталог генов микробиоты кишечника
- 13 институтов из 8 стран
- Май 2010 г: секвенировано 576 Гбп полногеномных ридов от 124
человек
- Обнаружено 3,3 млн генов – каталог генов
- Общее ядро: у 90% пациентов найдены
- более 200 тысяч генов (генное ядро)
- 57 видов бактерий (видовое ядро)
Qin et al, 2010
Проект «Микробиома человека» (Human Microbiome Project), США
- 18 точек на теле
- референсный каталог секвенированных
геномов (более 600)
- метаболическая реконструкция
- поиск функциональных маркеров заболеваний
Segata et al, 2011
Состав микробиоты:
дискретность или непрерывность?
или
MetaHIT: Arumugam et al, 2011:
энтеротипы
Rob Knight, IHMC 2012 talk, Paris
Новые типы микробного состава
микробиоты кишечника, найденные
у городского и сельского населения РФ
Полногеномное секвенирование:
инструменты, цели
• Инструменты
– Секвенатор SOLiD: полногеномное
секвенирование ДНК микробиоты
кишечника человека (кал), короткие риды
50 пн
– Вычислительный кластер НИИ ФХМ
• 12 выч узлов по 64-256 Гб ОЗУ, 6 Тфлопс
• БД-сервер
• Некоторые из целей исследования:
– Выявление особенностей
таксономического и функционального
состава микробиоты населения РФ
– Сопоставление с социальногеографическими, медицинскими
диетическими и другими факторами
– Рассмотрение в мировом метагеномном
контексте (США, Европа)
География выборки
•
•
Русский метагеномный проект: 132 образца, SOLiD
Мета-анализ
– MetaHIT: 85 образцов, Европа (Дания), Illumina
– HMP: 139 образцов, США, Illumina
– Yatsunenko et al: 15 образцов Амазония и Малави
Обработка данных:
от ридов к составу
• Основной подход: картирование ридов на референсные
последовательности:
– Предфильтрация ридов (ДНК человека, низкокачественные риды)
– Геномы кишечных микробов (более 440 шт) –> таксономический
состав на уровне родов
– Каталог генов микробиоты кишечника (3,3 млн) –>
функциональный анализ
Российский метагеном
в мировом контексте
Бактериальный состав,
изображенный с помощью
многомерного шкалирования
(3D non-linear MDS based on
UniFrac, X3 vs X1 and X2 vs X1
projections
Особенности метагенома РФ:
- Есть новые моды микробного состава
- Некоторые образцы схожи с
аборигенскими (как таксономически,
так и на уровне ферментов)
USA
Denmark
Russia
Malawi
Venezuela
Кластеризация метагеномов по
составу
• PAM clustering
• Как выбрать число кластеров?
– Индекс Calinski-Harabasz
• РФ: 2-3 кластера,
похожие на энтеротипы,
но с низкой достоверностью
Кластеризация с bootstrapping-валидацией:
3 скопления…
пакет R pvclust
…каждый содержит образцы из деревень
одного региона РФ
Граф корреляции: союзники и соперники
Корреляция по Спирмену, показаны связи со значениями > 0.4.
R, Cytoscape
Статистические тесты
• Представленность видов не нормальна (много нулей)
• Используем непараметрические методы, например:
– Корреляция по Спирмену (вместо Пирсона)
– Тест Манна-Уитни (вместо t-теста)
Функциональный анализ
Гены из референсного каталога имеют аннотацию (COG, KEGG, GO, …)
Покрытие –> оценка представленности генов и их функциональных групп
Гомеостаз микробиоты: у субъектов разные
микробы, но схожий общий метаболизм
Число представленных генов:
оценка богатства генного репертуара
Интеграция meta….omics
Спасибо за внимание
• Вопросы
Download