Курс лекций «Введение в химическую информатику» Лекция 4 YOUR

advertisement
YOUR LOGO
Курс лекций «Введение в химическую
информатику»
Лекция 4
Весенний семестр 2012
Краткое содержание предыдущего занятияYOUR LOGO
 Концепция молекулярных дескрипторов: классификация и характеристики
 1D
и
2D
дескрипторы:
молекулярные
отпечатки,
молекулярные
фрагменты,
топологические индексы, физико-химические дескрипторы
 3D дескрипторы: геометрические и квантово-химические дескрипторы, дескрипторы
молекулярных полей
 Свободно доступные программы расчета дескрипторов
1
План лекции
YOUR LOGO
 Работа с химическими базами данных: виды поиска в химических базах данных.
 Понятие молекулярного подобия (Molecular Similarity)
 Ландшафт активности (Activity Landscape)
 Наиболее известные химические базы данных: PubChem, Zinc, NCI, DrugBank, BindingDB,
ChemSpider, Kegg
2
Управление базами данных по химии
YOUR LOGO
Наиболее распространенные виды поиска в химических базах данных:
3

Поиск идентичной химической структуры

Подструктурный поиск

Надструктурный поиск

Поиск по молекулярному подобию

Поиск по заданному фармакофору
Поиск идентичной химической структуры
YOUR LOGO
При поиске необходимо учитывать:
Альтернативное представление функциональных групп
O
+
O
N
Таутомерия
4
O
O
N
O
O
N
Ph
Стереоизомерия
Подструктурный поиск (Substructural Search)
YOUR LOGO
Поиск соединений, содержащих данную молекулу как подструктуру
O
O
N
N
O
N
NB: на рис. представлена скелетная структурная формула, где не отображаются связи углерод—водород, а
также атомы водорода и углерода. На атом углерода указывает излом цепи или ее окончание, если к нему
не присоединена какая-либо не углеводородная группа.
5
Поиск изоморфного подграфа
Рекурсивный обход с отсечением
Требуется проверить Q ⊂ G
s – частичное отображение
T(s) – множество пар, которые могут
входить в s
6
http://logic.pdmi.ras.ru/csclub/node/1080
YOUR LOGO
Изоморфизм графов
YOUR LOGO
В теории графов изоморфизмом графов G и H называется биекция (отображение, при котором каждому
элементу одного множества соответствует ровно один элемент другого множества) между множествами
вершин графов такая, что любые две вершины графа G смежны, если и только если соответствующие вершины
смежны в графе H.
G
H
 Каждая вершина an1 в G1
может быть спроецирована в an2 графа G2
 Соседние вершины an1
должны проецироваться в соседние an2
7
Слайд из курса лекций по химической информатике Университета Страсбурга, читаемых проф. А.Варнеком
Поиск изоморфного подграфа: рекурсивный обход
YOURсLOGO
отсечением
8
http://logic.pdmi.ras.ru/csclub/node/1080
Поиск изоморфного подграфа: рекурсивный обход
YOURсLOGO
отсечением
9
http://logic.pdmi.ras.ru/csclub/node/1080
YOUR
LOGO
Поиск изоморфного подграфа: смыкающееся дерево (closure
tree)
10
http://logic.pdmi.ras.ru/csclub/node/1080
Подструктурный поиск с использованием молекулярных отпечатков
YOUR )LOGO
пальцев (Substructural Search using molecular fingerprints
запрос
Соединение 1
совпадение
Соединение 2
отброшено
11
YOUR LOGO
Надструктурный поиск (Superstructural Search)
Поиск всех молекул, содержащихся в данной
morphine
12
Поиск по молекулярному подобию
YOUR LOGO
Более общий критерий структурного сходства молекул основан на количестве различных
фрагментов, которые присутствуют одновременно в обеих молекулах.
Поиск молекул по такому критерию назывется поиском по молекулярному подобию
(Similarity Search).
Принцип молекулярного подобия (сходства): структурно схожие молекулы предположительно
обладают сходными биологическими свойствами
Опиаты
13
Сходство
Что такое сходство?
YOUR LOGO
Кто обладает большим сходством?
Сходство по полу?
Сходство по возрасту?
Сходство в прическе?
Ответ зависит от выбранных критериев
14
Популярные коэффициенты, характеризующие сходство
YOUR LOGO
химических соединений
 Коэффициенты, характеризующие
сходство (подобие):
 Танимото (Tanimoto)
 Дайс (Dice)
 Косинусный (Cosine)
15
YOUR LOGO
Коэффициент Танимото Tc (Tanimoto coefficient)
 Definition:
 Диапазон изменения значений: [0,1]
 Tc так же известен как коэффициент Жаккарда
B
A
C
 Наиболее популярная мера сходства
s( A,B)  Tc ( A,B) 
c
abc
H
H
N
Cl
N
O
N
S
O
O
1010001001110110101
0010001001110110101
16
N
N
Tс 
O
N
S
O
O
NA&B
 0.90
NA  NB  NA &B
YOUR LOGO
Коэффициент Дайса (Dice coefficient)
 Definition:
 Диапазон изменения значений: [0,1]
s( A,B) 
2c
ab
H
H
N
Cl
N
O
N
S
O
O
1010001001110110101
0010001001110110101
17
N
N
Dice 
O
N
S
O
O
2 NA&B
 0.95
NA  NB
YOUR LOGO
Косинусный коэффициент (Cosine coefficient)
 Definition:
 Диапазон изменения: [0,1]
s( A,B) 
c
ab
H
N
Cl
N
O
N
S
N
O
1010001001110110101
0010001001110110101
18
H
O
N
O
Cosinecoef 
N
S
O
O
NA&B
 0.95
NA NB
Всегда ли работает принцип молекулярного подобия?
YOUR LOGO
Ландшафт активности
19 Слайд из курса лекций по химической информатике Университета Страсбурга, читаемых проф. А.Варнеком
Ландшафт активности
YOUR LOGO
discontinuous SARs
continuous SARs
Постепенное изменение в структуре приводит к
постепенному изменению в активности
“холмы” (G. Maggiora)
Небольшие
изменения
в
структуре
приводят к значительным изменениям в
значении активности
“обрывы” (activity cliffs)
Structure-Activity Landscape Index: SALIij = DAij / DSij
DAij (DSij ) различия в активности (молекулярном подобии) молекул I и j
20
R. Guha et al. J.Chem.Inf.Mod., 2008, 48, 646
YOUR LOGO
Ландшафт активности: обрывы (activity cliffs)
VEGFR-2 tyrosine kinase inhibitors
6 nM
MACCS
Tc: 1.00
Analog
Небольшие
изменения
в
структуре
приводят к значительным изменениям в
значении активности
“обрывы” (activity cliffs)
2390
nM
21
Слайд из курса лекций по химической информатике Университета Страсбурга, читаемых проф. А.Варнеком
YOUR LOGO
Ландшафт активности: обрывы (activity cliffs)
Любой метод анализа
подобия идентифицирует
приведенные соединения,
как близкие
(MACCS Tanimoto similarity)
ингибиторы аденозин деаминазы
22
Слайд из курса лекций по химической информатике Университета Страсбурга, читаемых проф. А.Варнеком
YOUR LOGO
Ландшафт активности: выбор типа дескрипторов
Inhibitors of acyl-CoA:cholesterol acyltransferase represented with MACCS (a), TGT
(b), and Molprint2D (c) fingerprints.
23
Слайд из курса лекций по химической информатике Университета Страсбурга, читаемых проф. А.Варнеком
Поиск по заданному фармакофору
YOUR LOGO
Фармакофор — это набор пространственных и электронных признаков, необходимых для обеспечения
оптимальных супрамолекулярных взаимодействий со специфической биологической мишенью, которые
могут вызывать (или блокировать) ее биологический ответ.
Фармакофорные признаки: фармакофорные центры и интервалы расстояний между ними, необходимые
для проявления данного типа биологической активности.
Фармакофорные центры
Фармакофор
молекулы с таким фармакофором:
24
Scaffold-Hopping: How Far Can You Jump? YOUR LOGO
Scaffold hopping (смена скелета) позволяет решать конкретные
проблемы при разработке новых лекарств
Эта молекула является активной, но не может быть
использована по причине…
 фармакологических проблем (ADMET - absorption, distribution,
metabolism, excretion and toxicity)
 защищенности патентом
Производится смена скелета, при этом оставшиеся фрагменты,
признанные значимыми для биологического свойства остаются
неизменными
25
G. Schneider, P. Schneider, S. Renner, QSAR Comb.Sci. 25, 2006, No.12, 1162 – 1171
YOUR LOGO
Химические базы данных
26
Химические базы данных – обзор онлайн ресурсов
YOUR LOGO
1. SciFinder (CAS) — SciFinder is a CAS database of chemical and bibliographic information.
2. PubChem — a database that provides information on the biological activities of small molecules.
3. ChEMBL — a database of bioactive drug-like small molecules, it contains 2-D structures, calculated properties (e.g.
logP, Molecular Weight, Lipinski Parameters, etc.) and abstracted bioactivities (e.g. binding constants, pharmacology
and ADMET data).
4. ChemSpider — a free access service providing a structure centric community for chemists
5. ZINC — a free database of commercially-available compounds for virtual screening
6. BindingDB — BindingDB is a public, web-accessible database of measured binding affinities, focusing chiefly on the
interactions of proteins considered to be candidate drug-targets with ligands that are small, drug-like molecules.
7. Reaxys (Beilstein + Gmelin) – is a web-based tool for the retrieval of chemistry information and data from
published literature including journals and patents.
8. NCI — National Cancer Institute Databases
9. Kegg — is a collection of online databases dealing with genomes, enzymatic pathways, and biological chemicals.
10. DrugBank — combines detailed drug (i.e. chemical, pharmacological and pharmaceutical) data with
comprehensive drug target (i.e. sequence, structure, and pathway) information
27
SciFinder (CAS)
YOUR LOGO
CAS REGISTRY, CAS REACT, MARPAT databases
Пионерами поиска в научных работах по химии были создатели химической реферативной
службы (Chemical Abstracts Service, CAS), существующей с 1907 года. В этой службе ведётся учёт
всех известных химических соединений. Тысячи людей в течение десятков лет вручную
составляют библиографические справки и заполняют базу данных SciFinder, отдельного
продукта CAS для поиска публикаций.
 References from more than 10,000 currently published journals and patents from more
than 61 patent authorities
 Important scientific discoveries from the present to the mid-1800s
 The latest scientific breakthroughs almost as soon as they are published with references
added daily and some patent information as recent as 2 days ago
 The world's largest collection of organic and inorganic substance information
28
Состояние на 11.10.2011
SciFinder (CAS): CAS REGISTRY
YOUR LOGO
CAS REGISTRY: > 63 million organic and inorganic substances and > 63 million sequences
Updated daily !
Different types of substances : Alloys, Coordination compounds, Minerals, Mixtures,
Polymers, Salts, Sequences, Organometallics, Proteins, Inorganic substances
Experimental
Predicted
Properties
4.4 million (for 2.9 million substances)
3.4 billion (for 51
million substances)
Spectra
918,000 (for 654,000 substances)
49.4 million 13C-NMR
49.4 million 1H-NMR
for 11 October 2011
29
SciFinder (CAS): CASREACT
YOUR LOGO
CASREACT :
More than 36.5 million single- and multi-step reactions
More than 14 million additional synthetic preparations
Coverage: 1840 to the present
reaction information from the millions of published journal articles and patent documents selected
for inclusion in Chemical AbstractsTM (CA).
30,000-50,000 single- and multi-step reactions are added each week.
30
for 11 October 2011
SciFinder (CAS)
YOUR LOGO
CAS databases cover patents from 61 patent authorities around the world.
All patent records, meeting CAS selection criteria, from the following 9 major patent offices, are
available online in CAplus within 2 days of the patents' issuance, and fully indexed by CAS scientists
in less than 27 days from the date of issue.
31
PubChem – стартовая страница
YOUR LOGO
База данных из 27 миллионов соединений с богатыми возможностями для поиска: по номеру, по названию,
по структурной формуле, по подструктуре и по сходству. Химические свойства также можно задавать в
качестве дополнительных критериев поиска (например, ограничиться только молекулами, молекулярная
масса которых не превышает 120). Базу постоянно пополняют более 80 организаций.
32
URL: http://pubchem.ncbi.nlm.nih.gov/
YOUR LOGO
PubChem – подробная информация по соединению
33
URL: http://pubchem.ncbi.nlm.nih.gov/
СhEMBL
YOUR LOGO
ChEMBL is a database of bioactive drug-like small molecules, targets (proteins), drugs. It contains 2D structures, calculated properties (e.g. logP, Molecular Weight, Lipinski Parameters, etc.) and
abstracted bioactivities (e.g. binding constants, pharmacology and ADMET data).
34
YOUR LOGO
Соединение
ChEMBL имя мишени; со
ссылкой на UniProt
Ссылка на литературу
Гиперссылки из ChEMBL в
CiteXplore
35
ChemSpider – стартовая страница
YOUR LOGO
ChemSpider содержит 25 миллионов соединений и имеет важное отличие от PubChem:
добавлять молекулы и обновлять информацию о них здесь могут не только избранные
организации, но и простые пользователи. Вместе с последними, список источников
ChemSpider составляет почти 300 пунктов.
Поиск соединений в ChemSpider не имеет такого количества опций, как в PubChem; в
частности, отсутствует поиск по сходству.
36
URL: http://www.chemspider.com/
ChemSpider – результаты поиска
37
YOUR LOGO
URL: http://www.chemspider.com/
ZINC
YOUR LOGO
ZINC, a free database of commercially-available compounds for virtual screening. ZINC contains over 13
million purchasable compounds in ready-to-dock, 3D formats.
38
http://zinc.docking.org/
BindingDB
YOUR LOGO
BindingDB is a public, web-accessible database of measured binding affinities, focusing chiefly on the
interactions of proteins considered to be candidate drug-targets with ligands that are small, drug-like
molecules.
As of March, 2011, BindingDB contains about 650,000 binding data, for 5,700 protein targets and
280,000 small molecules.
BindingDB also includes a small collection of host-guest binding data of interest to chemists studying
supramolecular systems.
39
http://bindingdb.org/bind/index.jsp
BindingDB
The purpose of BindingDB is to support
medicinal chemistry and drug discovery via
literature awareness and development of
structure-activity relations (SAR and QSAR);
validation of computational chemistry and
molecular modeling approaches such as
docking, scoring and free energy methods;
chemical biology and chemical genomics; and
basic studies of the physical chemistry of
molecular recognition.
The data collection derives from a variety of
measurement techniques, including enzyme
inhibition and kinetics, isothermal titration
calorimetry, NMR, and radioligand and
competition assays. BindingDB includes data
extracted from the scientific literature by the
BindingDB project, selected PubChem
confirmatory BioAssays, and ChEMBL entries
for which a well-defined protein target
("TARGET_TYPE='PROTEIN'") is provided.
40
http://bindingdb.org/bind/index.jsp
YOUR LOGO
Reaxys ( Beilstein + Gmelin )
Reaxys = Beilstein + Gmelin Databases
Beilstein Database:
10 millions compunds, 10 millions reactions and 35 millions of chemical,
physical, ecological, toxicological data from Beilstein Handbook of Organic
Chemistry and 180 main journals in organic chemistry
Gmelin Database:
The Gmelin Database is the sister database to Beilstein, covering inorganic and
organometallic compounds from 1772 to date. Again based on a German
publication, the Gmelin Handbuch der anorganischen Chemie, the database
currently comprises over 2.5 million compounds, including glasses, alloys,
ceramics, minerals and coordination compounds, 1.9 million reactions and 1.3
million citations.
41
на 04.10.2009
http://www.info.reaxys.com/
YOUR LOGO
National Cancer Institute Databases (NCI)
YOUR LOGO
 The NCI 127K database consisting of 127,000 structures
with CAS Registry Numbers
 The AIDS database containing 42,687 entries that have
been tested for AIDS antiviral activity
 The Cancer database containing dose response data for
37,836 compounds tested for the ability to inhibit the growth
of human tumor cell lines
42
http://cactus.nci.nih.gov/download/nci/
YOUR LOGO
DrugBank
43
http://www.drugbank.ca/
YOUR LOGO
Kegg (Kyoto Encyclopedia of Genes and Genomes)
KEGG (Kyoto Encyclopedia of Genes and Genomes) is a collection of online databases dealing with genomes, enzymatic
pathways, and biological chemicals.
KEGG consists of five main databases:
 KEGG Atlas
 KEGG Pathway
 KEGG Genes
 KEGG Ligand
 KEGG BRITE
KEGG Pathways:
•Metabolism
•Genetic Information Processing
•Environmental Information Processing
•Cellular Processes
•Human Diseases
•Drug development
Ligand Database:
•Compound
•Drug
•Glycan
•Reaction
•RPAIR (Reactant pair alignments)
•Enzyme
44
http://www.genome.jp/kegg/
Пополнение баз данных
YOUR LOGO
Настоящее:
Тысячи людей в течение десятков лет вручную составляют библиографические справки и
заполняют базы данных
Будущее:
Системы автоматического распознавания информации
Наиболее известные из них:
• CLiDE канадской фирмы SimBioSys. Наиболее развитая программа из перечисленных, но она нередко
ошибается, требует вмешательства человека и «не знает» многих особенностей молекул.
• OSRA — проект с открытыми исходниками нашего соотечественника Игоря Филиппова, работающего в
США (Frederick National Laboratory for Cancer Research, NIH, DHHS, Frederick, MD). OSRA активно развивается,
но обладает на данный момент худшим качеством распознавания.
• ChemoCR— проект Марка Циммермана из института Фраунгофера в Германии. ChemoCR находится в
закрытой разработке: программное обеспечение не доступно, тем не менее опубликовано немалое
количество работ по алгоритмам, используемым в ней.
45
YOUR LOGO
Вопросы?
Download