YOUR LOGO Курс лекций «Введение в химическую информатику» Лекция 4 Весенний семестр 2012 Краткое содержание предыдущего занятияYOUR LOGO Концепция молекулярных дескрипторов: классификация и характеристики 1D и 2D дескрипторы: молекулярные отпечатки, молекулярные фрагменты, топологические индексы, физико-химические дескрипторы 3D дескрипторы: геометрические и квантово-химические дескрипторы, дескрипторы молекулярных полей Свободно доступные программы расчета дескрипторов 1 План лекции YOUR LOGO Работа с химическими базами данных: виды поиска в химических базах данных. Понятие молекулярного подобия (Molecular Similarity) Ландшафт активности (Activity Landscape) Наиболее известные химические базы данных: PubChem, Zinc, NCI, DrugBank, BindingDB, ChemSpider, Kegg 2 Управление базами данных по химии YOUR LOGO Наиболее распространенные виды поиска в химических базах данных: 3 Поиск идентичной химической структуры Подструктурный поиск Надструктурный поиск Поиск по молекулярному подобию Поиск по заданному фармакофору Поиск идентичной химической структуры YOUR LOGO При поиске необходимо учитывать: Альтернативное представление функциональных групп O + O N Таутомерия 4 O O N O O N Ph Стереоизомерия Подструктурный поиск (Substructural Search) YOUR LOGO Поиск соединений, содержащих данную молекулу как подструктуру O O N N O N NB: на рис. представлена скелетная структурная формула, где не отображаются связи углерод—водород, а также атомы водорода и углерода. На атом углерода указывает излом цепи или ее окончание, если к нему не присоединена какая-либо не углеводородная группа. 5 Поиск изоморфного подграфа Рекурсивный обход с отсечением Требуется проверить Q ⊂ G s – частичное отображение T(s) – множество пар, которые могут входить в s 6 http://logic.pdmi.ras.ru/csclub/node/1080 YOUR LOGO Изоморфизм графов YOUR LOGO В теории графов изоморфизмом графов G и H называется биекция (отображение, при котором каждому элементу одного множества соответствует ровно один элемент другого множества) между множествами вершин графов такая, что любые две вершины графа G смежны, если и только если соответствующие вершины смежны в графе H. G H Каждая вершина an1 в G1 может быть спроецирована в an2 графа G2 Соседние вершины an1 должны проецироваться в соседние an2 7 Слайд из курса лекций по химической информатике Университета Страсбурга, читаемых проф. А.Варнеком Поиск изоморфного подграфа: рекурсивный обход YOURсLOGO отсечением 8 http://logic.pdmi.ras.ru/csclub/node/1080 Поиск изоморфного подграфа: рекурсивный обход YOURсLOGO отсечением 9 http://logic.pdmi.ras.ru/csclub/node/1080 YOUR LOGO Поиск изоморфного подграфа: смыкающееся дерево (closure tree) 10 http://logic.pdmi.ras.ru/csclub/node/1080 Подструктурный поиск с использованием молекулярных отпечатков YOUR )LOGO пальцев (Substructural Search using molecular fingerprints запрос Соединение 1 совпадение Соединение 2 отброшено 11 YOUR LOGO Надструктурный поиск (Superstructural Search) Поиск всех молекул, содержащихся в данной morphine 12 Поиск по молекулярному подобию YOUR LOGO Более общий критерий структурного сходства молекул основан на количестве различных фрагментов, которые присутствуют одновременно в обеих молекулах. Поиск молекул по такому критерию назывется поиском по молекулярному подобию (Similarity Search). Принцип молекулярного подобия (сходства): структурно схожие молекулы предположительно обладают сходными биологическими свойствами Опиаты 13 Сходство Что такое сходство? YOUR LOGO Кто обладает большим сходством? Сходство по полу? Сходство по возрасту? Сходство в прическе? Ответ зависит от выбранных критериев 14 Популярные коэффициенты, характеризующие сходство YOUR LOGO химических соединений Коэффициенты, характеризующие сходство (подобие): Танимото (Tanimoto) Дайс (Dice) Косинусный (Cosine) 15 YOUR LOGO Коэффициент Танимото Tc (Tanimoto coefficient) Definition: Диапазон изменения значений: [0,1] Tc так же известен как коэффициент Жаккарда B A C Наиболее популярная мера сходства s( A,B) Tc ( A,B) c abc H H N Cl N O N S O O 1010001001110110101 0010001001110110101 16 N N Tс O N S O O NA&B 0.90 NA NB NA &B YOUR LOGO Коэффициент Дайса (Dice coefficient) Definition: Диапазон изменения значений: [0,1] s( A,B) 2c ab H H N Cl N O N S O O 1010001001110110101 0010001001110110101 17 N N Dice O N S O O 2 NA&B 0.95 NA NB YOUR LOGO Косинусный коэффициент (Cosine coefficient) Definition: Диапазон изменения: [0,1] s( A,B) c ab H N Cl N O N S N O 1010001001110110101 0010001001110110101 18 H O N O Cosinecoef N S O O NA&B 0.95 NA NB Всегда ли работает принцип молекулярного подобия? YOUR LOGO Ландшафт активности 19 Слайд из курса лекций по химической информатике Университета Страсбурга, читаемых проф. А.Варнеком Ландшафт активности YOUR LOGO discontinuous SARs continuous SARs Постепенное изменение в структуре приводит к постепенному изменению в активности “холмы” (G. Maggiora) Небольшие изменения в структуре приводят к значительным изменениям в значении активности “обрывы” (activity cliffs) Structure-Activity Landscape Index: SALIij = DAij / DSij DAij (DSij ) различия в активности (молекулярном подобии) молекул I и j 20 R. Guha et al. J.Chem.Inf.Mod., 2008, 48, 646 YOUR LOGO Ландшафт активности: обрывы (activity cliffs) VEGFR-2 tyrosine kinase inhibitors 6 nM MACCS Tc: 1.00 Analog Небольшие изменения в структуре приводят к значительным изменениям в значении активности “обрывы” (activity cliffs) 2390 nM 21 Слайд из курса лекций по химической информатике Университета Страсбурга, читаемых проф. А.Варнеком YOUR LOGO Ландшафт активности: обрывы (activity cliffs) Любой метод анализа подобия идентифицирует приведенные соединения, как близкие (MACCS Tanimoto similarity) ингибиторы аденозин деаминазы 22 Слайд из курса лекций по химической информатике Университета Страсбурга, читаемых проф. А.Варнеком YOUR LOGO Ландшафт активности: выбор типа дескрипторов Inhibitors of acyl-CoA:cholesterol acyltransferase represented with MACCS (a), TGT (b), and Molprint2D (c) fingerprints. 23 Слайд из курса лекций по химической информатике Университета Страсбурга, читаемых проф. А.Варнеком Поиск по заданному фармакофору YOUR LOGO Фармакофор — это набор пространственных и электронных признаков, необходимых для обеспечения оптимальных супрамолекулярных взаимодействий со специфической биологической мишенью, которые могут вызывать (или блокировать) ее биологический ответ. Фармакофорные признаки: фармакофорные центры и интервалы расстояний между ними, необходимые для проявления данного типа биологической активности. Фармакофорные центры Фармакофор молекулы с таким фармакофором: 24 Scaffold-Hopping: How Far Can You Jump? YOUR LOGO Scaffold hopping (смена скелета) позволяет решать конкретные проблемы при разработке новых лекарств Эта молекула является активной, но не может быть использована по причине… фармакологических проблем (ADMET - absorption, distribution, metabolism, excretion and toxicity) защищенности патентом Производится смена скелета, при этом оставшиеся фрагменты, признанные значимыми для биологического свойства остаются неизменными 25 G. Schneider, P. Schneider, S. Renner, QSAR Comb.Sci. 25, 2006, No.12, 1162 – 1171 YOUR LOGO Химические базы данных 26 Химические базы данных – обзор онлайн ресурсов YOUR LOGO 1. SciFinder (CAS) — SciFinder is a CAS database of chemical and bibliographic information. 2. PubChem — a database that provides information on the biological activities of small molecules. 3. ChEMBL — a database of bioactive drug-like small molecules, it contains 2-D structures, calculated properties (e.g. logP, Molecular Weight, Lipinski Parameters, etc.) and abstracted bioactivities (e.g. binding constants, pharmacology and ADMET data). 4. ChemSpider — a free access service providing a structure centric community for chemists 5. ZINC — a free database of commercially-available compounds for virtual screening 6. BindingDB — BindingDB is a public, web-accessible database of measured binding affinities, focusing chiefly on the interactions of proteins considered to be candidate drug-targets with ligands that are small, drug-like molecules. 7. Reaxys (Beilstein + Gmelin) – is a web-based tool for the retrieval of chemistry information and data from published literature including journals and patents. 8. NCI — National Cancer Institute Databases 9. Kegg — is a collection of online databases dealing with genomes, enzymatic pathways, and biological chemicals. 10. DrugBank — combines detailed drug (i.e. chemical, pharmacological and pharmaceutical) data with comprehensive drug target (i.e. sequence, structure, and pathway) information 27 SciFinder (CAS) YOUR LOGO CAS REGISTRY, CAS REACT, MARPAT databases Пионерами поиска в научных работах по химии были создатели химической реферативной службы (Chemical Abstracts Service, CAS), существующей с 1907 года. В этой службе ведётся учёт всех известных химических соединений. Тысячи людей в течение десятков лет вручную составляют библиографические справки и заполняют базу данных SciFinder, отдельного продукта CAS для поиска публикаций. References from more than 10,000 currently published journals and patents from more than 61 patent authorities Important scientific discoveries from the present to the mid-1800s The latest scientific breakthroughs almost as soon as they are published with references added daily and some patent information as recent as 2 days ago The world's largest collection of organic and inorganic substance information 28 Состояние на 11.10.2011 SciFinder (CAS): CAS REGISTRY YOUR LOGO CAS REGISTRY: > 63 million organic and inorganic substances and > 63 million sequences Updated daily ! Different types of substances : Alloys, Coordination compounds, Minerals, Mixtures, Polymers, Salts, Sequences, Organometallics, Proteins, Inorganic substances Experimental Predicted Properties 4.4 million (for 2.9 million substances) 3.4 billion (for 51 million substances) Spectra 918,000 (for 654,000 substances) 49.4 million 13C-NMR 49.4 million 1H-NMR for 11 October 2011 29 SciFinder (CAS): CASREACT YOUR LOGO CASREACT : More than 36.5 million single- and multi-step reactions More than 14 million additional synthetic preparations Coverage: 1840 to the present reaction information from the millions of published journal articles and patent documents selected for inclusion in Chemical AbstractsTM (CA). 30,000-50,000 single- and multi-step reactions are added each week. 30 for 11 October 2011 SciFinder (CAS) YOUR LOGO CAS databases cover patents from 61 patent authorities around the world. All patent records, meeting CAS selection criteria, from the following 9 major patent offices, are available online in CAplus within 2 days of the patents' issuance, and fully indexed by CAS scientists in less than 27 days from the date of issue. 31 PubChem – стартовая страница YOUR LOGO База данных из 27 миллионов соединений с богатыми возможностями для поиска: по номеру, по названию, по структурной формуле, по подструктуре и по сходству. Химические свойства также можно задавать в качестве дополнительных критериев поиска (например, ограничиться только молекулами, молекулярная масса которых не превышает 120). Базу постоянно пополняют более 80 организаций. 32 URL: http://pubchem.ncbi.nlm.nih.gov/ YOUR LOGO PubChem – подробная информация по соединению 33 URL: http://pubchem.ncbi.nlm.nih.gov/ СhEMBL YOUR LOGO ChEMBL is a database of bioactive drug-like small molecules, targets (proteins), drugs. It contains 2D structures, calculated properties (e.g. logP, Molecular Weight, Lipinski Parameters, etc.) and abstracted bioactivities (e.g. binding constants, pharmacology and ADMET data). 34 YOUR LOGO Соединение ChEMBL имя мишени; со ссылкой на UniProt Ссылка на литературу Гиперссылки из ChEMBL в CiteXplore 35 ChemSpider – стартовая страница YOUR LOGO ChemSpider содержит 25 миллионов соединений и имеет важное отличие от PubChem: добавлять молекулы и обновлять информацию о них здесь могут не только избранные организации, но и простые пользователи. Вместе с последними, список источников ChemSpider составляет почти 300 пунктов. Поиск соединений в ChemSpider не имеет такого количества опций, как в PubChem; в частности, отсутствует поиск по сходству. 36 URL: http://www.chemspider.com/ ChemSpider – результаты поиска 37 YOUR LOGO URL: http://www.chemspider.com/ ZINC YOUR LOGO ZINC, a free database of commercially-available compounds for virtual screening. ZINC contains over 13 million purchasable compounds in ready-to-dock, 3D formats. 38 http://zinc.docking.org/ BindingDB YOUR LOGO BindingDB is a public, web-accessible database of measured binding affinities, focusing chiefly on the interactions of proteins considered to be candidate drug-targets with ligands that are small, drug-like molecules. As of March, 2011, BindingDB contains about 650,000 binding data, for 5,700 protein targets and 280,000 small molecules. BindingDB also includes a small collection of host-guest binding data of interest to chemists studying supramolecular systems. 39 http://bindingdb.org/bind/index.jsp BindingDB The purpose of BindingDB is to support medicinal chemistry and drug discovery via literature awareness and development of structure-activity relations (SAR and QSAR); validation of computational chemistry and molecular modeling approaches such as docking, scoring and free energy methods; chemical biology and chemical genomics; and basic studies of the physical chemistry of molecular recognition. The data collection derives from a variety of measurement techniques, including enzyme inhibition and kinetics, isothermal titration calorimetry, NMR, and radioligand and competition assays. BindingDB includes data extracted from the scientific literature by the BindingDB project, selected PubChem confirmatory BioAssays, and ChEMBL entries for which a well-defined protein target ("TARGET_TYPE='PROTEIN'") is provided. 40 http://bindingdb.org/bind/index.jsp YOUR LOGO Reaxys ( Beilstein + Gmelin ) Reaxys = Beilstein + Gmelin Databases Beilstein Database: 10 millions compunds, 10 millions reactions and 35 millions of chemical, physical, ecological, toxicological data from Beilstein Handbook of Organic Chemistry and 180 main journals in organic chemistry Gmelin Database: The Gmelin Database is the sister database to Beilstein, covering inorganic and organometallic compounds from 1772 to date. Again based on a German publication, the Gmelin Handbuch der anorganischen Chemie, the database currently comprises over 2.5 million compounds, including glasses, alloys, ceramics, minerals and coordination compounds, 1.9 million reactions and 1.3 million citations. 41 на 04.10.2009 http://www.info.reaxys.com/ YOUR LOGO National Cancer Institute Databases (NCI) YOUR LOGO The NCI 127K database consisting of 127,000 structures with CAS Registry Numbers The AIDS database containing 42,687 entries that have been tested for AIDS antiviral activity The Cancer database containing dose response data for 37,836 compounds tested for the ability to inhibit the growth of human tumor cell lines 42 http://cactus.nci.nih.gov/download/nci/ YOUR LOGO DrugBank 43 http://www.drugbank.ca/ YOUR LOGO Kegg (Kyoto Encyclopedia of Genes and Genomes) KEGG (Kyoto Encyclopedia of Genes and Genomes) is a collection of online databases dealing with genomes, enzymatic pathways, and biological chemicals. KEGG consists of five main databases: KEGG Atlas KEGG Pathway KEGG Genes KEGG Ligand KEGG BRITE KEGG Pathways: •Metabolism •Genetic Information Processing •Environmental Information Processing •Cellular Processes •Human Diseases •Drug development Ligand Database: •Compound •Drug •Glycan •Reaction •RPAIR (Reactant pair alignments) •Enzyme 44 http://www.genome.jp/kegg/ Пополнение баз данных YOUR LOGO Настоящее: Тысячи людей в течение десятков лет вручную составляют библиографические справки и заполняют базы данных Будущее: Системы автоматического распознавания информации Наиболее известные из них: • CLiDE канадской фирмы SimBioSys. Наиболее развитая программа из перечисленных, но она нередко ошибается, требует вмешательства человека и «не знает» многих особенностей молекул. • OSRA — проект с открытыми исходниками нашего соотечественника Игоря Филиппова, работающего в США (Frederick National Laboratory for Cancer Research, NIH, DHHS, Frederick, MD). OSRA активно развивается, но обладает на данный момент худшим качеством распознавания. • ChemoCR— проект Марка Циммермана из института Фраунгофера в Германии. ChemoCR находится в закрытой разработке: программное обеспечение не доступно, тем не менее опубликовано немалое количество работ по алгоритмам, используемым в ней. 45 YOUR LOGO Вопросы?