Лекция 3 SMILES SMILES – Упрощенная Молекулярная Система

advertisement
Лекция 3 SMILES
SMILES – Упрощенная Молекулярная Система Ввода Входной Строки (Simplified
Molecular Input Line Entry System). Это химическая система представления, используемая для
представления молекулярных структур линейной строкой символов. Система представления
SMILES была специально разработана для компьютерного использования химиками. Правила
кодировки SMILES можно быстро и легко изучить любому пользователю с любым уравнением
начальной подготовки в области химии. История представления SMILES как химического языка
и основные правила кодировки SMILES представлены Дэвидом Веинингером.
База данных SMILECAS чрезвычайно полезна и эффективна при получении представлений
SMILES. Эта база данных содержит представления SMILES для 103,000 составов
Представление SMILES представляет молекулярную структуру как двумерное
изображение. Двумерный рисунок отдельной химической структуры возможен во многих
различных формах. То есть отдельную структуру можно изобразить правильно многими
различными рисунками. Таким же образом отдельную структуру можно изобразить правильно
многими различными представлениями SMILES. Фактически, любая достаточно большая
структура имеет множество представлений SMILES, которые правильно изображают эту
структуру. Любое из правильных описаний приемлемо для компьютерной обработки.
Представления SMILES составлены из атомов (обозначенных атомными символами),
связей, круглых скобок (используемые для того, чтобы показать ответвления) и чисел
(используемые для того, чтобы определять позиции открытия и закрытия кольца). За
исключением обозначения позиций кольца, числа не используются в представлениях SMILES.
Атомы представлены своими атомными символами. Например:
C is carbon
N is nitrogen
S is sulfur
F is fluorine
I is iodine
C – углерод
I – йод
P is phosphorus
O is oxygen
Cl is chlorine
N – азот
S – сера
F – фтор
P – фосфор
O – кислород
Cl – хлор
Важны символы больших и прописных букв. Все алифатические атомы введены большими
буквами. Все ароматические атомы введены прописными буквами. Возможные ароматические
атомы – это углерод, кислород, сера, кремний и азот. Другие потенциальные ароматические
атомы в настоящее время не доступны программам SRC, потому что текущие методы оценки,
используемые в программах не могут оценивать их.
Атомам с двумя буквами атомного символа, такие как хлор или бром, нужно ввести первый
символ большой буквой. В случае хлора или брома, вторая буква атомного символа может быть
или большой или прописной. «R» в символе брома обычно вводится строчной буквой.
Предложено, чтобы буква «l» в символе хлора вводилась большой буквой («L») потому что
возможно неправильное идентифицирование строчной буквы "l" и цифры один «1». Поэтому
хлор можно ввести как Cl или CL и бром можно ввести как Br или BR.
За очень редким исключением, атом водорода не включен в представление SMILES.
Водородные вложения определены самой программой. Это очень упрощает представления
SMILES. Например:
Состав
Молекулярная формула
Метан
Этан
CH4
CH3-CH3
Пропан
Бутан
Бромэтан
Этанол
Пропиламин
1,3-дихлорпропан
CH3-CH2-CH3
CH3-CH2-CH2-CH3
CH3-CH2-Br
CH3-CH2-OH
CH3-CH2-CH2-NH2
CL-CH2-CH2-CH2-CL
Представление
SMILES
С
СС
ССС
СССС
CCBr
CCO
CCCN
ClCCCCl
Существует четыре основные связи в представлении SMILES: одинарные, двойные,
тройные и ароматические связи. Одинарные связи не обязательно показывать и они обычно
опускаются. Одинарную связь можно обозначить символом дефиса «-». Например, правильное
представление SMILES для пропана: C-C-C; однако, нет преимуществ ввода одинарной связи.
Поэтому она обычно не используется (программы SRC автоматически удаляют любые дефисы,
введенные в строку SMILES).
Двойная связь обозначена символом равенства «=» и необходимо идентифицировать
двойную связь. Следующие примеры иллюстрируют двойную связь:
Состав
Молекулярная формула
Представление
SMILES
Этилен
CH2=CH2
C=C
Пропилен
CH2=CH-CH3
C=CC
2-Бутен
CH3-CH=CH-CH3
CC=CC
Тройная связь обозначается символом номера «#» и нужно идентифицировать тройную
связь. Следующие примеры иллюстрируют тройную связь:
Состав
Ацителен
Пропин
Бутин
Ацитонитрил
Акрилонитрил
Представление SMILES
C#C
C#CC
C#CCC
CC#N
C=CC#N
Ароматическая связь не имеет никакого обозначения. Она явно подразумевается «символом
строчных букв» для углерода, азота, кислорода, кремния и серы. Например, типичное
представление SMILES для бензола: c1ccccc1, и типичное представление для пиридина: n1ccccc1.
Использование чисел как позиций открытия и закрытия кольца рассмотрено выше.
Ветви в молекулярных структурах обозначены вложениями в круглых скобках. Примеры
SMILES данные в вышеупомянутом списке представляют прямые, линейные составы. Когда
структура содержит ветвь, представление SMILES структуры требует, чтобы ветвь была
обозначена вложениями в круглых скобках. Рис. 1 иллюстрирует ответвления.
Как упомянуто выше, отдельная структура может иметь более одного правильного
представления SMILES. Например, правильные представления SMILES для изобутановой
кислотной структуры (см. рис. 1) включают следующее:
CC(C)C(=O)O
C(C)(C)C(=O)O
OC(=O)C(C)C
O=C(O)C(C)C
Ветвь не может начинать представление SMILES. Например, (C)CCO – недопустимое
представление SMILES. Ветвь должна следовать за атомом, с которым она связана. Если атом
имеет более одной ветви, то ветви кодируются как последовательные пары круглых скобок.
Примером является показанная выше структура тетрабутанола. Порядок круглых скобок не
важен; например, тетрабутанол может быть или CC(C)(O)C или CC(O)(C)C.
Рис.1. Примеры представления ответвлений.
Ветвь не может сразу же следовать за символом двойной связи «=» или символом тройной
связи «#» она должна следовать за атомом. Например: C=(CC)C недопустимо; если двойная связь
связана с углеродом внутри круглых скобок, SMILES должно быть C(=CC)C; если двойная связь
связана с последним углеродом, SMILES должно быть C(CC) =C. Допустимы (и часто
необходимы) «вложенные ветви» или «ветви-в-ветвях».
Наиболее трудным аспектом написания представления SMILES является написание
правильного представления SMILES для сложной кольцевой системы. Однако, написание
представления SMILES для структур, содержащих только одно или два кольца, довольно просто.
Следующие правила кодирования применяются ко всем циклическим структурам:
1. Циклическим структурам требуются числа, чтобы указать, где начинается и
заканчивается кольцо. Числа от 1 до 9 используются, чтобы указать начальные и
конечные атомы.
2. Тот же самый номер используется, чтобы указать начальный и конечный атом для
каждого кольца. Начальный и конечный атом должны быть связаны друг с другом.
3. Каждый используемый номер (1, 2, 3 и т.д.) должен появиться дважды и только дважды
в полном представлении SMILES.
4. Числа вводятся сразу же после атомов для того, чтобы указывать начальные и
конечные позиции. Например, номер не может следовать за ветвью.
5. Начальный или конечный атом могут быть связаны с двумя последовательными
числами.
SMILECAS
Database
Содержит SMILES записи, химические названия и CAS
(Chemical Abstract Service) номера для 103,000 компонентов.
ChemFinder
WebServer
Содержит основные физические данные и ссылки на
вебсайты, содержащие другие данные для большого
количества
химических
составов.
Поиск
может
осуществляться
по
имени,
молекулярному
весу,
молекулярной формуле, CAS регистрационному номеру или
структуре (в формате SMILES).
Источники
1. http://www.abc.chemistry.bsu.by/
2. http://www.opensmiles.org/
Download