Реферат - СО РАН

advertisement
ТЕЗАУРУС
БИБЛИОГРАФИЧЕСКИХ
КЛАССИФИКАЦИЙ
КАК
ОНТОЛОГИЯ
ИНФОРМАЦИОННЫХ РЕСУРСОВ ПО ПОЛУПРОВОДНИКАМ И НАНОТЕХНОЛОГИЯМ
В. Н. Белоозеров (systemling@narod.ru) ВИНИТИ РАН, Москва, Россия
Н. Н. Шабурова (shaburova@isp.nsc.ru) ИФП СО РАН, Новосибирск, Россия
Аннотация. В докладе показано, что содержательная онтология предметной области перспективных
исследований по физике полупроводников и нанотехнологиям может быть эффективно построена на материале
множества библиографических классификаций, традиционно используемых в современной информационной
практике. Наиболее общей схемой, отражающей систему классов информационных ресурсов с их связями и
отношениями, является стандартная схема информационно-поискового тезауруса. Тематические рубрики
различных классификаций связываются в едином тезаурусе полииерархической сетью родовидовых
отношений, что объективно отражает многообразие семантических связей информационных ресурсов. Описана
процедура и результаты построения тезауруса тематических рубрик по физике полупроводников и
нанотехнологий на материале основных библиографических классификаций, используемых в этой области –
Библиотечно-библиографической классификации, Универсальной десятичной классификации,
Государственного рубрикатора НТИ, Рубрикатора информационных изданий ВИНИТИ, Рубрикатора
Федерального портала «Нанотехнологии и наноматериалы», Схемы классификации по физике и астрономии
Американского физического общества.
Ключевые слова: библиографические классификации, онтология информационных ресурсов, тезаурус
тематических рубрик, физика полупроводников, нанотехнологии
THESAURUS OF BIBLIOGRAPHIC CLASSIFICATIONS AS ONTOLOGY OF
INFORMATION RESOURCES ON SEMICONDUCTORS AND NANOTECHNOLOGY
Beloozerov V. N. (systemling@narod.ru) VINITI RAS, Moscow, Russia
Shaburova N. N. (shaburova@isp.nsc.ru) ISP SD RAS, Novosibirsk, Russia
Abstract: The paper shows that substantial ontology of the subject domain of perspective researches in physics
of semiconductors and nanotechnology can be effectively constructed on the material of bibliographic
classifications, traditionally used in now-days information practice. The most general scheme reflecting the system
of classes of information resources with their connections and relations is the standard scheme of the information
retrieval thesaurus. Subject headings of the different classifications are linked in a single thesaurus with polyhierarchical network of genus-species relations, which objectively reflects the diversity of the semantic relations of
information resources. The procedure of constructing the thesaurus of thematic headings for physics of
semiconductors and nanotechnology on the material of the main bibliographic classifications used in this field is
described. These classificatiuons are: Russian Library-Bibliographical Classification, Universal Decimal
Classification, Russian State Rubricator for STI, Rubricator for VINITI Information Publications, Rubricator of the
Federal portal «Nanotechnologies and nanomaterials», Physics and Astronomy Classification Scheme of the
American Physical Society. At the beginning of 2014 thesaurus consisted of more than 2100 entries. Hierarchical
genus-species relations (about 2600 related descriptor pairs) and the connections of quasi-synonymic type (about
110 descriptor pairs) are installed in the thesaurus. The thesaurus contains more than 11 thousand items of
entries including definitions, classification indexes of concepts and descriptor relations.
Keywords: bibliographic classification, ontology of information resources, thesaurus of subject headings, physics
of semiconductors, nanotechnology
Качественный поиск информации в библиотечных фондах, базах данных и сетевых
ресурсах по концепции «семантического вэба» требует создания в структуре поискового
механизма модели того пространства смыслов, в рамках которого производится поиск. Перед
нами поставлена задача формального описания системы информационных ресурсов в сфере
физики полупроводников и нанотехнологий с тем, чтобы вложить представление об этой
сфере в автоматизированные системы. В области научно-технической информации такими
средствами
формального
описания
традиционно
являются
библиографические
классификации. Множественность принятых в современной практике систем описания
тематики научных работ создаёт трудность в получении исчерпывающих данных по какойлибо заданной теме исследований, поскольку разные классификационные системы членят
предметную область исследований по-разному. С другой же стороны, множественность
описаний одной предметной области представляет её онтологию с различных точек зрения,
что позволяет надеяться на более объективное отражение физических свойств, явлений и
процессов формальной моделью. Необходимость иметь такую модель онтологии в составе
поисковых систем для успешного поиска данных является признанным фактом современной
информатики (см. напр., [Добров]). Разработчики формальных моделей онтологии в
настоящее время озабочены, главным образом, развитием техники представления смысловых
связей понятий в среде современного интернета. При этом в стороне остаётся вопрос о том,
из какого источники мы будем получать сами эти понятия и их связи. На наш взгляд такие
сведения должны черпаться из классических информационно-поисковых языков,
действующих в информационно-библиотечной практике. На примере УДК и классов
информационных ресурсов образования было показано, что классификационные системы
адекватно отражают онтологию своих предметных областей на определённом уровне
глубины и широты описания [Белоозеров (2013)]. Также было показано, что наиболее общей
схемой, отражающей систему классов информационных ресурсов с их связями и
отношениями, является стандартная схема информационно-поискового тезауруса,
соответствующая ГОСТ 7.25 [ГОСТ]. Ранее нами был построен на этих основаниях тезаурус
тематических рубрик, реализующий формальную онтологию для «титульной» предметной
области ИФП СО РАН – для физики полупроводников [Белоозеров (2010)]. Он послужил
основой для создания нового тезауруса, описывающего более широкую область реальных
исследований института, которая включает вопросы физических основ нанотехнологий и
применения их в электронике. Совмещение в единой системе информационно-поискового
тезауруса и иерархической классификации тематических рубрик, известно как достаточно
эффективное средство описания предметной области (см., например, [Wei]). Оригинальным
в нашей концепции является построение тезауруса на материале лексики не публикаций, а на
материале рубрик тематических классификаторов, описывающих публикации.
В основу Тезауруса тематических рубрик по физике полупроводников был положен
раздел физики полупроводников из Библиотечно-библиографической классификации [ББК],
используемой в ИФП СО РАН для систематизации информационных ресурсов. К
дескрипторам, полученным из ББК, добавлены наименования классов из разделов
электродинамики и физики конденсированного состояния Универсальной десятичной
классификации [УДК], которая является международным аналогом ББК и принята в нашей
стране как основное средство систематизации данных по естественным и техническим
наукам. В тезаурус включены наименования классов раздела физики твёрдого тела из
Государственного рубрикатора научно-технической информации [ГРНТИ], принятого в
нашей стране для систематизации материала автоматизированных информационных систем.
Далее, в тезаурус был влит раздел физики полупроводников Рубрикатора информационных
изданий ВИНИТИ [ВИНИТИ], на основе которого ведёт информационное обеспечение
науки Всероссийский институт научной и технической информации РАН в качестве
головного информационного органа Российской академии наук. Наконец, в тезаурус были
включены понятия физики полупроводников, которые удалось найти в Схеме классификации
по физике и астрономии [PACS].
Задача расширения тематического охвата тезауруса требует прежде всего включения в
него новых разделов классификационных систем. Поскольку нанотехнологии не
ограничиваются полупроводниковыми материалами, в тезаурус необходимо включить в
полном объёме разделы физики твёрдого тела (конденсированного состояния) из ББК, PACS
и Рубрикатора ВИНИТИ, где разделы физики полупроводников составляю лишь часть
необходимой тематики. Исходный тезаурус не содержал технологических разделов, поэтому
в него необходимо включить классы из разделов твердотельной электроники всех
классификаций, поскольку эта тема является естественным обобщением области исконных
исследований ИФП СО РАН и новых задач развития технологий построения электронных
схем на уровне нанометровых конструкций в твёрдом теле. Масштаб этих конструкций
находится в пределах размеров отдельных молекул, и поэтому необходимо также учесть
понятия разделов молекулярной физики. Однако модель онтологии информационных
ресурсов по нанотехнологиям должна отражать и специфический технологический взгляд на
множество имеющихся документов. С этой целью мы включаем в состав исходных
классификационных систем рубрикации Федерального интернет-портала «Нанотехнологии и
наноматериалы» [Рубрикатор].
В настоящее время тезаурус насчитывает более 2100 словарных статей. В его
словнике присутствуют следующие категории лексических единиц, выделенные по признаку
способа формирования: 1) полностью совпадающие с наименованием класса оной из
классификаций, 2) наименования классов, дополненные указанием на вхождение в ту или
иную вышестоящую понятийную единицу, 3) наименования классов, сокращённые за счёт
изъятия
необязательных
элементов,
4)
наименования
подчинённых
классов,
подразумеваемых формулировкой класса, присутствующего в исходной классификационной
системе, 5) наименования обобщающих классов, подразумеваемых формулировками одного
или нескольких классов, присутствующих в исходных классификационных системах.
Основной массив дескрипторов относится к первой категории лексических единиц. Примеры
лексических единиц разного рода приведены в таблицах 1 – 5.
Таблица 1. Примеры лексических единиц первого рода
Лексическая единица тезауруса (дескриптор)
Исходная классификация и
классификационный код
акустика
ББК В32
ВИНИТИ 291.37
ГРНТИ 29.37
УДК 534
баллистическое магнитосопротивление
ВИНИТИ 291.19.36.21.17
взаимодействие между частицами в массивах наночастиц НАНО09 1.2.8
гальваномагнитные явления
ББК В377.4
Таблица 2. Примеры лексических единиц второго рода.
Дескриптор тезауруса
Исходный класс и его код
Вышестоящие классы
действие излучений на
УДК 537.312.5 Действие
УДК 537.312 Действие
проводимость и
излучений
внешних факторов на
сопротивление
проводимость и сопротивление
стёкла, ситаллы, керамика ГРНТИ 47.09.41 Стёкла,
ГРНТИ 47.09 Материалы для
для радиоэлектроники
ситаллы, керамика
электроники и радиотехгники
зонный электронный
ВИНИТИ 291.19.31.15.15.15
ВИНИТИ 291.19.31
спектр полупроводников – Влияние давления
Полупроводники
влияние давления
ВИНИТИ 291.19.31.15.15
Зонный электронный спектр
Таблица 3. Примеры лексических единиц третьего рода.
Дескриптор тезауруса
Исходный класс и его код
полимеры для
ГРНТИ 47.09.51 Полимеры и полимерные материалы для
радиоэлектроники
радиоэлектроники
действие механических
УДК 537.312.9 Действие механических напряжений
напряжений на проводимость
(изгибы, кручения и т. д.) на проводимость и
и сопротивление
сопротивление
физика
конденсированного УДК 538.9 Физика конденсированного состояния (жидкое
состояния
и твёрдое состояния) (микроскопическое описание)
Таблица 4. Примеры лексических единиц четвёртого рода.
Дескриптор тезауруса
ситаллы для радиоэлектроники
керамика для радиоэлектроники
наноуглеродные композиты – получение,
обработка, испытание, анализ
поверхности твёрдых тел –
взаимодействие с наночастицами
плёнки – взаимодействие с
наночастицами
Исходный класс и его код
ГРНТИ 47.09.41 Стёкла, ситаллы, керамика
PACS 81.05.uj Алмаз и наноуглеродные
композиты – получение, обработка, испытание,
анализ
НАНО09 1.2.9 Взаимодействие наночастиц с
пленками и поверхностями твердых тел
Таблица 5. Примеры лексических единиц пятого рода.
Дескриптор тезауруса
Исходные классы и их коды
квантовые ямы
PACS 81.07.Pr Квантовые ямы– получение и описание
PACS 68.65.Fg Квантовые ямы– структура и неэлектронные
свойства
PACS 73.21.Fg Квантовые ямы – электронная структура и
электрические свойства
PACS 73.63.Hs Квантовые ямы – электронный перенос
микроскопия
ВИНИТИ 291.19.22.13.13.17 Ближнеполевая микроскопия
наноматериалов
наноматериалов
ВИНИТИ 291.19.22.13.13.15 Зондовая микроскопия
наноматериалов
ВИНИТИ 291.19.22.13.13.13 Просвечивающая и растровая
электронная микроскопия нанообъектов
НАНО 2.4.4 Люминесцентная микроскопия нанообъектов
НАНО 2.4.2 Сканирующая электронная микроскопия
нанообъектов
наноклетки
PACS 78.67.Ve Наноклетки – оптические свойства
Бόльшая часть лексических единиц тезауруса является дескрипторами, т. е.
наименованиями понятий, в словарных статьях которых указаны смысловые связи с другими
понятиями предметной области. Кроме того около 130 лексических единиц являются
аскрипторами, т. е. альтернативными наименованиями понятий, выраженных указанным в
аскрипторной статье дескриптором. Для 188 дескрипторов дано определение, что помогает
информационным работникам, не являющимся специалистом в предметной области,
ориентироваться в смысле обрабатываемых данных. Для большинства дескрипторов указано
их место в той или иной классификационной системе. При этом использованы возможности
аналитико-синтетических информационно-поисковых языков УДК и ББК,
предусматривающих формирование комбинированных тематических индексов. Между
дескрипторами тезауруса установлены иерархические родовидовые связи (около 2600 пар
связанных дескрипторов) и связи типа квазисинонимических (около 110 пар дескрипторов).
В словарных статьях тезауруса содержится в целом более 11 тыс. элементов. Это означает,
что тезаурус более чем для 2 тысяч объектов предметной области информационных ресурсов
по физике полупроводников и нанотехнологий даёт смысловую характеристику по одной из
шести классификационных систем и устанавливает около четырёх отношений с другими
объектами. Это свидетельствует о том, что на материале используемых в практике
классификаций удалось построить достаточно содержательное описание онтологии заданной
предметной области. Полные списки сущностей онтологии, их свойств и отношений можно
легко получить из лексико-семантического указателя тезауруса, который может быть
предоставлен заинтересованным лицам.
Библиография
ББК, 2013. Библиотечно-библиографическая классификация. Средние таблицы. Вып. 1 – 6 / Глав. ред.
Э. Р. Сукиасян. – М., 2001 – 2013.
Белоозеров В. Н., Шабурова Н. Н., 2010. Тезаурус классификационных систем по физике
полупроводников // Актуальн. вопросы совр. науки и образования : Материалы V общерос. научно-практ. конф.
с междунар. участием. Вып. 2 – Красноярск: Научно-инновационный центр, 2010 – С. 139-156. – ISBN 978-5904771-11-9
Белоозеров В. Н., 2013. УДК как формальная онтология содержания документальной коллекции // 17-я
междунар. конф. и выставка LIBCOM-2013: Информационные технологии, компьютерные системы и
издательская продукция для библиотек. – Суздаль, 11-16 нояб. 2013 г.
Добров Б. В., Иванов В. В., Лукашевич Н. В., Соловьёв В. Д., 2012. Онтологии и тезаурусы: модели,
инструменты, приложения : Учебное пособие. – М., 2012. – 173 с. – ISBN 978-5-9963-0007-5.
ГОСТ 7.25–2001. Система стандартов по информации, библиотечному и издательскому делу. Тезаурус
информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления. – М.:
Изд-во стандартов, 2001. – 16 с.
ГРНТИ, 2007. Государственный классификатор – рубрикатор научно-технической информации
(ГРНТИ), 6-е изд. в 2 тт. / ВИНИТИ РАН, глав. ред. акад. Ю. М. Арский, общ. ред. Т. С. Астахова. – М., 2007. –
ISBN 978-5-94577-039-3.
ВИНИТИ, 2005. Рубрикатор информационных изданий ВИНИТИ. Тт. 1 - 4 / ВИНИТИ РАН, глав. ред.
акад. Ю. М. Арский, отв. ред. В. Н. Белоозеров. – М., 2005
Рубрикатор, 2013. [Федеральный интернет-портал «Нанотехнологии и наноматериалы»] [Электронный
ресурс]. – Доступ http:/www.portalnano.ru/rubricator/?show=1.
УДК, 2011. Универсальная десятичная классификация. Полное издание на русском языке. Тома 1 – 10 /
Глав. ред. акад. Ю. М. Арский, общ. ред. Т. С. Астахова . – М.: ВИНИТИ РАН, 2001 – 2011.
PACS, 2010. Physics and Astronomy Classification Scheme [Электронный ресурс] / American Institute of
Physics. – American Physical Sosiety, 2010. – Доступ: http://publish.aps.org/pacs.
Wei Fan, Shuqing Bu, Qing Zou, 2013. Semantic visualization for subject authority data of Chinese
Classified Thesaurus /Classification and Visualization: Interfaces to Knowledge. Proceedings of the International UDC
Seminar. 24 – 25 October 2013. The Hague, The Netherlands. – pp. 191 – 206.
Bibliography
BBK (2013). Library-Bibliographical Classification. Middle-sized tables [Bibliotechno-bibliograficheskaya
klassifikaciya. Srednie tablicy]. Issues 1 – 6 / Chief ed. E. R. Sukiasyan. – Мoscow, 2001 – 2013.
Beloozerov V. N., Shaburova N. N. (2010). Thesaurus of classification systems for physics of semiconductors
[Tezaurus klassifikacionnyx sistem po fizike poluprovodnikov] // Actual issues of modern sciences and education.
Materials of 5th All-Russia Scientific and Practical Conference with International Participation. Vol.2 [Aktual’nye
voprosy sovremennoj nauki i obrozovaniya. Materialy V obshherossijskoj nauchno-prakticheskoj konferencii s
mezhdunarodnym uchastiem. Vypusk 2].– Krasnoyarsk, 2010 – pp. 139-156. – ISBN 978-5-904771-11-9
Beloozerov V. N. (2013). UDC as a formalized ontology of a document collection content [UDK kak
formal’naya ontologiya soderzhaniya dokumental’noj kollekcii] // 17th International Conference and Exhibition
LIBCOM-2013 [17-ya mezhdunarodnaya konferenciya i vystavka LIBCOM-2013]. – Suzdal’, 11-16 November, 2013.
Dobrov B. V., Ivanov V. V., Lukashevich N. V., Solov’ёv V. D. (2012). Ontologies and Thesauri: Models,
Instuments, Aplications: Tutorial [Ontologii i tezaurusy: modeli, instrumenty, prilozheniya: Uchebnoe posobie] –
Internet-Universitet Informacionnyx Texnologij, BINOM – Laboratoriya znanij, Мoscow, 2012.. – ISBN 978-5-99630007-5.
GOST 7.25–2001. System of standards on information, librarianship and publishing. Monolingual information
retrieval thesaurus. Rules for development, structure, composition and form of presentation [Sistema standartov po
informacii, bibliotechnomu i izdatel’skomu delu. Pravila razrabotki, struktura, sostav i forma predstavleniya]. –
Izdatel’stvo standartov, Мoscow, 2001.
GRNTI (2007). State classification – Rubricator for scientific and technological information (GRNTI)
[Gosudarstvennyj klassifikator – Rubrikator nauchno-texnicheskoj informacii (GRNTI)]. – 6th ed. in 2 volums. /
VINITI, Мoscow, 2007. – ISBN 978-5-94577-039-3.
PACS (2010). Physics and Astronomy Classification Scheme / American Institute of Physics. – American
Physical Sosiety, 2010. –http://publish.aps.org/pacs.
Rubrikator (2013). Federal Internet Portal “Nanotechnology and Nanomaterials” [Federal’nyj internet-portal
“Nanotexnologii i Nanomaterialy”]. – http:/www.portalnano.ru/rubricator/?show=1.
UDC (2011). Universal Decimal Classification: Full Russian Edition [Universal’naya desyatichnaya
klassifikaciya: Polnoe izdanie na russkom yazyke]. Volumes 1 – 10 / VINITI, Мoscow, 2001 – 2011.
VINITI (2005). Rubricator for information publications of VINITI [Rubrikator informacionnyx izdanij
VININI]. Volumes 1 - 4 / VINITI, Мoscow, 2005.
Wei Fan, Shuqing Bu, Qing Zou (2013). Semantic visualization for subject authority data of Chinese
Classified Thesaurus /Classification and Visualization: Interfaces to Knowledge. Proceedings of the International UDC
Seminar. 24 – 25 October 2013. The Hague, The Netherlands. – pp. 191 – 206.
Download