МЕТОДЫ СМЫСЛОВОЙ ОБРАБОТКИ ТЕКСТОВОЙ ИНФОРМАЦИИ В ЭЛЕКТРОННЫХ КОЛЛЕКЦИЯХ И РЕПОЗИТАРИЯХ

advertisement
УДК 004.91
ББК 78.375.0
МЕТОДЫ СМЫСЛОВОЙ ОБРАБОТКИ ТЕКСТОВОЙ ИНФОРМАЦИИ
В ЭЛЕКТРОННЫХ КОЛЛЕКЦИЯХ И РЕПОЗИТАРИЯХ
Канищева О. В.
Национальный технический университет
"Харьковский политехнический институт",
Украина, г. Харьков
Анотація. У даній статті наведено огляд різних завдань електронної обробки
текстової інформації, які існують у сфері електронних бібліотек. Показано роль
бібліотеки як джерела знань у сучасній системі освіти.
Ключові слова: семантичний аналіз, електронні бібліотеки, електронні каталоги,
репозитарії.
Отличительной особенностью современности является возрастание
темпов
и
масштабов
перемен,
обусловленных
становлением
информационного общества, в котором приоритет имеют информация и
информационные процессы, знания и высокие технологии.
Процессы
компьютеризации
и
информатизации
играют
основополагающую роль в развитии информационного общества, когда
главным объектом управления становятся не материальные объекты, а
символы, идеи, образы, интеллект, знания; когда большинство работающих
заняты производством, хранением, переработкой и реализацией информации,
особенно высшей ее формы – знаний [4].
Современные библиотеки являются именно таким центром по сбору,
переработке, разметке и хранению информации.
Развитые
системы
открытого
и
дистанционного
образования
невозможно представить без надежного информационного фундамента в виде
электронных собраний ресурсов образовательной направленности. В Украине
практически каждое высшее учебное заведение уже столкнулось с
проблемами
формирования
собственных
и
использования
внешних
электронных библиотечных коллекций и репозитариев, применение которых
в значительной степени меняет привычные методы информационного
обеспечения образовательной деятельности.
Для обеспечения нового качества обучения не достаточно только
наличия способностей и трудолюбия обучаемого. В значительной степени
успех процесса обучения определяется и качеством и количеством
заложенного в систему учебного контента, обеспечивающего получение тех
или иных компетенций. Однако для огромного объема неструктурированной
текстовой информации, содержащейся в цифровых репозитариях систем
e-Learning и электронных библиотеках, на тематических сайтах в Интернет,
отсутствует качественный инструментарий для анализа. Отсутствует также
возможность
определения,
насколько
данный
контент
обеспечивает
овладение необходимыми компетенциями. Не используются возможности
анализа интернет-ресурсов и применения их для пополнения цифровых
репозитариев актуальной информацией из тематических Web-ресурсов и
электронных библиотек для покрытия необходимых компетенций [6].
На поиск необходимой информации из электронных источников,
которые хранятся в современной библиотеке, пользователю, а также
библиотечному работнику приходится тратить много времени. Это связано
как с лавинообразным количеством информации, так и особенностями
информационного поиска. Очень часто мы ищем не автора и не название
книги, а по ключевым словам. Это самый распространенный способ поиска
информации в поисковых системах и в электронной библиотеке (каталоге).
Общая структура электронной библиотеки приведена на рис. 1.
Рассмотрим наиболее актуальные задачи для электронных коллекций и
репозитариев, решаемые с помощью методов семантического анализа [2].
Задача контекстно-свободного поиска информации является одной из
главных. Самым простым методом является поиск по формальному признаку
– сходство словарного состава запроса и отбираемых документов. Наиболее
качественные
системы
предусматривают
расширение
запроса
морфологическими словоформами, а также синонимами из предоставленного
разработчиками словаря. Основа такого подхода есть следующее суждение:
если документы похожи по словарному составу, то с большой долей
вероятности они похожи и по смысловому содержанию. Сейчас качественное
развитие методов поиска может заключаться в смене критерия сходства от
«сходства по словарному составу» к сходству по другим признакам, которые
могли бы точнее отразить сходство смыслового содержания. Таким
критерием может быть сходство семантической структуры текстов и запроса.
Таким образом, задача поиска оказывается связанной с задачей извлечения
информации из текста и представления её в виде формальной системы
знаний. Традиционными являются методы представления семантической
структуры текста в виде семантической сети или фреймов.
Рис. 1. Общая структура электронной библиотеки
Автоматическое реферирование также является одной из задач, решение
которой важно для системы библиотечно-информационного обслуживания.
Автоматизированный машинный перевод не является традиционной
услугой системы библиотечно-информационного обслуживания в силу
чрезвычайной сложности задачи получения качественного перевода. Однако,
по своей сути, эта задача относится к библиотечной сфере – предоставить
пользователю подходящую информацию в подходящем виде. Наиболее
перспективным на данный момент является метод решения этой задачи
аналогично методу автоматического реферирования. Сначала для текста,
который необходимо перевести, происходит синтаксический разбор, затем
текст представляется в виде его формального описания. После чего на
основании формального описания генерируется текст на нужном языке [3].
Методы решения задач, относящихся к «добыче знаний», уже давно
используются в системах библиотечно-информационного обслуживания и
информационно-поисковых (рис. 2).
Рис. 2. Схема семантического поиска информации
Разбиение массива электронных документов на кластеры – известный
метод для сужения области поиска документов по запросу. Классификация
позволяет относить вновь поступающие в базу документы к тому или иному
из существующих кластеров с тем, чтобы не запускать слишком часто
процесс кластеризации всех документов, требующий больших временных
затрат. Разные методы обладают сильно различающимися сложностью и
требованиями к вычислительным мощностям, и, соответственно, позволяют
добиться разных результатов. Однако все они сводятся к классификации
объектов (например, электронных документов) на группы (кластеры) по
сходству между ними [7; 8]. Свойствами, по которым можно определить
сходство или несходство между электронными документами, являются слова,
входящие в документ. Сходство вычисляется как расстояние в пространстве
свойств. Есть разные подходы для вычисления расстояния в пространстве
свойств [5]. Наиболее распространёнными из них являются Евклидово
расстояние, манхэттенское расстояние, расстояние Чебышева, степенное
расстояние и другие. Поскольку, как уже упоминалось, свойствами
электронных документов являются слова, входящие в документ, полезной для
системы библиотечно-информационного обслуживания также является и
такая задача «добычи данных», как поиск связанных свойств. Решение этой
задачи позволяет выявить термины, связанные с той или иной тематикой
научных текстов. Все три упомянутые задачи (кластеризация, классификация
(в узком смысле слова) и поиск связанных свойств) являются различными
сторонами более общей задачи – классификации в широком смысле слова.
Последним из перечисленных выше методов смысловой обработки
являются экспертные системы. Экспертные системы позволяют на основе
базы знаний автоматизировано (без участия человека) принять решение [1].
Такие задачи в системе библиотечно-информационного обслуживания тоже
есть.
Например,
в
рассмотренной
выше
задаче
автоматического
реферирования для метода краткого изложения текста требуется принятие
экспертного решения о том, какие из знаний, изложенных в тексте, являются
важными, а какие можно опустить.
Таким
электронных
образом,
круг
данных
для
задач
и
сферы
методов
смысловой
обработки
библиотечно-информационного
обслуживания является достаточно широким. В него входят почти все
известные задачи смысловой обработки. В настоящее время в связи с
созданием и развитием электронных коллекций и репозитариев многие
задачи
в
электронных
библиотеках
(каталогах)
решаются
путём
последовательного применения методов смысловой обработки текстовой
информации.
Список использованных источников
1. Искусственный интеллект : справ. : в 3 кн. / под ред. Э. В. Попова. – М. : Радио и
связь, 1990. – Кн. 1. Системы общения и экспертные системы. – 464 с.
2. Майстрович Т. В. Электронная библиотека: новые грани нашей профессии /
Т. В. Мастрович // Мир библиографии. – 2000. – № 4. – С. 7–10.
3. Нелюбин Л. Л. Компьютерная лингвистика и машинный перевод / Л. Л. Нелюбин.
– М. : Наука, 1983. – 241 с.
4. Петрова Т. Тенденции развития современного образования [Электронный ресурс]
/ Т. Петрова. – Режим доступа: http://www.observer.materik.ru/observer/N2_2006/2_11.HTM
(дата обращения: 05.03.2014). – Загл. с экрана.
5. Пиотровский Р. Г. Математическая лингвистика / Р. Г. Пиотровский. – М. : Высш.
шк., 1977. – 383 с.
6. Управление
информационных
образовательной
технологий
и
научной
[Электронный
деятельностью
ресурс].
–
студентов:
Режим
роль
доступа:
http://ru.education.mon.gov.ru/articles/71 (дата обращения: 05.03.2014). – Загл. с экрана.
7. Pattern Recognition and Image Understanding / B. Radig, H. Niemann, Y. Zhuravlev,
I. Gourevitch, I. Laptev. – Sankt Augustin : Infix, 1999. – 332 p.
8. Zubov A. Principle of Choice of Foreign Equivalents for a Six-Language Pocket
Computer Translator / A. Zubov // Proceedings of the Third European Seminar "Translation
Equivolence". – 1998. – P 259–268.
Аннотация. В данной статье приводится обзор различных задач электронной
обработки текстовой информации, которые существуют в сфере электронных
библиотек. Показана роль библиотеки как источника знаний в современной системе
образования.
Ключевые слова: семантический анализ, электронные библиотеки, электронные
каталоги, репозитарии.
Annotation.This article provides an overview of the various problems of electronic text
processing that exist in the field of digital libraries. The role of the library as a source of
knowledge in the modern education system.
Key words: semantic analysis, electronic libraries, electronic catalogs, repository.
Download