Н.В. Гривцов, Д.М. Коробкин (к.т.н), С.А. Фоменков (д.т.н

advertisement
Н.В. Гривцов, Д.М. Коробкин (к.т.н), С.А. Фоменков (д.т.н, профессор)
АВТОМАТИЗИРОВАННАЯ СИСТЕМА ПОИСКА И ФОРМИРОВАНИЯ
СТРУКТУРИРОВАННЫХ ФИЗИЧЕСКИХ ЗНАНИЙ
Волгоград, ВолгГТУ
Важным фактором, влияющим на успех инженерной деятельности, является
осведомленность инженера в результатах современных научных исследований. Данная
проблема традиционно решалась при помощи поиска инженером физических эффектов
(ФЭ) в научной периодике. Автоматизация поиска структурированных физических
знаний впервые была осуществлена программным комплексом поддержки процесса
формирования информационного обеспечения фонда ФЭ, спроектированным на
кафедре САПРиПК, ВолгГТУ [1]. Целью настоящей работы является повышение
эффективности работы программного комплекса поддержки процесса формирования
информационного обеспечения фонда ФЭ: увеличение скорости обработки документов,
увеличение количества найденных ФЭ в тестовой выборке, добавление функций
свободного поиска ФЭ и работы с БД ФЭ.
На рисунке представлена архитектура разрабатываемой АС, формирующей
информационное обеспечение БД ФЭ.
БД адресов
интернет-ресурсов
Передача адресов
интернет-ресурсов
Сеть Интернет
Получение
информации
из Интернета
БД поисковых
запросов
Передача
поисковых
запросов
Подсистема сбора
информации
Морфологический
словарь русского
языка
Передача информации
о преобразовании слов
в нормальную форму
Передача всех
полученных
документов
Подсистема
тематической
фильтрации
документов
Передача
обучающей
выборки
документов
БД обучающей
выборки
документов
Передача документов
по теме «физика»
БД ФЭ
Изменение
БД ФЭ
Подсистема
обновления БД ФЭ
Передача
описания ФЭ
Подсистема
поиска ФЭ в
тексте документа
Передача
информации
о способах
описания ФЭ
Онтология ФЭ
БД Интернет-ресурсов содержит адреса Интернет-ресурсов с высоким уровнем
доверия к содержащейся в них информации.
БД поисковых запросов содержит варианты поисковых запросов для поиска
документов, содержащих ФЭ.
Морфологический словарь русского языка содержит информацию, необходимую для
преобразования слов обрабатываемого текста в нормальную форму.
БД обучающей выборки документов содержит текстовые документы с заранее
определённой темой.
Онтология ФЭ содержит информацию о способах описания ФЭ.
Подсистема сбора информации по каждому адресу, содержащемуся в БД адресов
Интернет-ресурсов, с помощью поисковых запросов находит документы и передаёт их
на обработку подсистеме тематической фильтрации документов.
Подсистема тематической фильтрации документов осуществляет фильтрацию
полученных документов по теме «физика» и передаёт их подсистеме поиска ФЭ в
тексте документа. Подсистема использует метод вероятностного латентносемантического индексирования (PLSI). Данный метод показал большую
эффективность по сравнению с методом LSI, используемым в программном комплексе
поддержки процесса формирования информационного обеспечения фонда ФЭ. Для
работы подсистемы тематической фильтрации необходима информация для
преобразования слов в нормальную форму и обучающая выборка документов, которую
она получает из морфологического словаря русского языка и БД обучающей выборки
документов соответственно.
Подсистема поиска ФЭ в тексте документа осуществляет поиск описания ФЭ в
полученных документах, создает структурированные описания найденных ФЭ и
передает данные описания подсистеме обновления БД ФЭ. Подсистема содержит
семантический анализатор, который строит семантическое дерево каждого
предложения. На основе информации о способах описания ФЭ, содержащейся в
онтологии ФЭ, подсистема проводит поиск ФЭ в семантическом дереве. Найденной
информации о ФЭ используется для создания структурированного описания ФЭ
согласно модели «вход, объект, выход».
Подсистема обновления БД ФЭ осуществляет поиск полученных описаний ФЭ в БД
ФЭ. Если ФЭ содержится в БД ФЭ, подсистема предлагает администратору БД ФЭ
дополнить информацию о данном ФЭ: описание сущности ФЭ, описание
математической модели ФЭ, описание практического применения ФЭ, описание
существования обратного ФЭ, диапазоны изменения входов (входа) и выхода ФЭ,
перечень литературных источников. Если ФЭ не содержится в БД ФЭ, подсистема
предлагает администратору БД ФЭ добавить данный ФЭ в БД. Если описание входа,
объекта или выхода ФЭ отсутствуют в словаре описания ФЭ (онтологии ФЭ),
подсистема предлагает администратору БД ФЭ добавить в словарь данные описания
входа, объекта или выхода ФЭ.
В ходе дальнейшей работы планируется повысить эффективность программного
комплекса за счёт увеличения количества ролей, используемых семантическим
анализатором, расширения словаря объёктов, входов и выходов ФЭ путём включения в
него описаний химических соединений.
1. Коробкин Д.М., Фоменков С.А. Методика выделения структурированной
физической информации в виде физических эффектов из текста.- Вестник
компьютерных и информационных технологий, №10, 2009.
Download