ПРИМЕНЕНИЕ ОНТОЛОГИЙ ДЛЯ ДЛЯ СОЗДАНИЯ

ПРИМЕНЕНИЕ ОНТОЛОГИЙ ДЛЯ ДЛЯ СОЗДАНИЯ СЕМАНИТЧЕСКИХ МЕТООПИСАНИЙ ИНФОРМАЦИОННЫХ РЕСУРСОВ ВУЗА Балова Т.Г, . Жомарткызы Г. Восточно-Казахстанский государственный технический университет им. Д. Серикбаев, Усть-Каменогорск, Казахстан, TBalova@ektu.kz, GZhomartkyzy@ektu.kz Введение. Сегодня пользователи получают доступ к огромному количеству информационных ресурсов, значительная часть которых представлена на естественном языке (ЕЯ). Поскольку большая часть информации содержится в текстовом виде, технологии интеллектуальной обработки текстов помогают решать многие задачи на основе извлечения знаний из текстовых коллекций, их структурирования и анализа. Решение проблемы связано с переходом от хранения и обработки данных к накоплению и обработке знаний. Одним из таких подходов является семантическое аннотирование текстовых документов, которое заключается в создании мета описания документа на основе существующего корпуса текстов и онтологии, отображающей структуру предметной области (ПО). Semantic Web, базируется на использование метаданных для описания семантики информационных ресурсов (ИР) и средств обработки этих метаописаний. В приложениях автоматического анализа текста онтологий ПО используются для таких задач, как автоматическая классификация, реферирование, семантическое аннотирование [1]. В данной работе предлагается обобщенная схема семантического аннотирования текстовых документов. Семантическое аннотирование текстов. Существует набор стандартных решений, которые разработаны для описания метаданных и формирования семантических аннотаций, как например, стандарт Dublin Core. Однако набор заданных тегов для описания текстовых документов не отображает информацию, которая может является актуальной для текущей онтологии предметной области (ПО), а несет лишь общие сведения [2]. Поэтому актуальной задачей в системах управления знаниями является разработка моделей и методов семантического аннотирования текстовых документов. Семантическая аннотация – аннотация, которая написана на формальном языке с хорошо определенной семантикой, и базирующаяся на онтологии. При формировании семантической разметки нужно использовать не только знания ПО, но и правила того конкретного естественного языка, на котором написан текст. Создание такой разметки является нетривиальной и довольно трудоемкой задачей. Семантическая разметка зависит и от того, какие именно средства используются для описания ПО. Для семантической разметки ЕЯ-текстов необходимо разработать алгоритм, который обеспечит выделение фрагментов ЕЯ-текста, связанных с определенными понятиями выбранной пользователем ПО. Для этого предлагается анализировать ЕЯ-тексты определенной ПО с учетом как морфологических и синтаксических свойств естественного языка, так и структуры ПрО и знаний пользователя об этой ПО. Следует разработать средства и методы, позволяющие с помощью семантической разметки осуществлять поиск информации, релевантной персональным информационным потребностям конкретного пользователя. Для обработки семантической разметки различными модулями информационной системы, целесообразно использовать технологии и стандарты, разработанные в рамках проекта Semantic Web Лингвистический анализ текста. Лингвистически методы позволяют выделить в тексте слова, связанные с понятиями (классами) ПО, и слова, являющиеся именами, т. е. связанные с экземплярами понятий (классов) онтологии [3]. Обычно лингвистический анализ включает этапы морфологического, синтаксического и семантического анализа [3]. Для выделения лексем в ЕЯ-тексте применяют морфологический анализ. Лексема с грамматической точки зрения определяется как система словоформ, основы которых тождественны по значению, а одноименные морфы основ, также тождественные по значению. В одну лексему объединяются разные словоформы одного слова. Синтаксический анализ заключает в распознавании синтаксической структуры предложений на основе морфологической информации и синтаксических правил объединений слов и словосочетаний данного языка. Синтаксическая структура – это связь между словами предложения. Для единообразного описания синтаксических правил языка используются формальные грамматики. Семантическое метаописание документа. Семантический анализ направлен на распознавание смысла текста. Способы описания семантики текста и предложения, также алгоритмы построения такого описания определяются целями анализа. Назначение семантического анализа – извлечь из ЕЯ-текста содержащиеся в нем знания, и предоставить в форме, пригодной для автоматизации их обработки [3-4]. Онтология – это явная спецификация концептуализации на уровне знаний. Онтология обязательно включает словарь понятий ПО и указания о связях между ними, что задает структуру ПО и ограничивает возможные интерпретации терминов. Представим формальную модель онтологии следующим образом: O = < 𝑃, 𝑅, 𝐹 > где, 𝑃 – множество понятий ПО, 𝑅– множество связей между понятиями ПО, 𝐹 – множество аксиом и правил вывода ПО. В задачах понимания смысла ЕЯ-текстов для использования онтологий необходимы алгоритмы отображения синтаксических отношений, присутствующих в ЕЯ-текстах, на отношения, имеющиеся в онтологиях. Для исходного ЕЯ-текста определяются формальные характеристики грамматики в категориях род, число, падеж, так же возможно непосредственное определение семантических отношений из морфологической формы слов [3]. Семантическая разметка ЕЯ-текстов для определенной ПО создается в два этапа: этап накопления лингвистических сведений, этап автоматической семантической разметки. На первом этапе используется алгоритм накопления лингвистических сведений о ПО. На этапе обучения необходимо сформировать следующие множества:  P – словоформы, связанные с понятиями онтологии ПО. Эта информация может быль извлечена из различных словарей синонимов, а также явным образом вручную из корпуса текстов;  R - словоформы, связанные с отношениями онтологии ПО;  I, отношения именования (ОИ), связывающие: поименованные сущности (ПС в онтологии соответствуют экземпляры классов) и классы, классы и подклассы;  Iw, словоформы, связанные с ОИ;  шаблоны, связывающие ПС и имена их классов. Множество шаблонов может расширяться для учета специфики ПО. Каждый шаблон представляет собой строку символов, состоящую из имени предиката и модели управления. Каждый шаблон включает слово из Iw и морфологическую информацию для связанных с ним слов в соответствии с моделью управления. Синтаксическая структура терминов предметной области в большинстве случаев могут соответствовать следующим шаблонам: одиночные существительные, прилагательные, сокращения; существительное + существительное в родительном падеже; прилагательное + существительное; прилагательное + прилагательное + существительное; существительное + прилагательное + существительное в родительном падеже [6]. В результате обучения системы каждому термину онтологии 𝑂 приписывается несколько словоформ, соответствующих в исходном тексте данному понятию. Словоформы извлекаются из обучающего множества текстов, отнесенных пользователем к определенной ПО. Алгоритм семантической разметки текста. На вход алгоритма автоматической семантической разметки подается:  словоформы, связанные с понятиями, отношениями онтологии ПрО (Pw, Rw);  словоформы, связанные с ОИ (Iw);  шаблоны, связывающие ПС и имена их классов;  ЕЯ – тексты, для которых надо создать семантическую разметку. На этапе анализа нового ЕЯ-текста необходимо выделить в тексте:  словоформы, связанные с понятиями онтологии ПО;  словоформы, связанные с отношениями онтологии ПО;  слова, которые могут быть именами ПС. Вначале в текстах обнаруживаются слова и словосочетания, которые могут являться именами ПС. Затем к тексту нужно применить шаблоны, описывающие правила, связывающие имена ПС с именами их классов. Если ПС, имя понятия и имя отношения именования ОИ занимают место в предложении, соответствующие шаблону места (определение синтаксической структуры предложения), то считать ПС относящейся к соответствующему классу. Для записи семантических метаданных используется язык RDF. Язык RDF совместим с языком описания онтологий OWL, так же его синтаксис позволяет делать высказывания относительно триплетов. В результате работы этого алгоритма получаем множество семантически размеченных по правилам языка RDF /XML текстов, пригодных для автоматического анализа. В результате работы этого алгоритма получаем множество семантически размеченных по правилам языка RDF/XML текстов, пригодных для автоматического анализа. Библиографический список: 1. Б.В. Добров, Н.В. Лукашевич, “Автоматизированная обработка научнотехнических текстов с помощью Онтологии по естественным наукам и технологиям” // Труды XIV Всероссийской объединенной конференции «Интернет и современное общество» (IMS-2011), Санкт-Петербург, Россия, октябрь 2011, – С. 53-57. 2. Dublin Core Metadata Initiative http://dublincore.org/ 3. Лесько О. Н., Рогушина Ю. В. Использование онтологий для анализа семантики естественно-языковых текстов. //Проблеми програмування, №3, 2009, – С. 59-66. 4. Н.В. Рябова, О.В. Шубкина, “Обобщенная модель семантического анотирования текстовых документов в системах управления знаниями”// Системи обробки інформації, №9 (90), 2010, -С. 165-168. 5. Vineet R. Khare, Rahul Chougule Decision support for improved service effectiveness using domain aware text mining // Knowledge-Based Systems №33, 2012, - С 29–40. 6. B. Dobrov, N. Loukachevitch, O. Nevzorova. The technology of new domains’ ontologies development // Proceedings of the X-th International Conference “KnowledgeDialogue-So lution” (KDS’2003).- Varna, Bulgaria.-2003.- pp.283-290.

ПРИМЕНЕНИЕ ОНТОЛОГИЙ ДЛЯ ДЛЯ СОЗДАНИЯ

Related documents

Products

Support

ПРИМЕНЕНИЕ ОНТОЛОГИЙ ДЛЯ ДЛЯ СОЗДАНИЯ

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib