алгоритм расчета семантической близости

В.А. ФЕДОРОВА Научный руководитель – О.Л. ГОЛИЦЫНА, к.т.н., доцент Национальный исследовательский ядерный университет «МИФИ» АЛГОРИТМ РАСЧЕТА СЕМАНТИЧЕСКОЙ БЛИЗОСТИ ДЕСКРИПТОРОВ Рассматриваются подходы к измерению семантической близости между дескрипторами поисковых образов с использованием парадигматических связей в политематической лексикографической БД. Меры семантической близости широко применяются в области обработки естественного языка [1]. Расчет семантической близости дескрипторов тезауруса в основном учитывает длину пути, соединяющего дескрипторы (с учетом или без ассоциативных связей), или положение дескрипторов в иерархии [1-3]. В настоящей работе решалась задача сопоставления поисковых образов, представленных множествами дескрипторов тезауруса, с целью построения их пересечения с учетом меры семантической близости дескрипторов. Индексирование проводилось с использованием лексикографической БД, содержащей тезаурусы различных предметных областей: науковедение, информатика, лингвистика, экономика и др. В связи с тем, что тезаурусы, входящие в состав базы данных, имеют неравномерное иерархическое развитие, оказалось неэффективным применять меры, не позволяющие адекватно рассчитать семантическую близость для коротких иерархических цепочек [4]. Мера, предложенная в [3], позволяет рассчитывать семантическую близость даже для иерархических цепочек, состоящих из двух дескрипторов. Для расчета вводится множество суперпонятий 𝑈𝐶(𝑐𝑖 , 𝐻 𝑐𝑖 ), содержащее само понятие 𝑐𝑖 , а также всех его предков в иерархической цепочке этого понятия – 𝐻 𝑐𝑖 : 𝑈𝐶(𝑐𝑖 , 𝐻 𝑐𝑖 ) = {с𝑗 ∈ 𝐻 𝑐𝑖 | ∃𝑚 = (𝑐𝑖 , 𝑥𝑖1 , 𝑥𝑖2 … , 𝑥𝑖𝑘 , 𝑐𝑗 ) ∪ (𝑐𝑖 = 𝑐𝑗 )}, где m – маршрут, соединяющий понятия 𝑐𝑖 и 𝑐𝑗 , в котором используются переходы 𝑥𝑖1 , 𝑥𝑖2 ,…, 𝑥𝑖𝑘 к вышестоящим понятиям. Мера семантической близости рассчитывается при этом как отношение числа общих суперпонятий к числу всех суперпонятий дескрипторов: |𝑈𝐶(𝑐1 , 𝐻 𝑐1 ) ∩ 𝑈𝐶(𝑐2 , 𝐻 𝑐2 )| 𝑆(𝑐1 , 𝑐2 ) = |𝑈𝐶(𝑐1 , 𝐻 𝑐1 ) ∪ 𝑈𝐶(𝑐2 , 𝐻 𝑐2 )| Однако при формировании множества суперпонятий в лексикографической БД необходимо было учесть существование полисемии, порожденной объединением тезаурусов нескольких предметных областей [4]. Были сформулированы и реализованы в алгоритме правила построения иерархических цепочек для дескрипторов, входящих более чем в один тезаурус. При построении пересечения двух поисковых образов A и B как множеств дескрипторов 𝐷𝐴 = (𝑎1 , 𝑎2 , … , 𝑎𝑛 ) и 𝐷𝐵 = (𝑏1 , 𝑏2 , … , 𝑏𝑛 ) рассчитывается матрица семантической близости 𝑊 размерности 𝑛 × 𝑚: 𝑊 = (𝑤𝑖𝑗 ), где 𝑤𝑖𝑗 = 𝑆(𝑎𝑖 , 𝑏𝑗 ), 𝑖 = 1. . 𝑚, 𝑗 = 1. . 𝑛. Множество дескрипторов пересечения формируется из тех дескрипторов, для которых выполняется условие: max(wij ) = max (𝑤ij ) ̅̅̅̅ j=1,n ̅̅̅̅̅ i=1,m Такой алгоритм определяет достаточное значение меры семантической близости для включения дескрипторов в пересечение не через фиксированное пороговое значение, а на основании контекста, задаваемого дескрипторами каждого поискового образа. Так, для пар дескрипторов «Инновационный менеджмент» – «Наука управления», «Инновационный менеджмент» – «Стратегическое управление», «Стратегическое управление» – «Государственное управление», «Коммерческий кредит» – «Денежные средства», «Заемный капитал» – «Коммерческий кредит», «Заемный капитал» – «Источник финансирования» получены ненулевые значения мер семантической близости. Однако сформулированному ограничению удовлетворяют только пары дескрипторов «Инновационный менеджмент» – «Стратегическое управление», «Коммерческий кредит» – «Заемный капитал». Также в пересечении оказались такие пары понятий, как «Сырьевые ресурсы» – «Стратегические ресурсы», «Муниципальный бюджет» – «Бюджетная система», «Техническое перевооружение» – «Приоритеты развития», «Фонд заработной платы» – «Материальные ресурсы», «Высшее образование» «Образование взрослых». Список литературы 1. Лукашевич Н.В., Добров Б.В. Разрешение лексической многозначности на основе тезауруса предметной области //Компьютерная лингвистика и интеллектуальные технологии: Тр. междунар. конф. «Диалог 2007». –М.,2007-с.400-406 2. Lin D. An information-theoretic defenition of similarity // Proc. Of the Int’l Conference on Machine Learning - 1998 3. Maedche A., Zacharias V. Clustering Ontology-Based Metadata in the Semantic Web / Proceedings PKDD-2002, LNAI 2431, 2002. — P. 348-360 4. Голицына, О. Л. Сравнительный структурно-статистический анализ лексики и связей информационно-поисковых тезаурусов/О. Л. Голицына, Н. В. Максимов // Научно-техническая информация. Сер. 2, Информационные процессы и системы.-2015.-№ 6.- С. 14-28

алгоритм расчета семантической близости

Related documents

Products

Support

алгоритм расчета семантической близости

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib