Наполнение неструктурированного текста поясняющими ссылками на статьи Wikipedia подготовил Сергей Рябов Постановка задачи Сегодня мы рассмотрим, как можно автоматически распознавать темы (topics), упомянутые в тексте, и связывать их ссылками с поясняющими статьями Википедии • Обзор связанных работ • Алгоритм устранения неоднозначности ссылок • Алгоритм нахождения ключевых слов • Работа метода на документах «реального мира» • Применения R. Mihalcea и A. Csomai - Wikify • Detection – определение слов и фраз, которые станут ссылками • Disambiguation – определение значения слова или фразы, то есть подходящей статьи, на которую нужно ссылаться Olena Medelyan Различия с предыдущей работой в фазе устранения неоднозначности. Схожие результаты достигаются значительно проще, путем сопоставления (a) вероятности (commonness) каждого значения и (b) того, как это значение соотносится с контекстом (relatedness) • Обзор связанных работ • Алгоритм устранения неоднозначности ссылок • Алгоритм нахождения ключевых слов • Работа метода на документах «реального мира» • Применения Алгоритм устранения неоднозначности ссылок Всего 700 статей, 50 и более ссылок в каждой: • 500 для обучения • 100 для настройки • 100 для окончательной оценки Алгоритм устранения неоднозначности ссылок • Основной подход – сопоставление commonness и relatedness значения фразы • Commonness значения определяется тем, насколько часто в Википедии ссылаются именно на это значение • Relatedness – взвешенное среднее семантических близостей искомого значения к каждому значению из контекста (контекстному термину, КТ) Wikipedia Link-based Measure a и b – статьи, между которыми вычисляется семантическая близость, A и B – наборы всех статей, ссылающихся на a и b, соответственно, W – множество всех статей Википедии Алгоритм устранения неоднозначности ссылок • В качестве веса КТ берется среднее от его link probability и relatedness по отношению к документу • Первое позволяет отсеять КТ, не являющиеся ссылками, и подчеркнуть те, которые встречаются практически всегда в качестве ссылок • Второе помогает отсеивать КТ, слабо связанные с темой документа – Суть среднее семантических близостей данного КТ ко всем остальным КТ Устранение неоднозначности термина tree, используя однозначные КТ Алгоритм устранения неоднозначности ссылок • Чтобы сопоставить commonness и relatedness, вводится еще одно свойство – полезность (goodness) контекста • Goodness – суть сумма весов КТ • Далее полученные свойства используются для обучения disambiguation classifier’а, который сможет выделять подходящие смыслы • На стадии конфигурации определяется минимальная допустимая вероятность смысла и классификационный алгоритм Алгоритм устранения неоднозначности ссылок Производительность классификаторов Производительность алгоритма устранения неопределенности • Обзор связанных работ • Алгоритм устранения неоднозначности ссылок • Алгоритм нахождения ключевых слов • Работа метода на документах «реального мира» • Применения Алгоритм нахождения ключевых слов • Классификатор тренируется и конфигурируется на все тех же 500 и 100 статьях, соответственно. • Собираем все термины в документе • Все термины с link probability, превышающей пороговое значение, пропускаем через disambiguation classifier • Полученные данные используем для обучения wikification classifier’а • На стадии конфигурации определяется минимальная допустимая link probability и классификационный алгоритм Алгоритм нахождения ключевых слов Алгоритм нахождения ключевых слов Свойства, на основе которых работает детектирующий классификатор: • • • • • Link probability Relatedness Disambiguation confidence Generality Location and spread Алгоритм нахождения ключевых слов Производительность классификаторов Производительность алгоритма нахождения ключевых слов • Обзор связанных работ • Алгоритм устранения неоднозначности ссылок • Алгоритм нахождения ключевых слов • Работа метода на документах «реального мира» • Применения Работа метода на документах «реального мира» • Для тестирования на документах «реального мира» использовались Механические Турки • 50 новостных статей • Система определила 449 ссылок • Тест состоял из 2 частей: – Оценка найденных ссылок – Определение пропущенных ссылок • Итог: (recall, precision, f-measure) = (73%, 76%, 75%) • Обзор связанных работ • Алгоритм устранения неоднозначности ссылок • Алгоритм нахождения ключевых слов • Работа метода на документах «реального мира» • Применения Применения • Добавление поясняющих ссылок к документам – Наполнение блогов, новостных и образовательных статей ссылками – Помощь при создании новых статей Википедии • Улучшение представления документов – Кластеризация документов – Topic indexing – Information retrieval Применения Спасибо за внимание Вопросы?