вероятности (commonness)

Наполнение неструктурированного текста поясняющими ссылками на статьи Wikipedia подготовил Сергей Рябов Постановка задачи Сегодня мы рассмотрим, как можно автоматически распознавать темы (topics), упомянутые в тексте, и связывать их ссылками с поясняющими статьями Википедии • Обзор связанных работ • Алгоритм устранения неоднозначности ссылок • Алгоритм нахождения ключевых слов • Работа метода на документах «реального мира» • Применения R. Mihalcea и A. Csomai - Wikify • Detection – определение слов и фраз, которые станут ссылками • Disambiguation – определение значения слова или фразы, то есть подходящей статьи, на которую нужно ссылаться Olena Medelyan Различия с предыдущей работой в фазе устранения неоднозначности. Схожие результаты достигаются значительно проще, путем сопоставления (a) вероятности (commonness) каждого значения и (b) того, как это значение соотносится с контекстом (relatedness) • Обзор связанных работ • Алгоритм устранения неоднозначности ссылок • Алгоритм нахождения ключевых слов • Работа метода на документах «реального мира» • Применения Алгоритм устранения неоднозначности ссылок Всего 700 статей, 50 и более ссылок в каждой: • 500 для обучения • 100 для настройки • 100 для окончательной оценки Алгоритм устранения неоднозначности ссылок • Основной подход – сопоставление commonness и relatedness значения фразы • Commonness значения определяется тем, насколько часто в Википедии ссылаются именно на это значение • Relatedness – взвешенное среднее семантических близостей искомого значения к каждому значению из контекста (контекстному термину, КТ) Wikipedia Link-based Measure a и b – статьи, между которыми вычисляется семантическая близость, A и B – наборы всех статей, ссылающихся на a и b, соответственно, W – множество всех статей Википедии Алгоритм устранения неоднозначности ссылок • В качестве веса КТ берется среднее от его link probability и relatedness по отношению к документу • Первое позволяет отсеять КТ, не являющиеся ссылками, и подчеркнуть те, которые встречаются практически всегда в качестве ссылок • Второе помогает отсеивать КТ, слабо связанные с темой документа – Суть среднее семантических близостей данного КТ ко всем остальным КТ Устранение неоднозначности термина tree, используя однозначные КТ Алгоритм устранения неоднозначности ссылок • Чтобы сопоставить commonness и relatedness, вводится еще одно свойство – полезность (goodness) контекста • Goodness – суть сумма весов КТ • Далее полученные свойства используются для обучения disambiguation classifier’а, который сможет выделять подходящие смыслы • На стадии конфигурации определяется минимальная допустимая вероятность смысла и классификационный алгоритм Алгоритм устранения неоднозначности ссылок Производительность классификаторов Производительность алгоритма устранения неопределенности • Обзор связанных работ • Алгоритм устранения неоднозначности ссылок • Алгоритм нахождения ключевых слов • Работа метода на документах «реального мира» • Применения Алгоритм нахождения ключевых слов • Классификатор тренируется и конфигурируется на все тех же 500 и 100 статьях, соответственно. • Собираем все термины в документе • Все термины с link probability, превышающей пороговое значение, пропускаем через disambiguation classifier • Полученные данные используем для обучения wikification classifier’а • На стадии конфигурации определяется минимальная допустимая link probability и классификационный алгоритм Алгоритм нахождения ключевых слов Алгоритм нахождения ключевых слов Свойства, на основе которых работает детектирующий классификатор: • • • • • Link probability Relatedness Disambiguation confidence Generality Location and spread Алгоритм нахождения ключевых слов Производительность классификаторов Производительность алгоритма нахождения ключевых слов • Обзор связанных работ • Алгоритм устранения неоднозначности ссылок • Алгоритм нахождения ключевых слов • Работа метода на документах «реального мира» • Применения Работа метода на документах «реального мира» • Для тестирования на документах «реального мира» использовались Механические Турки • 50 новостных статей • Система определила 449 ссылок • Тест состоял из 2 частей: – Оценка найденных ссылок – Определение пропущенных ссылок • Итог: (recall, precision, f-measure) = (73%, 76%, 75%) • Обзор связанных работ • Алгоритм устранения неоднозначности ссылок • Алгоритм нахождения ключевых слов • Работа метода на документах «реального мира» • Применения Применения • Добавление поясняющих ссылок к документам – Наполнение блогов, новостных и образовательных статей ссылками – Помощь при создании новых статей Википедии • Улучшение представления документов – Кластеризация документов – Topic indexing – Information retrieval Применения Спасибо за внимание Вопросы?

вероятности (commonness)

Related documents

Products

Support

вероятности (commonness)

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib