Извлечение фактов и отношений (Information extraction

advertisement
КМАТ 06
Извлечение фактов и отношений
(Information extraction)
Компьютерные методы анализа текста
Кирилл Александрович Маслинский
НИУ ВШЭ Санкт-Петербург
14.02.2014 / 06
КМАТ 06
Outline
Извлечение информации
Распознавание именованных сущностей
Извлечение отношений
Методы
Выбор признаков для машинного обучения
КМАТ 06
Извлечение информации
Outline
Извлечение информации
Распознавание именованных сущностей
Извлечение отношений
Методы
Выбор признаков для машинного обучения
КМАТ 06
Извлечение информации
Извлечение информации
На площадь Восстания могут вернуть конный памятник
императору Александру III, который стоял там до 1937, а
сейчас расположен во дворе Мраморного дворца.
Письмо с просьбой обсудить целесообразность или
нецелесообразность возвращения памятника на одну из
городских площадей написал в ЗакС вице-губернатор Василий
Кичеджи.
КМАТ 06
Извлечение информации
Information extraction
Information extraction:
I
I
текст −→ структурированные данные (БД)
комбинирование методов анализа текста:
I
I
I
вероятностные языковые модели
конечные автоматы
частичный синтаксический анализ
КМАТ 06
Извлечение информации
Подзадачи извлечения информации
I
Named entity recognition and classification
I
Reference resolution
I
Relation detection and classification
I
Event detection and classification
I
Temporal expression detection and Temporal analysis
I
Template-filling
КМАТ 06
Извлечение информации
Извлечение и классификация именованных сущностей
Named entity recognition and classification
На [LOC площадь Восстания ] могут вернуть конный памятник
императору [PERS Александру III ], который стоял там до 1937,
а сейчас расположен во дворе Мраморного дворца.
Письмо с просьбой обсудить целесообразность или
нецелесообразность возвращения памятника на одну из
городских площадей написал в [ORG ЗакС ] вице-губернатор
[PERS Василий Кичеджи ].
КМАТ 06
Извлечение информации
Кластеризация именованных сущностей
Reference resolution
У берегов [LOC Камчатки ] произошло землетрясение,
магнитуда подземных толчков составила 5.
Об этом сообщил «Интерфаксу-Дальний Восток»
представитель камчатского филиала Геофизической службы
РАН. Колебания земной коры зафиксированы в [LOC Тихом
океане ] в [LOC 340 км юго-восточнее
Петропавловска-Камчатского ] на глубине 49 км. По данным
МЧС, в населённых пунктах региона землетрясение не
ощущалось, разрушений нет, угроза цунами не объявлялась.
КМАТ 06
Извлечение информации
Извлечение и классификация отношений
Relation detection and classification
Компания [ORG Thomson Reuters ] уволила заместителя
редактора социальных сетей портала reuters.com [PERS Мэттью
Киза ] ([PERS Matthew Keys ]), обвиненного в сотрудничестве с
группой хакеров [ORG Anonymous ].
быть сотрудником PERS → ORG
Бинарные отношения
сотрудничать с
PERS → ORG
КМАТ 06
Извлечение информации
Извлечение событий
Event detection and classification
Компания [ORG Thomson Reuters ] [EVENT уволила ]
заместителя редактора социальных сетей портала reuters.com
[PERS Мэттью Киза ] ([PERS Matthew Keys ]), обвиненного в
сотрудничестве с группой хакеров [ORG Anonymous ].
КМАТ 06
Извлечение информации
Анализ дат
Temporal expression detection and Temporal analysis
Мамонтенка Женю, найденного на Таймыре, привезут в
петербургский Зоологический институт Российской академии
наук (РАН) в [DATE понедельник ], сообщил в [DATE
воскресенье ] РИА Новости заместитель директора
Зоологического института Алексей Тихонов.
Останки Сопкаргинского мамонта нашел в [DATE конце августа
2012 года ] на Таймыре одиннадцатилетний Евгений Салиндер.
Столь крупных и с хорошо сохранившимися тканями находок
не было с [DATE 1901 года ].
КМАТ 06
Извлечение информации
Извлечение данных по шаблону
Template-filling
По последним данным, число жертв [DISEASE «птичьего
гриппа» H7N9 ], впервые выявленного у человека в [LOC Китае
] в [DATE конце марта ], достигло [VICTIMS 20 ]. По обобщенным
сведениям, число заболевших вирусом [DISEASE «птичьего
гриппа» ] в [LOC Китае ] составило [VICTIMS 101 ]. Из них, по
меньшей мере, [VICTIMS четыре человека ] находятся в
критическом состоянии. Случаи заболевания гриппом птиц
[DISEASE H7N9 ] зарегистрированы среди граждан,
проживающих в провинциях [LOC Цзянсу ], [LOC Чжэцзян ],
[LOC Аньхой ] и [LOC Хэнань ], а также в [LOC Шанхае ] и [LOC
Пекине ].
КМАТ 06
Извлечение информации
Извлечение данных по шаблону
Сообщение об эпидемической вспышке:
Заболевание
«птичий грипп», H7N9
Число жертв
20, 101, 4
Локализация случаев
Китай, Цзянсу, Чжэцзян,
Аньхой, Хэнань, Шанхай,
Пекин
КМАТ 06
Извлечение информации
У берегов [LOC Камчатки ] произошло землетрясение,
магнитуда подземных толчков составила 5.
Об этом сообщил «[ORG Интерфаксу-Дальний Восток ]»
представитель [ORG камчатского филиала Геофизической
службы РАН ]. Колебания земной коры зафиксированы в [LOC
Тихом океане ] в 340 км юго-восточнее [LOC
Петропавловска-Камчатского ] на глубине 49 км. По данным
[ORG МЧС ], в населённых пунктах региона землетрясение не
ощущалось, разрушений нет, угроза цунами не объявлялась.
КМАТ 06
Распознавание именованных сущностей
Outline
Извлечение информации
Распознавание именованных сущностей
Извлечение отношений
Методы
Выбор признаков для машинного обучения
КМАТ 06
Распознавание именованных сущностей
Распознавание именованных сущностей
Named entity recognition:
I
I
выделить в тексте имена собственные
классифицировать их:
I
I
I
I
I
I
имена лиц
топонимы
названия организаций
названия песен и исполнителей
названия товаров и брэндов
etc.
КМАТ 06
Распознавание именованных сущностей
Способы определения имен собственных
I
Специфические для языка и жанра текстовые сигналы:
I
I
I
I
орфографическая форма слова (большие буквы)
слова-маркеры г-н, прибыл в,
характерные суффиксы/префиксы
Списки имен собственных:
I
I
Gazetteers (словари географических названий)
Списки имен и фамилий (по данным переписей)
КМАТ 06
Распознавание именованных сущностей
Орфографическая форма слова
строчные
с заглавной
заглавные
смешанный регистр
инициал с точкой
оканчивается на цифру
и т.п.
камчатский филиал
Интерфакс
МЧС
ЗакС
П.
С7
КМАТ 06
Распознавание именованных сущностей
Омонимия имен собственных
I
омонимия имён — Ленина:
I
I
I
I
I
I
омонимия аббревиатур — ПТК:
I
I
I
исторический деятель
памятник
улица
государственная награда
и т.п.
Петербургская топливная компания
Первая транспортная компания
метонимия — Кремль:
I
I
ORG
LOC
КМАТ 06
Распознавание именованных сущностей
Статистический подход к распознаванию именованных
сущностей
I
рассмотрим задачу распознавания именованных сущностей
как расстановку тегов к словам
I
ArgmaxP(Tags|Words)
I
задача аналогична POS tagging (расстановке частей речи)!
КМАТ 06
Распознавание именованных сущностей
Схема аннотации IOB
Слово
Компания
Thomson
Reuters
уволила
заместителя
...
Тег
O
BORG
IORG
O
O
B Begin — первое слово
именованной сущности
I Inside — слово внутри
именованной сущности
O Outside — слово, не
входящее ни в одну
именованную сущность
КМАТ 06
Распознавание именованных сущностей
Интеграция дополнительных признаков для
классификации
Слово
Компания
Thomson
Reuters
уволила
заместителя
...
Тег
O
BORG
IORG
O
O
PoS
N
N
N
V
N
chunk
BNP
INP
INP
BVP
BNP
орф. форма
cap
cap
cap
low
low
КМАТ 06
Распознавание именованных сущностей
Sequence labeling
При наличии обучающей выборки с размеченными
именованными сущностями:
I оптимизация с использованием цепей Маркова:
I
I
I
HMM, Hidden Markov Model
MEMM, maximum-entropy Markov Model
классификация токена с использованием скользящего
окна:
I
I
I
I
Naive Bayes
decision trees
Maximum Entropy classifier
SVM
КМАТ 06
Распознавание именованных сущностей
Практический подход
1. Выделить однозначные упоминания именованных
сущностей с помощью регулярных выражений (высокая
точность, низкая полнота).
2. Искать строки, близкие к выделенным в пункте (1)
сущностям.
3. Поискать сущности из специализированных словарей имен.
4. Применить вероятностные алгоритмы классификации
последовательностей, используя теги, полученные на
предыдущих этапах.
КМАТ 06
Извлечение отношений
Outline
Извлечение информации
Распознавание именованных сущностей
Извлечение отношений
Методы
Выбор признаков для машинного обучения
КМАТ 06
Извлечение отношений
Извлечение и классификация отношений
I
отношения, специфические для предметной области:
I
I
рожать в (PERS, ORG)
общие отношения:
I
I
I
I
I
семья
работа
часть—целое
членство
пространственные
КМАТ 06
Извлечение отношений
Примеры общих отношений
Класс
Принадлежность
Персональные
Организационные
Предметные
Примеры
Тип
мать, женат на
директор, оф. представитель
владеть, производить
PERS → PERS
PERS → ORG
(PERS|ORG) → OBJ
Пространственные
Близость
Направление
рядом с
к югу от
LOC → LOC
LOC → LOC
КМАТ 06
Извлечение отношений
Методы
Outline
Извлечение информации
Распознавание именованных сущностей
Извлечение отношений
Методы
Выбор признаков для машинного обучения
КМАТ 06
Извлечение отношений
Методы
Supervised approaches
1. Кодировщики аннотируют тексты:
I
I
I
текстовые фрагменты, соответствующие двум сущностям
типы сущностей
тип отношения
2. Обучение классификатора. Подзадачи:
I
I
Определить наличие/отсутствие отношений между парой
сущностей
Определить тип отношения
КМАТ 06
Извлечение отношений
Методы
Supervised approaches
В обучающей выборке:
I
рассматриваются только пары сущностей, встречающиеся
в одном предложении;
I
размеченные кодировщиками отношения служат
положительными примерами;
I
все прочие возможные пары сущностей в рамках
предложения — отрицательными примерами.
КМАТ 06
Извлечение отношений
Методы
Lightly Supervised approaches
Bootstrapping
1. Начнем с нескольких известных примеров искомого
отношения:
HeadquarteredIn (Google, Mountain View)
2. В большом корпусе найдем примеры употребления этих
сущностей в пределах небольшого окна.
3. Используем найденные примеры для выделения шаблонов:
ORG’s headquarters in LOC, LOC-based ORG
4. Используем шаблоны для поиска новых пар сущностей в
корпусе.
5. С расширенным набором пар сущностей вернемся к шагу
(1).
КМАТ 06
Извлечение отношений
Методы
Lightly Supervised approaches
Distant supervision
I
Источники данных: Википедия, Freebase
I
Большие наборы пар сущностей, состоящих в искомом
отношении.
I
Предположение: любое предложение, содержащее такую
пару сущностей, выражает искомое отношение.
I
Извлекаем признаки таких предложений для
использования при обучении классификатора.
КМАТ 06
Извлечение отношений
Методы
Unsupervised approaches
Relation discovery
I
Есть корпус текстов из определенной предметной области
I
В нем выделены именованные сущности
I
Нет заранее данных типов отношений
I
Задача: выявить значимые типы отношений
КМАТ 06
Извлечение отношений
Методы
Unsupervised approaches
Relation discovery
I
Входные данные: пары сущностей + контексты
I
Кластеризовать пары на непересекающие группы, где
каждая группа представляет одно отношение (k-средних
или аггломеративная кластеризация).
I
Отдельный «мусорный» кластер для несвязанных пар
сущностей и несущественных отношений.
КМАТ 06
Извлечение отношений
Методы
Unsupervised approaches
Template induction информационный шаблон:
I
несколько слотов
I
разные семантические роли
Идея:
I
кластеризовать сущности
I
каждый кластер соответствует одной роли
КМАТ 06
Извлечение отношений
Методы
Unsupervised approaches
Template induction Chambers and Jurafsky
Двухступенчатая кластеризация:
I
Сгруппировать лексические шаблоны, описывающие
сходные события.
I
Сгруппировать потенциальных заполнителей слотов для
каждого типа события.
Интерпретируемые метки слотов:
Person/Organization who raids, questions, discovers, investigates,
diffuses, arrests
КМАТ 06
Извлечение отношений
Методы
Unsupervised approaches
Open information extraction Идея:
I
существует небольшой набор синтаксических шаблонов,
охватывающих большинство разных типов бинарных
отношений
I
главное не использовать лексические признаки
Эвристики:
I
Фраза, содержащая отношение, должна начинаться с
глагола, заканчиваться предлогом и быть неразрывной.
I
Фраза, содержащая бинарное отношение, должна
встречаться не менее чем с пороговым числом разных пар
аргументов.
КМАТ 06
Извлечение отношений
Выбор признаков для машинного обучения
Outline
Извлечение информации
Распознавание именованных сущностей
Извлечение отношений
Методы
Выбор признаков для машинного обучения
КМАТ 06
Извлечение отношений
Выбор признаков для машинного обучения
Признаки самих сущностей
Сущности — аргументы отношения
I
тип обоих аргументов
I
главные слова каждого аргумента
I
множество слов обоих аргументов
КМАТ 06
Извлечение отношений
Выбор признаков для машинного обучения
Лексические контекстуальные признаки
Рассматриваемые фрагменты текста:
I
фиксированное окно до первого аргумента
I
текст между аргументами
I
фиксированное окно после второго аргумента
Возможные признаки:
I
множество слов и биграмм (или их лемматизированные
версии)
I
слова непосредственно предшествующие и следующие за
аргументами
I
расстояние между аргументами в словах
I
количество сущностей между аргументами
КМАТ 06
Извлечение отношений
Выбор признаков для машинного обучения
Синтаксические контекстуальные признаки
I
наличие в тексте определенных синтаксических
конструкций
I
множество главных слов синтаксических групп
I
расстояние между аргументами в синтаксическом дереве
I
путь между аргументами в синтаксическом дереве
КМАТ 06
Извлечение отношений
Выбор признаков для машинного обучения
Фоновые знания
I
Википедия: если аргументы совместно встречаются в
одной статье Википедии, текст статьи можно использовать
для оценки отношения между аргументами
I
Кластеризация слов: возможность выделить более
дробные группы, чем стандартный тип сущности (напр.,
организация)
КМАТ 06
Извлечение отношений
Выбор признаков для машинного обучения
Извлечение отношений
У берегов Камчатки произошло землетрясение, магнитуда
подземных толчков составила 5.
Об этом сообщил «Интерфаксу-Дальний Восток»
представитель камчатского филиала Геофизической службы
РАН. Колебания земной коры зафиксированы в Тихом океане в
340 км юго-восточнее Петропавловска-Камчатского на глубине
49 км. По данным МЧС, в населённых пунктах региона
землетрясение не ощущалось, разрушений нет, угроза цунами
не объявлялась.
КМАТ 06
Извлечение отношений
Выбор признаков для машинного обучения
Summary: State-of-the-Art
I
Распознавание именованных сущностей:
I
I
Алгоритмы статистической разметки последовательностей
(Sequence labeling)
Извлечение отношений:
I
I
I
тщательный подбор признаков
стандартные алгоритмы классификации
тенденция к поиску методов машинного обучения без
учителя
Download