Структура — Извлечение сущностей

advertisement
КМАТ 04
Структура — Извлечение сущностей
Компьютерные методы анализа текста
Кирилл Александрович Маслинский
НИУ ВШЭ Санкт-Петербург
23.09.2015 / 05
КМАТ 04
Основная статья
David K Elson, Nicholas Dames и Kathleen R McKeown.
“Extracting social networks from literary fiction”. в: Proceedings of
the 48th annual meeting of the association for computational
linguistics. Association for Computational Linguistics. 2010,
с. 138—147
КМАТ 04
План
Извлечение информации
Задачи Information Extraction
Распознавание именованных сущностей
Правила и словари
Машинное обучение
CRF
Практический подход
characters (assumed to be named entities)
План
Извлечение информации
Задачи Information Extraction
КМАТ 04
Извлечение информации
Задачи Information Extraction
Information extraction
Information extraction:
I
I
текст −→ структурированные данные (БД)
комбинирование методов анализа текста:
I
I
I
вероятностные языковые модели
конечные автоматы
частичный синтаксический анализ
extracted noun phrases that were categorized as
persons or organizations
КМАТ 04
Извлечение информации
Задачи Information Extraction
Извлечение и классификация именованных сущностей
Named entity recognition and classification
На [LOC площадь Восстания ] могут вернуть конный памятник
императору [PERS Александру III ], который стоял там до 1937,
а сейчас расположен во дворе Мраморного дворца.
Письмо с просьбой обсудить целесообразность или
нецелесообразность возвращения памятника на одну из
городских площадей написал в [ORG ЗакС ] вице-губернатор
[PERS Василий Кичеджи ].
We then clustered the noun phrases into
coreferents for the same entity (person or
organization)
КМАТ 04
Извлечение информации
Задачи Information Extraction
Кластеризация именованных сущностей
Reference resolution
[LOC У берегов Камчатки ] произошло землетрясение,
магнитуда подземных толчков составила 5.
Об этом сообщил «Интерфаксу-Дальний Восток»
представитель камчатского филиала Геофизической службы
РАН. Колебания земной коры зафиксированы в [LOC Тихом
океане ] в [LOC 340 км юго-восточнее
Петропавловска-Камчатского ] на глубине 49 км. По данным
МЧС, в населённых пунктах региона землетрясение не
ощущалось, разрушений нет, угроза цунами не объявлялась.
КМАТ 04
Извлечение информации
Задачи Information Extraction
Извлечение и классификация отношений
Relation detection and classification
Компания [ORG Thomson Reuters ] уволила заместителя
редактора социальных сетей портала reuters.com [PERS Мэттью
Киза ] ([PERS Matthew Keys ]), обвиненного в сотрудничестве с
группой хакеров [ORG Anonymous ].
быть сотрудником PERS → ORG
Бинарные отношения
сотрудничать с
PERS → ORG
КМАТ 04
Извлечение информации
Задачи Information Extraction
Извлечение событий
Event detection and classification
Компания [ORG Thomson Reuters ] [EVENT уволила ]
заместителя редактора социальных сетей портала reuters.com
[PERS Мэттью Киза ] ([PERS Matthew Keys ]), обвиненного в
сотрудничестве с группой хакеров [ORG Anonymous ].
КМАТ 04
Извлечение информации
Задачи Information Extraction
Анализ дат
Temporal expression detection and Temporal analysis
Мамонтенка Женю, найденного на Таймыре, привезут в
петербургский Зоологический институт Российской академии
наук (РАН) в [DATE понедельник ], сообщил в [DATE
воскресенье ] РИА Новости заместитель директора
Зоологического института Алексей Тихонов.
Останки Сопкаргинского мамонта нашел в [DATE конце августа
2012 года ] на Таймыре одиннадцатилетний Евгений Салиндер.
Столь крупных и с хорошо сохранившимися тканями находок
не было с [DATE 1901 года ].
КМАТ 04
Извлечение информации
Задачи Information Extraction
Извлечение данных по шаблону
Template-filling
По последним данным, число жертв [DISEASE «птичьего
гриппа» H7N9 ], впервые выявленного у человека в [LOC Китае
] в [DATE конце марта ], достигло [VICTIMS 20 ]. По обобщенным
сведениям, число заболевших вирусом [DISEASE «птичьего
гриппа» ] в [LOC Китае ] составило [VICTIMS 101 ]. Из них, по
меньшей мере, [VICTIMS четыре человека ] находятся в
критическом состоянии. Случаи заболевания гриппом птиц
[DISEASE H7N9 ] зарегистрированы среди граждан,
проживающих в провинциях [LOC Цзянсу ], [LOC Чжэцзян ],
[LOC Аньхой ] и [LOC Хэнань ], а также в [LOC Шанхае ] и [LOC
Пекине ].
КМАТ 04
Извлечение информации
Задачи Information Extraction
Извлечение данных по шаблону
Сообщение об эпидемической вспышке:
Заболевание
«птичий грипп», H7N9
Число жертв
20, 101, 4
Локализация случаев
Китай, Цзянсу, Чжэцзян,
Аньхой, Хэнань, Шанхай,
Пекин
План
Распознавание именованных сущностей
Правила и словари
Машинное обучение
CRF
Практический подход
КМАТ 04
Распознавание именованных сущностей
Правила и словари
Способы определения имен собственных
I
Специфические для языка и жанра текстовые сигналы:
I
I
I
I
орфографическая форма слова (большие буквы)
слова-маркеры г-н, прибыл в,
характерные суффиксы/префиксы
Формальные грамматики:
I
I
I
Регулярные выражения
Контекстно-свободные грамматики (Tomita-парсер)
Списки имен собственных:
I
I
Gazetteers (словари географических названий)
Списки имен и фамилий (по данным переписей)
КМАТ 04
Распознавание именованных сущностей
Правила и словари
Орфографическая форма слова
строчные
с заглавной
заглавные
смешанный регистр
инициал с точкой
оканчивается на цифру
и т.п.
камчатский филиал
Интерфакс
МЧС
ЗакС
П.
С7
План
Распознавание именованных сущностей
Правила и словари
Машинное обучение
CRF
Практический подход
КМАТ 04
Распознавание именованных сущностей
Машинное обучение
Статистический подход к распознаванию именованных
сущностей
I
рассмотрим задачу распознавания именованных сущностей
как расстановку тегов к словам
I
ArgmaxP(Tags|Words)
I
задача аналогична POS tagging (расстановке частей речи)!
by “chunking” names (such as Mr. Holmes) from
the text
КМАТ 04
Распознавание именованных сущностей
Машинное обучение
Схема аннотации IOB
Слово
Компания
Thomson
Reuters
уволила
заместителя
...
Тег
O
BORG
IORG
O
O
B Begin — первое слово
именованной сущности
I Inside — слово внутри
именованной сущности
O Outside — слово, не
входящее ни в одну
именованную сущность
КМАТ 04
Распознавание именованных сущностей
Машинное обучение
Интеграция дополнительных признаков для
классификации
Слово
Компания
Thomson
Reuters
уволила
заместителя
...
Тег
O
BORG
IORG
O
O
PoS
N
N
N
V
N
chunk
BNP
INP
INP
BVP
BNP
орф. форма
cap
cap
cap
low
low
КМАТ 04
Распознавание именованных сущностей
Машинное обучение
Sequence labeling
При наличии обучающей выборки с размеченными
именованными сущностями:
I оптимизация с использованием цепей Маркова:
I
I
I
I
HMM, Hidden Markov Model
MEMM, maximum-entropy Markov Model
CRF, Conditional Random Fields (state-of-the-art метод)
классификация токена с использованием скользящего
окна:
I
I
I
I
Naive Bayes
decision trees
Maximum Entropy classifier
SVM
КМАТ 04
Распознавание именованных сущностей
Машинное обучение
Цепь Маркова
I
система с конечным числом
состояний
I
следующее состояние зависит
только от N предыдущих
Применительно к тексту:
Следующее слово зависит только
от предыдущего (N предыдущих)
План
Распознавание именованных сущностей
Правила и словари
Машинное обучение
CRF
Практический подход
КМАТ 04
Распознавание именованных сущностей
CRF
Structured prediction
I
Обычный классификатор — решение (метка) не зависит от
решений по другим (соседним) меткам
I
CRF — решение (метка) учитывает решения по соседним
токенам. −→ Предсказывает последовательность меток
для последовательности токенов.
КМАТ 04
Распознавание именованных сущностей
CRF
Graphical model
Определяет условную вероятность p(Y|x), где x —
последовательность слов, а Y — все возможные
последовательности меток (тегов) для этих слов.
КМАТ 04
Распознавание именованных сущностей
CRF
Выбор последовательности тегов
1. Для каждой позиции во входной последовательности слов:
1.1 Для каждой feature function:
1.1.1 Рассчитать значение функции Fi
1.1.2 Умножить его на весовой коэффициент 𝜆
1.2 Вычислить сумму всех 𝜆i fi — взвешенных feature functions
для данной позиции
2. Вычислить общую сумму взвешенных FF для всех позиций
КМАТ 04
Распознавание именованных сущностей
CRF
Feature functions
fi (zn−1 , zn , x1:N , n)
n — номер позиции во входной последовательности слов
zn−1 — тег предыдущего слова
zn — тег текущего слова
x1:N — вся входная последовательность слов
КМАТ 04
Распознавание именованных сущностей
CRF
Пример функции
{︃
1 если zn = PERSON и xn = Раскольников
f1 =
0 в противном случае
(1)
⎧
⎪
⎨𝜆1 > 0 предпочитаем тег PERSON для слова Раскольников
𝜆1 < 0 избегаем тега PERSON для слова Раскольников
⎪
⎩
𝜆1 = 0 игнорируем фичу
(2)
КМАТ 04
Распознавание именованных сущностей
CRF
Пример функции 2
{︃
1 если zn = PERSON и xn = Раскольников
f1 =
(3)
0 в противном случае
{︃
1 если zn = PERSON, xn+1 = убить xn+2 = старушка
f2 =
0 в противном случае
(4)
overlapping features
Раскольников убил старушку. z1 = PERSON → 𝜆1 + 𝜆2
КМАТ 04
Распознавание именованных сущностей
CRF
Пример функции 3
{︃
0, 25 если zn−1 = PERSON и zn = ГЛАГОЛ
f3 =
0
в противном случае
(5)
План
Распознавание именованных сущностей
Правила и словари
Машинное обучение
CRF
Практический подход
КМАТ 04
Распознавание именованных сущностей
Практический подход
Практический подход
1. Выделить однозначные упоминания именованных
сущностей с помощью регулярных выражений (высокая
точность, низкая полнота).
2. Искать строки, близкие к выделенным в пункте (1)
сущностям.
3. Поискать сущности из специализированных словарей имен.
4. Применить вероятностные алгоритмы классификации
последовательностей, используя теги, полученные на
предыдущих этапах.
Download