Lexical chaining

advertisement
Lexical chaining
– Lexical chains - textual cohesion
(Halliday & Hasan)
Cohesion: text makes sense as a whole
Cohesion occurs where the interpretation of
one item is dependent of that of another
item in the text. It is this dependency that
gives rise to cohesion.
Textual coherence
•
•
•
•
•
Союзы
Референция
Лексическая связанность
Субституция (one; делать)
Эллипсис
В чем преимущество лексической
связанности для автоматического
анализа?
Lexical chaining
5 типов лексической связанности
• повтор
• синонимия
СЛОВАРИ
• общее частное
• часть целое
• коллокации ( и антонимы как подтип)
статистически часто
встречаются вместе
WORDNET
(Miller et al. 1990 Fellbaum 1998)
An online lexical database whose design
is inspired by current psycholinguistic
theories of human lexical memory.
– 4 гр. категории: сущ., глагол, прил., наречие
– Главное отношение: СИНОНИМИЯ
SYNSET
Wordnet noun relations
• Гипонимы
• Гиперонимы
• Холонимы
• Меронимы
• Антонимы
Генерация цепочки
1. К термину подбирается синсеты (neighbouri
set)
2. Любой другой термин, который совпадает с
одним из терминов синсета, становится
членом лексической цепочки
3. Если в цепочке имеется более трех
терминов, то ее индексируют
4. И так для всех терминов сообщения
Greedy vs. non-greedy
Morris & Hirst (1991)
Правила выбора правильной цепочки
• Chain salience (words should be added
to the most recently updated chain).
• Thesaural relationship (wordnet:часть-целое)
• Transitivity
• Allowable word distance
Типы отношений (I)
Очень сильные (extra strong) отношения
• повторение слов (mouse/mice)
Сильные (strong) отношения
• два слова, если они имеют одинаковый номер
синсета telephone/phone
• два синсета, если они связаны горизонтальной
связью
• два синсета, если между ними существует связь
наверх или вниз
• два слова, если одно из них является сложным
словом, а другое – его частью (orange_tree, tree)
8
Типы отношений (II)
Отношения средней силы (mediumstrength relations)
• два синсета соединены в WordNet разрешенным
путем длины x, 1≤x≤5
Правила:
• никакое направление не должно
предшествовать связи вверх
• разрешено не более одного изменения
направления (кроме тех случаев, когда
горизонтальная связь использована для
перехода от связи вверх к связи вниз)
9
• В основе выделения трех типов
отношений лежит презумпция того, что
близость в значении прямо зависит от
расстояния (в узлах) в таксономии
• Не все дуги одинаковой длины; правила
– попытка сократить количество узлов,
семантически не связанных между
собой, но близких формально
10
Интуитивные основания
правил
• Если контекст сужен, расширение его
последующей связью наверх не имеет
большого смысла
• Изменение направления – «большой
шаг» в семантике (кроме (редкой)
горизонтальной связи), т. о. отношения
средней силы – либо генерализация,
либо специализация
11
Необходимость правил
12
Работа алгоритма:
Поиск связи между целевым словом и словом
одной из цепочек:
очень сильное отношение > сильное
отношение > отношение средней силы
Отношения средней силы взвешиваются в
зависимости от длины пути и количества
изменений направления (нужно найти самое
сильное отношение средней силы):
(1)
Link Strength = C – path length - k
C – константа, k – кол-во изменений
направления
13
Работа алгоритма:
Ограничения на расстояние между
целевым словом и последним словом
цепочки:
• нет для очень сильных отношений (‘one
sense per discource’ assumption)
• 7 предложений для сильных отношений
• 3 предложения для отношений средней
силы
14
Работа алгоритма:
• Greedy lexical chaining approach: при добавлении
слова к цепочке учитывается только его левый контекст
• «Очередь» (queue): каждое слово предложения n
добавляется к очереди; ищутся очень сильные
отношения между этими словами и всеми созданными
к этому моменту цепочками. Как только очень сильное
отношение найдено, поиск прекращается, слово
удаляется из очереди и добавляется к цепочке. Затем
ищутся сильные отношения, затем отношения
средней силы (которые взвешиваются по формуле (1))
между оставшимися словами из очереди и всеми
лексическими цепочками; слова удаляются из очереди
и добавляются к соответствующим цепочкам.
Для слов, оставшихся в очереди, создаются новые
цепочки.
15
Работа алгоритма:
• Chain salience: слова добавляются к
цепочке, которая обновлялась
последней.
16
17
Download