РЕФЕРЕНЦИАЛЬНЫЙ ВЫБОР: ЛИНГВИСТИЧЕСКИЕ, ПСИХОЛОГИЧЕСКИЕ И ВЫЧИСЛИТЕЛЬНЫЕ

advertisement
РЕФЕРЕНЦИАЛЬНЫЙ ВЫБОР:
ЛИНГВИСТИЧЕСКИЕ,
ПСИХОЛОГИЧЕСКИЕ
И ВЫЧИСЛИТЕЛЬНЫЕ
АСПЕКТЫ
А.А.Кибрик
(Институт языкознания РАН и МГУ)
kibrik@comtv.ru
Референциальный выбор
в дискурсе (тексте)
 Когда говорящему нужно упомянуть
некоторый референт, он делает выбор из
нескольких возможностей, в том числе:
 полной именной группы (ИГ)
 редуцированной ИГ, напр. местоимения 3
лица или нулевого выражения
 Как осуществляется этот выбор?
2
Пример
(фрагмент из рассказа
Ф. Искандера “Сталин и Вучетич”)
Полная
ИГ
антецедент
кореферентность
Сталин мирно беседовал с Вучетичем.
"Товарищ Сталин, что такое старость?" спросил Вучетич, разумеется, имея в виду
Местофилософский смысл проблемы.
имение
И вдруг лицо Сталина мгновенно
исказилось гневом и ненавистью. Он стал
страшен. Вучетич помертвел,  не в силах
осознать, чем  разгневал Сталина.
нуль
3
План доклада
 I. Референциальный выбор как
многофакторный процесс
 II. Количественная и нейросетевая
модели референциального выбора
 III. Корпусное исследование: состояние
и перспективы
4
I. Референциальный выбор
как многофакторный процесс
В различных исследованиях на
первый план выдвигаются разные
характеристики контекста в качестве
основных факторов
5
Пример (Ф. Искандер)
В то раннее утро дядя Сандро ехал верхом из Гудаут в
он
село Ачандары, где ___________
собирался погостить
несколько дней у своего родственника в ожидании
поминального пиршества, которое должно было состояться
в соседнем доме. В наших краях сорокадневье устраивается
не очень точно – то к погоде прилаживаются, то еще какиедядя Сандро
нибудь хозяйственные расчеты, - так что ___________
решил, что лучше не рисковать и подождать на месте, чем
пропустить хорошие поминки.
он
И вот едет ___________
по приморской дороге и вдруг
видит, что недалеко от берега на воде сидит невиданная в
наших краях черная птица с длинной шеей.
(Ф. Искандер, «Сандро из Чегема»)
6
Существительное при
близком расстоянии
Почувствовав под ногами дно, конь припустил, а
птица, говаривал дядя Сандро, припустить не
могла, потому что хоть шея у нее была длинной,
с его руку, ноги все же у нее были короткие,
особенно против лошадиных. В последнее
мгновенье она попыталась нырнуть, но дядя
Сандро успел ухватить ее <...> и приподнять
над водой.
Дядя Сандро страшно замерз и разозлился
на эту странную птицу <...> Хотел он ей тут же
размозжить голову, но вспомнил ...
7
Местоимение при
далеком расстоянии
After juice-and-cookie time, she gave James his countin
lesson,
and this is how she did it.
One, two, three, four, five, once I caught a fish alive,
six, seven, eight, nine, ten, but I let him go again.
Why did you let him go?
Because he bit my finger so.
Which finger did he bite?
This little one upon the right.
And she gave James' little finger a nibble,
8
Разный РВ при близком
расстоянии (В. Шукшин)
 4.4. ... Степан раскачнулся
 4.5. и ø боднул Ивана головой.
 4.6. Иван отпустил его
 4.7. и ø ударил ø.
 4.8. Степан отлетел к двери,
 4.9. ø открыл ее затылком,
 4.10. ø упал в сенцы.
 4.11. Ø Вскочил,
 4.12. ø схватил что попалось под руку
9
В разных исследованиях –
разные факторы РВ
 Расстояние до антецедента
 Линейное vs. иерархическое расстояние
 Граница фрагментов дискурса – абзацев и




т.п. частей
Роль антецедента
Одушевленность
Значимость референта в дискурсе
...........................................
10
Проблема
 Многие из этих факторов очень важны;
например, фактор А централен в случае Х,
фактор Б централен в случае Y
 Обычно остается неясным, как эти факторы
взаимодействуют, например, какова роль
фактора А в случае Y
 Решение: необходима модель, описывающая
совместную работу и взаимодействие
факторов
11
Когнитивные
предпосылки
 Когнитивный компонент, отвечающий за


референциальный выбор, - это то, что
известно как «кратковременная память» или
«рабочая память» (РП)
Степень активации (коэффициент активации)
референта в РП непосредственно
предсказывать реф. выбор
Коэффициент активации в свою очередь
зависит от множества факторов – факторов
активации
12
Когнитивная многофакторная
модель референциального
выбора
Дискурсивный
контекст
Свойства
референта
Коэфф.
активации
референта
(КА)
Фильтры
Реф.
выбор
Факторы
активации
13
II. Количественная модель
 Степень активации референта может
быть количественно оценена
 Эту величину будем называть
коэффициентом активации (КА)
 КА образуется как сумма
количественных вкладов каждого из
факторов активации
14
Подробнее
Каждый фактор – это переменная, имеющая
набор возможных значений
 Например, расстояние до антецедента: 1, 2, 3+
 Каждому из значений переменной
соответствует числовой вес
 Например:
1 – 0.7
2 – 0.4
3–0
 В каждой точке дискурса для каждого
референта могут быть идентифицированы
значения всех факторов и, соответственно,
все их количественные вклады
15
Продолжение
 Таким образом, в каждой точке дискурса для



каждого референта может быть высчитан КА
КА выше порогового уровня 
редуцированное средство
КА ниже порогового уровня  полная ИГ
Реализации количественной модели
 Для русского языка – Kibrik 1996
 Для английского языка – Kibrik 1999
16
Пример работы
количественной модели
Референциальный выбор
Номер дискурсивной единицы
Референциальная форма
Референт
Фактическое реф. средство
Альтернативное реф. средство
Соответствующий интервал КА
Факторы активации
RhD
LinD
ParaD
Синт. роль антецедента
Одушевленность
Протагонизм
Результат вычисления КА
Попадает ли в предсказанный
интервал КА?
Референциальная
стратегия
Местоимение, ?полная ИГ
1802
him
“Джеймс”
местоимение
?
полная ИГ
0.8–1.0
Значение фактора Вес
1
0.7
1
0
0
0
пассивное S
0.2
0
Человек, LinD  2
0
Да, RhD+ParaD  2
0.9
ДА
17
Общекогнитивные следствия
количественной модели
 Некоторые центральные проблемы в
исследованиях рабочей памяти (РП)
 (1) Объем РП: Сколько единиц
информации РП может вмещать
одновременно?
 (2) Контроль над РП: в силу чего
информация попадает в РП?
 (3) Забывание: в силу чего
информация уходит из РП?
18
Проблемные точки
количественной модели
 Значимость факторов определяется на
индивидуальной основе
 Числовые веса подбираются вручную
 Взаимодействие между факторами
моделируется как простое сложение,
игнорируются возможные нелинейные
эффекты
 Нежелательные числовые эффекты: КА
меньше 0, больше 1
19
Решение: более адекватная
математическая модель
 Значимость факторов определяется в
их совокупности
 Числовые веса подбираются
автоматически
 Взаимодействие между факторами
может быть математически сложным
 Значения выходной переменной может
быть закреплено в интервале от 0 до
некоторого верхнего предела
20
Модель нейронных сетей
(Gruening and Kibrik 2005)
 Основана на нейробиологической
аналогии
 Не требует предварительных гипотез о
структуре данных
 Самообучается на основе имеющихся
данных
 Автоматически приписывает веса
входным факторам
 Может редуцировать число факторов 21
Структура модели НС
 Состоит из узлов (нейронов)
 Узлы связаны весами (синапсами)
 уровни:
 входной
 выходной
 скрытый
 нелинейное взаимодействие между
входными узлами на скрытом уровне
22
Характеристики НС с
прямой связью
 Данные поступают во входной уровень
 Далее активация распространяется в




скрытый уровень
И затем в выходной уровень
Где и считываются результаты вычислений
Могут быть непосредственные связи между
входным и выходным уровнями – элементы
линейности
Алгоритм обучения НС – обратное
распространение (back propagation)
23
Структура модели НС с
прямой связью (feed-forward)
24
Задача модели НС
 Взять исходные факторы, выявленные в
количественной модели
 Попробовать предсказать фактический
референциальный выбор
 Сравнить результат с количественным
подходом
 11 факторов дали 24 входных узла
нейронной сети
25
Симуляция 1: полный
набор данных
 Несколько повторных проб
 В каждом случае тренировка сети в
течение 1000 “эпох”
 НС научилась предсказывать
референциальный выбор с довольно
высокой точностью (не более 6%
исключений)
26
Симуляция 2: “обрезка”
 Полная сеть - 649 весов
 Какие входные узлы можно сократить без
существенного ухудшения результатов?
 После “обрезки” остается около 30 узлов
 Многие входные узлы оказываются
избыточными (не имеют никаких связей),
то есть или не оказывают влияния, или
учитываются посредством других
параметров
27
Факторы, не
подверженные “обрезке”
 Иерархическое расстояние
 Значимость в дискурсе
 Синт. роль антецедента
 Некоторые факторы, которые были
неважны в количественной модели,
оказались существенными
28
Выводы
 Нейросети эффективны в моделировании



референциального выбора
Набор входных факторов может быть урезан
Веса факторов приписываются
автоматически
Данный опыт применения НС является
тестовым, т.к. объем данных слишком мал
для статистического моделирования
29
III. Дальнейшее развитие
исследований
 Большой корпус
 Нейросетевое моделирование
 Построение статистической модели реф.


выбора
Ввести вероятностную шкалу: выход НС вероятность появления местоимения
Определение оптимального набора факторов,
объясняющего референциальный выбор для
данного корпуса
30
Характеристики корпуса
 Английский язык
 Корпус, размеченный по иерархической
структуре дискурса
 RST-WSJ corpus
 Аннотирован по иер. структуре
 385 газетных статей
 Около 30 000 референциальных
выражений
31
Пример иерархического
графа
32
Схема разметки
референциальных явлений
 Программа ММАХ2
 Размечены все референциальные выражения
 Размечены их антецеденты
 Размечены важнейшие характеристики


референтов, реф. выражений, антецедентов
и контекста, которые могут быть факторами
активации
Пример – окно программы ММАХ2
Схема ММАХ2 была написана немецким
компьютерным лингвистом Кристианом
Чиаркосом
33
34
Текущие задачи
1. Проверка уже сделанной аннотации
2. Расширение аннотационной схемы
3. Извлечение данных из корпуса в базу
данных
4. Построение статистической модели

Для пунктов (1), (2) и (3) необходима
программистская поддержка
35
Пожелания к программисту



Script maintenance
good knowledge of UNIX, Linux, or Cygwin (shell
programming [bash], knowledge of most elementary
command line tools, and make)
good knowledge and practical experience with JAVA and
XSL/T [saxon/xerces] and how to call them from the
command line (no Eclipse, no
XMLSpy)
fair knowledge of English

Maintenance of an online file exchange utility

36
Download