Когнитивный эксперимент

advertisement
Методы и алгоритмы автоматизации
психолингвистической модели
вербального сознания,
основанной на ассоциативном и
когнитивном экспериментах
Сиренко Александр Викторович
Научный руководитель: Филиппович Юрий Николаевич
МГТУ им. Баумана, МГУП
2011
Основные понятия предметной области
Объект моделирования - вербальное языковое сознание - логико-лингвистическая модель
речемыслительной деятельности человека, для которой характерно:
• Переход от неосознанного восприятия предмета к осознанному через вербализацию в виде
конкретной языковой единицы [Филиппович, 2007: 123];
• Языковая картина мира складывается из единиц когнитивной природы различной
системообразующей мощности [Караулов 2009: 168];
• Языковое сознание манипулирует элементарными единицами знания в активном
(смыслопорождающем) и пассивном (знакопорождающем) режимах [Караулов 2009: 168];
Языковое сознание обеспечивает интеграцию знаний языка со знаниями о мире. Единицы
языкового сознания имеют бинарную структуру:
ЕЗМ + ЯЕ = ЯС,
где ЕЗМ – единица знания о мире,
ЯЕ – языковая единица.
Безальтернативный вариант осознавания – переход между заданными ЕЗМ и ЯЕ в прямом и
обратном направлении. Пример реализации – поиск цепочек в ассоциативно-вербальной сети
между ЕЯ пропозицией и ЯЕ.
Вариант осознавания с альтернативой – для заданной ЕЗМ в процессе моделирования
определяется множество возможных ЯЕ с последующим ранжированием альтернатив.
2
Цели и задачи исследования.
Цель. Целью проводимого исследования является построение имитационной модели
языкового сознания носителя русского языка с использованием материалов когнитивного
и ассоциативного психолингвистического экспериментов с ее апробацией в задаче
информационного поиска.
Назначение: предназначена для специалистов в области психолингвистики, семиотики,
информационно-поисковых систем.
Задачи. Для достижения поставленной цели необходимо решить задачи:
1. Анализ существующих подходов к построению когнитивных лингвистических систем.
2. Предобработка исходных лингвистических данных.
3. Построение событийно-статистической модели вербального сознания на основе
психолингвистических экспериментов.
4. Разработка методов и алгоритмов функционирования модели.
5. Разработка методов оценки системы как интеллектуальной компоненты.
3
Задача моделирования вербального сознания
Основные свойства модели:
1. Дискретность;
2. Однопроцессность смены состояний;
3. Cетевая, параллельная организация вычислений состояний.
В основе модели работы:
Ч. Пирса, Ю.Н. Караулова,
Д.А. Поспелова.
Параметры модели: статистические данные по результатам
психолингвистических экспериментов.
Ассоциативный эксперимент по методу свободных
ассоциаций, когнитивный эксперимент.
Декларативные знания:
1. Полуавтоматический ввод в естественно-языковой форме;
2. Размерность уровня языка (более 10 000 описаний);
3. Базовые знания о лексике.
Когнитивный эксперимент Ю.Н. Караулова.
Лемматизатор, словарь синонимов.
Параметры моделирования и
запрос пользователя в
естественно-языковой форме
Модель вербального
сознания
Список лексем, ранжированный
согласно релевантности запросу
– результат осознавания запроса
и его вербализации.
Сферы практического применения моделей:
Информационный поиск: семантическая обработка запросов пользователя, вопросно-ответные системы.
Средства поддержки работы аналитика.
Семантические фильтры: анализ входящих и исходящих сообщений корпоративных информационных систем,
их свертка.
Обучение: формирование программ обучения языку иностранцев на основе выделенных ассоциативных
взаимосвязей, ядерных областей в знании языка носителем.
Маркетинг: анализ реакции потенциального потребителя на рекламный материал.
4
Проблематика предметной области
Методологические трудности:
Трудности практической реализации:
•
•
•
•
•
•
•
•
•
Естественно-языковая форма начальных данных для
моделирования (запрос пользователя системы
моделирования).
Интеграция в модели разных по структуре и
назначению лексикографических объектов.
Отсутсвуют общепринятые методики оценки.
Функционирование при нехватке данных в модели.
Частичные и полные омонимы;
Cложные синтаксические конструкции;
Метафорическое описание запросов;
•
•
Число ассоциаций более 400 000;
Лемматизатор более 1 млн.
словоформ;
Синонимичных групп более 4 000;
Число единиц декларативных знаний
более 10 000.
5
Основа построения модели: фигуры знания Караулова и ассоциативно-вербальная сеть
Когнитивный эксперимент - фигуры знания Ю.Н.Караулова
Знак
Формула смысла
Способ
Область
Функция
акцeнт
Особенность выговора
человека, говорящего не
на родном языке
против него воевал
красноармеец Сухов
Дефиниция
Рецепт
язык
Фрейм
Ретушь
история
Множество
Рецепт
ботаника
Смена кода
Ретушь
география
Абдулла
абрикос
Або
Фруктовый плод
Шведское название
финского г. Турку
Уровень ассоциативно- Уровень внутренних
мыслительных
вербального
процессов респондента
эксперимента
Ассоциативный эксперимент
Субъект
{МЗi-m}
{МЗi-1}
{МЗi}
{МЗi+1}
{МЗi+k}
Формирование внешнего
представления реакции:
написание или
озвучивание
Прием внешнего
стимула через
органы чувств
{S->R}
{S}
tS
{R}
Стимульно-реактивные пары, полученные
в ассоциативном эксперименте
tm1
tm2
Время t
tR
6
Методы и алгоритмы автоматизации психолингвистической модели вербального сознания, основанной на
ассоциативном и когнитивном экспериментах.
1. Методика построения модели вербального сознания
Ассоциативно-вербальная сеть
1.1. Методика лемматизации АВС и когнитивных единиц
Когнемы
1.2. Методика построения взвешенной грамматики на основе ассоциативно-вербальной сети
1.3. Методика построения взвешенной контекстно-зависимой грамматики
Лексикографические объекты
Модель
Начальная пропозиция в естественноязыковой форме
2. Алгоритм моделирования с
альтернативой
Множество альтернативных
языковых единиц
3. Методика оценки модели как
бинарного классификатора
Построение грамматики:
Этап
Источник
Результат
Использование
1
Стимульнореактивные пары
лемматизированной
АВС
Контекстно-свободная
вероятностная
грамматика
Стимул → левая часть правила;
Реакция → правая часть правила;
Статистические свойства ассоциативных пар
формируют вероятностные свойства
соответствующих правил грамматики.
2
Формула смысла и
Знак
лемматизированных
когнитивных единиц.
Контекстно-зависимые
правила грамматики
Формула смысла → левая часть правила;
Знак → правая часть правила;
Стоимость применения правила определяется в
процессе вывода в грамматике.
7
1.1. Методика лемматизации АВС и когнитивных единиц
Орфографический словарь iSpell
Всего лемм: 127 000, словоформ: 1 300 000.
Число
Исходная сеть
Лемматизированная сеть
Узлов
103 000
63 700
Связей
457 000
394 000
6 670
3 830
Стимулов
Число омонимичных словоформ:
1030 (частичная омонимия)
Связей для обработки: 25 000.
Файл обработки омонимичной словоформы:
СЛОВОФОРМА
# ЛЕММА1->РЕЛЯТОР_ЛЕММЫ1
СЛОВОФОРМА_СТИМУЛ->СЛОВОФОРМА_РЕАКЦИЯ->ЧИСЛО_СВЯЗЕЙ
...
# ЛЕММА2->РЕЛЯТОР_ЛЕММЫ2
СЛОВОФОРМА_СТИМУЛ->СЛОВОФОРМА_РЕАКЦИЯ->ЧИСЛО_СВЯЗЕЙ
...
Пример:
шерсти
# шерстить->
# шерсть->
комок->шерсти->1
клубок->шерсти->7
8
1.2. Методика построения взвешенной грамматики на основе ассоциативновербальной сети
Вероятностная грамматика
𝐺 = (𝑉, 𝑁, 𝑃)
V - множество терминальных символов грамматики;
N - множество нетерминальных символов грамматики;
P - множество нетерминальных символов грамматики;
Объединенный алфавит
𝜑 =𝑉∪𝑁
1. Формируем множества
символов грамматики
𝑁 = 𝑆 𝑆𝑅}, 𝑉 = {𝑅};
2. Формируем правила
грамматики на основе правил
перехода в ассоциативной сети
𝑅 = 𝑙𝑠, 𝑟𝑠,
𝑝𝑟 ,
где 𝑙𝑠 = {𝑣𝑖 } ∶ 𝑙𝑠 ∩ 𝑁 ≠ ∅ – левая часть
правила;
𝑟𝑠 = {𝑣𝑖 } – правая часть правила;
𝑝𝑟 = 𝐸𝑖𝑗 𝑝𝑟𝑜𝑏 – вероятность ассоциации
между узлами i и j;
3. Добавляем терминальные
символы, соответствующие
нетерминальным и правила,
позволяющие завершить
вывод в любой момент.
Этот шаг является формальной частью
методики. Вычислительная процедура
завершает работу в требуемый момент без
замены симловов, считая каждый символ в
том числе терминальным.
9
1.3. Методика построения взвешенной контекстно-зависимой грамматики.
Интеграция экспериментальных данных в
контекстно-зависимую грамматику
Компонента
Наименование
Формула смысла
Знак
Произведение искусства, веками вызывающее восхищение
Шедевр
Левая часть правила
Произведение
искусство
века
Правая часть правила
вызывать
восхищение
шедевр
Проблема:
1. Левая часть правила в текстах варьируется. Точное совпадение при не единичной длине стремиться к нулю, на
практике исключая возможность наполнения грамматики правилами, которые будут применены в выводе.
2. Определение стоимости применения правила при неполном совпадении?
3. Учет лексем, отсутствующих в грамматике.
4. Вычислительные процедуры должны учитывать количество контекстно-зависимых правил – от 10 тыс.
10
Конечный автомат поиска подстрок с неточным совпадением
1. Строим суффиксное дерево для предложения грамматики Src, к
которому необходимо найти выполнимые правила [Navarro].
2. На основе суффиксного дерева
строим недетерминированный
конечный автомат (НКА).
2.1. Состояния конечного автомата расположены между символами суффиксного дерева.
2.2 Переходы между состояниями производятся при:
a) окончании образца;
b) окончании суффиксного дерева;
c) совпадении текущих символов образца и предложения: Src[j] = Spl[i];
d) превышение стоимостью редакционного предписания предела maxCost;
e) при невыполнении предыдущих условий переход осуществляется по дугам автомата, соответствующим
редакционным операциям добавления, удаления, замены или транспонирования символа Src[j];
Алгоритмическая сложность применения правила к предложению:
𝑂 𝑎𝑝𝑝𝑙𝑦 = 𝑘 ∗ 5𝑚 , где k – число контекстно-зависимых правил, m – длина левой части правила.
11
Алгоритм моделирования с альтернативой.
Начало
ЕЯ-описание знака
Sense
Расширенная
грамматика
GExt
1. Обработка ЕЯ-пропозиции
Пропозиция в
расширенной грамматике
GExt
RawSent
Очередь пропозиций, упорядоченных по
стоимости достижения, подлежащих обработке
1
|RawSent| < GenLimit
Нет
Да
2. Выбор пропозиции с
меньшей стоимостью
достижения из очереди
RawSent
|Число шагов вывода для
пропозиции| < StepsLimit
Да
4. Применение
ассоциативных
правил
5. Применение
когнитивных
правил
Нет
1
3. Поиск среди
когнитивных правил
кандидатов на
применение
Стоимость редакционных
операций EdCosts
6. Объединение
результатов
Результат работы алгоритма:
𝐴𝑙𝑡𝑅𝑒𝑠𝑖 = 𝑆𝑦𝑚𝐸𝑥𝑡𝑖 , 𝐶𝑜𝑠𝑡𝑖 , 𝑆𝑟𝑐𝑈𝑠𝑎𝑔𝑒𝑖 , 𝑖 = 1, 𝑁,
где N – размер множества результатов поиска после фильтрации,
𝑆𝑦𝑚𝐸𝑥𝑡𝑖 – символ расширенной грамматики,
𝐶𝑜𝑠𝑡𝑖 –достижимость символа,
𝑆𝑟𝑐𝑈𝑠𝑎𝑔𝑒𝑖 – булев массив использования элементов исходной пропозиции при
выводе 𝑆𝑦𝑚𝐸𝑥𝑡𝑖 .
Новые пропозиции со стоимостью
их достижения и историей вывода
7. Извлечение из пропозиций
достигнутых символов
Множество
достигнутых
символов
Фильтр когнитивной
области AFilt
8. Фильтрация
символов
Конец
Список символов
GExt
12
Методика оценки модели как бинарного классификатора.
Знак
Достижимость(cost)
значение
ранг
Использование ФС (usage)
значение
ранг
{<Клен> <Раскудрявый житель леса, весь резной листвой одетый>
<Метафора> <Ботаника> <Рецепт>}
крона
3,528
1
7/7
1
дуб
1,379
2
7/7
1
кедр
1,11
3
7/7
1
тополь
0,839
4
7/7
1
трава
0,76
5
7/7
1
ствол
0,725
6
7/7
1
шелковица
0,697
7
7/7
1
клен
0,509
8
7/7
1
лист
0,497
9
7/7
1
Модель может рассматриваться как вопросно-ответная
система. Вход – естественно-языковая пропозиция, выход –
ранжированный список знаков.
Будем рассматривать систему в качестве классификатора
релевантности знака ЕЯ пропозиции.
{<Спорт> <Физические упражнения, направленные на достижение высоких
результатов в соревнованиях> <Дескрипция> <Спорт> <Рецепт>}
кросс
11,468
1
9/9
1
стол
8,54
2
9/9
1
спорт
5,694
3
9/9
1
бег
2,603
4
9/9
1
рост
0,975
5
9/9
1
{<Тротуар> <Пешеходная дорожка вдоль трассы> <Дефиниция> <Город>
<Рецепт>}
метро
0,291
1
4/4
1
зебра
0,188
2
4/4
1
тротуар
0,099
3
4/4
1
смог
0,008
4
2/4
3
трава
0,005
5
3/4
2
13
Оценка регрессионной модели
Модель линейной регресии
𝑌 = 𝑏0 + 𝑏1 ∗ 𝑐𝑜𝑠𝑡Rank + 𝑏2 ∗ 𝑢𝑠𝑎𝑔𝑒𝑅𝑎𝑛𝑘, где 𝑏0, 𝑏1, 𝑏2
− коэффициенты регрессии;
costRank, usageRank− ранг по достижимости и
использованию формулы смысла, соответственно.
Показатели качества модели:
1. 𝑆𝑒 =
𝑇𝑃
𝑇𝑃+𝐹𝑁
𝑇𝑁
∗ 100% (чувствительность модели)*;
2. 𝑆𝑝 =
∗ 100% (специфичность модели);
𝑇𝑁+𝐹𝑃
3. AUX – площадь под кривой ROC-графа, количественный
показатель прогностической силы бинарного
классификатора.
(𝑅𝑂𝐶 − анализ – построение графика 𝑆𝑒 = 𝐹 1 − 𝑆𝑝 )
Интервал AUC
0.9 - 1.0
0.8 - 0.9
0.7 - 0.8
0.6 - 0.7
0.5 - 0.6
Качество модели
Отличное
Очень хорошее
Хорошее
Среднее
Неудовлетворительное
[Паклин]
Стратегии выбора порога отсечения для перехода от
линейной регресии к бинарному классификатору:
1. 𝐶𝑢𝑡𝑜𝑓𝑓𝑜𝑝𝑡 = argmax𝑘 𝑆𝑒𝑘 + 𝑆𝑝𝑘
2. 𝐶𝑢𝑡𝑜𝑓𝑓𝑜𝑝𝑡 = argmin𝑘 (𝑆𝑒𝑘 − 𝑆𝑝𝑘 )
*TP – истинно-положительный, TN – истинно-отрицательный, FP – ложно-положительный.
14
Моделирование для различных наборов исходных данных.
Область
Способ
Фильтр по областям
язык
вкл. (739 знаков)
язык
выкл.
быт
вкл. (580 знаков)
быт
выкл.
литература
вкл. (271 знаков)
литература
выкл.
дескрипция
индивидуальный для когнем
дескрипция
выкл.
дефиниция
индивидуальный для когнем
дефиниция
выкл.
перифраза
индивидуальный для когнем
перифраза
выкл.
язык
дескрипция
вкл.
индивидуальный для когнем
выкл.
индивидуальный для когнем
выкл.
Длина формулы Число
смысла
запросов AUC
650 0,81
195 0,85
200
0,8
200 0,83
192 0,75
192 0,82
199 0,83
199 0,86
196 0,87
196
0,9
198 0,85
198 0,84
59 0,74
[5, 10]
192
0,8
[5, 10]
192
0,8
[1, 5]
200 0,86
[1, 5]
200 0,87
15
Терминал АСНИ ПМ
•
•
•
•
2 режима моделирования: безальтернативный и с альтернативой;
контекстно-зависимая грамматика объединяет АВС и фигуры знания в единую модель;
лемматизация АВС и запросов пользователя;
обработка частичной омонимии в АВС;
Лингвистическое обеспечение:
• АВС 462 000 стимульно-реактивных пар;
• 18 300 фигур знания Караулова;
• орфографический электронный словарь iSpell (1.3 млн. словоформ, 129 тыс. лемм);
• Электронная версия словаря синонимов Абрамова (4 000 синонимичных рядов);
• 1047 экспертных инструкций обработки частичной омонимии АВС.
16
Основные результаты работы.
1. Проведено исследование существующих методов и подходов к моделированию языкового
сознания.
2. Разработана методика построения модели вербального сознания, включающая 3 этапа:
лемматизацию АВС и когнитивных единиц, построение взвешенной контекстно-свободной
грамматики на основе ассоциативно-вербальной сети, построение взвешенной контекстнозависимой грамматики.
3. Разработан алгоритм моделирования с помощью взвешенной контекстно-свободной
грамматики для моделирования с альтернативой.
4. Разработана методика оценки модели как бинарного классификатора символов
грамматики с позиции релевантности запросу моделирования.
5. Разработан программный комплекс для: подготовки модели, моделирования в
безальтернативном режиме и режиме с альтернативой, оценки результатов моделирования.
Недостатки предложенного решения:
1.
2.
3.
4.
Работа с лемматизированными данными.
Не учитывается синтаксис ЕЯ-пропозиции.
Области знаков, не присутствующих в когнитивном эксперименте, неизвестны.
Нет автоматизации различения полных омонимов.
17
Список литературы
1. ЛКТ – Лингвокультурный тезаурус русского языка. [Электронный ресурс]. Режим доступа:
http://tesaurus.ru/;
2. Паклин Н. BaseGroup.ru :: Логистическая регрессия и ROC-анализ - математический аппарат
[Электронный ресурс]. URL: http://www.basegroup.ru/library/analysis/regression/logistic/;
3. Ю.Н. Караулов, Ю.Н. Филиппович. Лингвокультурное сознание русской языковой личности.
Моделирование состояния и функционирования. – М., 2009. – 336 с.
4. Ю.Н.Филиппович Моделирование работы лингвокультурного когнайзера русского языка // Вопросы
психолингвистики, 2007;
5. Онлайн словарь. Словарь русских синонимов и сходных по смыслу выражений Н. Абрамова. 1999.
[Электронный ресурс]. Режим доступа: http://www.dict.t-mm.ru/abramov/;
6. Russian ispell. [Электронный ресурс]. Режим доступа: http://www.opennet.ru/prog/info/59.shtml;
7. Navarro G. A Guided Tour to Approximate String Matching. // ACM Computing Surveys, Vol. 33, No. 1,
March 2001.— С. 31–88.
18
Download