Автоматическая обработка естественного языка с помощью

advertisement
АВТОМАТИЧЕСКАЯ ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА С
ПОМОЩЬЮ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ
А.В. Луканин
Искусственные нейронные сети (ИНС) сегодня повсеместно используются для решения различных прикладных задач, в том числе и задач автоматической обработки языка. При решении задач синтагматического плана
чаще всего используются 3 типа ИНС: простая рекуррентная сеть (simple
recurrent network, SRN) [1] для обработки временных последовательностей,
таких как предложения; рекурсивная авто-ассоциативная память (recursive
auto-associative memory, RAAM) [2] для обработки лингвистических структур, представленных в виде деревьев; и самоорганизующаяся карта Кохонена (self-organizing map, SOM) [3] для кластеризации таких представлений.
Одной из распространённых задач, лежащих на стыке морфологии и
синтаксиса является определение частеречной принадлежности слова
(POS-tagging). Для флективных языков основная информация, необходимая для этой задачи, содержится в окончании (-ок для существительных
русского языка: станок, переулок, моток и т.д.) или в словообразовательном суффиксе (-tion для существительных английского языка: computation,
exhibition, annotation и т.д.). Для аналитических языков часть речи чаще
определяется порядком слов (слова contact, contents, book в английском
языке могут быть глаголами и существительными в зависимости от позиции, слово стекло в русском языке также может быть глаголом или существительным).
Автоматическая категоризация слов может быть проведена с помощью
самоорганизующейся карты Кохонена. Тимо Хонкела описывает модель
WEBSOM, в которой используются 2 карты: карта категорий слов и карта
документов [4]. На вход карты категорий слов подавался вектор из 270
действительных чисел, соответствующий тройке слов (предшествующее
слово, кодируемое слово и следующее за ним слово). Каждое слово представляется в виде вектора из 90 случайно выбранных действительных чисел. При обучении поданному на вход вектору выбирается область на карте, которая соответствует ей лучше всего, при этом веса узлов карты постепенно корректируются по алгоритму SOM. Таким образом, слова с одинаковым контекстом группируются на карте вместе, а это значит, что категорий слов оказывается больше, чем частей речи. Например, кроме выделения категорий глаголов и существительных данный метод сгруппировал
вместе названия стран, а также личные формы глаголов.
Синтаксис в отличие от морфологии тяготеет больше к синтагматическому плану. Однако каждый уровень языка можно описать в синтагмати-
ческом плане, а именно в виде закономерностей следования единиц различного уровня друг за другом: фонотактика описывает закономерности в
последовательностях фонем, морфотактика — морфем, синтаксис — словоупотреблений, лингвистика текста — предложений.
Простая рекуррентная сеть, предложенная Джеффри Элманом [1; 5] на
базе нейронной сети Джордана [6], хорошо запоминает последовательности элементов, поэтому может применяться на различных уровнях языка.
Благодаря обратным связям, она может предсказывать следующий сигнал
(будь то буква или слово), при подаче на вход текущего сигнала.
Существует множество эмпирических данных, доказывающих, что
предсказание является важным элементом в речемыслительной деятельности человека. Пиотровский Р.Г. [7] показал, что в эксперименте по угадыванию букв в тексте энтропия падает от начала словоупотребления, где неопределённость наиболее велика, к его концу, где неопределённость снимается за счёт начальных букв словоупотребления. Соответственно, имеется возможность выделения границ слов по максимуму энтропии [с. 7174] (но т.к. эти границы уже выделены в тексте с помощью пробелов, следует учитывать и минимумы энтропии при угадывании пробелов). Однако
такой же ступенчатый характер графика энтропии появляется и при выделении границ морфем [с. 79-80].
Аналогичные результаты показала модель Джеффри Элмана [1, pp. 191194]. Простой рекуррентной сети буква за буквой предъявлялся текст, в
котором предварительно были удалены все пробелы и знаки препинания.
Текст был автоматически сгенерирован с использованием простой грамматики и 15 слов и содержал 200 предложений различной длины (от 4 до 9
слов). Каждая буква английского алфавита кодировалась 5-битовым бинарным вектором (a – 00001, b – 00010, c – 00011 и т.д.). Конфигурация сети: 5 входных, 20 скрытых, 5 выходных и 20 контекстных нейронов. При
предъявлении очередной буквы ИНС обучалась предсказывать следующую букву текста. Текст предъявлялся сети 10 раз, что исключает возможность запоминания текста целиком. После обучения ошибка предсказания
следующей буквы текста была велика в начале слов и уменьшалась к их
концу.
Простая рекуррентная сеть также может быть использована для выявления синтаксических структур в предложениях. Например, в данной модели происходит автоматическое обобщение синтаксических структур и
валентностей с правым контекстом, т.е. из примеров по добавлению причастных оборотов справа выводится правило о том, что такие обороты
можно добавлять практически бесконечно. Хуже простая рекуррентная
сеть справляется с оборотами, вставленными в центр предложения (особенно с высокой вложенностью оборотов). Эта проблема решается при использовании семантических ограничений (что этот глагол употребляется
только с такими существительными) [8]. Эта модель предсказывает следующее слово (класс) в предложении.
Таким образом, рекуррентные сети обнаруживают свойства, необходимые при освоении языка. При предъявлении сети несегментированной последовательности сигналов (акустических в виде звуков или орфографических в виде символов), сеть обучается делать контекстно-зависимые предсказания, примерно соответствующие условным вероятностям последующих сигналов. Т.к. условные вероятности на границах элементов имеют
тенденцию быть менее зависимыми от контекста, ошибка предсказания на
границах элементов увеличивается [9, p. 5].
Модель Элмана обучается синтаксическим правилам уже на первой тысяче предложений, хотя известно, что у детей освоение синтаксических
правил разнесено во времени [10].
Д. Морифуджи и Т. Иннуи в качестве контекстного слоя используют
самоорганизующуюся карту Кохонена [3], т.е. используют архитектуру
ИНС, в которой совмещены 2 модели. Модель многослойной сети (входной слой, промежуточный слой A, скрытый слой, промежуточный слой B и
выходной слой) с рекуррентными связями извлекает внутреннюю структуру входных последовательностей данных. Вторая модель — двумерная самоорганизующаяся лексическая карта — используется для автоматической
категоризации слов по сходству их употребления [11]. При этом на вход
лексической карты поступают сигналы с входного и скрытого слоев многослойной сети, и веса этих связей корректируются с помощью алгоритма
самоорганизующейся карты Кохонена. На вход скрытого слоя многослойной сети поступают сигналы с промежуточного слоя A и лексической карты, веса которых в свою очередь, как и веса остальных слоёв многослойной сети, корректируются с помощью алгоритма обратного распространения ошибок.
Такая гибридная модель позволила смоделировать постепенное освоение синтаксических правил английского языка: порядок слов, переходность глаголов и согласование существительных и глаголов в числе.
Как можно заметить из проведённого обзора работ по автоматической
обработке синтагматического плана языка, часто выбор модели ИНС зависит от решаемой задачи, однако, существуют более универсальные модели,
которые применимы к обработке различных уровней и планов языка.
В качестве такой модели нами был выбран многослойный персептрон
для обобщения и последующего прогнозирования сочетания слов русского
языка вида «прилагательное + существительное» семантического поля
«возраст» [12]. Частично свободная сочетаемость слов трудно формализуема и требует оценочных критериев. Так носитель языка «чувствует», что
сочетание молодой человек естественно, молодой мужчина допустимо, а
молодой ребёнок недопустимо в русском языке. Проведённые эксперимен-
ты показали, что многослойный персептрон может обучиться этому «интуитивному» знанию носителей языка, автоматически закодировав его в
скрытых слоях ИНС.
Библиографический список
1. Elman, J.L. Finding structure in time / J.L. Elman // Cognitive Science. —
1992. — 14. — P. 179-211.
2. Pollack, J. B. Recursive distributed representations / J. B. Pollack // Artificial Intelligence. — 46. — 1990. — Pp. 77–105.
3. Kohonen, T. Self-Organizing Maps (Third Extended Edition), New York,
2001, 501 pages.
4. Honkela, T. Newsgroup exploration with WEBSOM method and browsing interface / T. Honkela, S. Kaski, K. Lagus, T. Kohonen. Technical Report
A32, Helsinki University of Technology, Laboratory of Computer and Information Science, Espoo, Finland, 1996.
5. Elman, J.L. Distributed representations, simple recurrent networks, and
grammatical structure / J.L. Elman // Machine Learning. — 1991. — 7. — P.
195-224.
6. Jordan, M. I. Serial order: A parallel distributed processing approach /
M.I. Jordan // Institute for Cognitive Science Report 8604. — San Diego, CA:
University of California, 1986.
7. Пиотровский, Р.Г. Синергетика текста: Учеб. пособие /
Р.Г. Пиотровский. — Мн.: МГЛУ, 2005. — 156 с.
8. Weckerly, J. A PDP approach to processing center-embedded sentences /
J. Weckerly, J.L. Elman // Proceedings of the Fourteenth Annual Conference of
the Cognitive Science Society. — Hillsdale, NJ: Erlbaum, 1992. — P. 414-419.
9. Elman, J. L. On the meaning of words and dionosaur bones: Lexical
knowledge without a lexicon / J. L. Elman // Cognitive Science. — 2009. — 33.
— P. 1-36.
10. Sinclair, H. S.V.O. A linguistic universal? A study in developmental
psycholinguistics / H. Sinclair, J.P. Bronckart // Journal of Experimental Child
Psychology. — 1972. — 14. — P. 329-348.
11. Morifuji, D. Connectionist Approach to Stage-Like Syntactic Development / Daichi Morifuji, Toshio Innui // Обработка текста и когнитивные технологии: Сборник статей. №11 / Редакторы: В. Соловьев, В. Гольдберг, В.
Поляков — Казань: Казанский государственный университет им.
В.И. Ульянова-Ленина, 2006. — С. 41—50.
12. Луканин, А.В. Нейронные сети как механизм представления лексико-семантической информации / А.В. Луканин // Труды казанской школы
по компьютерной и когнитивной лингвистике TEL'2004. Казань: Отечество, 2004. - С. 37-47.
Download