Двумерное множество глаголов русского языка

advertisement
ISBN 978-5-7262-1375-0. НЕЙРОИНФОРМАТИКА – 2011. Часть 1
В.Л. ВВЕДЕНСКИЙ
Российский научный центр «Курчатовский институт», Москва
vvedensky@imp.kiae.ru
ДВУМЕРНОЕ МНОЖЕСТВО
ГЛАГОЛОВ РУССКОГО ЯЗЫКА
Исследовано практически полное множество глаголов русского языка,
включающее все те, частота применения которых в больших корпусах
текстов превышает 1 на миллион слов. Таких глаголов около 3000, причем
для каждого глагола соотношение частотности этих форм свое. Это позволяет представить все множество действий отображаемых словами русского языка на двумерной поверхности.
Ключевые слова: глаголы русского языка, двумерное множество, представительство в коре мозга
Введение
Вопрос о том, как представлены элементы человеческой речи в нервной ткани головного мозга, представляет огромный интерес как для понимания функционирования системы языка человека, так и для медицинских применений. Врачам важно знать, какие области коры конкретного
пациента не следует затрагивать при хирургических вмешательствах, или
куда нужно точечно вводить лекарственные препараты. Понимание того,
как работает мозг при пользовании речью, необходимо для правильного
проектирования систем взаимодействия человека с компьютером, которые
пока еще не дают возможности голосового общения. К сожалению, для
решения такой задачи и даже получения некоторых предварительных сведений нельзя применять опыты на животных, даже организованные
вполне «гуманно». У них попросту нет речи. При этом у животных имеются другие не менее сложные системы, например, механизм ориентации
в пространстве или иммунитет, которые могут быть хорошими моделями
для изучения человека. Язык же требует «человеческого» подхода. Люди
изучают язык уже тысячелетия и накопили огромный материал. Задача
состоит в том, чтобы соотнести эти сведения о языке с изученными свойствами нервной ткани головного мозга и понять, как наблюдаемые явления в реальной речи могут быть описаны, исходя из устройства ансамблей
нейронов в коре. Кора головного мозга представляет собой практически
УДК 004.032.26(06) Нейронные сети
263
ISBN 978-5-7262-1375-0. НЕЙРОИНФОРМАТИКА – 2011. Часть 1
двумерный объект, «смятый» и «втиснутый» в черепную коробку. В
предыдущих работах [1, 2, 3] нам удалось показать, что ряд объектов языка (глаголы, наречия, приставки, корни слов) могут быть представлены в
виде компактных множеств на двумерной поверхности. Если количество
слов в языке трудно определить (сотни тысяч и более), то количество
морфологических элементов, из которых состоят слова конкретного языка, заметно меньше (около 20 приставок и 2-3 тысячи корней, которые
можно характеризовать как свойственные именно русскому языку, есть
еще суффиксы и окончания). Похоже на то, что эти элементы представлены в коре в разных компактных областях, а аксонные связи между элементами этих областей и образуют слова. Понятно, что объекты языка, в
том числе слова, не имеют единственного «точечного» представления в
коре. У слова, по крайней мере, имеются артикуляционная (как произносится) и смысловая часть. Слово ТИГР, по смыслу, ассоциируется и с чувством угрозы, и с полосками, и с цветом, и с характерными рыком и походкой, а известно, что такие свойства кодируются в разных участках коры. Получается, что элементы языка представлены и как объекты, сконцентрированные в компактных областях, и как система связей между элементами этих областей. Мы полагаем, что доступные лингвистические
данные позволяют «расшифровать» устройство этой взаимосвязанной
системы.
Частотные словари разных языков
Важным средством для анализа устройства языка выступают частотные словари. Они показывают, как часто то или иное слово встречается в
больших корпусах текстов, написанных на данном языке. Для ряда языков
словари достаточно хорошо составлены и позволяют вести компьютерный
анализ практически полного набора слов языка [4, 5, 6]. Помимо упорядочения слов по убыванию частоты их применения в речи (письменной) эти
словари позволяют извлечь много другой важной информации. Во всех
языках выполняется эмпирический закон Ципфа [7], согласно которому
частота употребления слова обратно пропорциональна рангу слова, то
есть номеру места, занимаемого словом в списке, упорядоченному по частоте применения. Такого рода степенная зависимость постоянно озадачивает математиков, так как трудно понять ее происхождение. Оказалось,
что если преобразовать частотный список слов в частотный список составляющих морфологических элементов (мы пока ограничились корнями
слов), получается совсем другая математическая зависимость [8], экспоненциально убывающая. Использование логарифма частоты встречаемоУДК 004.032.26(06) Нейронные сети
264
ISBN 978-5-7262-1375-0. НЕЙРОИНФОРМАТИКА – 2011. Часть 1
сти слова (или морфологического элемента слова) становится удобной
мерой описания и позволяет получить ряд интересных закономерностей.
В настоящей работе мы применили этот подход к анализу глаголов
русского языка. Практически каждый глагол русского языка имеет два
вида: несоверше́нный и соверше́нный. Несоверше́нный вид обозначает
действие в его течении, без указания на границу действия (отвечает на
вопрос что делать? – рисовать, петь). Соверше́нный вид обозначает действие, ограниченное пределом (отвечает на вопрос что сделать? – нарисовать, спеть). Оказалось, что для предпринятого нами исследования удобен именно русский язык (вероятно, и другие славянские языки). Техническая причина состоит в том, что во многих других языках для различения этих форм глагола используются комбинации слов. Это означает, что
для выделения этих форм глагола в тексте необходим анализ предложений, тогда как в русском языке имеются просто разные слова, причем для
подавляющего числа используемых глаголов. Частотного списка слов
русского языка [5] достаточно для такого исследования.
При анализе языка следует учитывать, что в отличие от многих «врожденных» функций (управление движением, зрение и др.) язык формируется в мозге «поверх» этих базовых систем в процессе воспитания. Элементы языка должны быть некоторым образом заложены в память, и можно
предположить, что распределение элементов по этой памяти как-то зависит от того, как часто то или иное слово (корень, приставка или словосочетание) применяется в жизни. Это говорит о том, что частотные словари
являются не просто статистическим материалом, а как-то отражают
устройство памяти, в которой хранятся объекты языка. Из данных этих
словарей, по-видимому, можно установить и то, в какой форме хранятся
объекты языка в нервной ткани головного мозга.
Пространство глаголов
Глаголы встречаются в речи или тексте в совершенной и несовершенной форме. Частотный список языка дает для подавляющего большинства
глаголов частоту применения каждой из форм в тексте длиной в миллион
слов.
Глаголы можно разместить на двумерной поверхности, как показано
на рис. 1. Если применить логарифмический масштаб, то удобно видеть,
что все глаголы русского языка регулярно и достаточно плотно заполняют
определенную область на плоскости. Такой вид распределения точек
наводит на мысль, что частота обращения к тому или иному глаголу, а
УДК 004.032.26(06) Нейронные сети
265
ISBN 978-5-7262-1375-0. НЕЙРОИНФОРМАТИКА – 2011. Часть 1
также выбор формы употребляемого глагола в речи просто зависит от его
положения на некоторой двумерной поверхности. Проще всего предположить, что это участок коры головного мозга, хранящий «образы» глаголов, в который с разных направлений прорастают аксоны из других областей. Одна из них инициирует процесс речи, и чем ближе к ней лежит
«образ» глагола, тем чаще он вовлекается в генерацию речи. Следует отметить, что при прорастании аксонов от некоторой группы нейронов количество образуемых связей как раз экспоненциально убывает по мере
увеличения расстояния от исходной группы вглубь соседней области [9].
Характерная длина – несколько миллиметров. Вероятно, это и служит
причиной оптимальности логарифмического масштаба при построении
распределения, показанного на рис. 1.
Рис. 1. Положение 3021 глагола русского языка на двумерной поверхности. Координаты каждого глагола задаются частотой употребления совершенной и несовершенной форм (спросить – спрашивать, вспомнить –
вспоминать). Частота измеряется числом употреблений данного глагола в
тексте длиной в миллион слов и рассмотрены глаголы, с частотой для
каждой из форм, превышающей 1 на миллион слов. Треугольниками выделены глаголы, имеющие близкую суммарную частоту употребления
(ранг от 501 до 750) – часть их показана на рис. 2
УДК 004.032.26(06) Нейронные сети
266
ISBN 978-5-7262-1375-0. НЕЙРОИНФОРМАТИКА – 2011. Часть 1
Более детально устройство области, (предположительно) хранящей
глаголы, можно рассмотреть на рис. 2. Здесь показаны конкретные глаголы из центральной части рис. 1. Обращает на себя внимание то, что соседствуют слова, различные по смыслу. Это характерно и для всей области
глаголов. Вероятно, так создается необходимый контраст, с помощью которого даже размазанное воздействие потоком нервных импульсов на
участок нервной ткани выбирает тот глагол (то есть включает усиленную
генерацию спайков из конкретного места), который «по смыслу» подходит общему течению процесса речи.
Управляющий поток нервных импульсов, запускающий глагол в речи,
вероятнее всего исходит из области Брока. Известно, что нарушения в
левой височной области, именуемой область Брока, приводят к невозможности сказать что-нибудь, хотя пациент отлично понимает, что он хочет
сказать. Не удается инициировать речь. Вероятно, область коры, отображенная на рис. 1, ориентирована так, что часть, содержащая глаголы, активируемые чаще, лежит ближе к области Брока. На рис. 2 генератор речи, изображенный справа, видимо, можно соотнести с областью Брока.
ОГРАНИЧЕНИЕ ВО ВРЕМЕНИ
ГЕНЕРАТОР
РЕЧИ
ПРОДОЛЖИТЕЛЬНОСТЬ ВО ВРЕМЕНИ
Рис. 2. Глаголы из центральной части распределения, показанного на рис.
1. Здесь 61 глагол с рангом от 501 до 750. Картинка повернута на 45 градусов по отношению к рис. 1, так что чаще употребляемые глаголы нахоУДК 004.032.26(06) Нейронные сети
267
ISBN 978-5-7262-1375-0. НЕЙРОИНФОРМАТИКА – 2011. Часть 1
дятся справа. Глагол одеваться встречается несколько чаще, чем глагол
творить, а отставать чаще, чем тонуть. Глаголы вверху чаще встречаются в совершенной форме – опереться (опираться), а глаголы внизу – в
несовершенной – спускать (спустить)
Вертикальная координата на рис. 2 ранжирует глаголы по их употреблению в форме ограничения по времени и продолжительности. Этого нет
для существительных. Вероятно, что представительство глаголов в коре
находится в области влияния центра, кодирующего восприятие времени,
тогда как представительство существительных находится от него на удалении.
Каждый из глаголов, отображенных точками на рис. 1, с морфологической точки зрения является комбинацией приставки, корня и суффикса с
окончанием, для которых тоже можно определить двумерные области,
содержащие эти элементы [1, 2, 3]. Отсюда следует, что наряду с точечным представительством глаголов, показанным на рис. 1, каждый из них в
процессе воспроизведения активирует другие области, содержащие морфологические элементы слова. Это как бы кнопки, запускающие активность распределенной сети элементов. Есть основание полагать, что детальное исследование «кортикальной географии» языка человека, в том
числе с применением экспериментальных методов, позволит серьезно
улучшить наше понимание нашего же языка.
Работа поддержана грантом РФФИ 09-02-12144-офи_м.
Список литературы
1. Введенский, В.Л., Коршаков А.В., Наречия с глаголами и приставки с корнями слов согласуются между собой, следуя единой математической закономерности // Нейроинформатика-2009, XI Всероссийская научно-техническая конференция, Москва. Сборник научных трудов, часть 2,
стр. 247–252.
2. Vvedensky V.L. Two-dimensional visualization of the thesaurus of
German word roots // IV International Conference on Cognitive Science.
Tomsk, 22–26 June, 2010. Abstracts. Vol.1, p. 111–112.
3. Введенский В.Л.. Множество корней слов образует математически
упорядоченную структуру // Нейроинформатика-2010, XII Всероссийская
Научно-Техническая Конференция, Москва. Сборник научных трудов,
часть 2, стр. 298–307.
УДК 004.032.26(06) Нейронные сети
268
ISBN 978-5-7262-1375-0. НЕЙРОИНФОРМАТИКА – 2011. Часть 1
4. Die Liste der 30.000 häufigsten Wortformen aus den Textkorpora des
IDS, absteigend sortiert nach relativer Häufigkeit. Institut für Deutsche
Sprache. http://www.ids-mannheim.de/.
5. Sharov
S.
The
frequency
dictionary
for
Russian.
http://www.comp.leeds.ac.uk/
ssharoff/,
http://www.artint.ru/projects/frqlist.asp.
6. Michal Křen. Srovnávací frekvenční seznamy z korpusů SYN2000 a
SYN2005. http://ucnk.ff.cuni.cz/srovnani.php
7. Zipf G.K., 1949, Human Behaviour and the Principle of Least-Effort:
an introduction to human ecology. Addison-Wesley, Cambridge, MA.
8. Vvedensky V.L. Ordered Structure of the Thesaurus of Word Roots of
German Language // Proceedings 14th World Multi-Conference on Systemics,
Cybernetics and Informatics: WMSCI 2010, Orlando, USA, 2010.
9. Ojima H., Honda C.N., Jones E. Patterns of Axon Collateralization of
Identified Supragranular Pyramidal Neurons in the Cat Auditory Cortex // Cerebral Cortex. 1991. Vol. 1, № 1, pp.80–94.
УДК 004.032.26(06) Нейронные сети
269
Download