Лингво комбинаторная картина мира и познание

advertisement
2И
УДК 004.934.2
М.Б. Игнатьев
Санкт-Петербургский государственный университет
аэрокосмического приборостроения, Россия


Рассматривается комбинаторная модель текста на естественном языке, определяются
эквивалентные системы уравнений, содержащие структурированную неопределенность в виде
произвольных коэффициентов. Показывается, что комбинаторная модель может быть
использована для извлечения смысла из текста и для построения моделей сложных систем путем
использования фраз, составленных из ключевых слов. В качестве примеров рассматриваются
модели города, организма, атомов и молекул и новые пути перехода между мировыми точками.

Существующие методы измерения хорошо работают при изучении жестких
структур и их отдельных параметров, успехи в теории и практике измерений
обеспечили успехи во многих областях науки и техники, но имеется много других
областей, таких, как биология, психология, информатика и другие, где применение
традиционных методов измерений встречает много трудностей, трудностей не
только технических, но и методологических. Одна из трудностей связана с тем, что
большинство реальных систем принципиально содержит неопределенность, в
хорошо организованных системах это структурированная неопределенность, в плохо
организованных системам это хаос. С другой стороны, все, что знают люди, описано
на естественном языке, на нем описаны не только мифы и теоретические
представления, но и все эксперименты и результаты всех измерений, которые
обогатили язык, сделали его более конструктивным. Граница между знанием и
незнанием лежит за гранью того, что описано на естественном языке.
Как сказано в Библии, сначала было слово. По сути мы имеем дело с
лингвистическим многовариантным описанием окружающей действительности.
Почему многовариантным – потому что в естественном языке используются
многозначные слова. За многовековую историю человечества сформировалась
лингво-комбинаторная картина мира, которую необходимо учитывать при
измерениях и познании реальности. Кроме лингво-комбинаторной картины мира,
существуют другие картины мира: чисто визуальная картина мира; существует
мир запаха и вкуса, в котором прекрасно ориентируются животные; существуют и
другие картины мира (мир звуков и музыки, например). Но многие аспекты этих
картин нашли отражение в лингво-комбинаторной картине мира.
Естественный язык является главным интеллектуальным продуктом
человечества, в структуре естественного языка отражается структура
естественного интеллекта человеческого общества и его отдельных
218
«Искусственный интеллект» 4’2002
Лингво-комбинаторная картина мира…
2И
представителей на уровне сознания и подсознания. Описания на естественном
языке, тексты несут в себе большой смысловой заряд, до конца еще не раскрытый
мировой наукой. Работа с естественным языком затрудняется отсутствием
исчисления, адекватного такой сложной самоорганизующейся системе, как язык.
Об этом писал еще Л. Витгенштейн в своей Голубой книге. Ниже конструктивно
вводится понятие смысла и строится исчисление, позволяющее вычислять
значения смыслов слов и текстов [1], [2], [3], [4], что важно для систем
искусственного интеллекта и познания реальности.

Любое предложение на естественном языке – это цепочка слов, например
слово1 + слово2 + слово3
(1)
За каждым словом и предложением стоит смысл, но обычно мы его не
обозначаем, мы его подразумеваем. Отсюда множество двусмысленностей и
непонимания у людей и непреодолимые трудности в овладении языком у
компьютеров. Необходимо перейти к новому стилю работы с языком. Мы можем
конструктивно ввести понятие смысла, например так
(слово1)(смысл1)+(слово2)(смысл2)+(слово3)(смысл3) = 0 .
(2)
Уравнение (2) будем рассматривать как модель фразы (1). Будем обозначать слова буквой А от английского Appearance – явление, а смыслы буквой Е от
английского Еssence – сущность. Тогда выражение (2) запишется в виде
A1*E1 + A2*E2 + A3*E3 = 0 .
(3)
Это выражение можно разрешить относительно слов через смыслы
A1 = U1*E2 + U2*E3
A2 = -U1*E1 + U3*E3
(4)
A3 = -U2*E1 – U3*E2
или относительно смыслов через слова, где U1, U2, U3 – произвольные коэффициенты. В общем случае число произвольных коэффициентов в структуре эквивалентных уравнений будет определяться формулой
S  C nm 1 n > m ,
(5)
где n – число различных слов в предложениях, m – число линейно-независимых
предложений [1], [3], [4].Это описание является алгебраическим кольцом. Важно,
что при этом не используется операция деления и тем самым не порождаются
особые случаи – монстры и кентавры. Таким образом можно описать самые различные системы. Если имеется математическое описание систем, то оно тоже
сводится к форме (3). Например, если задано поведение системы с точностью до
поверхности F(X1, X2, X3)=0, то после дифференцирования получим формулу (3),
где E1=dX1/dt, E2=dX2/dt, E3=dX3/dt, a A1,A2, A3 будут соответственно част-
«Штучний інтелект» 4’2002
219
Игнатьев М.Б.
2И
ными производными от F(X1, X2, X3)=0 по Х1, Х2, Х3. Описание любой системы
будет содержать три структуры: явления, сущности и произвольные коэффициенты, число и расположение которых задает структурированную неопределенность.
Произвольные коэффициенты могут быть использованы для решения различных
задач на заданных многообразиях типа (3), в частности для приспособления, адаптации системы к окружающей среде. Чем больше произвольных коэффициентов,
тем выше адаптационные возможности систем. Как очевидно из формулы (5), при
малом числе переменных наложение ограничений будет уменьшать число произвольных коэффициентов, но при большом числе переменных при наложении ограничений, c ростом m число произвольных коэффициентов будет сначала расти,
достигнет максимума и начнет убывать. Это явление называется феноменом адаптационного максимума, оно наблюдается в биологических, социальноэкономических, лингвистических и технических системах. Если мы хотим сохранить систему в потоке изменений, то задача управления системой будет сводиться
к удержанию системы в зоне адаптационного максимума, где системы будут
иметь наибольшие адаптационные возможности. Устойчивое развитие возможно
только в зоне адаптационного максимума. Следует заметить, что гомеостатические системы функционируют на уровне настройки; манипуляции произвольными
коэффициентами, удержание системы в зоне адаптационного максимума – задача
более высокого уровня. Для удержания системы в зоне адаптационного максимума блок управления может использовать такие инструменты, как рост, увеличение
числа переменных, но этот способ упирается в ресурсные ограничения, такие, как
наложение или снятие ограничений, обучение системы, или такие, как организация коллективов. Действительно, если одна система описывается как
1
S1  C m1
n1 ,
а вторая как
1
S2  C m2
n2
то объединение этих систем с помощью общих ограничений будет содержать Scol
произвольных коэффициентов
 m2 mcol 1
Scol  m1
n1 n2
(6)
При этом возможны случаи, когда объединение в коллектив будет целесообразным Scol > S1+S2, и когда это объединение будет нецелесообразным, так
как Scol < S1+S2, в зависимости от конкретных параметров систем.
Таким образом, лингво-комбинаторная картина мира строится из трех
групп переменных: явлений А, сущностей Е и структурированной неопределенности, которая задается произвольными коэффициентами U. Ниже строятся относительно простые лингво-комбинаторные модели практически важных и фундаментально значимых систем.

Разработанный метод комбинаторного моделирования позволяет подойти
к проблеме извлечения смыслов из текстов путем простых, но трудоемких
вычислений с учетом всего словарного запаса каждого естественного языка и
220
«Искусственный интеллект» 4’2002
Лингво-комбинаторная картина мира…
2И
множества текстов. Различные грамматические правила для естественных языков
были созданы апостериори, после того как языки достигли своей зрелости, эти
правила содержат множество исключений и весьма несовершенны. Извлечение
смыслов путем вычислений применительно ко всем словам естественного языка
позволит уточнить смысл использования различных слов, в том числе и
служебных, в различных текстах. Как очевидно из формулы (5), это задача для
суперкомпьютеров, но она сейчас уже может быть решена.
Вторая важная проблема – это перевод с одного естественного языка на
другие языки, эта задача тоже может решаться с помощью комбинаторной модели
языка. Язык сущностей Е или смыслов может рассматриваться как общий для
всего множества естественных языков и может быть использован как
промежуточный для перевода текстов с одного языка на другой [3]. Далее этот
язык сущностей Е может рассматриваться как внутренний язык мозга и может
быть использован для объяснения работы мозга и для организации общения
между людьми сразу на языке сущностей Е, без посредников в виде тех или иных
естественных языков.

Упрощенные комбинаторные модели можно строить исходя из
словесного описания систем, выделяя главные понятия, ключевые слова, и на их
основе составляя фразы типа (1). Таким образом были построены модели
применительно ко многим плохо формализованным системам, таким, как
металлорежущие станки и роботы [1], [2], [5], летательные аппараты [2], [5],
города [6], [7], организмы [8], атомы и молекулы [9], [10], погода [11],игры типа
футбол [12] и др. Комбинаторный характер моделей позволяет изучать все
множество траекторий на заданных многообразиях типа (3). Следует отметить,
что проблема верификации таких моделей остается открытой – ее нужно решать в
каждом конкретном случае, исходя из накопленного в конкретных науках
материала и новых исследований, к проведению которых может подтолкнуть
использование новых моделей.

Применительно к городу в качестве ключевых слов можно взять
население, пассионарность, территорию, производство, экологию и безопасность,
финансы, внешние связи. Из этих слов и может быть составлена фраза типа (1)
после введения понятия смыслов для соответствующих ключевых слов, в
результате получим по аналогии с (2) уравнение города
А1*Е1+А2*Е2+А3*Е3+А4*Е4+А5*Е5+А6*Е6+А7*Е7 = 0 ,
(7)
где А1 – характеристика населения, которая включает в себя характеристики здоровья, образования, занятости; Е1 – изменение этой характеристики; А2 – характеристика пассионарности, устремлений групп населения, люди обладают свободой воли и соответственно свободой выбора при принятии решений, и этот выбор
является важным, что оценивается путем социологического анализа; Е2 – изменение характеристики пассионарности; А3 – характеристика территории, включая
«Штучний інтелект» 4’2002
221
Игнатьев М.Б.
2И
наземные и подземные постройки, этот блок может быть геоинформационной
системой; Е3 – изменение этой характеристики; А4 – характеристика производства, включая оценку различных видов деятельности: научной, производственной,
транспортной, торговой и др.; Е4 – изменение этой характеристики; А5 – характеристика экологии и безопасности; Е5 – изменение этой характеристики, А6 – характеристика финансов, финансовых потоков и запасов в городе; Е6 – изменение
этой характеристики; А7 – характеристика внешних связей города, включая оценку входящих и выходящих потоков людей, энергии, материалов, информации,
финансов; Е7 – изменение этой характеристики.
На следующем этапе нужно разрешить уравнение (7) относительно переменных Е, которые могут быть и производными по времени от переменных А, и в
соответствии с методикой [1], [2], [3], [4] получим уравнения типа (4)
E1 = U1*A2+U2*A3+U3*A4+U4*A5+U5*A6+U6*A7
E2= -U1*A1+U7*A3+U8*A4+U9*A5+U10*A6+U11*A7
E3= -U2*A1 -U7*A2+U12*A4+U13*A5+U14*A6+U15*A7
E4= -U3*A1 -U8*A2 -U12*A3+U16*A5+U17*A6+U18*A7
E5= -U4*A1 -U9*A2 -U13*A3 -U16*A4+U19*A6+U20*A7
E6= -U5*A1 -U10*A2 -U14*A3 -U17*A4 -U19*A5+U21*A7
E7= -U6*A1 -U11*A2 -U15*A3 -U18*A4 -U20*A5 -U21*A6,
(8)
где U1, U2, . . .,U21 – произвольные коэффициенты, которые можно использовать
для управления городом и для проверки различных гипотез. В вышеприведенной
системе уравнений присутствуют все возможные комбинации взаимодействий,
практически лишь часть из них будет использована в модели реального города.
Число ключевых слов и переменных может быть увеличено. Например,
переменная «население» может быть разбита на отдельные группы:
трудоспособное население, нетрудоспособное население и т.д. Для исследования
этой модели могут быть привлечены все методы теории дифференциальных
уравнений и оптимизации. Аналогичная модель может быть использована при
моделировании семьи и региона. Эта модель послужила основой программ
устойчивого развития Балтийского морского региона и Средиземноморского
региона, а также при разработке глобальных проектов Единой энергетической
системы мира, Единой транспортной системы мира [13]. Если есть описание
системы на естественном языке (такое описание сейчас в сфере искусственного
интеллекта называется онтологией), то из него можно извлечь ключевые слова, из
них составить фразу типа (1) и уравнения типа (4).
В качестве другого примера рассмотрим проблему моделирования такой
плохо формализованной системы, как погода. В качестве ключевых слов возьмем
основные метеорологические элементы: температуру, давление, влажность
воздуха, скорость и направление ветра, облачность и осадки, и тогда взаимосвязь
между ними будет в соответствии с нашей методикой определяться уравнениями
(8), только теперь А1 – температура воздуха, Е1 – изменение температуры,
А2 – давление воздуха, Е2 – изменение давления, А3 – влажность воздуха,
Е3 – изменение влажности, А4 – скорость ветра, Е4 – изменение скорости ветра,
А5 – направление ветра, Е5 – изменение направления ветра, А6 – характеристика
облачности, Е6 – изменение этой характеристики, А7 – характеристика осадков,
Е7 – изменение этой характеристики. Все эти величины могут быть представлены
222
«Искусственный интеллект» 4’2002
Лингво-комбинаторная картина мира…
2И
в нормализованных относительных единицах. С помощью произвольных
коэффициентов возможна настройка модели на конкретные условия той или иной
местности и время года. Переменные Е можно трактовать как производные по
времени от соответствующих А, например Е1 = dA1/dt и т.д. Исследуется
прогностическая сила этой семиблочной модели. Модель может быть расширена
путем включения новых метеорологических элементов, таких, как прозрачность
атмосферы, температура почвы и воды, солнечная радиация, длинноволновое
излучение земли и атмосферы и др.

В
качестве
другого
примера
рассмотрим
моделирование
атомов [1], [9], [10]. В качестве ключевых слов для моделирования атома
водорода возьмем такие слова:
атом + протон + электрон,
(9)
Тогда эквивалентное уравнение, описывающее взаимозависимость
основных элементов атома водорода будет иметь вид (4), где А1 – характеристика
атома водорода, в частности его спектральная характеристика, Е1 – изменение
этой характеристики, А2 – характеристика протона, Е2 – изменение этой
характеристики,
А3 – характеристика
электрона,
Е3 – изменение
этой
характеристики.
В качестве ключевых слов для моделирования изотопа водорода дейтерия
можно взять ключевые слова
атом + протон + электрон + нейтрон.
(10)
В этом случае эквивалентная система уравнений будет иметь вид
E1 = U1*A2 +U2*A3 + U3*A4
E2 = -U1*A1 +U4*A3 +U5*A4
E3 = -U2*A1 -U4*A2 + U6*A4
E4 = -U3*A1 – U5*A2 -U6*A3 ,
(11)
где U1, U2, U3, U4, U5, U6 – произвольные коэффициенты, А1 – характеристика
атома дейтерия, Е1 – изменение этой характеристики, А2 – характеристика протона,
Е2 – изменение этой характеристики, А3 – характеристика электрона, Е3 – изменение
этой характеристики, А4 – характеристика нейрона, Е4 – изменение этой
характеристики. В случае ядерных реакций возможно превращение дейтерия в
обычный водород путем трансформации уравнений (11) в уравнения (4).
Аналогичным образом возможно создание моделей всех атомов таблицы
Менделеева. Важно заметить, что в нашей модели атома в явном виде вводится
управление через произвольные коэффициенты. В обычных моделях атомов,
которые выросли из планетарной модели Резерфорда, управления нет, что вызывает
недоумение – ведь во всех системах: биологических, социально-экономических,
технических – имеются иерархические системы управления. Наша модель атома
получила название «модель атома с блоком управления» [9], [10], она открывает
новые возможности в исследовании структуры вещества и энергии и ставит новые
задачи в проведении экспериментов и измерений.
Аналогичным образом можно построить модель молекулы воды, которая
состоит из двух атомов водорода и атома кислорода, в этом случае модель воды
«Штучний інтелект» 4’2002
223
Игнатьев М.Б.
2И
будет описываться уравнениями (11), где А1 – характеристика молекулы воды,
Е1 – изменение этой характеристики, А2 – характеристика первого атома
водорода, Е2 – изменение этой характеристики, А3 – характеристика второго
атома водорода, Е3 – изменение этой характеристики, А4 – характеристика атома
кислорода, Е4 – изменение этой характеристики. Более сложная модель молекулы
воды может быть построена, если будет учтено строение электронных оболочек
атомов водорода и кислорода и коллективные взаимодействия молекул воды.

Обычное трехмерное пространство и время образуют четырехмерный
мир. Мировая точка есть обычная точка в некоторый момент времени. Ее
четырьмя координатами являются X, Y, Z и время t, которые будем обозначать
через Х1, Х2, Х3, Х4. Событие есть физическое явление в мировой точке [14].
Четырехмерное расстояние Х9 между двумя мировыми точками Х1, Х2,
Х3, Х4 и Х5, Х6, Х7, Х8, интервал, определяется как
2
2
2
2
2
2
с (Х4 – Х8) – (Х1 – Х5) – (Х2 – Х6) – (Х3 – Х7) = (Х9) ,
(12)
где с – скорость света, (Х4 – Х8) – разница во времени. Возможны различные пути перехода из одной мировой точки в другую, и представляет большой интерес
исследование всего множества этих путей. К сожалению, в многочисленных работах по теории относительности этот вопрос не исследован, что в некотором смысле определило тупик в изучении свойств пространства и времени. Если применить
лингво-комбинаторный метод к этой проблеме, то после дифференцирования
уравнения (12) получим
А1*Е1 + А2*Е2 + . . . .+ А9*Е9 = 0 ,
(13)
где А1, А2, . . . А9 – частные производные от уравнения (12), а Е1 = dX1/dt,
E2 = dX2/dt, E3 = dX3/dt, E4 = dX4/dt, E5 = dX5/dt, E6 = dX6/dt, E7 = dX8/dt,
E8 = dX9/dt.
Отсюда в соответствии с вышеописанной методикой в структуре
эквивалентных уравнений будет содержаться 36 произвольных коэффициентов, а
структура эквивалентных уравнений будет иметь вид
E1 = U1*A2+U2*A3+U3*A4+U4*A5+U5*A6+U6*A7+U7*A8+U8*A9
E2 = -U1*A1+U9*A3+U10*A4+U11*A5+U12*A6+U13*A7+U14*A8+U15*A9
E3 = -U2*A1-U9*A2+U16*A4+U17*A5+U18*A6+U19*A7+U20*A8+U21*A9
E4 = -U3*A1-U10*A2-U16*A3+U22*A5+U23*A6+U24*A7+U25*A8+U26*A9
E5 = -U4*A1-U11*A2-U17*A3-U22*A4+U27*A6+U28*A7+U29*A8+U30*A9
(14)
E6 = -U5*A1-U12*A2-U18*A3-U23*A4-U27*A5+U31*A7+U32*A8+U33*A9
E7 = -U6*A1-U13*A2-U19*A3-U24*A4-U28*A5-U31*A6+U34*A8+U35*A9
E8 = -U7*A1-U14*A2-U20*A3-U25*A4-U29*A5-U32*A6-U34*A7+U36*A9
E9 = -U8*A1-U15*A2-U21*A3-U26*A4-U30*A5-U33*A6-U35*A7-U36*A8,
где U1, U2, ...,U36 – произвольные коэффициенты, которые могут быть использованы для задания различных движений на многообразии (12). Можно задать
сближение мировых точек по различным законам, в том числе и по закону Ньютона, и исследовать, как влияет тяготение и другие силы на время и пространство.
224
«Искусственный интеллект» 4’2002
Лингво-комбинаторная картина мира…
2И

Рассмотренный лингво-комбинаторный метод моделирования является
новым и может быть применен к самым различным системам. Комбинаторный
характер моделей позволяет изучать все множество траекторий на заданных
многообразиях типа (3). Из множества лингво-комбинаторных моделей
складывается лингво-комбинаторная картина мира, которую необходимо
учитывать в познании реальности. Следует заметить, что проблема верификации
таких моделей остается открытой, ее нужно решать в каждом конкретном случае
исходя из накопленного в конкретных науках материала и новых исследований, к
проведению которых может подтолкнуть использование новых моделей. Автор
осознает дискуссионность предложенного и будет благодарен за критику.

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
Игнатьев М.Б. Голономные автоматические системы. – М.; Л.; Изд.: АН СССР, 1963.
Игнатьев М.Б., Кулаков Ф.М., Покровский А.М. Алгоритмы управления роботамиманипуляторами. – Машиностроение, 1972.
Игнатьев М.Б., Мясников В.А., Покровский А.М. Программное управление оборудованием. –
Машиностроение, 1974.
Игнатьев М.Б. Введение в теорию вычислительных процессов. – ЛЭТИ-ЛИАП, 1980.
Игнатьев М.Б., Перовская Е.И. Имитационная модель города для проверки управленческих
решений // Тезисы докладов 33-го Европейского конгресса Ассоциации региональной науки. –
Москва. – 1993.
Ignatyev M., Mironovskaja M., Nefedova V. Trained automatic system for speech translation //
Abstracts of II International Conf. on Mathematical Linguistics. – Tarragona (Spain). – 1996.
Игнатьев М.Б. Новая модель атома с блоком управления // Тезисы докладов Второй междунар. конф.
«Устойчивость и управление для нелинейных трансформируемых систем». – Москва. – 2000.
Игнатьев М.Б. Адаптационные возможности атомов и молекул в рамках новой модели //
Вестник Петербургского отделения Метрологической академии. – 2000. – № 6.
Ignatyev M., Makina D., Petrischev N., Poliakov I., Ulrich E., Gubin A. Global computer model for
decision making support in telemedicine // Proc. of the High Performance Computing «HPC – 2000» /
Ed. by A. Tentner // 2000 Advanced Simulation Technologies Conference. – Washington D.C. –
2000. – P. 66-71.
Ignatyev M., Antipov I., Kraskovskaja O. Combinatorial Simulation Method for the Poorly
Formalized System Modeling // Proc. of the 2001 Summer Computer Simulation Conf. – Orlando
(USA). – 2001. – P. 18-25.
Ignatyev M., Pinigin G. Astronomical Education on Base of Virtual Consolidation of Observatories
and University Resources // Abstracts of the Joint European and National Meeting «JENAM –
2001». – Munich. – 2001. – Р. 253.
Игнатьев М.Б. Самоорганизующиеся робототехнические системы и игра в футбол // Сб. трудов
Первой междунар. конф. по мехатронике и робототехнике. – Т. 2. – СПб. – 2000. – С. 127-131.
Ignatyev M. Global projects and sustainable development // Proc. of the 1995 Western MultiConf.
Mission Earth: modeling and simulation for sustainable future. – Las Vegas. – 1995.
Игнатьев М.Б. Моделирование плохо формализованных систем // Моделирование. Основные
понятия и определения. Этический кодекс. – СПб, 2001.
Петров А.З. Пространства Эйнштейна. – М.: Физматгиз, 1961.
Волкова В.Н., Игнатьев М.Б. Секция кибернетики им. академика А.И. Берга Дома ученых
РАН. – СПб, 2002.
Combinatorial model of natural language text and its applications for exposition of sense and creation of
models for the poorly formalized systems are considered.
Статья поступила в редакцию 26.07.02.
«Штучний інтелект» 4’2002
225
Download