lanqandknowl

advertisement
А.А.Красилов
Язык и знание.
Семантическая грамматика русского языка
Излагаются основы и основания семантической грамматики,
состоящей из правил получения смысла текстов русского языка и
предназначенной для восприятия их программами вычислительных машин
при автоматическом решении задач по заданиям или автоматическом
синтезе программ. Основной категорией грамматики является понятие,
определяемое именем (термином) и значением (смыслом). Текстовые
фразы и абзацы после обработки по правилам принимают значение
(смысл), по которому после логического вывода получается решение
задания или определяется экологическая чистота текста. Устанавливается
соотношение между классической грамматикой (совокупность правил
образования слов и предложений) и семантической. Описываемая
грамматика предназначена для построения интеллектуальных систем
решения заданий пользователя.
Введение
Определение информатики, данное в [1], ориентировано на обработку
«научной информации». Это определение нами развито в [2]. Новое
определение отражает современное состояние информатики и связано с
проблемами обработки знаний. Самым важным вопросом обработки
знаний (в том числе и «научной информации»), представленных текстами,
является вопрос о смысле текстов. Современная оценка смысла текстов
связана с понятием «ключевое слово». Для написания статьи сработали
три стимула. Первый - упорная работа над созданием интеллектуальных
систем (Интелсис [3-6]), призванных обеспечить пользователя средствами
решения его задач, без привлечения программистов, средствами русского
языка. Второй - публикация лекции известного американского лингвиста
Н.Хомского [7] о сопоставлении и согласовании языка и знаний. Третий желание восстановить исследования Г.Фреге, Б.Рассела и Л.Витгенштейна
[8]. Первый стимул вызвал необходимость рассмотрения естественного
языка (ЕЯ) в качестве средства общения человека с компьютером, второй привел к критическому настроению от способов понимания смысла любых
текстов, передающих знания, а третий - привел к поиску исходной
сущности в понимании смысла текстов.
Истоки воззрений на смысл текстов находятся в трудах Лейбница [9],
который исследовал начала символического языка как универсального
средства анализа научного мышления. Клини в своей монографии [10]
показал примеры сопоставления ЕЯ и символического языка. Длительная
работа со средствами написания программ и развития интеллекта
компьютера позволили автору вплотную заняться изучением сущности
грамматики русского языка [11] и поиском алгоритмов понимания ЕЯ. Мы
ограничимся рассмотрением только русского языка, в предположении, что
для других ЕЯ сохраняется общий конструктивный подход для
формирования алгоритмов понимания текстов. В лекциях Хомского
делается попытка искать смысл текста с помощью средств классической
грамматики ЕЯ. Этот подход оправдывается только частично, даже в том
случае, когда над текстами строятся графы связи слов. Мы рассмотрим
альтернативный подход к методам определения смысла текстов. Проблема
сопоставления «язык-знание» сложна, поэтому необходимо сделать крутой
поворот от привычных правил понимания текстов к необычным (правда
только на первый взгляд).
Тексты на ЕЯ после ввода в память компьютера подвергаются
переводу во внутреннее представление, которое должно максимально
сохранять смысл исходного текста. Проблема перевода с одного ЕЯ
(исходный язык) на другой (объектный язык) состоит в построении текста
на объектном языке таким образом, чтобы смысл исходного текста
сохранился максимально (или полностью). Требованию сохранения
смысла должны удовлетворять все рассматриваемые задачи. При переходе
к внутреннему представлению текстов возникает реальная и разрешимая
проблема построения универсальной грамматики и универсального языка,
который мы именуем языком «Лейбниц». Универсальная грамматика не
пригодна для всеобщего использования человеком, она выполняет
специальные функции построения Интелсис или программ перевода.
На основе алгоритмов понимания ЕЯ представляется возможным
построение новой грамматики русского языка, которая по составу
допустимых ею текстов не отличается от классической грамматики, но
которую понимает и человек, и компьютер. Классическая грамматика
русского языка [11] нами именуется синтаксической грамматикой (СиГ),
поскольку она содержит правила построения слов, словосочетаний и
предложений, а новая грамматика - семантической (СеГ), поскольку она
дает правила «вычисления смысла» всего текста. Именно СеГ русского
языка является предметом нашего рассмотрения. Язык, порождаемый СеГ,
называется языком профессиональной прозы (ЯПП). Профессиональность
ЯПП определяется составом лексикона. Язык поэзии можно и надо
изучать с точки зрения передачи знания, но он очень уж активно
использует принцип умолчания.
Научить компьютер пониманию ЕЯ - это главная цель построения
СеГ. Другая цель состоит в обучении пользователя общению с
компьютером, в котором содержатся знания об определенных предметных
и проблемных областях. Указанные цели являются взаимодополняющими
и не противоречат ни современной грамматике русского языка, ни
запросам обладателя компьютера, не знающего средств написания
программ. С помощью компьютера реализуется соотношение логика-языкреальность через деятельность человека. Правильность отражения знаний
о действительной или воображаемой реальности выражается отсутствием
противоречий в знаниях и подтверждается практической проверкой.
Философские концепции типа «связь логики с реальностью», «логическое
отображение реальности посредством языка» или «решение проблемы
связи знания, языка и реальности» предлагается проанализировать
читателю. Основная концепция статьи состоит в построении и применении
СеГ для ввода, обработки и вывода нового знания с помощью программы
Интелсис на основе знаний и запросов пользователя [5].
Исходными лексемами, как начальными кирпичиками текстов в СиГ,
являются слова. По традиции в словах ищется смысл. Все толковые
словари составлены по принципу «слово - смысл слова». Эта традиция и
является камнем преткновения для нашего рассмотрения. Толковые
словари обобщают каждое слово по многим областям их применения, но
не по всем (!). Иногда слову придается несколько смыслов в зависимости
от контекста. Кроме этого, наш критический взгляд направлен на
ограниченные возможности СиГ, которая не рассматривает ряд лексем
(например, дата или время). Построение же СеГ связано с расширением
возможностей грамматики ЕЯ. Заметим, что запись фраз по правилам СеГ
должна удовлетворять правилам СиГ, но не наоборот.
Информатика проникла во все отрасли знания [2]. Но она доступна
пока только программистам, а с помощью готовых программ другим
пользователям компьютеров, для которых подготовлена программа.
Программы стоят дорого. Необходимо обеспечить каждого пользователя
средствами самому решать свои задачи с помощью компьютера без
написания программ, а для этого надо построить инструментарий
Интелсис с учетом языка данной группы пользователей, на основе их
знания, которые должны быть переданы в Интелсис на ЯПП.
СеГ построена не на голом месте. Она понималась человеком
интуитивно. Развитие СеГ шло от методов программирования, от развития
средств общения с компьютером. После появления первой
вычислительной машины (ВМ) были осмыслены понятия адреса и
содержимого ячейки памяти. Понятие адреса постепенно развилось в
понятие идентификатора, затем в понятие имени и, наконец, достигло
своего апогея - стало использоваться понятие термина. Понятие
содержимого ячейки памяти развивалось чисто технически. Постепенно
рассматривались содержимое одного двоичного разряда, байта - 8
двоичных разрядов, слова - 16 или 32 двоичных разрядов, набора слов,
последовательности наборов слов и т.д. Смысл содержимого выявлялся
только при выводе на печать или экран последовательностей
преобразованных нулей и единиц, только тогда человек мог увидеть
внешнее представление содержимого. Аналогично этому рассуждают об
адресе и содержимом «ячеек памяти» человека. Адресом в письме и речи
является термин. Только через внешнее представление (речь, письмо,
действия) можно понять содержимое «ячеек памяти» человека.
Трудно рассчитывать на полное описание СеГ в объеме статьи. Мы
рассмотрим только ее основы. Чтение изложения СеГ или фрагментов
грамматики языка Лейбниц не требует специального знания, как и чтение
грамматики ЕЯ. При знакомстве со статьей может показаться, что СеГ
учит программированию. Это не так, поскольку Интелсис воспринимает
задания, представленные в СеГ, которые не являются конкретными
программами, и лишь условно их можно назвать логическими
программами. Процедурные языки - языки приказов - обеспечивают
пошаговое описание (это допускается в СеГ), как это делается при
описании алгоритмов, но при этом не используются формальные языки.
1. Основания для создания новой грамматики
Создание и применение Интелсис требует понимания смысла текстов,
поскольку она работает на основе знаний, получаемых от специалистов.
Кроме словесных текстов знания передаются в виде чисел, символов, дат,
таблиц, записей, функций и программ. СиГ не содержит правил
построения таких объектов для передачи знаний. Поэтому каждая группа
создателей программ для компьютера самостоятельно вводит свои
грамматические правила, которые неизвестны другим пользователям даже
той же специальности. Только использование единой СеГ позволит
применять Интелсис каждому специалисту.
Обратим внимание читателя на то, что фразы, недопустимые на ЕЯ
становятся допустимыми в СеГ, если выполнены ее правила. Обычно
используют классический пример правильной фразы Я наблюдал как
прощаются друзья и сопоставляют ее с неправильной фразой Я слышал
прощание. Последняя фраза становится правильной в поэзии или в других
областях знаний. Она является правильной и в СеГ. Если условно говорить
о синтаксическом и семантическом русском языке, порождаемых
соответствующими грамматиками, то первый шире по составу фраз
второго в силу использования в нем большого контекста для понимания
слов. Но сопоставление языков по передаваемому для Интелсис смыслу
приводит к обратному соотношению.
Основной тезис СеГ состоит в следующем. Исходный смысл
содержится только в термине, который может быть и однословным. Слово
не несет смысла, если оно не является термином. Смысл всего текста
состоит в том, чтобы быть истиной. Если смысл текст - ложь, то он
содержит некоторое противоречие. Таково требование для каждого текста
и требование Интелсис к фразам, передающим знание компьютеру.
В процессе построения правил СеГ необходимо определить объекты
(в частности, слова) и понятие знания. Определение объектов является
скорее техническим делом. А вот определение знания требует некоторого
усилия для преодоления классического (или общеупотребительного)
понимания этого термина. При этом надо учитывать, что определение
знания обычно формировалось человеком для человека, умеющего
интуитивно доосмысливать каждое понятие. Теперь определение знания
надо построить так, чтобы возникло понимание определения
компьютером. Заметим, что после формирования нового определения
знания, станет ясным, что оно годится и для человека, иначе он не
приобретет возможности общения с компьютером. Итак, главная цель
описания СеГ состоит в определении алгоритма понимания текстов
расширенного русского языка по правилам этой грамматики.
В основе деятельности человека лежат знания, при общении между
людьми знания выражаются на каком-либо ЕЯ. Для разрешения вопросов
или проблем с помощью компьютера необходимо иметь средства
представления знаний. Эти средства имеют определенный уровень
интеллектуальности. Для обучения компьютера чаще всего используются
процедурные представления, имеющие вполне определенные недостатки
(их дюжина), компенсируемые многократным составлением программ.
Существуют многие формализованные или формальные языки
представления знаний, которые помимо своего профессионального языка
должен знать пользователь.
Представление знаний в памяти Интелсис требует понимания того,
что знания, передаваемые текстами ЕЯ, разложимы на элементы,
которыми может оперировать Интелсис. Элементарным знанием является
пара <имя, значение>, представляющая простой факт. Имя изображается
термином, а значение имеет двоякую форму представления: внутренняя
форма, которую можно понять только при анализе кодов в ячейках
памяти, и внешняя форма, которая выражается лексемами. В примере
погода холодная термин погода - имя, а термин холодная - значение.
Логическая связь или отношения фактов (композиция) образует простое
знание или фразу - часть законченной мысли. Внешнее представление
простого знания выражается формулами. В примере погода холодная и
идет дождь использованы два факта и логическая связка и. Логическая
совокупность простого знания, обычно представляемая набором
предложений ЕЯ, называется абзацем, который выражает законченную
мысль. Отдельную законченную мысль мы называем прикладной
аксиомой, и пользователь уверен, что она является истиной. Прикладная
аксиома определяет некоторый предмет, его свойства, явление или
действия с предметами. Совокупность прикладных аксиом определяет
базу знаний (БЗ). При анализе всего введенного в память Интелсис знания
прикладная аксиома может войти в противоречие с ранее введенными
аксиомами, тогда пользователь решает сам, как выйти из такой ситуации.
Важно автоматически найти такие противоречия.
В БЗ Интелсис заведомо введены фундаментальные знания (они
обычно содержатся в книгах и учебниках школы или вузов), а затем
вводятся конкретные профессиональные знания, содержащиеся в данной
специальности и в запросах. Запросы пользователь формирует сам,
включая дополнительные знания. В БЗ накапливаются две вещи: имена
понятий, в которых пользователь выражает профессиональные знания, и
прикладные аксиомы, логически связывающие понятия. Эти два главных
атрибута представления знаний рассматриваются.
Основные сложности ЕЯ препятствуют его изучению и
использованию при построении машинных систем работы с текстами ЕЯ.
Это и значительные размеры контекста для определения понятия, и
многозначность слов, и большое число грамматических категорий СиГ, и
огромный размер словаря. Первая сложность состоит в том, что понятие в
ЕЯ имеет обширный контекст для его определения. Это означает, что
каждое понятие в конечном счете имеет определение, но оно локализуется
весьма сложно (возможно и не в данном тексте). Например, контекстом
данного понятия может быть память человека, содержимое книг
библиотеки и др. Вторая сложность состоит в том, что ЕЯ использует
синонимы так, что один и тот же термин может иметь различные значения
в различных контекстах. Еще одна сложность использования ЕЯ - это
число грамматических категорий СиГ, которое оценивается несколькими
сотнями. И, наконец, последняя сложность - наличие огромного
словарного запаса ЕЯ. Этих четырех черт ЕЯ достаточно для понимания
сложности работ с ним.
Поиск противоречий между элементами знания сводится к проблеме
отладки БЗ (экологии знания [12]), которая состоит в определении
локальной или глобальной непротиворечивости, независимости и полноты
конкретных знаний. Проблема отладки разрешается так. При
последовательном вводе знаний по абзацам каждый раз решается
логическое уравнение, а затем определяются свойства БЗ. По этому
решению можно судить о непротиворечивости и/или независимости
добавляемого знания. Не следует сбрасывать со счетов традиционные
методы отладки знаний. К ним относятся: установление грамматической
правильности фраз ЯПП, контроль за точным выполнением
количественных
ограничений,
алгоритмическая,
системная
и
концептуальная отладки. Все эти методы, как обычно, имеют
программную реализацию и осуществляются автоматически. Смысловая
отладка знания в Интелсис по существу реализуется автоматически или с
участием пользователя на этапе ввода знаний и внесения изменений в
соответствии с СеГ.
Повторы фактов или утверждений о фактах легко устраняются, они
никогда не изменят базового знания. На них следует обращать внимание
только для того, чтобы охарактеризовать источник знания, что скорее
всего относится к области эмоциональных исследований. Интелсис
автоматически находит локальные или глобальные противоречия.
Локальные противоречия возникают часто, они могут быть даже
полезными для «чистки» знания. Глобальные противоречия требуют
существенного пересмотра знаний. В полной мере к экологии знаний
можно отнести проблему полноты. Достаточно ли знаний для решения
заданий компьютеру? Если решение задания состоит из новых (или
известных) фактов, то знание полно, иначе нужно пополнение, поскольку
решение содержит утверждения о фактах. Интелсис подскажет, в какой
части такое пополнение необходимо осуществить.
Проблемы использования различных видов знания чрезвычайно
важны. В современных компьютерах используется алгоритмическое
(процедурное) знание, обычно представленное программами. Кроме этого
вида знаний имеются лингвосемиотические знания (описательные, плохо
формализуемые), семантические знания (или языковые), концептуальные
знания (понятийные, применяемые в системах программирования),
фактографические знания (данные из базы, используемые через СУБД),
теоретические знания (или логические, применяемые вручную или через
СУБЗ) и кибернетические знания (технологические, конструкторские или
системные), которые учитываются (или не учитываются) в процессах
разрешения организационных проблем. СеГ ориентирована на все эти
виды знаний. Сложность здесь вызвана тем, что переход от представлений
различных видов знания к алгоритмическому знанию приводит к потере
части знания. Например, было задано программисту решить задачу об
устойчивости двух фирм. У программиста имеется некоторое понимание
метода решения этой задачи, поэтому он проявляет инициативу и решает
задачу подходящим образом, не задумываясь над огромными материалами
о деятельности фирм. Другой подход состоит в том, чтобы сообщить
знания всех видов Интелсис и сформулировать ему задание в
пользовательской постановке.
2. Знаки и лексемы
Терминальный алфавит СиГ русского языка (как и любая грамматика)
связана прежде всего с алфавитом (ТАСиГ), включающем два регистра
кириллицы, цифры и знаки препинания. Терминальный алфавит СеГ
(ТАСеГ) расширен знаками, которые имеются на клавиатуре компьютера.
Например, в грамматике русского языка не рассматриваются буквы
латинского алфавита, знаки +, *, #, ^, & и др. Массовое обучение русскому
языку пока не предусматривает изучение таких знаков. Если в некоторой
области знания терминальный алфавит недостаточен, то он может
пополняться другими знаками, словами или комбинацией знаков и слов.
Под лексемами понимаются слова, числа, строки в кавычках, знаки
препинания и другие графические знаки. Из простых лексем в СеГ
строятся сложные лексемы. Круг лексем СиГ ограничен словами, целыми
числами и строками (прямая речь и условные наименования), сложные
лексемы не строятся. К простым лексемам в СеГ относятся: слова для
обозначения величин, имен, модальностей, операций и др., числа
(расширенные числительные по разрядам), символы и строки, константы
для обозначения «нулей» и «единиц» (ложь и истина для логических
высказываний, null для нулевого множества, unit для единичного
множества, nil для нулевой ссылки или цепочки символов и skip для
нулевого действия). Лексемы имеют собственное значение.
Однородные лексемы, составленные из одного и того же алфавита
символов, группируются в набор, который называется типом или
множеством допустимых лексем для данного понятия. Сложные лексемы
группируются из простых, к ним относятся: строки - последовательности
символов в кавычках, массивы - списки лексем одинаковой природы
(одного и того же типа), записи - списки лексем любой природы (любого
типа), таблицы - записи из столбцов и строчек, комплексные числа - пары
двух чисел, дата - запись из чисел и точек или чисел и слов, время - записи
из чисел и точек (или слов). Записи, таблицы, даты и др. часто
употребляются для передачи значений некоторых фактов. Их учет
обязателен в текстах, вводимых в Интелсис. Они могут изображаться в
широком диапазоне комбинаций символов и слов. Сложные лексемы
также группируются в наборы, называемые составными типами.
Если ТАСеГ является строительным материалом для лексем, то
лексемы являются строительным материалом для терминов и их значений.
Лексемы только внешне представляют смысл термина, а внутреннее
представление отражается в памяти Интелсис кодами, в памяти человека совокупным динамическим состоянием групп клеток мозга. В каждой
области знания определяются свои термины и используются все или
некоторые лексемы. Например, H2O в химии, F(X) в математике и физике,
Белый Дом в политике, 1 января 2001 года во многих текстах истории
как термин. Такие термины относятся к специальным наукам.
Литературный язык или язык поэзии почти не использует такие термины.
Однако эти языки должны передавать смысл и, следовательно, должны
иметь средства для понимания их текстов. Лексемы в СеГ определяются
формально для точного их понимания компьютером. Формализм для
построения лексем весьма прост, он фиксирует широко известные
обозначения с вариацией форм. Например, правильная запись даты 30
января 1997 года может быть заменена записями 30.01.97, или 30.01.1997,
или тридцатое января одна тысяча девятьсот девяносто седьмого
года. Такими же свойствами обладают и записи времени.
Числа имеют привычный вид, исключение составляют представления
очень больших или очень малых чисел. Логические значения - это по
большей части два слова: ложь и истина. Строки - это произвольные
последовательности символов, заключенные между кавычками. В СеГ
рассматриваются агрегаты, которые представляются списками простых
лексем, заключенными в скобки.
После вступительных пояснений к базовым понятиям СеГ, можно
перейти к определению грамматики. Определение грамматики построено в
математической лингвистике. Оно строится по шаблону в форме четверки,
атрибутами которой являются:
<терминальный алфавит, нетерминальный алфавит,
правила построения текстов, нетерминальный символ>.
Терминальный алфавит составляется из графических знаков
конечного числа. В СиГ такой алфавит включает буквы, цифры и знаки
препинания. В СеГ алфавит составляется из графических знаков, которые
имеются на клавиатуре устройства ввода текстов. Нетерминальный
«алфавит» составляется из терминов грамматических категорий или
грамматических понятий (также конечного числа). Правила построения
текстов даются описательно, они составляют инструкцию о записи
правильных слов и фраз. Из числа терминов грамматических категорий
выделяется один символ, который именует ЕЯ. Мы рассматриваем имя
русский язык.
3. Слова и имена
Особое место в текстах занимают лексемы - слова. В СиГ слова
состоят только из букв, в СеГ слова могут состоять из букв и цифр (см.
H2O) и разделяются пробелами. Слова должны начинаться с буквы и
продолжаться буквой или цифрой. Еще одна особенность записи слов
состоит в том, что большие и малые буквы не могут отождествляться.
Слова-термины Термин, термин и «теРмин могут иметь различный
смысл, если только они не являются синонимами. Таким образом в СеГ
понятие слова более общее по сравнению с понятием слова в СиГ. Все
слова СиГ используются в СеГ, но не все слова СеГ могут быть поняты в
СиГ.
Некоторые слова являются именами, они записываются с заглавной
буквы, и это свойство сохраняется во всем тексте. Здесь нет ничего
необычного. Смысл каждого конкретного имени определяется заведомо.
Понятия слово-термин и имя-термин в этом смысле идентичны. Например,
Иван и человек - два термина с одинаковыми или различными
характеристиками, соединенными термином «и». Термин человек может
выступать как метапонятие, составленное из всех учитываемых имен.
Тогда текст человек Иван выступает как два различных термина. Этим
самым создается путь для обобщения имен. Таким образом соединяются в
общую грамматическую категорию собственные и несобственные имена.
В СеГ меньше грамматических категорий, чем в СиГ.
В СеГ выделяются два класса слов: стандартные (широко
распространенные в ЕЯ) и профессиональные (введенные самими
разработчиком или пользователем знаний). К стандартным относятся
слова, которые входят в термины (если, то, когда и др.) или являются
терминами (знание, запрос, понятие и др.). К пользовательским
относятся любые слова, введенные в процессе заполнения БЗ или
составления запроса компьютеру. Каждое слово имеет две части: основу и
конец слова. Конец слова может быть пустым, совпадать с окончанием в
смысле СиГ, содержать суффиксы и окончания или часть окончания.
Конец слова должен сохраняться в словаре для получения информации о
слове при выводе его на экран или при печати. Такие грамматические
категории как суффикс, корень, префикс или окончание в СеГ
отсутствуют. Обратный перевод (трансляция) языка Лейбниц на ЯПП
требует знания СиГ.
Предложение, вводимое в базу или используемое в запросе, не
должно начинаться заглавной буквой. Интелсис не всегда точно может
распознать случаи использования заглавных букв. Однако в большинстве
случаев распознавание будет удачным.
Мы рассмотрели простые имена, состоящие из слов. В СеГ
описываются и сложные имена, к которым относятся квантор, формула,
функция, индексирование, именование, отрезок, преобразование,
квалификация, атрибут. Лингвисты такие имена могут и не знать. Мы
ограничимся краткими пояснениями таких имен. Для пользователя (кроме
математика) сложные имена скрыты стандартными терминами, которые
описываются в полном изложении СеГ.
Имеется два квантора: квантор всеобщности (для) и квантор
существования (найти). В речи и письме они используются часто.
Например, квантор всеобщности используется в предложениях: для
каждого законопослушного гражданина конституция является
руководством в жизни, для дома и семьи в магазине имеются товары,
кванторы существования используются в предложениях типа: найти
скорость, при которой спутник может выйти на орбиту,
существует хорошая жизнь в отдельных районах Земли. Первый
квантор позволяет ввести в Интелсис требование о справедливости
высказывания (конституция является руководством в жизни), второй ориентирует Интелсис на задачу или проблему, подлежащие разрешению с
помощью Интелсис. Квантор именует в конечном счете истину. Здесь
использованы стандартные слова и термины: для, для каждого, найти,
существует.
Формула или функция (зависимость между величинами) именуют
некоторое гипотетическое значение, которое может быть получено в
результате его вычисления. Мы часто используем фразы с операциями:
сумму налога вычесть из суммы дохода. Знающий ЕЯ и не подозревает,
что кроме формул он использует и функции. Следующие фразы дают
примеры функций: скорость зависит от пути и времени, у F имеется
аргумент X и т.п. Имеются частные разновидности функций, зависящие
от дискретной величины и именуемые индексированием. Например,
числовые массивы задают дискретную функцию от аргумента целочисленной величины (номер позиции массива). Из массива
ведомость взять вторую строчку - пример использования
индексирования. А фраза Из массива ведомость взять строчки от
второй до седьмой определяет в СеГ отрезок массива.
Аналогично индексированию устроена дискретная функция
именования, когда значение определяется в зависимости от имени.
Наиболее подходящим примером являются таблицы, в которых имеются
столбцы и строчки. Каждый столбец поименован, а строчки
пронумерованы. Например, фраза Из таблицы сводка взять колонку
зарплата и пятую строчку содержит имя колонки, из которой
выбирается число.
В СеГ определены операции преобразования, квалификации и
атрибута, которые приводят значения к требуемому типу данных,
реализуют выбор некоторого свойства данного или части его значения:
число А преобразовать в тип вещественный, число А считать
относящимся к типу целый, использовать размер В - это реальные
примеры использования указанных операций. Конечно, сложные имена
используются особенно часто в текстах фундаментальных наук. В
литературном языке можно найти немало примеров сложных имен.
Например, конкретный почтовый адрес является сложным именем.
Грамматику любого языка в том числе и языка, порождаемого СеГ,
характеризуют исходные фундаментальные грамматические понятия.
Такими фундаментальными понятиями являются: слово, лексема, знак,
термин, понятие, лексикон, абзац и др.
4. Понятия и лексиконы
В основе СеГ лежит одна из фундаментальных категорий - понятие. В
соответствии с нашим пониманием классификации видов знания дадим
семь определений термина понятие. Понятие - это форма мышления,
отражающая существенные свойства, связи и отношения предметов,
явлений или процессов. Понятие - это языковая категория (напоминающая
фразеологические обороты или выражения в СиГ), отражающая
существенные свойства, связи и отношения единиц языка или
составляющие единицы языка: слов, комбинаций слов и знаков, а также
текстов этого языка. Понятие - это сущность всякого понимания
действительного или мыслимого, предназначенная для истинного
описания реального мира. Понятие именуется термином, который является
главным
языковым
элементом,
определяемым
обычно
в
терминологическом словаре как целое и неделимое. Понятие - это
совокупность следующих атрибутов: термин, множество возможных
значений (смыслов) понятия, текущее значение, дата введения термина,
сорт и тип понятия, терминологическое определение понятия,
характеристика контекста. Понятие - это результат познания
действительности, выражаемый языковыми средствами через имя понятия
и значение имени, получаемое в результате познания. Понятие - это
система приведенных выше определений.
Определение термина, включает: одну или несколько основ вводимых
слов и некоторое число знаков, исходные концы слов, класс и сорт
понятия, тип значений понятия, ссылку на значение термина, текущее или
постоянное значение термина, ссылку на неформальное определение
термина и дату введения понятия. Указанные атрибуты позволяют
построить формальное определение понятия. Класс, сорт и тип термина
рассмотрены ниже. Каждый термин имеет значение, полное имя набора
значений или константное значение, они относятся к определению
понятия. Некоторые понятия определяются абстрактно, только термином,
они будут доопределяться в процессе поиска смысла текста по контексту.
Процесс описания понятия - это введение его имени и характеристик.
Стандартные и нестандартные (из предметной области) понятия вводятся
знаниеведом (это новое понятие для обозначения работника со знаниями в
информатике) на этапе создания базы знаний. Новые понятия для
переменной части лексикона вводятся пользователем в процессе
формулировки запроса или ответа на вопросы Интелсис.
Термин - основная единица ЯПП. Терминами обозначаются понятия,
соответствующие предметам, явлениям или процессам. Каждый термин
определяется строго своими характеристиками. Различным терминам
могут приписываться одинаковые характеристики. Термин обладает
свойством непроницаемости - внутри термина недопустимо использовать
термины или их части. Разновидности терминов образуются благодаря
различным их составам или изменением основ слов данного термина.
Термин может задаваться фразеологическим оборотом (фразеологизмом).
Значение термина может быть задано вместе с термином, тогда он
отражает факт (Х равен нулю), значение термина может подразумеваться,
тогда термин отражает логическую связь с другими терминами, значение
термина может отсутствовать, тогда понятие является неопределенным.
Омографы-термины (одинаковые по написанию, но с различными
значениями) допустимы в том случае, когда они определяются в
различных БЗ. Значениями могут быть числа, символы, строки, тексты, их
композиции или действия.
Из этих определений следует, что термин может принимать значение
из известного множества значений и тем самым иметь текущее значение.
Ввод термина в Интелсис автоматически снабжается датой (дата введения
термина в языке не всегда известна), термин относится к определенному
сорту или классу понятий.
Набор грамматических категорий СеГ составляет ее главные понятия.
Определены следующие категории: тип, понятие, синоним, метапонятие,
исключение (для предметной области), операция, правило, программа (для
проблемной области), библиотека, знание, прагма, атрибуты (для области
знаний), запрос, шаблон, анкета (для области заданий), система. Эти
метапонятия СеГ ясны в своем существе. Поясним лишь некоторые
категории.
Термин и его синоним именуют одно и то же понятие. Для Интелсис
они характеризуются одинаково. Синонимы заменяют друг друга, они
могут различаться в словах и/или знаках. Синонимы образуют
(определяют) синонимический ряд. Выбор основного синонима остается
за пользователем и определяет читаемость выдаваемого результата,
поскольку результат печатается в основных терминах. Синонимы
образуют словарное богатство ЯПП, делающее его более образным и
выразительным. Синонимия - явление профессиональное, в разных
областях знаний она создается различными путями. Используемые в
качестве термина фразеологические обороты для краткости и
лаконичности могут применяться сокращения или аббревиатура.
Антонимы должны выражаться логически через зависимость от введенных
ранее терминов.
В ЯПП представление синонима расширено - можно вводить
синонимы любых терминов. Например, некоторое предложение может
быть термином, и для него можно определить один или несколько
синонимов, состоящих из одного слова. Знания и запросы для Интелсис
передаются компьютеру в соответствии с правилами СеГ при
формировании БЗ, которая и является программой решения определенного
класса прикладных задач.
Метапонятие - это совокупность понятий, поименованная некоторым
термином. Например, метапонятиями являются болезни, симптомы,
методы, звери, люди и т.п. В этом перечислении указаны имена классов.
Метапонятия вводятся для задания классификационных понятий.
Значениями метапонятия являются понятия, входящие в совокупность.
Правила задаются для формирования новых фактов по имеющимся.
Их применение становится необязательным, если не возникает
определенная композиция имеющихся фактов. Легко привести
математический пример правил - аналитическое дифференцирование или
интегрирование выражений (формул).
Шаблон и анкета - это фиксированная форма построения запроса в
дополнении к запросам, представленными фразами. При работе по
шаблону задается меньше информации, но и круг решаемых задач также
становится уже. При работе по анкете пользователь только отвечает на
вопросы анкеты и получает решение задачи (например диагностики).
Совокупность терминов (понятий) вместе с их реальными
характеристиками для Интелсис определяет лексикон данной области
знания. Таким образом, лексикон - это словарь определений понятий для
данного ЯПП. Определения используются для идентификации терминов,
определения контекста термина и для построения логических выражений,
представляющих знания. Идентификация термина является сложным
процессом формирования термина из фразы, поиска его в лексиконе и
извлечения необходимых в данном рассмотрении атрибутов определения
понятия, идентифицируемого данным термином.
Лексикон состоит из двух главных частей: стандартной и переменной
частей. Стандартная часть предназначена для обслуживания классов ЯПП
и состоит из общеупотребительных терминов, используемых при
формировании БЗ, переменная часть формируется в процессе анализа и
ввода заданий. Например, термин сложение - общеупотребителен, он
обозначает сложение, например, чисел. Такое понятие попадает в
стандартную часть лексикона. Термин интеграл используется в
математике, он попадает в переменную часть лексикона языка математики.
Стандартные части лексиконов формируются в библиотеку стандартных
лексиконов по отраслям знаний. Уместно заметить, что такие библиотеки
должны стандартизоваться в масштабе страны так, чтобы стандарт
обязывал пользователя придерживаться его. В отличие от имеющихся
стандартов на термины и определения предполагаемый стандарт должен
содержать по возможности все синонимы и характеристики понятия,
соответствующие набору атрибутов понятия из БЗ.
Лексикон формируется с помощью инструментальной системы,
которая предназначена для решения следующих проблем: автоматическое
или автоматизированное составление словарей по текстам для
представления знания, автоматизированное составление словаря по
автономно задаваемым терминам вместе с их характеристиками, также
автоматизированное составление толкового терминологического словаря
для некоторой предметной области по СеГ, автоматизированная проверка
текстов с лексической точки зрения для обнаружения грамматических
ошибок в использовании терминов по СеГ, использование лексикона в
трансляторе ЕЯ на формальный язык в качестве таблицы идентификаторов
при идентификации одно- или многословных терминов, создание
библиотек лексиконов для реализации операций сопоставления,
формирования или модификации лексиконов при использовании
имеющихся или построении новых лексиконов, подготовка материала для
издания толковых терминологических словарей для человека.
Если формы представления данных известны (это лексемы), то менее
ясны методы представления знаний, которые задаются цепочкой
терминов, определенных в лексиконе. Кроме этого, знания могут быть
представлены таблицами, массивами, алгоритмами или программами
(нельзя исключать алгоритмические знания, которые уже накоплены),
формулами, которые часто используются не только в текстах
фундаментальных наук. Не всякий текст, написанный в соответствии с
СиГ может пониматься Интелсис, если для него не составлен подходящий
лексикон.
Особое место в знании занимают факты. Представление фактов
можно проиллюстрировать на таких примерах: <идет дождь, истина>,
<снег не падает, ложь>, <возраст юноши более 20>, <лось является
животным>, <птица не относится к лососевым>, <стол есть мебель>.
Интелсис использует факты, введенные в БЗ или в запрос и выводит в
конечном счете новые факты.
5. Фразы и абзацы
Перейдем к рассмотрению определения ЯПП. Основные принципы,
характеризующие ЯПП по сравнению с ЕЯ, можно сформулировать так.
Определение понятий в ЕЯ помещается в памяти человека или
находится в контекстах большого объема (включая книги библиотеки), а
определение понятия в ЯПП помещается в памяти Интелсис (в его
лексиконе) или в контексте малого объема (в контексте описании данного
знания, передаваемого для Интелсис). Контекст можно определить
формально так. Контекст - это часть текста, в котором помещено
определение понятия и его использование. Контекст в ЕЯ охватывает
данный текст и еще ряд текстов, не доступных в данный момент для
изучения. Контекст для каждого понятия в ЯПП должен помещаться в
памяти Интелсис таким образом, чтобы идентифицировать каждое
понятие, заданного в текстах терминами. Для создания таких контекстов
формируется лексикон. Практически это означает, что вместе со знаниями
(с БЗ) в Интелсис передается лексикон, содержащий определения каждого
понятия.
Избыточного текста в ЕЯ не существует. Кажущийся избыточным
текст (вводные слова и предложения) передает эмоции человека, его
состояние и умение, что обеспечивает передачу некоторого смысла. В
ЯПП могут использоваться избыточные слова и тексты для передачи
эмоциональной информации. Однако они не создают контекста для
решения запроса и могут не рассматриваться при анализе текстов ЯПП.
Конечно, это утверждение верно в том случае, если лексикон не содержит
в своем составе избыточных слов или терминов. По-видимому, если
система учитывает избыточные слова в качестве элементов знания, то это
есть программная система (или Интелсис), которая воспринимает и
изучает, например эмоции человека.
Среди утверждений могут находиться произвольные комментарии,
представляющие избыточные записи для Интелсис и поставляющие
информацию для человека. Интелсис игнорирует символы комментария
или сохраняет их для человека. Прагмы системой не игнорируются, а
применяются для организации технологии обработки знаний, их
содержание никоим образом не влияет на основные (рабочие) знания и не
изменяет их по существу, прагмы влияют на способы и формы
представления и обработки знаний.
Кратко определим ЯПП так: ЯПП - это часть ЕЯ, используемая в
данной профессии и использующая расширяемый лексикон, содержащий
определения терминов. Формализованные или формальные языки могут
быть частью знаний по некоторым специальностям. К преимуществам
ЯПП следует отнести такие факторы:
1. Поскольку лексикон задается заведомо при первичном
формировании знаний в памяти Интелсис, легко реализовать
синтаксический контроль над правильностью формального представления
знаний в этом лексиконе и самих текстов (реализуется формальная
автоматическая отладка текстов).
2. ЯПП поддержан формальным языком Лейбниц (универсальной
грамматикой), что также обеспечивает автоматизацию семантической
отладки текстов. Поддержка выражается в том, что для текстов знаний
подключается транслятор ЯПП на формальный язык, который
контролирует
тексты
автоматическими
средствами.
Всего
обнаруживаются 13 классов ошибок.
3. Для специалиста данных областей знаний ЯПП является
естественным профессиональным языком, что обеспечивает специалисту
упрощение в общении его с компьютером по элементам знания при
наполнении БЗ (обеспечение дружественного интерфейса).
4. При выполнении условий предыдущих пунктов создается ситуация
для общения с компьютером без участия знаниеведа. Это обстоятельство
обеспечивает отторжение разработок знаний и запросов от программиста
и процедурного программирования. Роль отторжения велика.
5. Освоение любой Интелсис должно обходиться без емких
руководств. Для этого достаточно самой системы, которая общается с
пользователем на его ЯПП. Обучение должно предусматривать
исключение из практики применения Интелсис пособий и руководств,
особенно в тот момент, когда идет производственная работа (как с играми
на компьютере).
6. Система составления и использования лексикона предусматривает
возможность пополнения его новыми терминами в процессе эксплуатации
самой Интелсис. Развитие ЯПП в процессе работы является естественной
основой для развития любой науки.
7. Настройка Интелсис проходит следующие стадии: набор текстов
знания, прогон текстов для выбора и формирования лексикона, прогон
знаний при вводе его в БЗ, контрольный ввод знаний в базу для
верификации на контрольных примерах. ЯПП обеспечивает параллельную
работу с лексиконом и знаниями.
8. На ЯПП можно описать любые знания и он понятен любому
специалисту данной предметной области (в настоящий момент
исключение составляют предметные и графические знания).
9. Применение ЯПП устраняет необходимость обучения пользователя
формальному языку, обычно доступного программисту или теоретику
(которые в принципе могут использовать формальные языки для передачи
знаний и запросов).
10. ЯПП легко (и автоматически) совершенствуется благодаря
расширению лексикона и БЗ как стандартной части, так и прикладной.
Основной единицей языка является фраза, структура которой
совпадает со структурой предложения в СиГ. Но из-за расширения
лексики СеГ под фразой подразумевается часть текста, которая
рассматривается автономно и, в частности может быть и предложением.
Например, А сложить с В является фразой. Условно фразу можно
определить как часть текста, имеющую вычисляемый смысл.
В СеГ отсутствуют категории типов предложений, частей речи (в СиГ
их 15), частей предложения и др. Однако, если применять СиГ, то в
текстах можно обнаружить все такие категории. В СеГ Фразы, абзацы и
тексты из абзацев полностью состоят из терминов двух типов: терминоперанд (будем именовать кратко терманд) и термин-операция (или кратко
термация). Терманд и термация являются основными членами
предложений. Если вводные слова и предложения не являются терминами
или частями терминов совместно с другими словами или знаками, то они
игнорируются при анализе текстов знания. Рассудительные фразы
предназначены для передачи знания, командные фразы - для выполнения
действий, как и термации. Таким образом в СеГ имеется две части речи
(или два члена предложения): терманд и термация. Заметим, что лексемы
могут быть термандами или термациями по применению (они как бы
являются второстепенными членами предложения). Терманды и термации
представлены терминами, которые образуются из слов всех частей речи
СиГ и знаков. Конечно, чаще всего существительные бывают термандами,
а глаголы - термациями, поскольку существительные обозначают
предметность, а глаголы - процесс или способ действия.
В СеГ определены 25 широко известных термаций, которые мы
называем базовыми. Среди них: логические (и, или, не, больше, равно,
меньше, принадлежит, влечет), арифметические (сложить, вычесть,
умножить, делить, возвести в степень), математические (синус, логарифм,
целая часть, присвоить), преобразовательные (агрегат, атрибут,
именование в записях, индексирование в массивах, приведение к
требуемому виду) операции с таблицами и лексемами. Кроме этого
пользователь сам может определить операции и использовать их в
заданиях.
Надо заметить, что выше практически дано краткое описание языка
Лейбниц. К этому следует добавить, что текст на языке Лейбниц состоит
из разделов, которые также упомянуты выше (предметная и проблемная
области, знания, задания и др.).
6. Смысл текстов (проблемы информатики смысла)
Прежде чем передать знания в память Интелсис, мы должны
определить понятие «смысл текстов», чтобы передавать только
осмысливаемые знания. Смысл слова в известных словарях определяется
несколькими вариантами: смысл - это внутреннее содержание, значение
чего-либо, постигаемое разумом; смысл - это цель, разумное основание;
смысл - это то же, что и разум. Обычно приводятся примеры понятия
смысла: понять смысл чего-либо; слово в прямом и переносном смысле; в
этом нет смысла; жизнь получила новый смысл; иметь здравый смысл; в
подлинном значении слова. Действительно, разностороннее определение
понятия смысла важно, поскольку человек находится в различных сферах
деятельности и требует разного толкования этого понятия.
Наше понимание смысла состоит в следующем. Смысл - это форма
фиксации внутреннего содержания предмета, явления, процесса или их
свойств (объектов) в памяти человека (или Интелсис) для правильного
использования этих объектов. Смысл - это языковая категория,
отражающая в символьном виде понимание внутреннего содержания
данных объектов. Смысл - это языковая категория, отражающая значение
понятия, их совокупности, существенные свойства, связи и отношения.
Смысл - это следующие представления альтернативных данных: число,
символ, строка, текст, действия, дата, время, имя, любая комбинация или
структура перечисленных данных, а также пустое данное или пустое
действие. Смысл - это сущность понимания цели, которую можно
достигнуть,
используя
сущность,
выраженную
значениями,
представленными лексемами. Смысл - это значение, определяемое в
процессе понимания текстов (предметов или картинок). Смысл - это
результат понимания сложных объектов, получаемый в процессе
осмысления (логического вывода) таких объектов или их взаимодействий
и взаимосвязей. Смысл раскрывается системой данных выше определений.
Информатика смысла включает все средства, с помощью которых
осуществляется представление, обработка и выдача результатов
осмысленных объектов, их значений.
Источники проблемы смысла находятся в следующем. До сих пор
понятие смысла в большинстве случаев находилось вне СиГ ЕЯ. Попытки
поиска смысла высказываний из применяемых правил СиГ приводили к
небольшому успеху. Конечно, грамотно составленный текст точнее
передает смысл высказывания. Наша главная задача состоит в построении
Интелсис, понимающий ЕЯ по правилам СеГ. Для этого необходимо иметь
четкое представление о способах передачи для Интелсис смысла текстов.
Рассматривая тексты мы можем найти ошибки только благодаря тому, что
понимаем смысл текста. Без понимания текста найти их сложно. Иногда в
бессмысленном тексте можно обнаружить ошибку. Для определения
смысла высказывания необходим новый подход к построению грамматики
ЕЯ.
Итак, фундаментальная проблема информатики смысла заключена в
поиске способа понимания смысла любого текста. Мы будем накладывать
некоторые ограничения на тексты ЕЯ, связанные с лексиконом, которые
могут изменить смысл текста при коррекции лексикона.
Будем исходить из положения, что каждый текст является средством
передачи известного или нового знания. Второе положение состоит в том,
что каждый текст имеет одну из двух ипостасей: он является истинным
(или ложным) высказыванием (и третьего не дано) или он является
командой для выполнения. В связи с этим понимание структуры знания и
итогового значения текста лежит в основе построения информатики
смысла. Зерном структуры знания является элементарное знание - факт.
Ему 17 лет - факт, который отражает характеристику некоторого
существа. Значением факта является истина или ложь. Производным от
фактов являются утверждения относительно фактов и правила построения
новых фактов. Утверждения относительно фактов являются сложными
фактами, которые также принимают значение истины или лжи. Правила
играют главную роль в методе понимания смысла текста. Из таких
положений и зерен (фактов) строится все знание.
Следующий шаг в изучении структуры знания и итогового значения
состоит в анализе простого знания, построенного из фактов. Простое
знание обычно представляет собой композицию элементарного знания и
отношений между фактами. Простое знание имеет смысл, поскольку
каждый факт имеет смысл и результаты отношений фактов также имеет
смысл, вполне определенный по правилам СеГ через значения фактов.
Например, Ему 17 лет, а ей 16 лет - это два факта соединены
отношением, которое представлено термином «, а».
Особое положение в представлении знания имеют тексты,
содержащие команды. Любой текст из команд также может пониматься
как структура из элементарного знания - отдельно взятая команда и из
простого знания - последовательность команд. Например, писать или
читать каждый представляет элементарное знание. Необходимо иметь в
виду, что выполненная команда порождает истину, а невыполненная ложь (и третьего не дано). С командными языками мы редко имеем дело
(исключая программистов, руководителей и военнослужащих). Для ЯПП
нет существенных различий в указанных двух ипостасях, кроме случая
грамматического разбора текста по СеГ. Смеси двух ипостасей
допускаются в диалоге людей и в диалоге человек и компьютер.
Сложное знание (или знание вообще) представляется цепочкой
простых знаний (абзацев или/и череды команд). Каждый полный текст это сложное знание, являющееся истинным или ложным. Конечно,
истинное знание по традиции считается полезным, а ложное знание
требует пересмотра исходных фактов или отношений фактов для
исправления полученной ситуации (квалификации знания). Не
исключается из рассмотрения сложное ложное знание, которым
практически не занимаются. Но теоретическое значение ложного знания
велико. Если изучение ложного знания представляет интерес, то все факты
и отношения фактов необходимо снабдить термином отрицания для того,
чтобы Интелсис могла переработать такое знание и вывести новые ложные
факты.
Значение, полученное человеком или Интелсис из элементарного,
простого или сложного знания, имеет смысл того или иного высказывания.
Таково самое общее определение смысла. Нам необходимо понимание
смысла, которое пригодно для переработки знания в Интелсис. Для этого
нужно разрешить проблему смысла, которая именуется как проблема
формализации знания (или поиска смысла).
Наше общее определение смысла таково: смысл текста есть его
значение, которое предписывается имени текста в результате вычисления.
Простым примером может служить факт. Например, факт: сегодня дата
есть 20 февраля 1990 года состоит из имени сегодня дата и значения 20
февраля 1990 года и имеет значение (смысл) истины или лжи. Запись
ф?к!пр2 не имеет смысла, но может быть названа абракадаброй или
текстом, не имеющим смысла. Однако, запись «ф?к!пр2» есть простая
последовательность знаков уже имеет смысл, поскольку значению
ф?к!пр2 мы сообщили имя простая последовательность знаков.
Наиболее вероятно, что фраза имеет истинное значение, хотя в некотором
контексте она может быть и ложной. Для фактов чаще всего смысл
находится достаточно просто.
Вернемся к пониманию смысла текста, который складывается из
смысла термандов и термаций, применяемых к термандам. Значение
терманда может быть определено или просто задано, тогда процесс
вычисления смысла фразы может немедленно начаться, в противном
случае процесс приостанавливается до получения значения терманда. Если
значение терманда не определится в течение логического вывода решения,
то данный терманд останется сложным утверждением. Тем самым факт
будет определен в контексте данного терманда. В качестве примера
рассмотрим утверждение скорость есть скорость тела плюс 25. Если
скорость тела не определится при логическом выводе, то получаемый факт
относительно скорости будет зависеть от скорости тела. Если скорость
тела определится как 30, то получаемый факт будет иметь вид: скорость
равна 55. Пример прост, он служит иллюстрацией для понимания
процесса получения величины скорости.
Если для Интелсис сообщены знания в некоторых предметной и
проблемной областях и перед ней ставится вопрос, задача или проблема
(запрос), то она обрабатывает знания в такой последовательности:
переводит запись на внутренний язык Лейбниц в соответствии с СеГ,
дополняет БЗ с автоматической проверкой корректности элементов знаний
по абзацам (экология абзаца), переводит запрос на язык Лейбниц, решает
логическое уравнение, составленное из знаний и запроса, проверяет
корректность запроса (экология запроса), если в системе возникают
вопросы, то она сообщает их пользователю, иначе печатает
альтернативные ответы.
Роли частей речи СиГ распределяются примерно так. Имя
существительное используется главным образом для составления
термандов, поскольку оно обозначает предметность. Но оно также может
быть частью термации. Имя прилагательное используется как
качественный, относительный или притяжательный признак предмета,
явления или процесса при составлении термина, так, чтобы терманды или
термации отличались друг от друга по смыслу. синий плюс и черный
плюс обозначают различные термации. Имя числительное главным
образом используется для формирования числовых лексем. Местоимение
является ссылкой на предмет, явление или процесс. Глагол используется
как термация (процесс или явление) или ее часть в термине, а также как
терманд при указании отношения действия к действительности, пределу,
предмету или субъекту. Причастие и деепричастия, определительное или
обстоятельственное наречие как и прилагательные могут использоваться
для введения термандов и термаций: освещенная комната, ведущая или
стоящий. Состояние используется как терманд для изучения свойств
предметов, явлений или процессов. Модальные утвердительные или
предположительные слова являются главным образом перечислимыми в
многозначных логиках, как и состояния. правда и вероятно являют
примеры элементов перечислимых. Предлоги и союзы используются для
обозначения термаций для установления отношений между предметами,
явлениями или процессами. Например, и и или обычно являются
термациями с логическими величинами. Частицы, междометия и
звукоподражания, передавая эмоции относительно предметов, явлений
или процессов, могут быть частью или синонимами термандов, а также
иногда термаций, например не или сравнительные вроде. Некоторые
утвердительные частицы используются в качестве синонимов логических
лексем или перечислимых, например да или нет. Некоторые частицы
остаются вводными словами.
Создание словарного машинного фонда, в частности русского языка,
является фундаментальной проблемой практического языкознания. Наряду
с таким фондом необходимо создать машинные фонды для терминов
русского языка (универсальные лексиконы) по специальности или
специализации, а точнее для лексикона по данной специальности, в
которых содержатся не только определения, но и характеристики всех
терминов. Это основной предмет машинной лингвистики. Работа по
созданию машинного фонда слов и фондов терминов может
осуществляться автоматизированно или автоматически на компьютере без
привлечения формальных средств, например формальных языков.
7. Система смысла
Формальную модель русского языка (или другого ЕЯ) построить
сложно, а скорее всего невозможно, поскольку его развитие связано не
только с непрерывным пополнением словарного запаса, но и с быстрым
формированием новых лексиконов или его более быстрым пополнением
(по сравнению со словарем из слов). Главный аргумент против построения
формальных моделей ЕЯ состоит в том, что СиГ не формализует смысл
текста.
Определим алгоритм поиска смысла текста (алгоритм вычисления
смысла) следующим образом. Смысл понятия определен выше как
совокупная запись его полной характеристики (определение, тип, вид,
значение, состав из слов и знаков, дата введения в БЗ). Каждый абзац осмысленное высказывание - являет собой логическое выражение, или
композицию терминов (термандов и термаций). Абзац является новым (по
отношению к составляющим его частям) понятием, а его имя
(представленное термином) умалчивается или подразумевается. Новые
подразумеваемые понятия образуют композицию входящих в него
понятий. Текст состоит из абзацев, которые представляют внутри
некоторого раздела текста логическое выражение (композицию) из
подразумеваемых понятий. Образуется новое, более высокого уровня,
подразумеваемое понятие. Оно поименовано термином, являющимся
наименованием раздела. Процесс такого анализа текста завершается после
рассмотрения всех разделов (или разделов более высокого ранга). В
результате такого разбора получается понятие, сопровождаемое названием
всего текста. Имя текста задано явно (название статьи, книги или БЗ), а
термин можно считать полностью определенным всей иерархией понятий
или композицией понятий текста. Например, весь текст об информатике
определяет понятие, обозначенное словом информатика. В предыдущем
разделе определено понятие информатика смысла.
Смысл текста определяется через определенные в нем понятия. Если
текст состоит из одного абзаца, то он имеет смысл этого абзаца (его
подразумеваемого имени) - значения, полученного в результате
применения термаций к значениям термандов. То же можно сказать о
разделах текста или обо всем тексте, состоящем из разделов. При
вычислении значения может быть обнаружено противоречие - значение
некоторой фразы является ложью, тогда необходимо подправлять тексты и
устранить противоречие. Итак, каждый текст имеет смысл, который
получается в процессе его осмысления, или получения значения (а
алгоритмически - вычисления смысла).
Общее значение всего текста должно быть истиной, если мы не
изучаем ложное царство, что является уделом отдельного исследователя.
Каждого интересует главным образом достижение истины. Значение
истины выражает тот смысл, который можно получить в процессе поиска
этого значения. В результате осмысления текста мы получим
элементарное знание: <название текста, истина>.
Процесс осмысления текста приводит к формированию его смысла
(значения) по правилам СеГ. Текст состоит из разделов, каждый из
которых можно и нужно рассматривать как самостоятельный текст,
поименованный подразумеваемым термином. Такой рекурсивный подход
к разбору всего текста закономерен. Каждый раз мы будем получать в
конечном счете элементарное знание: <название раздела, истина>. Смысл
раздела является результатом получения его значения. Поскольку процесс
членения всего текста рекурсивен, понятие раздела понимается широко.
Под разделом можно понимать том, главу, параграф или некоторого сорта
подраздел. В конце концов весь текст, состоящий из разделов, приводит к
результату, который интерпретируется как совместные факты по каждому
разделу.
Заметим, что здесь рассматривается упрощенный вариант членения
текста. Например, перечисление альтернативных пунктов текста
преобразуется в более сложные записи, использующие термин или или
следует наряду с термином и. Наконец, процесс членения всего текста
завершается рассмотрением последовательности абзацев данного раздела
самого низкого уровня дробления. Совокупность абзацев также
интерпретируется как совместные сложные факты или простое знание.
Значение абзаца, как законченной мысли, также должно быть истина или
ложь. Смысл абзаца складывается из значений предложений (фраз),
составляющих абзац.
Термин может и не иметь значения в начале работы Интелсис. Среди
терминов во фразе могут быть терманды и термации. В результате
процесса применения термаций к значениям терманд будет найдено
значение некоторых или всех неизвестных терминов. Для пользователя
результатом работы Интелсис является фраза, содержащая описание всех
(в соответствии с запросом) альтернатив, соединенных в совокупности
совместных фактов. А каждый факт ставит в соответствии искомым
терминам их окончательные значения, которые могут быть лексемами,
выражающими истинный смысл, высказываниями, если какие-либо
входящие в них термины неопределены, или программами (смысл,
выраженный алгоритмическими знаниями), если исходным терминам не
сообщены начальные значения.
Грамматику, которая должна явиться буфером между двумя
различными ЕЯ, мы называем универсальной, она определяется
полностью формальным языком Лейбниц. Он скрыт от пользователя и
является внутренним языком Интелсис, а применяют его явно только
знаниеведы и системные программисты.
СеГ разработана для построения Интелсис, которая является
инструментарием интеллектуального программирования (на основе
знаний, заложенных в Интелсис), обеспечивающим пользователя
решением его задач по исходному заданию, написанному на ЯПП. В
основе нового инструментария лежат два понятия: лексикон и
информатическая
логика
[4].
О
лексиконе
сказано
выше.
Информатическая логика является развитием классической, она скрыта от
пользователя машиной логического вывода решений логических
уравнений. Ее формализм автоматически учитывается при анализе фраз и
предложений на ЯПП. Можно сказать: Мы и не подразумевали, что
говорим с помощью средств информатической логики для передачи
смысла, а смысл сказанного формируем по СеГ.
СеГ используется и для формирования ответов на вопросы, которые
осмысливаются компьютером для подбора ответа по найденному в
вопросе смыслу. Вопросно-ответные системы работают на основе
лексикона, который может составляться автоматически по всем
компьютерным хранилищам текстовой информации. По правилам СиГ
аналогичные системы используют морфологический анализ для анализа
текстов и поиска ответов по ключевым словам. Конечно, ключевые слова
отражают небольшую часть смысла текстов в особенности тогда, когда
ключевое слово является обозначением понятия. В противном случае
система находит большое число ответов, среди которых может иметься
необходимый. Сокращение числа ответов важно для ускорения процесса
поиска информации.
Недавно выяснилось еще одно применение СеГ для построения
распознавателей текстов. Имеющиеся рубрики (или разделы) информации
характеризуются образцами текстов. Новый текст системой распознавания
должен относиться к рубрике, к образцам которой данный текст «ближе»
всего. Известны алгоритмы распознавания образов, которые имеют
характеристики ряда признаков предметов главным образом числового
свойства. Тексты существенно отличаются от числовой информации,
поэтому подход к их распознаванию принципиально отличается от
известных алгоритмов. Смысл текстов сложно представить в числовом
виде. СеГ дает правила для вычисления смысла текстов, которые
обеспечивают сравнение нового текста с образцами.
Перспективное применение СеГ можно усмотреть в системах
перевода с одного ЕЯ на другой ЕЯ с ориентацией на смысл текстов. Здесь
главную роль играет язык Лейбниц. На его основе можно построить СеГ
для пары ЕЯ, между которыми необходимо осуществить перевод.
Универсальная грамматика является буфером между двумя грамматиками
и не зависит по существу от ЕЯ (так как лексемы универсальны). Здесь
учитывается тонкость - конструкции в различных ЕЯ дают одинаковый
смысл, но имеют различные формы.
Итак, подведем некоторые итоги рассмотрения процесса
формализации знания путем перечисления опорных действий над
знаниями. Именно на основе СеГ строятся алгоритмы понимания
(осмысления компьютером) текстов:
Первый этап формализации. Процесс формализации начинается с
построения словаря из слов, лексикона из терминов и других словарей.
При неточном определения понятия или операции в лексиконе
(соответственно предметной и проблемной областей знания, термации и
терманды) реализуется неточная формализация этого понятия. При
постепенном доопределении понятия в процессе разрешения запроса
автоматически осуществляется постепенная формализация этого понятия
или операции.
Второй этап формализации состоит в построении отношений между
понятиями и формирование нового (возможно, подразумеваемого)
понятия, являющегося производным от исходных понятий. Композиция
понятий может быть сколь угодно сложной, что зависит от сложности
решаемых задач. Композиции понятий выражаются фразами
естественного (или искусственного, что не исключается) языка и
содержательно представляют знания, несущие смысл, который мы
передаем друг другу или для Интелсис.
Третий этап формализации. Процесс формализации продолжается
при анализе вводимых знания или запроса в память Интелсис, а также при
грамматическом анализе их. При вводе неполного (или частично
определенного) знания реализуется частичная формализация, а
пополнение БЗ может привести к более точной формализации знания.
Четвертый этап формализации состоит в установлении
правильности знаний. Этот процесс мы называем отладкой знания (или
экологической проверкой знания) на точность использования СеГ. Знание
в целом и в отдельных частях должно удовлетворять требованиям
непротиворечивости, независимости и полноты для построения
окончательных ответов на запросы в контексте исследуемого знания. Для
пользователя знаниями этот этап самый плодотворный. Дело в том, что
любое знание, предоставленное пользователю, не содержит конкретного
ответа на его запрос.
Пятый этап формализации является логическим и состоит из
автоматического построения ответов на запросы для получения новых
фактов, которые будут использованы при принятии жизненно важных
решений.
Шестой этап формализации является организационным и состоит в
построении технологии применения результатов логического вывода
ответа на запросы. Сюда можно отнести проблемы принятия решений
человеком и документирование. Этот этап необходим при статистических
исследованиях, он состоит в собирании общих или статистических данных
об использовании количественных атрибутов интеллектуальной
деятельности.
Процесс формализации завершается получением нового знания в
результате логического вывода. Новое знание доопределяет и
доформализует исследуемые понятия, уточняемые в этом процессе.
Заключение
Знание СеГ необходимо для любого пользователя, желающего решать
свои задачи с помощью компьютера. Формализм языка Лейбниц не
сложен, но знать его пользователя совершенно не обязательно. Меню
инструментария Интелсис полностью «прячет» формализм. Пользователь
может применять технические и логические средства интеллектуального
программирования, не прибегая к помощи программиста. Передача
точного смысла текстов в первую очередь необходима при вводе знаний в
Интелсис, а может быть и при общении между людьми. Подробное
описание СеГ дается в руководствах по интеллектуальному
программированию, в которых определены все стандартные языковые
терманды и термации.
В заключение уместно обратить внимание главным проблемам СеГ,
которые еще недостаточно четко разрешены из-за малой ее практической
проверки. Помещенный ниже перечень проблем указывает на это
обстоятельство, однако он не завершен, поэтому предстоят еще серьезные
исследования СеГ.
Первая проблема связана с передачей смысла интонацией. Интонация
передает дополнительные знания. Например, фраза Николай пошел в
кино или в театр и на базар можно толковать различно. Скобки
показывают
на
альтернативные
особенности
интонации
при
произношении этой фразы: Николай пошел в кино или (в театр и на
базар) или Николай пошел (в кино или в театр) и на базар. Результаты
осмысления двух фраз будут различными. После подключения микрофона
к компьютеру проблема будет разрешена с помощью алгоритмов
идентификации интонации.
Вторая проблема аналогична предыдущей, она порождена ударениям
в словах. Если слово употребляется для образования уникального термина
совместно с другими словами, то проблема может и не возникнуть. Если
слово является термином, то проблема обостряется. Например, словатермины за’мок и замо’к становятся неразличимыми в тексте, в котором
они используются одновременно без символа ‘.
Третья проблема связана с умолчанием контекста, в котором
употребляется термин. В обычном письме или речи многое считается
известным. Например, в любой фразе данного абзаца почти ни один
термин не определен. Однако читающий абзац может понять весь смысл
текста. Проблема контекста для Интелсис разрешается пока просто: для
каждого термина, определенного в лексиконе, контекстом является весь
текст знания (помещаемого в БЗ) и текст запроса, вопроса или задания.
Четвертая проблема связана с максимальным использованием СиГ
при определении смысла текстов. Например, некоторые местоимения
являются ссылками на упомянутый ранее по анализируемому тексту
термин. Оно чаще всего так и используется, как в этой фразе используется
местоимение Оно. Имеется ряд других примеров использования рода,
числа, падежа и частей речи, но их удельный вес весьма мал.
Пятая проблема вполне разрешима, она связана с квалификацией
первой буквы предложения. Либо первое слово - собственное имя, тогда
первая буква понимается как заглавная буква имени, либо первое слово не
является собственное имя, тогда первая буква переводится в другой
регистр букв.
Следуя этим рассуждениям информатику можно определить как
науку о переработке осмысливаемых текстов (более подробно см. [2]).
Даже массив измерений, который не является научной информацией,
осмысливаем, если будем вычислять среднее значение по всем измерениям
величины из массива.
Сформулирована СеГ, которая подкреплена разработками Интелсис,
ряда программ анализа текстов и частных алгоритмов. Предстоит
достаточно подробное описание СеГ (вместе с интерпретацией словаря
стандартных терминов) и более широкое внедрение ее возможностей.
Список литературы
1. Михайлов А.И., Чёрный
А.И., Гиляревский
Р.С. Основы
информатики. - М.; Наука, 1968, - 756 c.
2. Красилов А.А. Основы информатики. Определение и концепции. //
Учебное пособие, - М.; МФТИ, 1990, - 80 с.
3. Красилов А.А. Классификация интеллектуальных систем.
/Материалы семинара: «Научно-технические средства информатизации,
автоматизации и интеллектуализации в народном хозяйстве», 28 - 29
октября 1991, - М., ЦРДЗ, 1991. С. 33 - 43
4. Красилов А.А. Informatical Logic, Logical Equation Decision and
Intellectual (Nonproduction) Systems in CAD. EAST-WEST International
Conference «Information Technology In Design», Part 1, Moscow, Russia, 5-9
Sept.1994, pp.196-198
5. Красилов А.А. За горизонтом экспертных систем. /Открытые системы,
- М.; 1996, N6. С.65-69
6. Красилов А.А. PC WEEK, Russian edition, - М.; N 13, 1997, с. 72,
Интеллектуальное программирование, или Все невозможности
возможны. N 14, 1997, с. 52, Автоматическое построение программ по
знаниям. N 15, 1997,с. 72
7. Н.Хомский. Язык и проблема знания (5 Лекций в МГУ). Вестник
Московского университета, серия 9, Филология, 4, стр. 130-156, 6, стр.
110-134, 1995, 2, стр. 103-121, 4, стр. 133-162, 1996
8. Фреге Г. Смысл и денотат. //В кн.: Семиотика и информатика. 1977,
Вып.8
9. Лейбниц Г.В. Собрание сочинений. - М.; Мысль. 1982, Т.1. – 638 с.,
1983, Т.2. - 688 с.; 1984, Т.3. - 735 с.; 1989, Т.4. – 556 с.
10. Клини С.К. Математическая логика. - М.; Мир, 1973. - 480 с.
11. Современный русский язык. В трех частях. /Учебное пособие. - М.,
Просвещение, 1981. Часть I. - 192с.; Часть II. - 372с.; Часть III. - 272с.
12. Красилов А.А. Экология знания и интеллектуальные системы. //Сб:
Высокие технологии в промышленности России, -М., Международная
академия информатизации, 1997, с. 153-160
Download