Виньков М.М. Время как внешняя сущность при моделировании

advertisement
УДК 007:681.518.2
ВРЕМЯ КАК ВНЕШНЯЯ СУЩНОСТЬ ПРИ
МОДЕЛИРОВАНИИ РАССУЖДЕНИЙ
РАЦИОНАЛЬНОГО АГЕНТА С ОГРАНИЧЕННЫМИ
РЕСУРСАМИ
М. М. Виньков1
В работе предлагается новый подход к представлению времени в
системах TRL и Активной Логики. Время при этом трактуется как
внешняя сущность, не связанная со структурой знаний агента и
длительностью выполняемых им дедуктивных циклов, как это
имеет
место
во
всех
ныне
существующих
системах
рассматриваемого класса. Новая трактовка времени достигается
благодаря использованию концепции часов прогона модели, в
основе которой лежит множественная грануляция времени.
Введение
Проблемой, к которой адресован данный доклад, является
моделирование логическими средствами поведения рационального агента,
способного на основе своих знаний и наблюдений за внешней средой
делать умозаключения и строить планы, требующие времени для их
обдумывания. Большинство логических систем (например, [Konolige,
1986]) формализующих рассуждения о знаниях и мнениях таких агентов,
основаны на допущении, что коль скоро агент обладает способностью к
рассуждению, результаты применения этой способности получаются
агентом немедленно по мере необходимости. В некоторых ситуациях
такое допущение вполне разумно. Например, агент может прибегать лишь
к весьма простым рассуждениям и находиться при этом в обстановке,
некритичной ко времени его реакции. Однако во многих случаях
указанное допущение оказывается чрезмерным, нереалистичным.
Проблема, связанная с нереалистичностью этого предположения, носит
название проблемы логического всеведения.

1
Работа выполнена при финансовой поддержке РФФИ
129090, Москва, ул.Щепкина 22, ГУ РосНИИ ИТ и АП, vinkovmm@mail.ru
Целью моделирования, о котором идет речь в данном докладе,
является получение логических результатов, интерпретируемых
следующим образом: агент i способен вывести формулу , не выходя за
временную границу t. На сегодня из известных подходов к решению
проблемы логического всеведения только два применимы для решения
задачи моделирования в такой постановке. Эти подходы весьма близки
друг другу. Один из них нашел свое воплощение в семействе логических
систем под названием Активная Логика [Purang, 2001], [Bhatia et al.,
2001], [Perlis et al., 1999]. Другой реализован в логической системе TRL
(Timed Reasoning Logics) – логика рассуждения, спланированного во
времени [Alechina, 2004]. Оба указанных подхода основаны на трактовке
рассуждения как процесса, протекающего во времени, а не как
последовательности взаимосвязанных формул, существующей как бы вне
времени. Характерной чертой и Активной Логики, и TRL является
трактовка времени, в некотором смысле, как внутренней сущности этих
систем.
Однако, такая его трактовка, как будет показано ниже,
предполагает допущение, по своей нереалистичности сравнимое с
допущением, составляющим проблему логического всеведения. В докладе
предлагается не примере модифицированного варианта логики
рассуждения, спланированного во времени, под названием TRL* подход, в
котором время трактуется как внешняя сущность, не связанная со
скоростью, с которой выполняются дедуктивные циклы. Такая
модификация позволяет отказаться от нереалистичного допущения,
связанного с внутренним временем и может быть выполнена также и для
систем Активной Логики.
1. Рассуждения как процесс, протекающий во времени
Общей особенностью подходов, воплощенных в системах TRL и
Активной Логики является трактовка рассуждения как процесса. Этот
процесс
представляет
собой
упорядоченную
во
времени
последовательность дедуктивных циклов, каждый из которых состоит в
выполнении программы, представляющей собою множество правил вида
Если <условие> то <действие>. Информация, полученная в результате
наблюдения за внешней средой, также как и любые априорные знания
запоминается в рабочей памяти. Правила сопоставляются с текущим
содержимым рабочей памяти и некоторое
их подмножество
«срабатывает», что приводит к изменению содержимого рабочей памяти
агента и/или к воздействию на внешнюю среду. В общем случае условия
правил могут сопоставляться с содержимым рабочей памяти более чем
одним способом. При этом порождаются различные экземпляры одного и
того же правила. Следуя стандартной терминологии систем, основанных
на правилах, множество экземпляров правил называется конфликтным, а
процесс, в результате которого получается подмножество конфликтного
множества, «срабатывающее» в ходе выполнения данного дедуктивного
цикла, называется разрешением конфликтов. Агенты могут использовать
различные стратегии для разрешения конфликтов (в системе TRL
[Alechina et al., 2004]). Однако, во всех случаях под мерой времени
(эталоном) неявно подразумевается продолжительность дедуктивного
цикла. Каждому выполнению дедуктивного цикла соответствует один
«тик» виртуальных внутренних часов. Время рассматривается как
бесконечная последовательность <0, 1, 2,… > из множества натуральных
чисел . При этом (также неявно) делается допущение, что длительность
выполнения не меняется от цикла к циклу или что изменения столь малы,
что ими можно пренебречь. В реальности на длительность выполнения
дедуктивного цикла оказывают влияние изменения, происходящие в
составе и структуре знаний агента вследствие проводимых им
рассуждений и наблюдений за внешней средой. Кроме того, на
длительность дедуктивных циклов могут влиять случайные факторы,
такие, как сбои в электропитании, в работе других технических систем и
т.д. Также и «мыслительные способности», в данном случае, длительность
вычислительных циклов у разных агентов могут быть различными. По
существу, допущение о неизменной длительности дедуктивных циклов
сродни логическому всеведению и, так же как и последнее, оно нередко
вступает в противоречие с реальной действительностью.
2. TRL* - модифицированная логика рассуждения,
спланированного по времени
2.1. Часы прогона модели. В данном разделе вводится
модифицированная логика рассуждения, спланированного во времени
TRL*, в которой время является внешней сущностью, т.е. его течение не
зависит от структурных особенностей процесса рассуждений,
осуществляемого агентом. В предлагаемой логической системе, как и в
других логических системах из данного класса, время рассматривается как
бесконечная последовательность натуральных чисел из множества .
Будем обозначать ее Gck (глобальные часы). Однако, в данном случае
учитывается, что основное назначение такого рода логических систем
состоит в моделировании поведения многоагентной системы в различных
условиях (= прогонах). Поэтому каждому такому прогону ставятся в
соответствие т.н. часы прогона модели Ck, отражающие его специфику
(принцип грануляции времени). Часы прогона модели – это конечная или
бесконечная строго возрастающая подпоследовательность глобальных
часов, члены которой интерпретируются как моменты времени (на
глобальных часах) завершения дедуктивных циклов, например <3, 5, 7,
10,... > . Множество всех таких моментов времени будем обозначать Ck*.
Каждый «тик» часов прогона модели, как и «тик» рассмотренных выше
виртуальных внутренних часов, соответствует одному выполнению
конкретного дедуктивного цикла. При этом, порядковый номер этого
цикла совпадает не с моментом времени его завершения (как это имеет
место в активной логике или TRL), а только с порядковым номером этого
момента времени на часах прогона модели. Данное обстоятельство дает
возможность, меняя часы прогона модели, имитировать различные
условия работы многоагентной системы и лучше отражать, например,
такие особенности, как увеличение длительности дедуктивных циклов
агента по мере увеличения количества известной ему информации. Кроме
того, различным агентам можно назначать различные локальные часы,
моделируя таким образом, например, их различную «сообразительность»
(быстродействие) или то, что они вводятся в действие в различные
моменты времени. В дальнейшем, однако, для простоты рассматривается
случай, когда всем агентам назначены одни и те же часы прогона модели.
Нам понадобятся также две функции - clock (.) и rank (.). Первая
отображает множество  во множество Ck*. Терм clock (n)
интерпретируется как момент времени, имеющий порядковый номер n на
часах прогона модели. Вторая функция является обратной по отношению
к первой, т.е. для всех t  Ck* rank (t) = clock -1 (t), ее значением является
порядковый номер момента времени t на часах прогона модели Ck.
2.2. TRL*-модели. Как и в исходной системе TRL, для обеспечения
возможности рассуждать о конкретных агентах нам потребуется непустое
множество Ag = {1, … i, …}. Процесс рассуждения агента мыслится как
упорядоченная во времени последовательность
его локальных
ментальных состояний. Каждое ментальное состояние агента
i
mt
индексируется элементом индексного множества I = Ag  Ck*, которое
является множеством пар вида (i,t), где i – агент, а t – момент времени
завершения дедуктивного цикла с номером rank (t), в результате которого
было получено это состояние. Оно представляет собой
конечное
множество формул некоторого языка (пропозиционального, 1-го порядка,
модального и т.д.) {1,…n}. Различные агенты могут иметь разный язык,
который у них может меняться от одного ментального состояния к
другому, благодаря приобретению новых имен понятий и т.д. Чтобы иметь
возможность моделировать эти изменения, языки агентов также
i
индексируются элементами индексного множества I: L t - язык, на
котором агент i «мыслил» при выполнении дедуктивного цикла под
номером rank (t).
Каждое локальное ментальное состояние агента формируется в
результате применения некоторого множества правил к предыдущему
состоянию, а также в результате его непосредственного наблюдения за
внешней средой. Это моделируется при помощи множества функций
вывода infi (по одной для каждого агента) и функции наблюдения obs,
общей для всех.
Определение 1. Пусть Ag есть множество агентов, Ck есть часы
прогона модели и { L t : i Ag, t  Ck*} есть множество языков агентов.
i
TRL*-модель M* это кортеж < Ck , obs, { infi : i Ag }, { m t : i Ag, t 
i
Ck*}>, где obj есть функция, отображающая каждую пару (i,t) в
i
конечное множество формул из L t , infi есть функция, отображающая
i
конечные множества формул из L t в конечные множества формул из
i
i
i
L clock ( rank(t ) 1) , и каждое m t есть конечное множество формул из L t ,
такое, что
i
i
mclock
( rank( t ) 1) = infi (m t )  obs (i, clock (rank(t) +1)).
Легко показать, что при Ck = Gck данное определение TRL*-модели
M* (далее, модели M*) эквивалентно определению TRL-модели M.
i
2.3. Формулы TRL*. Синтаксис языка агента L t определяется
обычным
образом.
Например,
i
если
L0
является
языком
пропозициональной логики с пропозициональными переменными p1,…, pn,
то правильно построенная формула  языка L 0 определится как
i
 = pi        
Если i – агент, t – момент времени на часах Ck и  - формула языка L t ,
i
то (i,t):  есть помеченная формула TRL* (синтаксис TRL* не отличается
от TRL).
Следующие ниже определения, данные для TRL*, идентичны
соответствующим определениям в TRL. Помеченная формула (i,t): 
истинна в модели M*, M* ⊨ (i,t):  тогда и только тогда (далее, т. и т.т.),
когда   mt , где
i
m – состояние, индексированное с помощью (i,t) в
модели M*. Помеченная формула (i,t):  общезначима, ⊨ (i,t):  , т. и
т.т., когда для любой модели M*, M* ⊨ (i,t): . Пусть  множество
помеченных формул.  логически влечет (i,t): , ⊨ (i,t):  , т. и т.т.,
когда в каждой модели, в которой истинны все помеченные формулы из
, истинна также и (i,t): .
2.4. Правила вывода. Как уже отмечалось, TRL позволяет
моделировать различные стратегии разрешения конфликтов при
применении агентами правил вывода. Ниже применительно к TRL* будет
рассмотрена стратегия, состоящая в том, что в рамках одного
дедуктивного цикла применяются все экземпляры правил, попавшие в
конфликтное множество. Эта же стратегия лежит и в основе всех
вариантов Активной Логики. Синтаксис правил вывода TRL*,
отвечающих данной стратегии, отличается от правил вывода TRL:
(i1, t): 1,…, (in, t): n
_____________________ .
(i, (clock (rank (t) +1)): 
Здесь
t
–
универсально
квантифицированная
переменная,
принимающая значения на множестве Ck*, а i1,…, in, i – не обязательно
различные константы, соответствующие именам агентов.
Пусть R – множество правил вывода TRL*. Помеченная формула (i, t):
 является выводимой из множества помеченных формул
 с
использованием R (⊢R (i,t):  ) если существует последовательность
помеченных формул (i1, t1): 1,…, (in, tn): n такая, что:
1) каждая
помеченная формула в последовательности либо
принадлежит , либо является непосредственным следствием  по одному
из правил вывода из R ;
2) последняя из помеченных формул в последовательности (in, tn): n
совпадает с (i, t): .
2.5.
Полнота,
семантическая
непротиворечивость
и
алгоритмическая разрешимость TRL*. Любое множество правил
вывода в TRL* (как и в TRL) естественным образом можно разбить на два
подмножества. Первое подмножество называется внутренними правилами.
Это правила, в которых упоминается ровно один агент. Например, таким
правилом является правило, относящееся ко всем агентам, использующим
modus ponens:
(i, t): , (i, t):  
______________________ .
(i, (clock (rank (t) +1)): 
Оно означает, что если в любой момент времени t агент i верит, что
верны формулы  и   , то в следующий момент времени на часах
прогона модели Ck он будет верить, что верна формула  . Внутренние
правила соответствуют функциям infi . Множество таких правил будем
обозначать Rinf .
Второе подмножество множества правил вывода TRL* назовем
правилами коммуникации. Они имеют форму
(i, t): 
________________________
(j, (clock (rank (t) +1)): 
и соответствуют функции obs. Множество таких правил будем
обозначать Robs .
Мы говорим, что модель M* конформна множеству правил R если
1) для каждого правила из множества Rinf вида
(i, t): 1,…, (i, t): n
______________________ .
(i, (clock (rank (t) +1)): 
infi в M* удовлетворяет свойству: из 1,…, n  m t следует   infi
i
i
(m t );
2) для каждого правила из множества Robs вида
(i, t): 
________________________
(j, (clock (rank (t) +1)): 
obs в M* удовлетворяет свойству: из   mt следует   obs(j, (clock
i
(rank (t) +1)).
Определение 2. TRL*-модель M*, конформная множеству правил
вывода TRL* R, является минимальной моделью для множества
помеченных формул  если для любых i, t и ,   m t т. и т.т., когда
i
1) существует правило в Rinf вида
(i, t): 1,…, (i, t): n
_____________________
(i, (clock (rank (t) +1)): 
и 1,…, n  m ( clock ( rank(t ) 1) ;
i
2) или   obs(i, t) и (i, t):    или существует правило в Robs вида
(j, t): 
________________________
(i, (clock (rank (t) +1)): 
и   m ( clock ( rank(t ) 1) .
i
Аналогично тому, как это сделано для TRL, для TRL* доказываются
теоремы о её полноте и семантической непротиворечивости, а также
алгоритмической разрешимости.
Теорема 1. Для любого множества правил вывода TRL* R, любого
конечного множества помеченных формул  и любой помеченной
формулы , ⊢R  т.и т.т., когда ⊨R , где R – множество всех
TRL*-моделей, конформных R.
Теорема 2. Для любого множества правил вывода TRL* R, любого
конечного множества помеченных формул  и любой помеченной
формулы , разрешимы вопросы, имеет ли место ⊢R  или ⊨R, где
R – множество всех TRL*-моделей, конформных R.
Заключение
Возможность применения рассмотренной выше концепции часов
прогона модели не зависит от используемой стратегии разрешения
конфликтов, поэтому данная концепция может быть использована и для
аналогичной модификации других известных вариантов TRL точно так
же, как и для любого известного варианта Активной Логики. Результатом
во всех случаях будет трактовка времени, совершенно отличная от той,
которая сейчас имеет место во всех логических системах данного класса.
Время перестает быть их внутренней сущностью, его течение не
связывается со структурой множества правил вывода а задача
моделирования, о котором идет речь в данном докладе, а именно
получение логических результатов, интерпретируемых как: агент i
способен вывести формулу , не выходя за временную границу t не может
быть сведена к определению глубины вывода данной формулы. Это дает
возможность более адекватно моделировать поведение многоагентных
систем логическими средствами.
Список литературы
[Konolige, 1986] Konolige K. A Deduction Model of Belief. Morgan Kaufman, San
Francisco, Calif., 1986.
[Bhatia et al., 2001] Bhatia M., Chi P., Chong W., Josyula D. P., Okamoto Y.,
Perlis D., Purang K. Handling uncertainty with active logic. AAAI Fall Symposium
on Uncertainty of Communication.
[Perlis et al., 1999] Perlis D., Purang K., Purushothaman D., Andersen C., Traum
D. Modeling time and meta-reasoning in dialog via active logic. In Working notes of
AAAI Fall Symposium on Psychological Models of Communication.
[Purang, 2001] Purang K., Systems that detect and repair their own mistakes. PhD
thesis, Department of Computer Science, University of Maryland, College Park,
Maryland, 2001.
[Alechina et al., 2004] Alechina N., Logan B., and Whitsey M. A complete and
decidable logic for resource-bounded agents. In Proc. Third International Joint
Conference on Autonomous Agents and Multi-Agent Systems (AAMAS 2004).
Download