Виноградов Г.П. Модель поведения интеллектуального агента

advertisement
Секция 4
ИСКУССТВЕННЫЕ АГЕНТЫ,
МНОГОАГЕНТНЫЕ СИСТЕМЫ,
ИНТЕЛЛЕКТУАЛЬНЫЕ РОБОТЫ
МОДЕЛЬ ПОВЕДЕНИЯ ИНТЕЛЛЕКТУАЛЬНОГО АГЕНТА
Виноградов Г.П., к.т.н., профессор
Тверской государственный технический университет,
е-mail: WGP272NG@mail.ru
1. ВВЕДЕНИЕ
В основу исследования функционирования организационных систем положена базовая модель [1], в
которой центр осуществляет управление агентом, обладающим свойствами целенаправленного и активного
поведения. На сегодняшний день одной из основных проблем, возникающих при попытке формального
моделирования поведения подобных систем, является разработка адекватных моделей принятия решений
интеллектульным (целеустремленным) агентом.
2. КЛАССИЧЕСКАЯ И ПОВЕДЕНЧЕСКАЯ МОДЕЛИ ПРИНЯТИЯ РЕШЕНИИ
Принятие решения происходит в ситуации целеустремленного состояния, которое может быть
определено с помощью следующих компонент [2].
 Субъект, осуществляющий выбор (интеллектуальный агент), k  K .
 Окружение выбора (S), под которым понимается множество элементов и их существенных свойств, не
являющихся элементами системы; однако изменение в любом из них может стать причиной или
продуцировать изменение состояния системы. Эти элементы генерируют множество состояний sS.

Доступные способы действий C ijk , j  1, n , C ijk  C k-го агента для достижения i-го результата.

Возможные при окружении S результаты, существенные для агента O ik , i  1, m , O ik  O .

Множество способов действий Cˆ k   C k , Cˆ k  C , которые агент считает приемлемыми.
 ij 
 Функция исхода W, которая выражает связь альтернативы c с любым состоянием s и любым исходом о:
W : C  S  O . Это позволяет определить множество Oa исходов при альтернативе c, являющимся
подмножеством О и O a   w ( c, s ) . Данную функцию можно считать моделью объекта управления,
sS
которую агент использует при выборе способа действия.
Классическая и поведенческая модели принятия решения используют функцию выигрыша ν, которая
выражает соответствие между любым исходом о и его выигрышем, оцениваемым величиной g,
формируемой на основе предпочтений агента:  : O  G , где G – множество оценок g выигрышей.
Определим функцию ω как композицию функции исхода w и функции выигрыша ν:     w . Таким
образом, множество Gc возможных выигрышей по альтернативе c определяется как подмножество G, такое,
что G с    ( с, s ) .
sS
Классическая модель выражает правило выбора такой альтернативы, которая будет максимизировать
по cC выигрыш из множества возможных выигрышей Gс:
(1)
c*  Arg max g(c)  (o ) , oa  Oa , oa  w(c, s), s  S , g (c)  Gc
c C

a

Таким образом, при формализации поведения агента по классической схеме речь идет о принятии
решения умным и рациональным агентом, способным всегда сформировать оценки выигрыша. В
противоположность этому Г.Саймон [3] предложил модель принятия решения, в которой лицо,
принимающее решение (ЛПР), относительно любого исхода выдает оценку «хорошо» или «плохо» в
зависимости от целей или системы предпочтений. Такая оценка отражает представление о желаемом уровне
достижения цели или уровне удовлетворенности принимающего решение человека. В соответствии с этим
агент должен сформировать понятие удовлетворительной альтернативы, определив свое представление о
множестве (С’) приемлемых альтернатив. Формально эту идею можно выразить следующим образом:
Oc  O’  выбрать c’
(2)
где Оc – множество исходов, порожденных c; О’ – множество удовлетворительных исходов.
Такой принцип принятия решения Саймон назвал принципом «ограниченной рациональности», а
модель (2) получила название поведенческой модели принятия решения.
Формулы (1) и (2) выражают различие между классической и поведенческой моделями принятия
решений, которое состоит в способе упорядочивания. В классической модели альтернативы
упорядочиваются по отношению неравенства () и выбирается альтернатива с наибольшим значением
выигрыша. Поведенческая модель характеризуется отношением включения () и выбирается альтернатива,
множество возможных исходов от реализации которой содержится во множестве удовлетворительных
исходов.
Как показали исследования в области математической психологии, эти подходы не позволяют
объяснить (или описывают слишком сложным образом) многие наблюдаемые на практике явления и
процессы [4].
Расширение классической модели рационального поведения возможно за счет включения оценок
поведения человека, используемых в психологии, социологии и т.п., путем введения параметра r, который
характеризует тип агента ( r  B ). Возникает проблема оценки типа агента r на основании наблюдений
k
 k
   C , s, u, O  . Решение этой задачи возможно за счет:

i 
j
 определения функциональных свойств, характеризующих поведение ЦА таких, чтобы они вытекали из
наблюдаемого поведения и не зависели от точки зрения наблюдателя.
 введения понятий, которые характеризовали эти функциональные свойства.
 задания мер, позволяющих получать оценки проявления наблюдаемых функциональных свойств и
гарантирующих возможность воспроизведения наблюдений различными наблюдателями.
3. МОДЕЛЬ ЦЕЛЕУСТРЕМЛЕННОГО СОСТОЯНИЯ
Введем для описанных компонент целеустремленного состояния меры, которые будут использоваться
для его оценки.
1. Будем считать, что агент способен выделять факторы – характеристики функционального
окружения X
k


k
 x i , i  1, N . Влияние каждого фактора агент оценивает с помощью лингвистической
k
k
k
переменой «Степень влияния фактора», значения которой выражаются в виде  ( x i ) : x i  [ 0,1] .
Будем предполагать, что для описания влияния выделенных факторов на результаты O ik , i  1, m агент
использует аппроксимацию в виде продукционных правил, которые имеют вид:
k
k
k
Если x1 есть A r1 и если x 2 есть A r 2 и … и если x N есть A rN , то
k
k
O i  f ir ( x1 , x 2 ,..., x N ), r  1, R , i  1, m ,
где
R
–
количество
продукционных
правила, O ik  firk ( x1 , x 2 ,..., x N ) –
правил,
(3)
r
–
номер
текущего
продукционного
функция, отражающая представление агента о функциональной связи
входных факторов с возможными результатами для r-го правила (r-я частная модель); A kri – нечеткие


переменные, определенные на X k  xik , i 1, N . В качестве функции f ir (  ) могут использоваться, например,
полиномы нулевого порядка, авторегрессионные модели, модели, применяемые в теории
детерминированного хаоса, а также словесное описание.
2. Известные (доступные) агенту способы действий. Способ действия следует понимать
функционально (морфологически). Поскольку C kj является функцией параметров состояния внешней
среды, принимаемых во внимание агентом, функциональных и морфологических свойств системы, набор
предположений о их возможных значениях образует сценарий возможного состояния внешней среды,
функциональных возможностей системы и возможности морфологического изменения системы.
Реализация сценариев, например, с помощью правил (3) позволяет сформировать представление о
возможных результатах O ijk , j  1, m k , а значит, определяет неравнозначность при выборе способа действия,
которую можно описать как степень уверенности в необходимости применения способа действия (или
k
привычность, понимаемую как степень владения данным способом получения результата O ij ). Эту оценку
можно
описать
с
помощью
значений
лингвистической
переменной
k ( O k , C k )  [0,1], l  1, mk
 ijl
ijl jl
или
k   k ( C k | A в  k (S ) )  [0,1], l  1, m k . Эта мера является индивидуальной характеристикой агента, которая
 ijl
ijl jl
c1
может меняться в результате обучения и приобретения опыта. Более того, она будет меняться в результате
коммуникации агентов между собой и с центром.
Поэтому  k   k ( C k , I k | A в  k ( S ) )  [0,1], l  1, m k , где Ik – информация (знание), которой
ijl
ijl
jl ijl
c1
располагает агент на момент времени t k .
Если степень уверенности у агента в необходимости применения какого-либо способа действий равна
нулю, то этот способ не входит в число потенциально возможных для данного агента. Способ действий
являющийся потенциально возможным в одном окружении, может не быть таковым в другом окружении.
3. Возможные результаты при данном окружении выбора. Представим возможные результаты при
заданном окружении выбора агента в виде O k  O k , j  1, J  , где
ij
i


k
O ij
– множество возможных результатов
при выборе j-го способа действия i  I – множество результатов, принимаемых во внимание k-м агентом.
Очевидно, что
k
k
O ij  O ij (Si ), Si  S
.
4. Ценность результатов O ik . Наличие этого показателя следует из качественного предположения о
том, что агент наделен способностью сравнивать блага, которые он приобретает при получении различных
видов стимулирования результатов, с затратами труда, которые он должен для этого приложить. Поскольку
k
k
O ij  O ij (Si ) ,
а Si  Si (Ci ) , то ценность j-го вида результата можно оценить лингвистической переменной со
значениями  ik (O ik (C j ))  [0,1] .
5. Эффективность действия с точки зрения результата – это уверенность в получении данного
результата этим способом действия при известных (или предполагаемых) затратах на его реализацию.
k
k
Степень уверенности E ij в том, что некоторый способ действия C j будет приводить к результату
k
Oi
в
окружении S, если агент выберет именно его: E ijk  E ijk (O ik | A выберет C kj в S) [ 0, 1] , позволяет оценить
эффективность способа действия, реализуемого агентом. Она описывается значениями соответствующей
лингвистической переменной и выражает индивидуальную оценку агентом последствий выбора с точки
зрения затрат: финансовых, материальных, труда, интенсивности труда.
k
k
Введенные три лингвистические переменные со значениями  ik ( x ik ),  ijl
, E ij образуют модель
представлений (знаний) агента о ситуации целеустремленного выбора.
6. Поскольку
k
Cj
можно описать в терминах
k
связывает C ij и ценность i-го результата
состояния по i-му результату
k
Oi
k
Oi .
k
Xi ,
то для агента существует база правил, которая
Это позволяет определить ценность целеустремленного
для k-го агента в соответствии в правилом:
k
k
k
k
k k
  (O (C ))  ijl (Oijl , Sijl )
.
jJ ijl ijl il
Eik 
m k
k (C k ))

(
O

l 1 ijl ijl il
По аналогии можно оценить ценность целеустремленного состояния для k-го агента по
эффективности для i-го вида результата:
k k k
k k
 EE (O (C ))  i (C j )
jJ ij i i
k
EEi 
k k
  (C j )
jJ i
.
7. Оценка агентом желательности целеустремленного состояния по i-му результату и эффективности
его достижения в ситуации выбора. Она задается в виде лингвистической переменной со значениями
k
k
k
k
k
k
 i1  1 ( E i )  [ 0,1],
 i 2   2 ( EE i )  [ 0,1] .
В основе процесса взаимодействия личности и организации находятся психологический и
экономический контракты, которые определяют условия психологического и экономического вовлечения
субъекта в совместную деятельность. Они отражают существенные ожидания личности (интересная работа,
достойная оплата, хороший психологический климат, уважение личности, удовлетворенность работой,
возможность использования своего творческого потенциала) и ожидания организации (высокие результаты
деятельности агента, преданность организации, добросовестный труд, организационная культура). Тогда
можно определить следующие ограничения:
k
k
0
k
k
0
0
0
  i1 ( E i )  1 и   i 2 ( EE i )   2 , где 1 и  2 – ожидания агента от организации, которые
i
i
отражают баланс между затратами и вознаграждением за достигнутые результаты
k
Oi .
Так как s i является функцией от информированности k-го агента s  s k ( I k ) и центр организует
k
итерационную процедуру обмена представлениями между агентами, то справедливо следующее
предположение I kt 1   [ k ] I kt , где t – номер итерации при интерактивном формировании согласованного
прогноза. Это предположение о росте информированности k-го агента в зависимости от номера итерации. ω
– итерационное отображение (в общем случае точечно-множественное) такое, что при начальном уровне
информированности
k
I0 ,
любая последовательность, порождаемая включением I kt  I kt 1 , будет ограничена,
и все ее предельные точки содержатся в M  R n . Справедливость этого предположения следует из того, что
агент в процессе общения и анализа формирует определенную устойчивую по убеждению точку зрения.
Параметр  k есть характеристика способности агента к восприятию новых точек зрения и пересмотру
структуры своей информированности. Введение этого параметра позволяет центру путем продуцирования
изменения в одной или нескольких компонентах или параметров представлений в процессе общения или
интерактивного взаимодействия вызвать трансформацию модели ситуации выбора эксперта как
интеллектуального агента.
Вклад агента в ситуацию выбора проявляется:

k k
в оценках степени значимости факторов ситуации  i ( x i ) и через них на представление о ситуации в
форме (3);


O
  i (O i )
в оценках ценности результатов i
;
в оценках степени возможности применения j-го способа действия для достижения i-го результата
k
k
k
k
k
 j (C j )
;

в оценках эффективности
k k
E ij ( C j )
k
достижения результата O i j-м способом действия
k
Cj ,
с помощью
которых агент оценивает собственные затраты на получение результата.
Первая и четвертая группы оценок отражают знания агента о предметной области, уровень различных
видов его подготовки (умения, навыки и т.п.). Вторая и третья группы позволяют описать систему
ценностей агента и, в принципе, оценить степень конгруэнтности ценностей агента и организации, которые
в значительной степени определяют качество работы агента.
Есть еще одна группа факторов, которые определяют реализацию результата: воля, склонность к
рискам, самооценка, мотивированность. Эти факторы позволяют говорить о таком показателе, как
k
уверенность в получении результата O i в ситуации выбора
возможных способов действия C kj .
 
При фиксированной функции вознаграждения
k
k
 i ( O i ) при использовании одного из
С  W (S i ) агент в соответствии с гипотезой о
Pi ( S )  Arg max( Ei ( si , ci ))
рациональном поведении формирует решение в соответствии с s  S , c  C ( I i ), I i  M ,
t
i
i i
i t
где
0
 ( Ei )   0
– оценка агентом максимального выигрыша, который он мог бы получить, выполняя другую работу.
Очевидно, что, если  ( E i )   0 , то следует ожидать, что агент выберет
s
i
=0 вследствие ее более
 ( E i )   0 , то поведение агента будет зависеть от его
информированности о выигрыше центра. Рассмотрим ситуацию, когда такой информацией агент не
располагает. Если агент принимает условия W, то его выигрыш  ( E i )   0 . В противном случае, он
может потребовать от центра более выгодных условий. Здесь возможны два варианта, либо центр сделает
такое предложение, либо не сделает этого. В последнем случае агент должен перейти на другую работу с
желательностью  0 .
Согласно предположению об отсутствии информации у агента о выигрыше центра, этот агент не
имеет уверенности, что в случае отказа от условий W он может рассчитывать на  0 причем только при
высокой привлекательности. Если же
переходе на другую работу. Следовательно, решение принять условие W при  ( E i )   0 для него
предпочтительнее.
Теперь можно определить целеустремленное состояние агента или всей системы. Оно
характеризуется тем, что:
 агент находится в состоянии выбора: U() > 0;

существует, по крайней мере, один потенциальный результат
k
O i , если существуют другие
потенциальные результаты, то их ценности по целеустремленному состоянию по результату не равны;
k
k
 для агента существуют, по крайней мере, два потенциальных способа действий C1 и C 2 такие, что
k
k
 i1  0 и  2  0 ;

k
k
эффективности способов действий C1 и C 2 таковы, что сумма оценок ценностей целеустремленного
k
состояния по эффективностям получения результатов O i этими двумя способами не равны
k k k
k k k

 EEi1(Oi (C1 ))   EEi 2 (Oi (C2 )) .
i
i
k
 Существует, по крайней мере, один потенциальный результат O i , ценность которого для агента
больше некоторой пороговой величины  ik 0 , и степень уверенности получения которого у агента также
превышает некоторое пороговое значение
k0 .
i
Эти правила означают, что агент находится в таком состоянии, когда он хочет получить какой-либо
результат. Он располагает для этого несколькими альтернативными способами действий с разной
эффективностью, с помощью которых он может попытаться достичь желаемого результата, причем его
уверенность в получении желаемого результата значительна.
4. ОПРЕДЕЛЕНИЕ ИНДИВИДУАЛЬНОСТИ АГЕНТА
При анализе целеустремленного состояния использовались такие понятия, как агент (или субъект А k),
параметры, характеризующие с точки зрения агента состояние окружения ( S KA ), возможные результаты O ik ,
 
 
k
Cj
возможные способы действий
k
выборе способа действий
 ijl
, оценки степени влияния факторов
, ценность i-го результата
 
 
 
k
i
, степени уверенности в
  по j-му способу действия, ценность
k
 ij
целеустремленного состояния по результату E ik , желательность ценности целеустремленного состояния
 , эффективность каждого способа действий по каждому возможному результату  ,
значимость эффективности способа действия по каждому возможному результату  .
по результату
k
E ij
k
i
k
EE i
Способы действий и результаты зависят от окружения и от агента, а все остальные характеристики
определяются агентом в зависимости от ситуации (хотя агент может и не учитывать свойства ситуации).
Поэтому индивидуальность агента должна вытекать из того, как оставшиеся характеристики зависят от
свойств выбора: окружения
 , возможных результатов
S
k
k
Oi ,
возможных способов действий
 . Здесь
k
Cj
такие оценки как степень влияния фактора, степень уверенности в выборе способа действий, ценность
результата, эффективность способа действия по каждому результату являются четырьмя измерителями
индивидуальности агента. Все остальные характеристики выводятся из них известными методами теории
нечетких множеств. Выше были определены ценность целеустремленного состояния по результату Eik и
ценность целеустремленного состояния по эффективности
k
EE i .
Можно определить интегральный
показатель ценности целеустремленного состояния для k-го агента как  E k  EE k . Тогда, учитывая степень
i
i
i
уверенности k-го агента в достижении результата
k
i ,
легко получить показатель ожидаемой удельной
ценности EV k
k
k
k
 ( E i  EEi )   i
EVk  i
k
 i
i
(4)
Это означает, что если два агента находятся в одной и той же ситуации выбора, то разница в их
поведении должна проявляться в значениях оценок удельной ценности по результату и эффективности и в
степени уверенности достижения цели.
Поскольку входящие в (3) величины являются функциями компонент понимания агентом ситуации
выбора, то ожидаемая удельная ценность будет функцией ситуации выбора:
 k  k
EV k   [  C ,  O , S k ,  k ] .
i
 j   i 
Теперь можно формально определить индивидуальность интллектуального агента.
Индивидуальность агента есть математическая функция  () , связывающая ожидаемую удельную
ценность в любой ситуации выбора со свойствами возможных способов действий, их возможными
результатами и принимаемыми во внимание как существенные переменными окружения.
Смысл введенного определения состоит в том, что, наблюдая поведение агента в различных
ситуациях выбора, можно построить некоторое приближение к функции  () .
Используя перечисленные компоненты выбора в качестве зависимых переменных, можно получить
представление о таких характеристиках психологической индивидуальности, как знания, стремления,
восприимчивость ситуации, привычность выбора. Во всех четырех случаях необходимо вывести меру
выбора действия на основе наблюдений выборов, реально производимых в управляемой ситуации.
Мера восприимчивости выводится из того, как влияет различие принимаемых во внимание
характеристик окружения на оценку степени необходимости применения тех или иных способов действия,
когда выбранный способ действия приводит к одному и тому же результату (к разным результатам).
Мера привычности определяется через оценку выбора способа действия из множества способов
действия с различными свойствами, обладающих одной и той же эффективностью и приводящих к одним и
тем же результатам.
Мера знания выводится из того, как влияют различия в эффективностях выбора на степень
необходимости выбора при одних и тех же ценностях полученных результатов. Такие оценки являются
мерами чувствительности к эффективностям.
Меры стремления выводятся из того, как влияет различие в ценностях результатов на степень
необходимости выбора действий, когда каждый возможный способ может продуцировать возможные
результаты.
5. ПОВЕДЕНИЕ АГЕНТА
Исход, соответствующий каждой альтернативе, зависит от переменных, описывающих внешние
условия, и от переменных, характеризующих альтернативу. Описание этой зависимости образует модель
рассматриваемого процесса (предметной области). С ростом сложности рассматриваемого объекта
возрастает сложность построения модели, адекватной исследуемому процессу, а значит, возрастает риск
сформировать неправильное представление о возможных исходах. В этих условиях агент обычно
абстрагирует проблему и строит простую модель. Полученный из анализа модели исход он считает оценкой
фактического исхода, которая в этом случае определяется его представлениями о ситуации выбора.
Затем агент выполняет действия по формированию у себя определенного уровня убежденности в
адекватности своих представлений. Степень адекватности представлений агента (а значит знаний и моделей
ситуации выбора) определяется его информированностью и субъективными оценками (способами
преобразования исходной информации в прогноз). Деятельность агента на устранение неопределенности
описания предметной области направлена на получение и анализ всей доступной для него информации и
является циклической.
Литература
1. Новиков Д.А. Теория управления организационными системами: вводный курс. – М.: МПСИ, 2005.
2. Акофф Р. , Эмери Ф. О целеустремленных системах. – М.: Сов. Радио, 1974.
3. Саймон Г. Науки об искусственном. – М.: УРСС, 2004.
4. Kahneman D., Tversky A. Judgment under Uncertainty: Heuristics and Basis. – Cambridge: Cambridge University Press,
1983.
Download