Основные понятия теории нечетких множеств, нейронных сетей

Основные понятия теории нечетких множеств, нейронных сетей и генетических алгоритмов. Вспомогательные материалы к курсу Проф. Рыжова А.П. Оглавление Вводные замечания .......................................................................................................................3 1. Теория нечетких множеств .......................................................................................................4 1.1. Понятие нечеткого множества. .........................................................................................4 1.1.1. Множество. Булева логика. ........................................................................................4 1.1.2. Нечеткое множество....................................................................................................5 1.2. Множество нечетких подмножеств U и его свойства. ....................................................6 1.3. Обобщеные операции пересечения, объединения, дополнения. Нечеткая логика. .....7 1.4. Понятие лингвистической переменной. ...........................................................................8 1.5. Понятие нечеткого отношения. .........................................................................................9 1.6. Понятие систем нечеткого логического вывода. ........................................................... 10 1.7.Принцип обобщения..........................................................................................................11 1.8. Показатели неопределенности нечетких объектов. ......................................................12 1.9. Нечеткий контроллер. ......................................................................................................13 2. Нейронные сети .......................................................................................................................16 2.1. Классификация нейронных сетей ...................................................................................18 2.2. Обучение нейронных сетей. ............................................................................................ 19 2.2.2. Обучение с учителем. ................................................................................................ 19 2.2.3. Обучение без учителя. .............................................................................................. 20 3. Генетические алгоритмы. .......................................................................................................23 3.1. Примеры операторов отбора, скрещивания и мутации ................................................24 3.2. Формальная запись генетического алгоритма ............................................................... 26 3.3. Понятие шаблона. Теорема Холланда. ...........................................................................26 СПИСОК ЛИТЕРАТУРЫ. ..........................................................................................................28 Вводные замечания Данный текст ни в коем случае не является учебным пособием. Это лишь дополнительный материал к презентации, служащей основой курса. Предполагается, что слушатели, которые заинтересуются устройством и функционированием основных инструментов аналитических технологий обработки информации, смогут найти дополнительную информацию и полезные ссылки. 1. Теория нечетких множеств 1.1. Понятие нечеткого множества. Теория нечетких множеств представляет собой математический аппарат работы с объектами, не имеющими жестких, однозначно задаваемых границ. Она позволяет формально описывать нестрогие, нечеткие, расплывчатые понятия и производить с ними различные операции. Подобно тому, как теория вероятностей позволяет формализовано описывать и обрабатывать информацию в случае физической неопределенности, теория нечетких множеств позволяет представлять и обрабатывать информацию в случае лингвистической неопределенности. Термин “нечеткое множество” был предложен профессором университета Беркли, Калифорния, США Лотфи Заде (Lotfi Zadeh) в 1965 году [62]. 1.1.1. Множество. Булева логика. Понятие множества играет фундаментальную роль в математике, но, несмотря на это, не имеет строгого определения; считается, что все понимают под этим словом примерно одно и то же - некоторое количество примерно однородных (в каком-либо смысле) предметов. В этом множестве можно определять подмножества, и делать это уже строго и однозначно. Пусть задано множество U, состоящее из элементов u. Его подмножество A можно определить с помощью характеристической функции 1, если u  A h A (u )   иначе 0, Таким образом, характеристическая функция hA(u) осуществляет отображение множества U в множество из двух элементов: 0 и 1. Это можно записать следующим образом: (1.1.1) hA:U  0,1 Часто то множество, в котором определяются подмножества, называют универсальным множеством, а подмножества в нем - просто множествами. Итак, для любого элемента унивесального множества U существует две возможности: он может либо принадлежвть, либо не принадлежать множеству A. Рассмотрим множество всех подмножеств U и обозначим его через S(U). В нем можно ввести операции пересечения (), объединения () и дополнения () как операции над характеристическими функциями: 1, если hA (u)  1 и hB (u )  1 , hAB (u)   иначе 0, (1.1.2) 1, если hA (u)  1 или hB (u)  1 , hAB (u)   иначе 0, (1.1.3) 1, если hA (u )  0 hA (u)   . иначе 0, (1.1.4) Используя множества, мы можем определять различные понятия. Операции пересечения, объединения и дополнения могут интерпретироваться как логические связки “и”, “или” и “не” соответственно. В этом случае мы говорим о булевой (двузначной) логике. Имея выражение некоторых понятий a1, a2, .. ,an в виде множеств A1, A2, .. ,An, мы можем находить множества, соответствующие понятим a1 и a2 и a3, не a1 или a2 и a5 и т.п. Теория множеств и соответствующая ей булева логика составляет базу классической математики. Модели сложных технических, физических систем, химических процессов хорошо описывались на этом языке и удачно реализовывались на компьютерах. Речь могла только идти о недостаточном быстродействии, недостаточной памяти и других технических проблемах реализации этих моделей. 1.1.2. Нечеткое множество. Ситуация поменялась коренным образом, когда возникла необходимость учитывать особенности восприятия, оценки и анализа информации человеком как полноправной части моделируемой системы. Дело в том, что суждения и оценки человека являются приближенными и нечеткими, а компьютеры могут выполнять только четкие инструкции. Преодоление этого лингвистического барьера составляет сверхзадачу теории нечетких множеств. Основная идея Заде заключалась в том, чтобы “разрешить” характеристической функции принимать значения не только значения 0 (полная непринадлежность) или 1 (полная принадлежность), но и промежуточные значения принадлежности из отрезка [0,1]. Таким образом, им было заменено понятие характеристической функции (1) на понятие функции принадлежности (1.1.5)  A:U  0,1 Эта простая идея дала толчек развитию большого числа исследований как “вглубь” (по изучению других возможных способов представления нечеткости и анализу их свойств), так и “вширь” (по применению нечетких моделей в управлении, системах принятия решений, распознавания образов и т.п.). В настящее время это направление является интенсивно развивающейся научно-инженерной дисциплиной, по которой защищены сотни диссертаций, опубликованы тысячи книг и статей, реализованные на ее основе аппаратные средства используются в широком спектре оборудования от бытовой техники до космических систем. Можно выделить следующие обобщения понятия нечеткого множества (1.1.5), основанные на замене множества принадлежностей [0,1] на более общие математические структуры:  нечеткие множества в смысле Гогена  A:U  L , где L - конечная или бесконечная дистрибутивная решетка;  P - нечеткие множества  A:U  P , где P - множество подмножеств интервала [0,1];  нечеткие множества типа n - множества, у которых значениями функции принадлежности являются множества типа (n-1). Пусть U - универсальное множество, M - множество принадлежностей, A :U  M. Тогда нечетким множеством A в U называется график отображения A, то есть множество вида  u,  A ( u): u U . Таким образом, нечеткое множество A задается   тройкой U, M, A. Существует связь между нечетким подмножеством универсального множества U и определенным образом устроенным семейством обычных его подмножеств. Эта связь вводится при помощи понятия подмножества  - уровня нечеткого множества. Пусть   [0,1] (для простоты изложения будем ниже считать M = [0,1]). Подмножеством  уровня нечеткого множества A называется множество A   u U:  A ( u)   . Предложение, называемое теоремой о декомпозиции, утверждает, что любое нечеткое множество A можно представить в виде A  max   A . Верно и обратное: если мы имеем  набор подмножеств некоторого универсального множества U и набор чисел из [0,1], то мы можем синтезировать нечеткое множество в U по приведенной формуле. Это важное свойство, поскольку оно позволяет наряду с определением нечеткого множества как отображения  A :U  [0,1] ввести понятие нечеткого множества как отображения  A :[0,1]  2U . В некоторых случаях последнее определение оказывается более удобным. 1.2. Множество нечетких подмножеств U и его свойства. Обозначим через P (U) множество всех нечетких подмножеств U. Опишем некоторые свойства P (U). Прежде всего, заметим, что мощность P (U) выше мощности множества подмножеств U. Действительно, если мощности множеств U и M конечны, то есть |U| = n, |M| = m, то |P (U)| = mn. При m = 2 (обычные множества) | P (U)| = 2n - число подмножеств U. Основные теоретико-множественные операции в P (U) вводятся следующим образом. Говорят, что нечеткие множества A и B равны (A = B), если для всех u из U выполнено  A u   B u  . Говорят, что нечеткое множество A включает нечеткое множество B (A  B), если для всех u из U выполнено  A u   B u  . Говорят, что нечеткое множество B является дополнением нечеткого множества A в U ( B  A ), если для всех u из U выполнено B u   1   A u  . Говорят, что нечеткое множество C является пересечением нечетких множеств A и B ( C  A  B ), если для всех u из U выполнено C u   min  A u , B u  . Говорят, что нечеткое множество C является объединением нечетких множеств A и B ( C  A  B ), если для всех u из U выполнено C u   max  A u , B u  . Говорят, что нечеткое множество C является алгебраическим произведением нечетких множеств A и B ( C  A  B ), если для всех u из U выполнено C u    A u   B u  . Говорят, что нечеткое множество C является алгебраической суммой нечетких множеств A и B ( C  A ˆ B ), если для всех u из U выполнено C u    A u   B u    A u   B u  . Нетрудно видеть, что замена в этих определениях функции принадлежности  u  на характеристическую функцию hu  приводит к обычным операциям с теми же названиями в теории множеств. Напомним, что алгеброй называется множество с определенными на его элементах операциями. Рассмотрим множество P (U) и определенные на его элементах и их парах операции дополнения, пересечения и объединения. Будем обозначать такую алгебру P(U ); ,, . Для нее справедливы следующие свойства.      Коммутативность: A  B  B  A , A  B  B  A Ассоциативность: ( A  B)  C  A  ( B  C ) , ( A  B)  C  A  ( B  C ) Идемпотентность: A  A  A , A  A  A Инволюция: ( A )  A Дистрибутивность: A  ( B  C )  ( A  B)  ( A  C ) , A  ( B  C )  ( A  B)  ( A  C )  Теоремы Де-Моргана: A  B  A  B , A  B  A  B  Операции с пустым множеством: A     , A    A  Операции с универсальным множеством: A U  A , A U  U  Операции с дополнением: A  A   , A  A  U Все операции, кроме послнедних, справедливы для Булевой алгебры. Для алгебры P(U ); ,,ˆ выполняются аналогичные соотношения, кроме идемпотентности и дистрибутивности. 1.3. Обобщеные операции пересечения, объединения, дополнения. Нечеткая логика. Не трудно заметить, что, если мы заменим функцию принадлежности на характеристическую, операции пересечения и алгебраического произведения дадут нам операцию пересечения обычных множеств. В этом смысле они являются обобщением операции пересечения. Аналогично операции объединения и алгебраической суммы нечетких множеств являются обобщением операции объединения обычных множеств. Существует много других подобных обобщений. К настоящему времени сформировалось представление о наиболее общей форме операторов пересечения и объединения в классе так называемых треугольных норм и конорм. Треугольной нормой (сокращенно t-нормой) называется двухместная действительная функция : [0,1][0,1][0,1], удовлетворяющая следующим условиям:  (0,0)=0, (A,1)=(1,A)=A (ограниченность);  (A,B)=(B,A) (коммутативность);  (A,(B,C))= ((A, B), C) (ассоциативность);  (A, B)  (C, D), если A  C, B  D (монотонность). Простыми случаями треугольных норм являются операции пересечения, алгебраического произведения и другие, например, m ( A ,  B )  max0,  A   B  1,  A , если  B  1  w (  A ,  B )   B , если  A  1 .  0, иначе  Треугольной конормой (сокращенно t-конормой) называется двухместная действительная функция : [0,1][0,1][0,1], удовлетворяющая следующим условиям:  (1,1)=1, (0, A)= (A,0)=  A (ограниченность);  ( A, B)= ( B,  A) (коммутативность);  ( A, ( B,C))= (( A,  B),  C) (ассоциативность);  ( A,  B)  ( C, D), если  A   C,  B   D (монотонность). Простыми случаями треугольных конорм являются операции объединения, алгебраической суммы и другие, например,  m ( A ,  B )  min1,  A   B ,  A , если  B  0   w (  A ,  B )   B , если  A  0 .  1, иначе  t-нормы и t-конормы можно задавать параметически. Их бесконечно много, и все они в частном случае классической теории множеств (то есть при замене функций принадлежности на характеристические функции) дают общепринятые определения операций пересечения и объединения. Используя нечеткие множества, мы можем определять различные понятия в более естественном для человеческого способа восприятия и описания объектов виде. Операции пересечения, объединения и дополнения нечетких множеств могут интерпретироваться как логические связки “и”, “или” и “не” соответственно. В этом случае мы говорим о нечеткой логике. Имея выражение некоторых понятий a1, a2, .. ,an в виде нечетких множеств A1, A2, .. ,An, мы можем находить нечеткие множества, соответствующие понятим a1 и a2 и a3, не a1 или a2 и a5 и т.п. 1.4. Понятие лингвистической переменной. Дальнейшим шагом Заде стало введение понятия нечеткой переменной [9] как тройки A,U,A(u), где A - наименование (имя) нечеткой переменной; U - универсальное множество (область определения); A(u) - ограничения на возможные значения (смысл) переменной A. Таким образом, нечеткая переменная - это поименованное нечеткое множество. Лингвистическая переменная [9] представлет собой пятерку A,T(A),U,G,M , где A - наименование (имя) лингвистической переменной; T(A) - терм-множество лингвистической переменной A, то есть множество ее лингвистических значений; U - универсальное множество, в котором определяются значения лингвистической переменной A; G - синтаксическое правило, порождающее значения лингвистической переменной A (часто имеет форму грамматики); M -семантическое правило, которое ставит в соответствие каждому элементу T(A) его “смысл” как нечеткое подмножество U. Для задания правила G обычно задаются базовые значения (например, маленький, средний, большой), модификаторы (не-, очень-, слегка- и т.п.) и правила образования элементов терм-множества (не большой, очень маленький, слегка большой, не очень маленький т.д.). При задании правила M предполагается, что функции принадлежности базовых терминов заданы, а также известно, каким образом модификаторы воздействуют на функции принадлежности базовых значений. Например, в [9] предлагается что если известна функция принадлежности A(u) некоторого базового значения A, то функции принадлежности лингвистических значений “не A”, “очень A” могут вычисляться следующим образом: не A (u) = 1 - A (u), очень A(u) = 2A (u). Таким образом предполагалось, что, задав функции принадлежностей нескольких базовых значений и выбрав формализации логических операций “и”, “или”, “не”, мы сможем “вычислять” функции принадлежности любых элементов терм-множества T(A). Более того, мы сможем “вычислять смысл” любого высказывания, производя соответствующие операции над функциями принадлежности понятий различных лингвистических переменных. Этот “смысл” может быть представлен либо в виде функции принадлежности, либо в виде лингвистического значения, наилучшим способом аппроксимирующем результирующую функцию принадлежности. Однако, реализовать данную программу в полном объеме не удалось. Исследования, проведенные в этой области, составили базу для большого числа теоретических и практических результатов в области моделирования сложных систем, нечетких управляющих систем (см. нечеткий контроллер), интеллектуальных человекокомпьютерных систем. В настоящее время подобные вопросы изучаются в рамках granularity computing (GrC) и computing with words (CW) [66] [67]. 1.5. Понятие нечеткого отношения. Понятие отношения, как и понятие множества, играет важную роль в математике и ее приложениях. Нечеткое отношение можно определить как нечеткое подмножество специальным образом устроенного универсального множества. Пусть U1 , U2 - обычные множества, U1  U2 - их прямое произведение, M - множество принадлежностей. Тогда нечеткое множество R такое, что ( x, y ) U1  U 2  R ( x, y )  M называется нечетким бинарным отношением R в U1  U2 . Естественным обобщением понятия нечеткого бинарного отношения является нечеткое n - арное отношение. Оно определяется следующим образом. Пусть Pn = U1  U2  Un - прямое произведение n множеств, M - множество принадлежностей. Нечетким n арным отношением называется нечеткое множество в Pn , принимающее свои значения в M. В теории нечетких отношений важную роль играет понятие (max-min) композиции. Определяется оно следующим образом. Пусть R1 есть нечеткое отношение в X  Y, R2 - нечеткое отношение в Y  Z. (max-min) - композиция R1  R2 определяется     выражением  R1 R2 ( x, z )  max min  R1 ( x, y ),  R2 ( y, z )  , где xX, yY, zZ. Вычисление y   композиции нечетких отношений аналогично вычислению произведения матриц, ("столбец на строку"), только вместо произведения и суммы выполняются операции взятия минимума и максимума соответственно. К сожалению, композиция R1  R2 или R2  R1 двух транзитивных отношений R1 и R2 может как быть транзитивным отношением, так и не быть таковым. Для нечетких отношений естественным образом вводятся понятия рефлективности, симметричности и транзитивности. Если обозначить через R 2 (max-min) - композицию R  R , то условие транзитивности можно записать как R2  R . Пусть R k  R  R k 1 (k = 2, 3 , ...). Тогда выражение R  R  R2  R3  называется транзитивным замыканием отношения R . Достаточно очевидно, что транзитивное замыкание любого нечеткого отношения есть транзитивное отношение. Это свойство позволяет находить для любого отношения “ближайшее” к нему транзитивное отношение. Проиллюстрируем использование этого свойства на следующем примере. Пусть имеется некоторое рефлексивное симметричное отношение R (называемое отношением сходства) - например, результаты сравнения экспертом некоторых объектов. Известно, что такие оценки часто не являются транзитивными. Достаточно очевидно, что (max-min) композиция R  R такого отношения также будет отношением сходства. С учетом этого замечания мы можем утверждать, что его транзитивное замыкание R является рефлексивным, симметричным и транзитивным (эти свойства определяют отношение подобия). Отношение подобия индуцирует метрику в универсальном множестве d R ( x, y )  1   R ( x, y ) ; получающиеся в результате применения теоремы о декомпозиции отношения  - уровния являются вложенными друг в друга отношениями эквивалентности. Таким образом, имея минимальные ограничения на ответы экспертов возможно достаточно корректно и естественно ввести расстояние между объектами (и тем самым открыть возможность применения различных количественных методов анализа такой информации) или исследовать структуру возникающих иерархий отношений эквивалентности и т.п. В рамках теории нечетких отношений вводятся различные типы отношений (например, сходства, различия, порядка и т.п.), изучаются их свойства, свойства отношений, индуцированных ими в универсальном множестве. Подробнее с этими результатами, а также применением теории нечетких отношений для анализа сложных систем можно ознакомиться в [21]. 1.6. Понятие систем нечеткого логического вывода. Обобщение схем логического вывода на нечеткий случай производится следующим образом. Напомним правило вывода modus ponens в обычной логике. Это правило можно записать следующим образом: Посылка 1: если x есть A, то y есть B Посылка 2: x есть A Следствие: y есть B, где x и y - имена объектов, A, B - обозначения понятий областей рассуждения U и V соответственно. Обобщение данного правила на случай, когда посылки являются нечеткими понятиями можно записать следующим образом: Посылка 1: если x есть A, то y есть B Посылка 2: x есть A' Следствие: y есть B', где x и y - имена объектов, A, A', B, B' - обозначения нечетких подмножеств областей рассуждения U, U, V и V соответственно. Данная форма нечеткого вывода может быть рассмотрена как обобщение modus ponens. Действительно, мы получаем обычный modus ponens при A'=A и B'=B. Посылка 1 в виде если x есть A, то y есть B представляет некоторое соответствие между A и B. Существует много различных формализаций нечеткого условного высказывания "Если x есть A, то y есть B”. Приведем некоторые из них. Пусть A и B - нечеткие множества в универсальных множествах U и V с функциями принадлежности  A ( u) и  B ( v ) соответственно; , , , ,  - декартово произведение, объединение, пересечение, дополнение и ограниченная сумма для нечетких множеств. Ra   A  V   U  B (или, что то же самое,  Ra ( u, v )  min11 ,   A ( u)   B ( v ) ) Rb   A  V   U  B    ( u, v )  max1   A ( u),  B ( v )   Rb  Rm   A  B   A  V       Rm ( u, v )  maxmin  A ( u),  B ( v ) ,1   A ( u)    Rs   A  V   U  B s  1, при  A ( u)   B ( v ) s s   Rs ( u, v )   A ( u)     B ( v ), где  A ( u)    B ( v )    0, при  A ( u)   B ( v ) Rg   A  V   U  B g при  A ( u)   B ( v )   1, g g   Rg ( u, v )   A ( u)     B ( v ), где  A ( u)    B ( v )     B ( v ), при  A ( u)   B ( v ) Часто используются также комбинации приведенных выражений ( Rss , Rsg и т.п.). Следствие B' в обобщенном modus ponens получается из посылки 1 и посылки 2 как max-min композиция нечеткого множества A' и нечеткого отношения, полученного по одному из приведенных выше способов. Таким образом, применяя разные формализации нечеткого условного высказывания "Если x есть A, то y есть B", мы получаем из одной посылки B', вообще говоря, разные выводы: Ba  A  Ra , Bb  A  Rb , Bm  A  Rm и т.п. Какой из этих выводов "лучше"? Как часто бывает в теории нечетких множеств, мы имеем целый спектр вполне корректных обобщений конкретного математического факта или теории. Выбор конкретного такого обобщения для решения конкретной прикладной задачи зависит от свойств предметной области, математической интуиции и инженерного опыта разработчика системы. Примером такого неформального рассуждения может быть следующий. Для сравнения различных методов нечетких рассуждений формулируются интуитивно разумные требования к связи между A' и B'. В качестве A' берутся высказывания A' = очень A, A' = более или менее A, A' = не A и т.п. Каким может быть B' для таких A' ? Если существует сильная причинная связь между высказываниями "x есть A" и "y есть B" в высказывании "Если x есть A, то y есть B", то для A' = очень A мы должны требовать B' = очень B. Если причинная связь не является жесткой, для указанного A' можно требовать выполнения и B' = B. Если, например, утверждение "Если x есть A, то y есть B" неявно подразумевает утверждение "Если x есть A, то y есть B, иначе y не есть B”, то для A' = не A мы должны требовать выполнения B' = не B}. Можно составить набор такого рода требований к B' для различных A' и проверить их выполнение различными отношениями по приведенным выше формулам. Обобщение правила modus tollens на случай, когда посылки являются нечеткими понятиями, аналогично правилу modus ponens, можно записать следующим образом: Посылка 1: если x есть A, то y есть B Посылка 2: y есть не B' Следствие: x есть не A', где x и y - имена объектов, A, A', B, B' - обозначения нечетких подмножеств областей рассуждения U, U, V и V соответственно. Данная форма нечеткого вывода может быть рассмотрена как обобщение modus tollens. Действительно, мы получаем обычный modus tollens при A' = не A и B' = не B. Аналогично обобщенному modus ponens, следствие A' получается в результате (max - min) - композиции соответствующего отношения и нечеткого множества B' : Aa  Ra  B , Ab  Rb  B , Am  Rm  B и т.п. Проблема выбора наиболее адекватного конкретной задаче метода нечетких рассуждений на основе modus tollens решается так же, как и в случае modus ponens. 1.7.Принцип обобщения. В основе механизма обобщения известных операций на нечеткий случай лежит предложенный Заде принцип обобщения [8]. Он носит эвристический характер и позволяет расширить область определения некоторого отображения  : X  Y на класс нечетких множеств. Пусть  : X  Y - заданное отображение, A - нечеткое подмножество в X. Тогда образ A при отображении  есть нечеткое подмножество B в Y, задаваемое функцией принадлежности  B ( y )  sup  A ( x ) , где yY,  1 ( y )  x  X : ( x )  y . x  1 ( y ) Например, если заданные в универсальном множестве UD (D - множество действительных чисел) нечеткие подмножества A, B и C интерпретировать как нечеткие числа, то мы можем определить арифметические операции над ними следующим образом на основе принципа обобщения: C = A + B, если  C ( z )  max min A ( x ),  B ( y ) , zx y C = A - B, если  C ( z )  max min A ( x ),  B ( y ) , zx y C = A  B, если  C ( z )  max min A ( x ),  B ( y ) , z  x y C = A : B, если  C ( z )  max min A ( x ),  B ( y ) . z  x: y Полученное таким образом расширение арифметических операций позволяет решать уравнения с нечеткими числами, задачи нечеткого линейного программирования, различные оптимизационные задачи для нечеткой ситуации (например, составления расписаний) и т.п. 1.8. Показатели неопределенности нечетких объектов. Нечеткие множества и отношения могут иметь разную степень нечеткости. Меры нечеткости важны в приложениях теории нечетких множеств. Этот показатель является параметром оценки качества различных процедур и алгоритмов в распознавании образов, принятии решений, моделях поиска информации и т.п. в нечеткой среде. Работы по измерению степени нечеткости начались с 1972 г. [47]. Исторически первыми были разработаны методы оценки нечеткости через энтропию, однако применимость этого понятия оказалось не слишком удачной для оценки степени нечеткости множества; к настоящему времени можно выделить два основных подхода к оценке степени нечеткости множества: метрический и аксиоматический. Идея метрического подхода заключается в оценке степени нечеткости как функции расстояния между оцениваемым множеством и некоторым множеством с известной степенью нечеткости. К последним для нечеткого множества A можно отнести ближайшее ~ четкое множество A , определяемое как  0, если  A ( u)  0,5  hA~ ( u)   1, если  A ( u)  0,5 0 или 1, если  ( u)  0,5 A  или множество с максимальной степенью нечеткости A0,5 , функция принадлежности которого равна 0,5 для всех элементов универсального множества. Упомянутая функция (обычно, монотонная) подбирается для удовлетворения некоторым естественным требованиям для степени нечеткости, которые определяются для каждой задачи. Примерами таких требований могут быть изменение степени нечеткости в пределах от 0 до 1, равенство степени нечеткости нулю для обычного множества и т.п. Основная идея аксиоматического подхода заключается в формулировании некоторых "естественных" требований (аксиом) к степени нечеткости, и поиске конкретных функционалов, удовлетворяющих этим требованиям. Обычно пользуются следующими аксиомами степени нечеткости множества (A). P1. (A) = 0 (минимально) для ситуации, когда A - обычное множество; P2. (A0,5) = 1 (максимально); P3. (A)  (B), если A(u)  B(u) при B(u) < 0,5 и A(u)  B(u) при B(u) > 0,5 (в этом случае говорят, что A является заострением B); P4. (A) = ( A ) (симметричность по отношению к 0,5). Иногда добавляется аксиома P5: P5. (A  B) + (A  B) = (A) + (B), т.е.  является оценкой на решетке F(U). Свойства степени нечеткости достаточно подробно описаны в [29, 33, 35]. Отдельно отметим, что операция дополнения не выводит нас из класса функций одинаковой степени нечеткости; операции же пересечения и объединения, вообще говоря, не сохраняют класса функций одинаковой степени нечеткости. При последних двух операциях нечеткость может как увеличиваться, так и уменьшаться, однако какой-либо систематический эффект увеличения (уменьшения) нечеткости возможен при довольно сильных ограничениях, редко встречающихся на практике. Моделью многих практических ситуаций может служить совокупность нечетких множеств, заданных на одном универсальном множестве. Такие совокупности можно интерпретировать как описание альтернатив в задачах принятия решений, классов в задачах распознавания образов, множеств значений качественных признаков и т.п. Для таких структур также можно определить степень нечеткости [29, 35]. Можно показать, что показатели качества поиска информации в нечетких (лингвистических) базах данных или качества решения задачи распознавания образов по нечетким описаниям являются функцией от этой степени нечеткости. Таким образом, возможно вычисление предельных характеристик качества работы нечетких систем как функции от качества описания объектов их предметной области. 1.9. Нечеткий контроллер. Нечеткие управляющие системы, называемые нечеткими контроллерами, имеют широкий спектр применений. Основная идея заключается в "подмене" сложной математической модели реального процесса или объекта на логико-лингвистическую модель управления этим процессом (объектом). В рамках этого подхода используется опыт оператора, управляющего объектом. Стратегия управления, используемого оператором, часто может быть сформулирована как набор правил, которые можно выполнить человеку, но трудно формализовать, используя обычные алгоритмы. Трудность формализации возникает из-за того, что человек использует качественные понятия (например, "давление пара большое", скорость изменения параметра нормальная", "ситуация стабильная" и т.п.) при описании условий принятия конкретных решений. Пусть состояние управляемого объекта  описывается набором значений качественных признаков S(). Пусть, далее, множество признаков A фиксировано и является конечным ( A   A1 , , An  ). Процесс описывается последовательностью   состояний объекта в моменты времени t1 , t2 , S ti   (i = 1, 2, ...). Для достижения цели управления у нас есть возможность изменять значения некоторых управляющих воздействий из множества B   B1 , , Bm  . Каждому признаку Ai ставится в соответствие множество U i его значений (1  i  n). Например, для признака “температура” множество значений - отрезок числовой прямой. Над каждым множеством U i строится система нечетких множеств  a1i (ui ), ,  an i (ui ) , описывающих качественные понятия a1i ,, ani i , используемые i экспертом при формулировке левой части "Если ..., то ..." правил управления процессом (объектом). Продолжая пример с признаком “температура” в качестве такого набора понятий можно привести: “маленькая”, “нормальная”, “высокая”. Аналогично каждому управляющему воздействию B j ставится в соответствие множество V j его значений и множество его лингвистических значений b1 j , , bm j j , описываемых функциями принадлежности  b1 j ( v j ), ,  bm j j ( v j ) в V j (1  j  m). Качественное описание управления процессом в этих обозначениях выглядит следующим образом: Если A1  a1i11 и A2  a1i2 2 и  и An  a1in n Если A1  a и A2  a 2 in n то B1  b и  и Bm  b Если A1  a и A2  air2 2 и  и An  airn n то B1  b rj11 и  и Bm  b rjm m 2 i1 1 2 i2 2 и  и An  a то B1  b1j11 и  и Bm  b1jm m 2 j1 1 2 jm m  r i1 1 где     (1.9.1)    r - количество правил; k (1  k  n) 1  ik  nk ; q(1  q  m) 1  jq  mq ; l1 , l2 (1  l1 , l2  r ) i(1  i  n) значения a ilk1i и a ilk2i могут быть равны или не равны друг другу; l1 , l2 (1  l1 , l2  r ) j(1  j  m) значения b lj1q j и b lj2q j могут быть равны или не равны друг другу. Обозначим через U * декартово произведение U *  U1 U n , через V * - декартово произведение V *  V1 Vm . Если через P(U ) обозначить множество всех нечетких подмножеств универсального множества U, то (9.1) может быть представлено как нечеткое отображение :P (U * )  P (V * ) . Таким образом, моделью объекта управления и среды является их лингвистическое описание; блок принятия решений работает как последовательность "Если ..., то ..." правил. Однако, в приведенной схеме есть некоторое противоречие. Действительно, возникает ситуация, когда элементы одной схемы описываются на разных "языках": в среде значения признаков - некоторые числа, отражающие значения физических измеряемых величин, а в модели управления значения признаков - качественные понятия. Система управления должна взять с объекта управления некоторые числа и выдать на объект опять же некоторые конкретные числа. Для этого система управления имеет два интерфейса: представления физического значения признака в лингвистическом виде ("фазификатор") и представления получившегося в результате нечетких рассуждений лингвистического значения управляемого параметра в количественном виде ("дефазификатор"). Структурная схема нечеткого лингвистического регулятора представлена на рис. 1. Рис. 1. С учетом сделанных разъяснений, опишем функционирование контроллера в наиболее общем виде следующим образом. Входом контроллера является вектор u*   u1 , , un  вещественных чисел, выходом - вектор v *   v1 , , vm  . Выход контроллера вычисляется следующим образом. Вычисляются величины n ml ( u* )  T  lik k ( uk ) , (1  l  r ) , k=1 где  lik k ( uk ) - степень принадлежности числа uk множеству ailk k в (1.9.1); T - некоторая t - норма. (1.9.2) Содержательно ml ( u* ) описывает, насколько вектор u* удовлетворяет правой части l - правила. Далее вычисляются величины   M ljqq ( u* , vq )  T ml ( u* ),  ljqq ( vq ) , (1  l  r , 1  q  m , 1  jq  mq ) , где (1.9.3)  ljqq ( vq ) - функция принадлежности b jqq ; ml ( u* ) описывается формулой (1.9.2). Содержательно M ljqq ( u* , vq ) описывает, с какой степенью уверенности l - правило рекомендует b jqq для вектора u* в (1.9.1). Далее вычисляются r M jqq ( u* , vq )   M ljqq ( u* , vq ) , ( 1  q  m , 1  jq  mq ) , (1.9.4) l 1 где M ljqq ( u* , vq ) описывается (1.9.3);  - некоторая t - конорма. M jqq ( u* , vq ) описывает, с какой степенью уверенности система правил (1.9.1) рекомендует b jqq для вектора u* . Итак, для каждого q (1  q  m) мы имеем mq функций принадлежности M jqq ( u* , vq ) описывающих, с какой степенью уверенности система правил (1.9.1) рекомендует b jqq для вектора u* . Обобщенная рекомендация системы правил для q управляющего воздействия есть t - конорма этих функций принадлежности: mq M q ( u* , vq )   M jq ( u* , vq ) , ( 1  q  m) , (1.9.5) j 1 M jq ( u* , vq ) описывается формулой (1.9.4). Для вычисления конкретного значения v q (значения управляющего воздействия где Bq ) применяется операция дефазификации. Примером ее может быть операция вычисления так называемого центра тяжести функции принадлежности M q ( u* , vq ) по формуле: v vq  q M q ( u* , v q )dv q Vq  M q ( u* , v q )dv q , ( 1  q  m) , (1.9.6) Vq M q ( u* , vq ) описывается формулой (1.9.5). Полученное значение v q и есть искомое управляющее воздействие для Bq . где Эти значения образуют вектор v * - выход нечеткого контроллера. 2. Нейронные сети Понятие формального нейрона и сети таких нейронов было введено У. Мак-Коллоком и В. Питсом в 1943 году [64] (русский перевод статьи опубликован в сборнике “Автоматы” [18]). Это понятие оказалось удачным и продуктивным. Сети формальных нейронов привлекали внимание таких известных ученых как С. Клини [12], Ф. Розенблатт [26, 26], М. Минский, С. Пейперт [19], Л.В. Крушинский, В.Б. Кудрявцев [15] и других. Подробный обзор этих понятий и связанных с ними математических вопросов приведен в [39]. В настоящее время это направление является интенсивно развивающейся областью прикладной математики и информатики, имеющей массу приложений в задачах распознавания образов, адаптивного управления, организации ассоциативной памяти, оптимизации, аппроксимации и многих других (cм., например, [39]). Перечисленные выше примеры применения нейронных сетей показывают, что решаемые ими задачи очень разнородны. Поэтому в настоящее время разработаны и разрабатываются специальные типы нейронных сетей, предназначенные для решения определенного класса задач. Несмотря на существенные различия, отдельные типы НС обладают несколькими общими чертами. Во-первых, любая НС состоит из однотипных элементов, имитирующие работу нейронов мозга и называемых искусственными или формальными нейронами. Далее под нейроном будет подразумеваться именно искусственный нейрон. Каждый нейрон характеризуется своим текущим состоянием по аналогии с нервными клетками головного мозга, которые могут быть возбуждены или заторможены. Он обладает группой синапсов – однонаправленных входных связей, соединенных с выходами других нейронов, а также имеет аксон – выходную связь данного нейрона, с которой сигнал (возбуждения или торможения) поступает на синапсы следующих нейронов. Общий вид нейрона приведен на Рис. 2.1. Каждый синапс характеризуется величиной синаптической связи или ее весом wi, который по физическому смыслу эквивалентен электрической проводимости. Рис. 2.1. Текущее состояние нейрона определяется, как взвешенная сумма его входов: n s   xi  wi (2.17) i 1 Выход нейрона есть функция его состояния: y = f(s) (2.18) Нелинейная функция f называется активационной и может иметь различный вид. На рис. 2.2. представлены несколько наиболее используемых таких видов. Рис. 2.2. Одной из наиболее распространенных является нелинейная функция с насыщением, так называемая логистическая функция или сигмоид (рис. 2.2 г))[39]: 1 f ( x)  (1.14) 1  e x При уменьшении  сигмоид становится более пологим, в пределе при =0 вырождаясь в горизонтальную линию на уровне 0.5, при увеличении  сигмоид приближается по внешнему виду к функции единичного скачка (Рис. 2.2 а)) с порогом T в точке x = 0. Из выражения для сигмоида очевидно, что выходное значение нейрона лежит в диапазоне [0,1]. Одно из ценных свойств сигмоидной функции – простое выражение для ее производной (4), применение которого будет рассмотрено в дальнейшем. f ( x)    f ( x)  (1  f ( x)) (1.15) Следует отметить, что сигмоидная функция дифференцируема на всей оси абсцисс, что используется в некоторых алгоритмах обучения. Кроме того она обладает свойством усиливать слабые сигналы лучше, чем большие, и предотвращает насыщение от больших сигналов, так как они соответствуют областям аргументов, где сигмоид имеет пологий наклон. Возвращаясь к общим чертам, присущим всем НС, отметим, во-вторых, принцип параллельной обработки сигналов, который достигается путем объединения большого числа нейронов в так называемые слои и соединения определенным образом нейронов различных слоев, а также, в некоторых конфигурациях, и нейронов одного слоя между собой, причем обработка взаимодействия всех нейронов ведется послойно. В качестве примера простейшей НС рассмотрим трехнейронный перцептрон (Рис. 2.3). Перцептрон состоит из нейронов имеющих активационную функцию в виде единичного скачка [26]. Рис. 2.3. На n входов поступают сигналы, проходящие по синапсам на 3 нейрона, образующие единственный слой этой НС и выдающие три выходных сигнала:  n  y j  f  xi  wij  , j=1, 2, 3.  i 1  (1.16) Все весовые коэффициенты синапсов одного слоя нейронов можно задать в виде матрицы W размерности n3, в которой каждый элемент wij задает величину i-ой синаптической связи j-ого нейрона. Таким образом, (2.16) может быть переписано в матричной форме следующим образом: (1.17) Y=F(XW), где X и Y – соответственно входной и выходной векторы, F(V) – активационная функция, применяемая поэлементно к компонентам вектора V. Теоретически число слоев и число нейронов в каждом слое может быть произвольным, однако фактически оно ограничено ресурсами компьютера или специализированной микросхемы, на которых обычно реализуется НС. Тем не менее можно утверждать что более сложная сеть обладает большей вычислительной мощностью. Выбор структуры НС осуществляется в соответствии с особенностями и сложностью задачи. Очевидно, что результат работы НС, зависит от величин синаптических связей, поэтому, задавшись определенной структурой НС, отвечающей какой-либо задаче, разработчик сети должен найти оптимальные значения всех переменных весовых коэффициентов (некоторые синаптические связи могут быть постоянными). Этот этап называется обучением НС, и от того, насколько качественно он будет выполнен, зависит способность сети решать поставленные перед ней проблемы во время эксплуатации. На этапе обучения кроме параметра качества подбора весов важную роль играет время обучения. Как правило, эти два параметра связаны обратной зависимостью и их приходится выбирать на основе компромисса. 2.1. Классификация нейронных сетей Существует много различных классификаций нейронных сетей. Так, в зависимости от выходного сигнала нейрона, определяемого видом активационной функции, различают бинарные и аналоговые сети. Первые из них оперируют с двоичными сигналами, и выход каждого нейрона может принимать только два значения: логический ноль ("заторможенное" состояние) и логическая единица ("возбужденное" состояние). К этому классу сетей относится и рассмотренный выше перцептрон, так как выходы его нейронов, формируемые функцией единичного скачка, равны либо 0, либо 1. В аналоговых сетях выходные значения нейронов способны принимать любые значения из некоторого отрезка (например, при активационных функциях, изображенных на рис. 2.1. б) - г)). Еще одна классификация делит НС на синхронные и асинхронные [39]. В первом случае в каждый момент времени свое состояние меняет лишь один нейрон. Во втором – состояние меняется сразу у целой группы нейронов (как правило, у всего слоя). Сети также можно классифицировать по числу слоев. На рис. 2.4 представлен двухслойный перцептрон, полученный из перцептрона с рис. 2.3 путем добавления второго слоя, состоящего из двух нейронов. Рис. 2.4. Обучение НС может вестись с учителем или без него. В первом случае сети предъявляются значения как входных, так и желательных выходных сигналов, и она по некоторому внутреннему алгоритму подстраивает веса своих синаптических связей. Во втором случае выходы НС формируются самостоятельно, а веса изменяются по алгоритму, учитывающему только входные и производные от них сигналы. Существует много различных алгоритмов обучения, которые можно разделить на два больших класса: детерминированные и стохастические. В первом из них подстройка весов представляет собой жесткую последовательность действий, во втором она производится на основе действий, подчиняющихся некоторому случайному процессу. Многообразие существующих структур НС позволяет описать и другие критерии для их классификации, но это выходят за рамки данной работы. Для дальнейшего изложения наибольший интерес представляют алгоритмы обучения нейронных сетей. 2.2. Обучение нейронных сетей. Выделяют два типа таких алгоритмов: обучение с учителем и обучение без учителя (самообучение). 2.2.2. Обучение с учителем. Рассмотрим алгоритмы обучения нейронных сетей с учителем. Алгоритмы такого типа подразумевает наличие некоего внешнего звена (“учителя”), предоставляющего сети кроме входных так же и целевые выходные образы. Для их успешного функционирования необходимо наличие экспертов, создающих на предварительном этапе для каждого входного образа эталонный выходной. Примером алгоритмов такого типа может служить следующий (так называемый алгоритм обратного распространения [39, 44]). 1. Проинициализировать элементы весовой матрицы (обычно небольшими случайными значениями). 2. Подать на входы один из входных векторов, которые сеть должна научиться различать, и вычислить ее выход. 3. Если выход правильный, перейти на шаг 4. Иначе вычислить разницу между идеальным и полученным значениями выхода:   YI  Y Модифицировать веса в соответствии с формулой: wij (t  1)  wij (t )      xi , где t и t+1 – номера соответственно текущей и следующей итераций;  – коэффициент скорости обучения, 0 <  < 1; i – номер входа; j – номер нейрона в слое. Очевидно, что если YI > Y , весовые коэффициенты будут увеличены и тем самым уменьшат ошибку. В противном случае они будут уменьшены, и Y тоже уменьшится, приближаясь к YI. 4. Цикл с шага 2, пока сеть не перестанет ошибаться. На втором шаге на разных итерациях поочередно в случайном порядке предъявляются все возможные входные вектора. К сожалению, нельзя заранее определить число итераций, которые потребуется выполнить, а в некоторых случаях и гарантировать полный успех. 2.2.3. Обучение без учителя. Рассмотрим также кратко основные идеи обучения нейронных сетей без учителя (самообучения). Процесс обучения в этом случае, как и в случае обучения с учителем, заключается в подстраивании весов синапсов. Некоторые алгоритмы, правда, изменяют и структуру сети, то есть количество нейронов и их взаимосвязи, но такие преобразования правильнее назвать более широким термином – самоорганизацией, и в рамках данной работы они рассматриваться не будут. Очевидно, что подстройка синапсов может проводиться только на основании информации, доступной в нейроне, то есть его состояния и уже имеющихся весовых коэффициентов. Исходя из этого соображения и, что более важно, по аналогии с известными принципами самоорганизации нервных клеток [26], построены алгоритмы обучения Хебба. Сигнальный метод обучения Хебба заключается в изменении весов по следующему правилу: (1.18) wij (t )  wij (t  1)    yi( n1)  y (jn) , где yi(n-1) – выходное значение нейрона i слоя (n-1), yj(n) – выходное значение нейрона j слоя n; wij(t) и wij(t-1) – весовой коэффициент синапса, соединяющего эти нейроны, на итерациях t и t-1 соответственно;  – коэффициент скорости обучения. Здесь и далее, для общности, под n подразумевается произвольный слой сети. При обучении по данному методу усиливаются связи между возбужденными нейронами. Существует также и дифференциальный метод обучения Хебба. wij (t )  wij (t  1)     yi( n1) (t )  yi( n1) (t  1)    y (jn) (t )  y (jn) (t  1)  , (1.19) Здесь yi(n-1)(t) и yi(n-1)(t-1) – выходное значение нейрона i слоя n-1 соответственно на итерациях t и t-1; yj(n)(t) и yj(n)(t-1) – то же самое для нейрона j слоя n. Как видно из формулы (2.19), сильнее всего обучаются синапсы, соединяющие те нейроны, выходы которых наиболее динамично изменились в сторону увеличения. Полный алгоритм обучения с применением вышеприведенных формул будет выглядеть так: 1. На стадии инициализации всем весовым коэффициентам присваиваются небольшие случайные значения. 2. На входы сети подается входной образ, и сигналы возбуждения распространяются по всем слоям согласно принципам классических прямопоточных (feedforward) сетей [39], то есть для каждого нейрона рассчитывается взвешенная сумма его входов, к которой затем применяется активационная (передаточная) функция нейрона, в результате чего получается его выходное значение yi(n), i=0...Mi-1, где Mi – число нейронов в слое i; n=0...N-1, а N – число слоев в сети. 3. На основании полученных выходных значений нейронов по формуле (1.18) или (1.19) производится изменение весовых коэффициентов. 4. Цикл с шага 2, пока выходные значения сети не стабилизируются с заданной точностью. Применение этого нового способа определения завершения обучения, отличного от использовавшегося для сети обратного распространения, обусловлено тем, что подстраиваемые значения синапсов фактически не ограничены. На втором шаге цикла попеременно предъявляются все образы из входного набора. Следует отметить, что вид откликов на каждый класс входных образов не известен заранее и будет представлять собой произвольное сочетание состояний нейронов выходного слоя, обусловленное случайным распределением весов на стадии инициализации. Вместе с тем, сеть способна обобщать схожие образы, относя их к одному классу. Тестирование обученной сети позволяет определить топологию классов в выходном слое. Для приведения откликов обученной сети к удобному представлению можно дополнить сеть одним слоем, который, например, по алгоритму обучения однослойного перцептрона необходимо заставить отображать выходные реакции сети в требуемые образы. Другой алгоритм обучения без учителя – алгоритм Кохонена – предусматривает подстройку синапсов на основании их значений от предыдущей итерации: (1.20) wij (t )  wij (t  1)     yi( n1)  wij (t  1)  . Из вышеприведенной формулы видно, что обучение сводится к минимизации разницы между входными сигналами нейрона, поступающими с выходов нейронов предыдущего слоя yi(n-1), и весовыми коэффициентами его синапсов. Полный алгоритм обучения имеет примерно такую же структуру, как в методах Хебба, но на шаге 3 из всего слоя выбирается нейрон, значения синапсов которого максимально походят на входной образ, и подстройка весов по формуле (1.20) проводится только для него. Эта, так называемая, аккредитация может сопровождаться затормаживанием всех остальных нейронов слоя и введением выбранного нейрона в насыщение. Выбор такого нейрона может осуществляться, например, расчетом скалярного произведения вектора весовых коэффициентов с вектором входных значений. Максимальное произведение дает выигравший нейрон. Другой вариант – расчет расстояния между этими векторами в p-мерном пространстве, где p – размер векторов. Dj  p 1 ( y i 0 ( n 1) i  wij )2 , (1.21) где j – индекс нейрона в слое n, i – индекс суммирования по нейронам слоя (n-1), wij – вес синапса, соединяющего нейроны; выходы нейронов слоя (n-1) являются входными значениями для слоя n. Корень в формуле (2.21) брать не обязательно, так как важна лишь относительная оценка различных Dj. В данном случае, "побеждает" нейрон с наименьшим расстоянием. Иногда слишком часто получающие аккредитацию нейроны принудительно исключаются из рассмотрения, чтобы "уравнять права" всех нейронов слоя. Простейший вариант такого алгоритма заключается в торможении только что выигравшего нейрона. При использовании обучения по алгоритму Кохонена существует практика нормализации входных образов, а так же – на стадии инициализации – и нормализации начальных значений весовых коэффициентов. xi  xi / n 1 x j 0 2 j (1.22) , где xi – i-ая компонента вектора входного образа или вектора весовых коэффициентов, а n – его размерность. Это позволяет сократить длительность процесса обучения. Инициализация весовых коэффициентов случайными значениями может привести к тому, что различные классы, которым соответствуют плотно распределенные входные образы, сольются или, наоборот, раздробятся на дополнительные подклассы в случае близких образов одного и того же класса. Для избежания такой ситуации используется метод выпуклой комбинации [48]. Суть его сводится к тому, что входные нормализованные образы подвергаются преобразованию: (1.23) 1 xi   (t )  xi  (1   (t ))  n, где xi – i-ая компонента входного образа, n – общее число его компонент, (t) – коэффициент, изменяющийся в процессе обучения от нуля до единицы, в результате чего вначале на входы сети подаются практически одинаковые образы, а с течением времени они все больше сходятся к исходным. Весовые коэффициенты устанавливаются на шаге инициализации равными величине wo  1 n, (1.24) где n – размерность вектора весов для нейронов инициализируемого слоя. На основе рассмотренного выше метода строятся нейронные сети особого типа – так называемые самоорганизующиеся структуры – self-organizing feature maps (этот устоявшийся перевод с английского, на мой взгляд, не очень удачен, так как, речь идет не об изменении структуры сети, а только о подстройке синапсов). Для них после выбора из слоя n нейрона j с минимальным расстоянием Dj (1.21) обучается по формуле (1.20) не только этот нейрон, но и его соседи, расположенные в окрестности R. Величина R на первых итерациях очень большая, так что обучаются все нейроны, но с течением времени она уменьшается до нуля. Таким образом, чем ближе конец обучения, тем точнее определяется группа нейронов, отвечающих каждому классу образов. 3. Генетические алгоритмы. Генетические алгоритмы были предложены как эвристическая процедура поиска экстремума некоторой функции в ситуации, когда эта функция является недифференцируемой, неунимодальной и обладающей другими свойствами, затрудняющими или делающими невозможными применение стандартных математических методов. Этот подход нашел широкое применение в решении задач управления, оптимизации параметров моделей, решения систем нелинейных уравнений и т.п. Он показал свою высокую эффективность в смысле большой скорости сходимости, минимизации требуемых ресурсов, но не гарантирует, вообще говоря, нахождения глобального экстремума. Это достаточно надежный инструмент решения практических задач, когда требуется “хорошее” (не обязательно оптимальное) решение, полученное за “разумное” (не обязательно минимальное) время. В настоящее время генетические алгоритмы представляют собой скорее подход, чем единый алгоритм. Их применение для решения конкретной задачи часто требует некоторого искусства разработчика в кодировании задачи, выборе или модификации используемых операторов. Для объяснения этих положений приведем сначала содержательное, а потом формализованное описание классического генетического алгоритма. То, что называется классическим или стандартным генетическим алгоритмом, было впервые подробно описано и исследовано в работе Де Джонга [46]. Проиллюстрируем его работу на простейшем примере поиска максимума функции одной переменной f(x) ( X m  x  X M ). Перед началом работы генетического алгоритма необходимо: 1. Закодировать пространство возможных решений (точки отрезка  X m , X M  ). Кодирование может быть, вообще говоря, произвольным. Обычно отрезок разбивается на n точек и каждому узлу сетки ставится в соответствие вектор из нулей и единиц (например, по стандартной схеме двоичного кодирования). Такой вектор называется хромосомой. Позиции в хромосоме называют генами, а значения в определенных позициях - аллелями. 2. Задать функцию оптимальности, определяющую эффективность каждого найденного решения. В нашем случае это может быть значение функции в данном узле сетки. Собственно работа генетического алгоритма состоит из следующих шагов. 3. В соответствии с определенными ограничениями инициализируется исходная популяция P0 потенциальных решений. 4. Каждая хромосома в популяции декодируется в необходимую форму для последующей оценки, и затем ей присваивается значение эффективности в соответствие с функцией оптимальности. 5. К популяции применяется оператор отбора, который каждой хромосоме присваивает вероятность воспроизведения pi , зависящую от эффективности данной хромосомы. В соответствии с вероятностями воспроизведения pi , создается промежуточная популяция, причем с большей вероятностью воспроизводятся наиболее эффективные элементы. Для сохранения размера популяции самые неэффективные индивидуумы “отмирают”. 6. Индивидуумы промежуточной популяции производят потомков, используя операции рекомбинации: скрещивание (хромосомы скрещиваются, обмениваясь частями строк) и мутацию (вероятностное изменение аллелей). Таким образом, формируется новое поколение хромосом. 7. Процесс останавливается, если получено удовлетворительное решение, либо если достигнуто заданное число поколений. Если процесс не окончен, то вновь повторяются процессы оценки и воспроизведения новой популяции. 3.1. Примеры операторов отбора, скрещивания и мутации Приведем примеры операторов отбора, скрещивания и мутации. Итак, оператор отбора s на каждом i - шаге работы генетического алгоритма из i i популяции P порождает промежуточную популяцию P посредством отбора и i i генерации новых копий ее элементов: P =s( P ). Функция оптимальности f используется для отбора конкурентоспособных индивидуумов популяции. При отборе используется ранжирование элементов популяции. Для этого для i i i i каждого элемента a j из P (1  j   ) вычисляется f( a j ) и после этого элементы P упорядочиваются по не убыванию (для задачи минимизации) или не возрастанию (для i максимизации). Ранг элементов популяции r (a j ) (1  j   ) есть его номер в таком i упорядоченном множестве. Таким образом, элементы P сортируются согласно их i конкурентоспособности (оптимальности) так, что a1 будет лучшим элементом. i Отбор производится на основании вероятностей ps (a j ) вычисляемых для каждого индивидуума популяции. Примерами правила вычисления вероятностей воспроизведения (схемы отбора) могут быть: пропорциональный отбор: ps (a )  i j f (aij )   f (a ) k 1 линейное ранжирование: ps (a )  i j 1  ; i k (max  (max  min ) r (aij )  1  1 , где min = 2 - max, 1max2. 1  i (, )-равномерное ранжирование: ps (a j )    0  при 1  r (aij )   . при   r (a )   i j После присваивания хромосомам популяции вероятностей воспроизведения, формируется промежуточная популяция путем дублирования (с соответствующей вероятностью воспроизведения) хромосом популяции. Таким образом, размер промежуточной популяции больше размера исходной и меньше ее удвоенного размера. Чтобы вернуться к фиксированному размеру популяции , удаляются последние (а значит, с учетом ранжирования, самые плохие) хромосомы. Наиболее часто используется пропорциональный отбор. Но одна из проблем, связанных с этим отбором состоит в том, что данная процедура не может гарантировать асимптотическую сходимость к глобальному оптимуму. Наилучшая хромосома в популяции может быть потеряна в любом поколении, и нет какой-либо гарантии, что результаты эволюции, достигнутые в ряде поколений, не будут утрачены. Одним из способов преодоления этого является использование элитного отбора, который всегда сохраняет наилучшую хромосому в популяции. Этот вид отбора гарантирует асимптотическую сходимость, но скорость сходимости при этом может существенно зависеть от вида конкретной решаемой задачи. После завершения отбора, выполняются генетические операции рекомбинации: скрещивание и мутация. Обе операции имеют случайный характер (вероятность применения и выбор локуса (позиции) внутри хромосомы). Традиционный и наиболее часто используемый оператор рекомбинации одноточечное скрещивание, которое осуществляется с вероятностью pc (часто pc = 0.6 ). Скрещивание выполняются следующим образом: 1. Случайный выбор партнеров для скрещивания:     a j1  a j1 ,1, a j1 ,2 , , a j1 ,l , a j2  a j2 ,1, a j2 ,2 , , a j2 ,l из P i (1 j1, j2 , верхний индекс для простоты обозначений опущен); 2. Случайный выбор позиции скрещивания: k{1, ..., l-1}; 3. Формирование двух новых индивидуумов:   a  ; a1  a j1 ,1, a j1 ,2 , , a j1 ,k , a j2 ,k 1, , a j2 ,l , a2 j2 ,1 , a j2 ,2 , , a j2 ,k , a j1 ,k 1, , a j1 ,l 4. Выбор одного или двух потомков, как индивидуумов новой популяции. Несмотря на возможные различия в реализации, все типы скрещивания обладают общим свойством: они контролируют баланс между дальнейшим использованием уже найденных хороших областей и исследованием новых подобластей. Общие блоки внутри хромосом-родителей не разрушаются, сохраняя “хорошие паттерны”, и одновременно исследуются новые подобласти в результате обмена частями хромосом. Таким образом, совместное использование отбора и скрещивания приводит к тому, что области пространства потенциальных решений с лучшей средней оптимальностью содержат больше элементов популяции, чем другие. То есть эволюция популяции направляется к областям, содержащим оптимум с большей вероятностью, чем другие. Однако это могут быть локальные оптимумы. Мутации вносят новизну и представляют изменение аллелей в определенных позициях, которые не могут быть восстановлены скрещиванием, тем самым ограничивают преждевременное ограничение пространства поиска. Мутация представляет собой случайное изменение гена, вероятность ее обычно довольно низкая (pm  0.001). Функционирует мутация следующим образом: 1. Случайный выбор хромосомы, подверженной мутации: a j   a j ,1, a j ,2 , , a j ,l  из P i (1 j , верхний индекс для простоты обозначений опущен); 2. Случайный выбор (с некоторой фиксированной вероятностью pm) позиций {k1,…,km} внутри хромосомы, подверженных мутации (1 ki l, 1 i m); 3. Формирование новой хромосомы:  a  a j ,1, , a j ,k1 1, aj ,k1 , a j ,k1 1, , a j ,km 1, aj ,km , a j ,km 1  , a j ,l , где aj ,ki  {0,1}(1 ki l, 1 i m), aj ,ki выбирается случайным образом. Таким образом, мутация обеспечивает случайный выбор новой точки в пространстве потенциальных решений. Если эта точка “плохая”, хромосома-мутант “умирает” на этапе отбора; если область, находящаяся в окрестности этой точки не обеспечивает в среднем более высокого по сравнению с другими областями пространства потенциальных решений значения функции оптимальности, потомки этой хромосомы отомрут на более поздних этапах эволюции; однако, вполне может быть ситуация, когда хромосома-мутант станет основой новой популяции, которая и даст оптимальное решение задачи. 3.2. Формальная запись генетического алгоритма Формально генетический алгоритм представляется семеркой: P0 , , l, s, , f, t, 0 0 0 где P0 = (a 1 ,a 2 ,…, a  ) - исходная популяция; а i - решение задачи, представленное в виде хромосомы (1 i ); 0  - целое число ( размер популяции ); l - целое число ( длина каждой хромосомы); s - оператор отбора;  - отображение, определяющее рекомбинацию (скрещивание и мутацию); f - функция оптимальности; t - счетчик поколений (критерий останова). 3.3. Понятие шаблона. Теорема Холланда. Математической основой применимости генетических алгоритмов является теорема Холланда. Для ее формулировки введем понятие шаблона H. Шаблоном H называется вектор длинны l из элементов множества {0, 1, *}. Координаты вектора, имеющие значения “0” или “1” называются фиксированными; координаты, имеющие значение “*” - свободными. Все хромосомы, содержащие “0” или “1” в тех же позициях, что и шаблон H, называются представителями шаблона H. Для шаблона H вводятся понятия порядка и длинны следующим образом. Порядком (H) шаблона H является количество фиксированных координат. Длинной (H) шаблона H является количество координат между первой и последней фиксированными координатами. Теорема о шаблоне (Холланда). Пусть H есть определенный шаблон, M ( H , q) -   множество представителей шаблона H в популяции P , m  H , q  = M  H , q  q q  количество представителей шаблона H в популяции P , f P q   -  f  a  - средняя  1 j 1 q j оптимальность q популяции P , f ( H , q)  1 f  a qj   m( H , q) aqjM ( H ,q ) - средняя оптимальность шаблона H. Пусть, далее, вероятность осуществления скрещивания равна pc и вероятность мутации равна pm. Тогда m  H , q  1  m  H , q  f  H ,q   H   1  p   H p    . c m l 1 f  Pq    f  H ,q   H   1  p   H p     . Если для c m l 1 f  Pq    некоторого шаблона H и для всех q выполняется   H , q   1 , то, согласно данной Рассмотрим величину   H ,q  теореме, мы будем иметь рост числа представителей этого шаблона в последовательности поколений. Такие шаблоны часто называют строительным блоком. Какой шаблон может быть строительным блоком? Для этого необходимо выполнение следующих условий: 1. Средняя оптимальность шаблона должна быть выше средней по популяции; 2. Его длинна должна быть относительно мала; 3. Его порядок должен быть низким. Таким образом, генетический алгоритм порождает новые строки посредством рекомбинации строительных блоков. СПИСОК ЛИТЕРАТУРЫ. 1. Берг А.И. Кибернетика - наука об оптимальном управлении. М., Энергия, 1964. 2. Блум Ф., Лейзерсон А., Хофстедтер Л. Мозг, разум и поведение. М., Мир, 1988. 3. Винер Н. Творец и робот. М., Прогресс, 1966, 255 с. 4. Гладков Л.А., Курейчик В.М., Курейчик В.В. Генетические алгоритмы. Ростов-наДону, РостИздат, 2004, 334 с. 5. Глушков В.М. Введение в кибернетику. Изд-во АН УССР, Киев, 1964 г., стр.1-324. 6. Журавлев Ю.И. Об алгебраическом подходе к решению задач распознавания и классификации. Проблемы кибернетики. 1978, вып. 33, с. 28 - 57. 7. Журавлев Ю.И. Труды по математической кибернетике. М., Наука, 2000 г. 8. Заде Л.А. Основы нового подхода к анализу сложных систем и процессов принятия решений. Математика сегодня. Под ред. Н.Н. Моисеева. М., Знание, 1974, с. 5 - 48. 9. Заде Л.А. Понятие лингвистической переменной и его применение к принятию приблизительных решений. М., Мир, 1976. - 165 с. 10. Захарова Е.Ю., Кудрявцев В.Б., Яблонский С.В. О предполных классах в k-значных логиках. Труды ДАН СССР, т. 186, № 3, 1969 г., стр. 509-512. 11.Ильин В.А., Поздняк Э.Г. Основы математического анализа. Часть 1. М., Наука, 1982, 616 с. 12.Клини С.К. Представление событий в нервных сетях и конечных автоматах. Автоматы. М., Издательство иностранной литературы, 1956. 13. Колмогоров А.Н. Основные понятия теории вероятностей. М., Наука, 1974 г. 14. Короткий С. Нейронные сети: http://newasp.omskreg.ru/intellect/f22.htm алгоритм обратного распространения. 15.Крушинский Л.В., Козлов В.Н., Кудрявцев В.Б. О некоторых результатах применения математики к моделированию в биологии. Математические вопросы кибернетики. Под ред. Яблонского С.В. Вып. 1, М., Наука, 1988, с. 52 - 88. 16.Лупанов О.Б. Об одном подходе к синтезу управляющих систем – принцип локального кодирования. Сб. Проблемы кибернетики, вып. 14., М., Наука, 1965 г., стр. 31-110. 17. Ляпунов А.А. О некоторых общих вопросах кибернетики. Сб. Проблемы кибернетики, вып. 1, Изд-во «Наука», М., 1958 г., стр. 5-22. 18.Мак-Коллок У.С., Питтс В. Логическое исчисление идей, относящихся к нервной активности. Автоматы. Пер. с англ. М., Издательство иностранной литературы, 1956. 19.Минский М., Пейперт С. Персептроны. Пер. с англ. М., Мир, 1971, 261 с. 20. Дж. Фон Нейман. Теория самовоспроизводящихся автоматов. Изд-во «Мир», М., 1971 г., стр.1-384. 21.Нечеткие множества в моделях управления и искусственного интеллекта. Под ред. Поспелова Д.А. - М.: Наука, 1986. - 395 с. 22.Новости искусственного интеллекта. №4, 1993. 23.Попов Э.В. Экспертные системы: решение неформальных задач в диалоге с ЭВМ. - М., Наука, 1987. - 288 с. 24.Прикладные нечеткие системы. Под ред. Т.Тэрано, К. Асаи, М. Сугэно. М., Мир, 1993. 25.Пфанцгаль И. Теория измерений. Пер. с англ. - М. Мир, 1976. - 263 с. 26.Розенблатт Ф. Принципы нейродинамики. Пер. с англ. М., Мир, 1966. 27. Рогожин С.В., Рыжов А.П. О нечетко заданных классах функций k-значной логики. V Всероссийская конференция «Нейрокомпьютеры и их применение». Сборник докладов. Москва, 17-19 февраля 1999 года, с.460-463 28.Рыжов А.П., Аверкин А.Н. Аксиоматическое определение степени нечеткости лингвистической шкалы и ее основные свойства. П Всесоюзная конференция "Искусственный интеллект - 90" : Секционные и стендовые доклады. Том 1. - Минск, 1990. - С. 162 - 165. 29.Рыжов А.П. О степени нечеткости размытых характеристик. Математическая кибернетика и ее приложения в биологии. Под ред. Л.В.Крушинского, С.В.Яблонского, О.Б.Лупанова - М.: Изд-во МГУ, 1987. - С. 60 - 77. 30.Рыжов А.П. О степени нечеткости размытых характеристик. Проблемы теоретической кибернетики: Тезисы докладов VII Всесоюзной конференции 18 сентября - 20 сентября 1985 г. I Часть. - Иркутск, 1985. - С 53 - 55. 31.Рыжов А.П. Об одном методе выбора множества шкальных значений нечетких лингвистических шкал. Всесоюзная конференция по искусственному интеллекту. 21 25 ноября 1988 г.: Тезисы докладов. Том I. - Переславль-Залесский, 1988. - с. 521 - 525. 32.Рыжов А.П. Об одном методе оптимального описания объектов и ситуаций в интеллектуальных системах. Создание и применение гибридных экспертных систем : Тез. докл. Всесоюзн. конф. Ноябрь 1990 г. - Рига, 1990. - С. 62 - 64. 33.Рыжов А.П. Оценка степени нечеткости и ее применение в системах искусственного интеллекта. Интеллектуальные системы. Т.1, Вып.1-4, Москва, МНЦ КИТ, 1996, с. 95 102. 34.Рыжов А.П. Степень нечеткости лингвистической шкалы и ее свойства. Нечеткие системы поддержки принятия решений. Под ред. Язенина А.В. - Калинин: Изд-во Калининского госуниверситета, 1988. - С. 82 - 92. 35.Рыжов А.П. Элементы теории нечетких множеств и измерения нечеткости. М., ДиалогМГУ, 1998, 116 с. 36.Скурихин А.Н. Генетические алгоритмы. Новости искусственного интеллекта. № 4, с. 6 - 46. 37.Саати Т. Анализ иерархических процессов. М., Радио и связь, 1993, 315 с. 38. Тьюринг А. Может ли машина мыслить? Изд-во «Мир», М., 1962, стр. 1-81. 39.Уоссерман. Нейрокомпьютерная техника. М., Мир, 1992, 385 c. 40.Фу К. Структурные методы в распознавании объектов. Пер. с англ. М., "Мир", 1977, 212 c. 41.Чегис И.А., Яблонский С.В. Логические способы контроля работы электрических схем. Тр. МИАН им. В.А. Стеклова, т. 51, М., Изд-во АН СССР, 1958, стр. 270-360. 42. Шеннон К. Работы по теории информации и кибернетике. Изд-во «Мир», М., 1963, стр.1-830. 43.Яблонский С.В. Основные понятия кибернетики. Проблемы кибернетики, вып. 2, 1959, с. 7-38. 44. Artificial Neural Networks: Concepts and Theory. IEEE Computer Society Press, 1992. 45.A Special Interest Group on Granular Computing. http://www.mathcs.sjsu.edu/GrC/GrC.html 46.De Jong, K.A., An Analysis of the behaviour of a Class of Genetic Adaptive Systems. PhD thesis, Univ. of Michigan, 1975. 47.De Luca A., Termini S. A definition of a non-probabilistic entropy in the setting of fuzzy set theory. Information and Control. 1972, v.20, p. 301 – 312. 48.Keun-Rong Hsieh and Wen-Tsuen Chen. A Neural Network Model which Combines Unsupervised and Supervised Learning. IEEE Trans. on Neural Networks, vol.4, No.2, March 1993. 49.Messarovich M.D., Macko D., Takahara Y. Theory of hierarchical multilevel systems. Academic Press, N.Y.- London 1970 - 344 p. 50.Neural Networks, January 1997. 51.Rosenblatt F. The perception: a probabilistic model for information storage and organization in the brain. Psychological Review, 65, 1958, pp. 386 - 408. 52.Ryjov A. and Loginov D. On the Choice of an Optimal Value-Set of Qualitative Attributes for Information Retrieval in Data Bases. Fuzzy Logic and Intelligent Technologies in Nuclear Science - Proceedings of the 1st International FLINS Workshop Mol, Belgium, September 1416, 1994 - Edited by Da Ruan, Pierre D'hondt, Paul Govaerts, Etienne E. Kerre, World Scientific - p. 58-62. 53.Ryjov, A., Belenki, A., Hooper, R., Pouchkarev, V., Fattah, A. and Zadeh, L.A., Development of an Intelligent System for Monitoring and Evaluation of Peaceful Nuclear Activities (DISNA), IAEA, STR-310, Vienna, 1998, 122 p. 54.Ryjov A. Optimal Description of Objects in Human-Machine Information Systems. Application of Fuzzy Systems - Proceedings of the International Conference on Application of Fuzzy Systems - ICAFS-94 held at the University of Tabriz, Tabriz, Iran, October 17-19, 1994 - p. 246-249. 55.Ryjov A.P. The axiomatic definition of a linguistic scale fuzziness degree, its major properties and applications. North American Fuzzy Logic Proceeding Society (NAFIPS'92). Proceedings of a Conference held in PUERTO VALLARTA, MEXICO, December 15-17, 1992. NASA Conference Publication 10112, Vol. 1, p. 21-29. 56.Ryjov A. The Concept of a Full Orthogonal Semantic Scope and the Measuring of Semantic Uncertainty. Fifth International Conference Information Processing and Management of Uncertainty in Knowledge-Based Systems. - Paris, July 4-8, 1994. - p. 33-34. 57.Ryjov A. The Information Retrieval in Fuzzy Data Base. Proceedings of the Fifth International Fuzzy Systems Association World Congress'93. - July 4-9, 1993, Seoul, Korea. Vol.1. - p. 477 - 480. Ryjov A. Fuzzy data bases: description of objects and retrieval of information // Proceedings of the First European Congress on Intelligent Technologies. September 7-10, 1993. Aachen, Germany. - v.3. - p.1557-1562. 58.Ryjov A. The measure of uncertainty of fuzzy set's collection: defenition, properties and applications. Proceedings of ISUMA'93. The Second International Symposium on Uncertainty Modeling and Analysis. University of Maryland, College Park, Maryland, USA, April, 2528, 1993. - IEEE COMPUTER SOCIETY PRESS - p. 37-42. 59.Ryjov A. The Practical Use of the Technique of Choosing an Optimal Value-Set of Qualitative Attributes: the Problem of Stability. Fuzzy Logic and Intelligent Technologies in Nuclear Science - Proceedings of the 1st International FLINS Workshop Mol, Belgium, September 14-16, 1994 - Edited by Da Ruan, Pierre D'hondt, Paul Govaerts, Etienne E. Kerre, World Scientific - p. 63-66. 60.Zadeh L. Computing With Words--A Paradigm Shift. The ERL Research Summary for 1997. http://ilpsoft.eecs.berkeley.edu:9636/~ilpsoft/abstracts/abstracts.LAZ. html 61.Zadeh L. Computing With Words. BISC Seminar 3 http://HTTP.CS.Berkeley.EDU/projects/Bisc/Abs.97/zadeh.4.3.97.html. April 1997. 62.Zadeh L.A. Fuzzy sets. Information and Control, 1965, v.8, pp. 338-353. 63.Zadeh L. Information Granulation Lies at the Center of Human Reasoning and Concept Formation. BISC Seminar, September 12, 1996. http://hera.eecs.berkeley.edu/Seminars/Old.96/September/960912.zadeh.html 64.Warren S. McCulloch and Walter Pitts. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics, 5, 1943, pp. 115-133. 65.Zadeh L. The Key Roles of Fuzzy Information Granulation in Human Reasoning, Fuzzy Logic and Computing with Words. The ERL Research Summary for 1997. http://ilpsoft.eecs.berkeley.edu:9636/~ilpsoft/abstracts/abstracts.LAZ.html . 66. Zadeh L.A. Toward a Restructuring of the Foundations of Fuzzy Logic (FL). BISC Seminar, October 2nd, 1997. http://x1.dejanews.com/getdoc.xp?AN=277314912&CONTEXT=890316534.1599996002&hi tnum=0&AH=1 67.Zadeh L.A. Towards a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic. Fuzzy sets and systems 90, 1997, pp. 111 - 127.

Основные понятия теории нечетких множеств, нейронных сетей

Related documents

Products

Support

Основные понятия теории нечетких множеств, нейронных сетей

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib