Лекции по теории и приложениям искусственных нейронных сетей

Лекции по теории и приложениям искусственных нейронных сетей Сергей А. Терехов Лаборатотория Искусственных Нейронных Сетей НТО-2, ВНИИТФ, Снежинск ЛЕКЦИЯ 1. Вводная. Введение в предмет Computational Neuroscience (вычислительная нейронаука). Истоки нейронауки: достижения биологии и физиологии, психологии, дискретная математики, кибернетики, статистической физики и синергетики. Роль компьютерного моделирования. Философские основания нейронауки. Исторический обзор. Структура курса. Учебная и ознакомительная литература. "Подмигните компьютеру - он поймет". В начале 90-х под таким заголовком в старейшей уважаемой газете Нью-Йорк Таймс появилась статья, рассказывающая о современных достижениях и направлениях в области интеллектуальных компьютерных систем. Среди магистральных путей развития данной отрасли эксперты издания выделили    Компьютеры с высокой степенью параллелизма обработки информации, которые могут разделить ту или иную задачу на части и обрабатывать их одновременно, тем самым значительно сокращая общее время вычислений; Компьютеры, в которых вместо электронных сигналов для передачи информации используется оптика. Оптические сигналы уже начали использоваться для передачи данных между компьютерами; Компьютеры с нейронными сетями, представляющие собой машины, работающие аналогично тому, как по нашим современным представлениям, функционирует мозг. Последнее, третье, направление, которое существенно опирается на первые два, и составляет основную тему предлагаемого курса Лекций. При этом курс сфокусирован лишь на одном из разделов направления искусственных нейронных сетей, а именно, на нейроинформатике, как науке, изучающей нейроподобные способы обработки информации при помощи компьютеров. Разнообразие, большой объем и противоречивость различной диагностической информации выводят на передний план проблему поиска физических систем, способных к ее переработке. Решение этой комплексной задачи тесно связано с новыми информационными технологиями, важное место среди которых занимают методы распознавания и категоризации образов. Нейронные сети - мощный и на сегодня, пожалуй, наилучший метод для решения задач распознавания образов в ситуациях, когда в экспериментальных данных отсутствуют значительные фрагменты информации, а имеющаяся информация предельно зашумлена. Высокая степень параллельности, допускаемая при реализации нейросистем, обеспечивает обработку недоступных оператору объемов информации за времена, меньшие или сравнимые с допустимыми временами измерений. К рубежу 80-х годов были достигнуты значительные результаты в совсем молодой синергетике, науке о самоорганизации в неравновесных системах; систематизированы факты и проведены многочисленные новые эксперименты в нейрофизиологии, в частности, подробно изучено строение и механизм действия отдельных нейронов; сформулирован принцип работы 1 и создана первая ЭВМ с параллельной архитектурой. Эти обстоятельства, по-видимому, стимулировали начало интенсивных исследований нейронных сетей, как моделей ассоциативной памяти. Широкий интерес к нейронным сетям был инициирован после появления работы Хопфилда (Hopfield J.J., 1982), который показал, что задача с изинговскими нейронами может быть сведена к обобщениям ряда моделей, разработанных к тому моменту в физике неупорядоченных систем. Работа сети Хопфилда (наиболее подробно обсуждаемая в физической литературе) состоит в релаксации начального "спинового портрета" матрицы двоичных кодов к одному из стационарных состояний, определяемых правилом обучения (правилом Хебба). Таким образом, данная сеть может применяться для задач распознавания. В 1986 году появилась работа Румельхарта, Хинтона и Вильямса (Rumelhart D.E., Hinton G.E., Williams R.J., 1986), содержавшая ответ на вопрос, долгое время сдерживавший развитие нейроинформатики - как обучаются иерархические слоистые нейронные сети, для которых "классиками" еще в 40-50 х годах была доказана универсальность для широкого класса задач. В последующие годы предложенный Хинтоном алгоритм обратного распространения ошибок претерпел бесчисленное множество вариаций и модификаций. Многообразие предлагаемых алгоритмов, характеризующихся различной степенью детальности проработки, возможностями их параллельной реализации, а также наличием аппаратной реализации, приводит к особой актуальности исследования по сравнительным характеристикам различных методик. Нейронаука в современный момент переживает период перехода от юного состояния к зрелости. Развитие в области теории и приложений нейронных сетей идет в самых разных направлениях: идут поиски новых нелинейных элементов, которые могли бы реализовывать сложное коллективное поведение в ансамбле нейронов, предлагаются новые архитектуры нейронных сетей, идет поиск областей приложения нейронных сетей в системах обработки изображений, распознавания образов и речи, робототехники и др. Значительное место в данных исследованиях традиционно занимает математическое моделирование. Необходимость написания систематического курса по теории нейронных сетей и вычислительным системам на их основе во многом определяется отсутствием отечественных учебных монографий по этой теме. Кроме того, сама эта тема пока не заняла свое место в традиционных курсах университетов и ВУЗов. И хотя промышленные эксперты американского Управления перспективных исследований DARPA ожидают начало массового распространения новой нейросетевой технологии в конце 90-х годов, уже сегодняшний уровень теоретического понимания и практического использования нейронных сетей в мировой информационной индустрии все явственнее требует профессиональных знаний в этой области. Главной задачей предлагаемого курса является практическое введение в современные методы и системы обработки информации, объединенные в научной литературе термином Computational Neuroscience (вычислительная нейро-наука), а также введение в перспективные подходы построения вычислительных и информационных систем новых поколений. Особенностью рассматриваемой нами темы является ее междисциплинарный характер. Свой вклад в становление нейронауки внесли биология физиология высшей нервной деятельности, психология восприятия, дискретная математика, статистическая физика и синергетика, и, конечно, кибернетика и, конечно, компьютерное моделирование. 2 Лекции содержат основную информацию о принципах организации естественных (биологических) нейронных сетей и их математических моделей - искусственных нейронных сетей, необходимую для синтеза нейросетевых алгоритмов для практических задач. Для этой цели в книгу включены две вводные темы - математическое введение (Лекция 2) и вводные биологические сведения (Лекция 3). Формальное математическое наполнение курса сведено к минимуму и опирается на базовые знания по курсам линейной алгебры и дифференциальных уравнений. Поэтому он может быть рекомендован и, в основном, предназначен для студентов инженерных специальностей, а также математиков-прикладников и программистов. Основные разделы курса                Введение, сведения из биологии, физиологии высшей нервной деятельности, психологии, кибернетики, статистической физики и дискретной математики; Биологический нейрон и его математическая модель; ПЕРСЕПТРОН, линейная разделимость и теорема Розенблатта об обучении; Обучение нейронной сети, как задача комбинаторной оптимизации; Правило Хебба, модель Хопфилда и ее обобщения; Иерархические нейронные сети; Алгоритм обратного распространения ошибок; Модели Липпмана-Хемминга, Хехт-Нильсена, Коско; Способы представления информации в нейронных сетях; Современные нейросетевые архитектуры, КОГНИТРОН и НЕОКОГНИТРОН Фукушимы; Теория адаптивного резонанса; Алгоритмы генетического поиска для построения топологии и обучениия нейронных сетей; Адаптивный кластерный анализ и карта самоорганизации Кохонена; Конечные автоматы и нейронные сети; Заключение - современные день нейронауки, нейро-ЭВМ шестого поколения, нейропроцессоры, математическое обеспечение, научные и коммерческие приложения. Литература А. Основная    Ф. Уоссермен. Нейрокомпьютерная техника. Москва: Мир, 1992. А.Н. Горбань, Д.А. Россиев. Нейронные сети на персональном компьютере. Новосибирск: Наука, 1996. Информатика. Справочник. Под. Ред. Д.А.Поспелова. Москва: Педагогика, 1996. Б. Дополнительная          Т. Кохонен. Ассоциативная память. Москва: Мир, 1980. Ф. Розенблатт. Принципы нейродинамики. Москва: Мир, 1965. Автоматы. Под. ред. К.Э. Шеннона и Дж. Маккарти. Москва: Издательство Иностранной Литературы, 1956. Д. Марр. Зрение. Москва: Радио и Связь, 1987. М. Минский, С. Пейперт. Персептроны. Москва: Мир, 1971. Н. Винер. Кибернетика. Москва: Советское радио, 1968. А.А. Веденов. Моделирование элементов мышления. Москва: Наука, 1988. А.Ю. Лоскутов, А.С. Михайлов. Введение в синергетику. Москва: Наука, 1990. С.О. Мкртчян. Нейроны и нейронные сети. Москва: Энергия, 1971. 3        А.Н. Горбань. Обучение нейронных сетей. Москва: СП "Параграф", 1990. А.И. Галушкин. Синтез многослойных схем распознавания образов. Москва: Энергия, 1974. Ф.Г. Гантмахер. Теория матриц. Москва: Наука, 1988. Н. Грин, У. Стаут, Д. Тейлор. Биология. Под.ред. Р.Сопера. Т.1-3, Москва: Мир, 1990. Г. Шеперд. Нейробиология. Тт. 1-2, Москва: Мир, 1987. Ф. Блум, А. Лейзерсон, Л. Хофстедтер. Мозг, разум и поведение. Москва: Мир, 1988. Б. Банди. Методы оптимизации. М. Радио и связь, 1988 Замечание к электронному варианту 1998 г. За прошедшие 5 лет с момента написания Лекций в Российской нейроинформатике произошли значительные изменения. Разнообразные курсы по нейронным сетям начали повсеместно входить в программы высшей школы для различных технических специальностей. Появились и, немногочисленные пока, учебники, среди которых в первую очередь следует отметить книгу А.Н. Горбаня и Д.А. Россиева (1996). Увы, тираж в 500 экземпляров не позволяет рассматривать это превосходное (хотя и относительно сложное) издание в качестве базового учебника. 4 ЛЕКЦИЯ 2. Сведения из высшей математики. Векторное пространство. Базис. Ортогональные проекции. Гиперсферы и гиперповерхности. Матрицы. Линейные преобразования. Традиционно используемым для описания нейронных сетей математическим языком является аппарат векторной и матричной алгебры. Для максимального упрощения изложения, ограничивая набор общематематических сведений только этим аппаратом, хотелось бы подчеркнуть, что в современной нейронауке широко используются и другие разделы математики. Среди них - дифференциальные уравнения, применяемые для анализа нейронных сетей в непрерывном времени, а также для построения детальных моделей нейрона; Фурьеанализ для описания поведения системы при кодировании в частотной области; теория оптимизации как основа для разработки алгоритмов обучения; математическая логика и булева алгебра - для описания двоичных сетей, и другие. Изложенный в этой лекции материал носит справочный характер и не претендует на полноту. Исчерпывающие сведения по теории можно найти в книге Гантмахера, а также в стандартных курсах линейной алгебры и аналитической геометрии. Векторные пространства. Основным структурным элементом в описании способов обработки информации нейронной сетью является вектор - упорядоченный набор чисел, называемых компонентами вектора. В дальнейшем вектора будут обозначаться латинскими буквами ( a, b, c, x ), а скаляры - числа греческими буквами ( , , ,  ). Для обозначения матриц будут применяться заглавные латинские буквы. В зависимости от особенностей рассматриваемой задачи компоненты вектора могут быть действительными числами, целыми числами (например, для обозначения градаций яркости изображения), а также булевыми числами "ноль-один" или "минус один один". Компоненты вектора x = ( x1, x2, ... xn ) можно рассматривать, как его координаты в некотором n-мерном пространстве. В случае действительных компонент это пространство обозначается, как Rn и включает в себя набор всех возможных совокупностей из n действительных чисел. Говорят, что вектор x принадлежит пространству Rn (или x из Rn). В дальнейшем, если нам потребуется набор векторов, мы будем нумеровать их верхними индексами, чтобы не путать с нумерацией компонент: {x1, x2, ..., xk}. В нашем рассмотрении мы не будем делать разницы в понятиях вектор (упорядоченная совокупность компонент) и образ (совокупность черт или признаков образа). Способы выбора совокупности признаков и формирования информационного вектора определяются конкретными приложениями. Рис. 2.1. Примеры векторов: а) булев вектор с 25 компонентами, нумеруемыми по строкам, б) действительный вектор из пространства R4. 5 Множество векторов с действительными компонентами является частным случаем более общего понятия, называемого линейным векторным пространством V, если для его элементов определены операции векторного сложения "+" и умножения на скаляр ".", удовлетворяющие перечисленным ниже соотношениям (здесь x,y,z - вектора из V, а ,  скаляры из R): 1. 2. 3. 4. 5. 6. 7. x + y = y + x, результат принадлежит V  . ( x + y ) =  . x +  . y, результат принадлежит V (  +  ) . x =  . x +  . x, результат принадлежит V ( x + y ) + z = x + ( y + z ), результат принадлежит V (  .  ) . x =  . (  . x ), результат принадлежит V  o из V:  x из V => o + x = x (существует нулевой элемент) для скаляров 0 и 1,  x из V имеем 0 . x = o, 1 . x = x Свойство 1) называют свойством коммутативности, соотношения 2) и 3) - свойством дистрибутивности, а 4) - свойством ассоциативности введенных операций. Примером линейного векторного пространства является пространство Rn с покомпонентными операциями сложения и умножения. Для двух элементов векторного пространства может быть определено их скалярное (внутреннее) произведение : (x,y) = x1y1 + x2y2 + ... + xnyn. Скалярное произведение обладает свойствами симметричности, аддитивности и линейности по каждому сомножителю: 1. 2. 3. 4. ( x, y ) = ( y, x ) ( .x, y ) = .( x, y ) ( x + y, z ) = ( x, z ) + ( y, z ) ( x, x ) >= 0, причем ( x, x ) = 0 <=> x = o Равенство нулю скалярного произведения двух векторов означает ортогональность, сообразно обычным геометрическим представлениям. их взаимную Два различных образа (или вектора) могут быть в той или иной мере похожи друг на друга. Для математического описания степени сходства векторное пространство может быть снабжено скалярной метрикой - расстоянием d(x,y) между всякими двумя векторами x и y. Пространства, с заданной метрикой называют метрическими. Для метрики должны выполняться условия неотрицательности, симметричности, а также неравенство треугольника: 1. d ( x, y ) >= 0, причем d ( y, x ) = 0 <=> x = y 2. d ( x, y ) = d ( y, x ) 3.  y, d ( x, z ) <= d ( x, y ) + d ( y, z ) В дальнейшем изложении будут в основном использоваться две метрики - Евклидово расстояние и метрика Хемминга. Евклидова метрика для прямоугольной системы координат определяется формулой: Хеммингово расстояние dH используется обычно для булевых векторов (компоненты которых равны 0 или 1), и равно числу различающихся в обоих векторах компонент. 6 Для векторов вводится понятие нормы ||x|| - длины вектора x. Пространство в котором определена норма векторов называется нормированным. Норма должна обладать следующими свойствами: 1. ||x|| >= 0, причем ||x|| = 0 <=> x = o 2. || .x || = || ||x|| 3. ||x + y|| <= ||x|| + ||y|| Пространства с Евклидовой метрикой и нормой называют Евклидовым пространством. Для образов, состоящих из действительных признаков мы будем в дальнейшем иметь дело именно с Евклидовым пространством. В случае булевых векторов размерности n рассматриваемое пространство представляет собой множество вершин n-мерного гиперкуба с Хемминговой метрикой. Расстояние между двумя вершинами определяется длиной кратчайшего соединяющего их пути, измеренной вдоль ребер. Важным для нейросетевых приложений случаем является множество векторов, компоненты которых являются действительными числами, принадлежащими отрезку [0,1]. Множество таких векторов не является линейным векторным пространством, так как их сумма может иметь компоненты вне рассматриваемого отрезка. Однако для пары таких векторов сохраняются понятия скалярного произведения и Евклидового расстояния. Вторым интересным примером, важным с практической точки зрения, является множество векторов одинаковой длины (равной, например, единице). Образно говоря, "кончики" этих векторов принадлежат гиперсфере единичного радиуса в n-мерном пространстве. Гиперсфера также не является линейным пространством (в частности, отсутствует нулевой элемент). Для заданной совокупности признаков, определяющих пространство векторов, может быть сформирован такой минимальный набор векторов, в разной степени обладающих этими признаками, что на его основе, линейно комбинируя вектора из набора, можно сформировать все возможные иные вектора. Такой набор называется базисом пространства. Рассмотрим это важное понятие подробнее. Вектора x1, x2, ..., xm считаются линейно независимыми, если их произвольная линейная комбинация 1x1 + 2x2 + ... + mxm не обращается в ноль, если только все константы 1 ... m не равны одновременно нулю. Базис может состоять из любой комбинации из n линейно независимых векторов, где n - размерность пространства. Выберем некоторую систему линейно независимых векторов x1, x2, ..., xm, где m < n. Все возможные линейные комбинации этих векторов сформируют линейное пространство размерности m, которое будет являться подпространством или линейной оболочкой L исходного n-мерного пространства. Выбранная базовая система из m векторов является, очевидно, базисом в подпространстве L. Важным частным случаем линейной оболочки является подпространство размерности на единицу меньшей, чем размерность исходного пространства (m=n-1), называемое гиперплоскостью. В случае трехмерного пространства это обычная плоскость. Гиперплоскость делит пространство на две части. Совокупность гиперплоскостей разбивает пространство на несколько множеств, каждое из которых содержит вектора с близким набором признаков, тем самым осуществляется классификация векторов. Для двух подпространств может быть введено понятие их взаимной ортогональности. Два подпространства L1 и L2 называются взаимно ортогональными, если всякий элемент одного подпространства ортогонален каждому элементу второго подпространства. 7 Произвольно выбранные линейно независимые вектора необязательно являются взаимно ортогональными. Однако в ряде приложений удобно работать с ортогональными системами. Для этого исходные вектора требуется ортогонализовать. Классический процесс ортогонализации Грама-Шмидта состоит в следующем: по системе линейно независимых ненулевых векторов x1, x2, ..., xm рекуррентно строится система ортогональных векторов h1, h2, ..., hm. В качестве первого вектора h1 выбирается исходный вектор x1. Каждый следующий (iый) вектор делается ортогональным всем предыдущим, для чего из него вычитются его проекции на все предыдущие вектора: При этом, если какой-либо из получившихся векторов hi оказывается равным нулю, он отбрасывается. Можно показать, что, по построению, полученная система векторов оказывается ортогональной, т.е. каждый вектор содержит только уникальные для него признаки. Далее будут представлены теоретические аспекты линейных преобразований на векторами. Матрицы и линейные преобразования векторов. Равно тому, как был рассмотрен вектор - объект, определяемый одним индексом (номером компоненты или признака), может быть введен и объект с двумя индексами, матрица. Эти два индекса определяют компоненты матрицы Aij, располагаемые по строкам и столбцам, причем первый индекс i определяет номер строки, а второй j - номер столбца. Интересно отметить, что изображение на рисунке 2.1.а) может трактоваться и как вектор с 25 компонентами, и как матрица с пятью строками и пятью столбцами. Суммой двух матриц A и B одинаковой размерности (n x m) является матрица С той же размерности с компонентами, равными сумме соответствующих компонент исходных матриц: Cij = Aij + Bij. Матрицу можно умножить на скаляр, при этом в результате получается матрица той же размерности, каждая компонента которой умножена на этот скаляр. Произведением двух матриц A (n x l) и B (l x m) также является матрица C (n x m), компоненты которой даются соотношением: Заметим, что размерности перемножаемых матриц должны быть согласованными - число столбцов первой матрицы должно равняться числу строк второй. В важном частном случае, когда вторая матрица является вектором (т.е. матрицей с одной из размерностей, равной единице (m=1)), представленное правило определяет способ умножения матрицы на вектор: 8 В результате умножения получается также вектор с, причем для квадратной матрицы A (l x l) его размерность равна размерности вектора-сомножителя b. При произвольном выборе квадратной матрицы A можно построить произвольное линейное преобразование y=T(x) одного вектора (x) в другой (y) той же размерности: y=Ax. Более точно, для того, чтобы преобразование T одного вектора в другой являлось линейным, необходимо и достаточно, чтобы для двух векторов x1 и x2 и чисел  и  выполнялось равенство: T(x1 + x2) = T(x1) + T(x2). Можно показать, что всякому линейному преобразованию векторов соотвествует умножение исходного вектора на некоторую матрицу. Если в приведенной выше формуле для умножения матрицы A на вектор x компоненты этого вектора неизвестны, в то время, как A и результирующий вектор b известны, то о выражении A x = b говорят, как о системе линейных алгебраических уравнений относительно компонент вектора x. Система имеет единственное решение, если вектора, определяемые строками квадратной матрицы A, являются линейно независимыми. Часто используемыми частными случаями матриц являются диагональные матрицы, у которых все элементы вне главной диагонали равны нулю. Диагональную матрицу, все элементы главной диагонали которой равны единице, называют единичной матрицей I. Линейное преобразование, определяемое единичной матрицей, является тождественным: Ix=x для всякого вектора x. Для матриц определена, кроме операций умножения и сложения, также операция транспонирования. Транспонированная матрица AT получается из исходной матрицы A заменой строк на столбцы: (Aij)T = Aji. Матрицы, которые не изменяются при транспонировании, называют симметричными матрицами. Для компонент симметричной матрицы S имеет место соотношение Sij = Sji. Всякая диагональная матрица, очевидно, является симметричной. Пространство квадратных матриц одинаковой размерности с введенными операциями сложения и поэлементного умножения на скаляр, является линейным пространством. Для него также можно ввести метрику и норму. Нулевым элементом служит матрица, все элементы которой равны нулю. В заключении приведем некоторые тождества для операций над матрицами. Для всяких A,B и C и единичной матрицы I имеет место: 1. 2. 3. 4. 5. 6. IA = AI = A (AB)C = A(BC) A(B+C) = AB + AC (AT)T = A (A+B)T = AT + BT (AB)T = BTAT Доказательство этих соотношений может служить полезным упражнением. ЛЕКЦИЯ 3. Биологический нейрон и его кибернетическая модель. Нейробиология. Биологический нейрон, его строение и функции. Об'единение нейронов в сети. Биологическая изменчивость и обучаемость нейронных сетей. Кибернетическая модель 9 нейрона - формальный нейрон МакКаллока и Питса. Обучение нейрона задаче детектирования границы яркости. Эта лекция посвящена биологическим основаниям науки о вычислительных нейронных сетях. Также, как и в предыдущей лекции, изложение будет носить справочный характер, и предназначено для читателя, не имеющего специальных знаний по биологии. Более глубокие профессиональные сведения можно найти в относительно недавно переведенной книге Н.Грина, У. Стаута и Д.Тейлора, а также в монографии Г.Шеперда. Для ознакомительного чтения можно порекомендовать книгу Ф.Блума, А.Лейзерсона и Л.Хофстедтера. На протяжении книги нашей основной целью будет исследование методов и кибернетических систем, имитирующих функции мозга при решении информационных задач. Такой путь разработки искусственных вычислительных систем во многом представляется естественным высшие биологические организмы, и особенно человек, легко справляются с такими, крайне сложными при математическом рассмотрении проблемами, как, например, распознавание образов (зрительных, слуховых, сенсорных и других), память и устойчивое управление движением тела. Биологический фундамент при изучении этих функций является крайне важным, природное многообразие дает исключительно богатый исходный материал для направленного создания искусственных моделей. В завершении лекции будет представлена классическая кибернетическая модель нейрона - так называемый формальный нейрон Маккалока и Питтса. Некоторые свойства формального нейрона будут изучены на задаче детектирования границы перехода "черное-белое" в простом изображении. Метод нейробиологии. К предмету нейробилологии относится изучение нервной системы и ее главного органа мозга. Принципиальным вопросом для этой науки является выяснение соотношения между строением нервной системы и ее функцией. При этом рассмотрение проводится на на нескольких уровнях: молекулярном, клеточном, на уровне отдельного органа, организма в целом, и далее на уровне социальной группы. Таким образом, классический нейробилогический подход состоит в последовательном продвижении от элементарных форм в направлении их усложнения. Для наших практических целей отправной точкой будет клеточный уровень. По современным представлениям, именно на нем совокупность элементарных молекулярных химикобиологических процессов, протекающих в отдельной клетке, формирует ее как элементарных процессор, способный к простейшей переработке информации. Биологический нейрон. Элементом клеточной структуры мозга является нервная клетка - нейрон. Нейрон в своем строении имеет много общих черт с другими клетками биоткани: тело нейрона окружено плазматической мембраной, внутри которой находится цитоплазма, ядро и другие составляющие клетки. Однако нервная клетка существенно отличается от иных по своему функциональному назначению. Нейрон выполняет прием, элементарное преобразование и дальнейшую передачу информации другим нейронам. Информация переносится в виде импульсов нервной активности, имеющих электрохимическую природу. Нейроны крайне разнообразны по форме, которая зависит от их местонахождения в нервной системе и особенностей функционирования. На Рис. 3.1. приведена схема строения 10 "типичного" нейрона. Тело клетки содержит множество ветвящихся отростков двух типов. Отростки первого типа, называемые дендритами за их сходство с кроной раскидистого дерева, служат в качестве входных каналов для нервных импульсов от других нейронов. Эти импульсы поступают в сому или тело клетки размером от 3 до 100 микрон, вызывая ее специфическое возбуждение, которое затем распространяется по выводному отростку второго типа - аксону. Длина аксонов обычно заметно превосходит размеры дентритов, в отдельных случаях достигая десятков сантиметров и даже метров. Гигантский аксон кальмара имеет толщину около миллиметра, и именно наблюдение за ним послужило выяснению механизма передачи нервных импульсов между нейронами. Тело нейрона, заполненное проводящим ионным раствором, окружено мембраной толщиной около 75 ангстрем, обладающей низкой проводимостью. Между внутренней поверхностью мембраны аксона и внешней средой поддерживается разность электрических потенциалов. Это осуществляется при помощи молекулярного механизма ионных насосов, создающих различную концентрацию положительных ионов K+ и Na+ внутри и вне клетки. Проницаемость мембраны нейрона селективна для этих ионов. Внутри аксона клетки, находящейся в состоянии покоя, активный транспорт ионов стремится поддерживать концентрацию ионов калия более высокой, чем ионов натрия, тогда как в жидкости, окружающей аксон, выше оказывается концентрация ионов Na+. Пассивная диффузия более подвижных ионов калия приводит к их интенсивному выходу из клетки, что обуславливает ее общий отрицательный относительно внешней среды потенциал покоя, составляющий около 65 милливольт. Рис. 3.1.Общая схема строения биологического нейрона. Под воздействием стимулирующих сигналов от других нейронов мембрана аксона динамически изменяет свою проводимость. Это происходит, когда суммарный внутренний потенциал превышает пороговое значение масштаба -50 мв. Мембрана на короткое время, составляющее около 2 миллисекунд, изменяет свою полярность (деполяризуется) и достигает потенциала действия около +40 мв. На микроуровне это объясняется кратковременным повышением проницаемости мембраны для ионов Na+ и активным поступлением их в аксон. В дальнейшем, по мере выхода ионов калия, положительный заряд с внутренней стороны мембраны меняется на отрицательный, и наступает так называемый период рефрактерности, длящийся около 200 мс. В течении этого времени нейрон является полностью пассивным, практически неизменно сохраняя потенциал внутри аксона на уровне около -70 мв. 11 Импульс деполяризации клеточной мембраны, называемый спайком, распространяется вдоль аксона практически без затухания, поддерживаясь локальными ионными градиентами. Скорость перемещения спайка является относительно невысокой и составляет от 100 до 1000 сантиметров в секунду. Возбуждение нейрона в виде спайка передается другим нейронам, которые таким образом объединены в проводящую нервные импульсы сеть. Участки мембраны на аксоне, где размещаются области контакта аксона данного нейрона с дендритами другими нейронов, называются синапсами. В области синапса, имеющего сложное строение, происходит обмен информацией о возбуждении между нейронами. Механизмы синаптической передачи достаточно сложны и разнообразны. Они могут иметь химическую и электрическую природу. В химическом синапсе в передаче импульсов участвуют специфические химические вещества - нейромедиаторы, вызывающие изменения проницаемости локального участка мембраны. В зависимости от типа вырабатываемого медиатора синапс может обладать возбуждающим (эффективно проводящим возбуждение) или тормозящим действием. Обычно на всех отростках одного нейрона вырабатывается один и тот же медиатор, и поэтому нейрон в целом функционально является тормозящим или возбуждающим. Это важное наблюдение о наличии нейронов различных типов в последующих главах будет существенно использоваться при проектировании искусственных систем. Нейронные сети. Взаимодействующие между собой посредством передачи через отростки возбуждений нейроны формируют нейронные сети. Переход от рассмотрения отдельного нейрона к изучению нейронных сетей является естественным шагом в нейробиологической иерархии. Общее число нейронов в центральной нервной системе человека достигает 1010 - 1011, при этом каждая нервная клетка связана в среднем с 103 - 104 других нейронов. Установлено, что в головном мозге совокупность нейронов в объеме масштаба 1 мм3формирует относительно независимую локальную сеть, несущую определенную функциональную нагрузку. Выделяют несколько (обычно три) основных типов нейронных сетей, отличающихся структурой и назначением. Первый тип составляют иерархические сети, часто встречающиеся в сенсорных и двигательных путях. Информация в таких сетях передается в процессе последовательного перехода от одного уровня иерархии к другому. 12 Рис. 3.2.Структура простой рефлекторной нейронной сети. Нейроны образуют два характерных типа соединений - конвергентные, когда большое число нейронов одного уровня контактирует с меньшим числом нейронов следующего уровня, и дивергентные, в которых контакты устанавливаются со все большим числом клеток последующих слоев иерархии. Сочетание конвергентных и дивергентных соединений обеспечивает многократное дублирование информационных путей, что является решающим фактором надежности нейронной сети. При гибели части клеток, сохранившиеся нейроны оказываются в состоянии поддерживать функционирование сети. Ко второму типу нейронных сетей относятся локальные сети, формируемые нейронами с ограниченными сферами влияния. Нейроны локальных сетей производят переработку информации в пределах одного уровня иерархии. При этом функционально локальная сеть представляет собой относительно изолированную тормозящую или возбуждающую структуру. Важную роль также играют так называемые дивергентные сети с одним входом. Командный нейрон, находящийся в основании такой сети может оказывать влияние сразу на множество нейронов, и поэтому сети с одним входом выступают согласующим элементом в сложном сочетании нейросетевых систем всех типов. Рассмотрим схематически нейронную сеть, формирующую простой рефлекторную цепь с передачей возбуждения от раздражителя к двигательной мышце (Рис. 3.2). Сигнал внешнего раздражителя воспринимается сенсорными нейронами, связанными с чувствительными клетками-рецепторами. Сенсорные нейроны формируют первый (нижний) уровень иерархии. Выработанные ими сигналы передаются нейронам локальной сети, содержащим множество прямых и обратных связей с сочетанием дивергентных и конвергентных соединений. Характер преобразованного в локальных сетях сигнала определяет состояние возбуждения моторных нейронов. Эти нейроны, составляющие верхний в рассматриваемой сети уровень иерархии, образно говоря, "принимают решение", которое выражается в воздействии на клетки мышечной ткани посредством нервно-мышечных соединений. 13 Биологическая изменчивость и обучение нейронных сетей. Структура основных типов нейронных сетей генетически предопределена. При этом исследования в области сравнительной нейроанатомии говорят о том, что по фундаментальному плану строения мозг очень мало изменился в процессе эволюции. Однако детерминированные нейронные структуры демонстрируют свойства изменчивости, обуславливающие их адаптацию к конкретным условиям функционирования. Генетическая предопределенность имеет место также и в отношении свойств отдельных нейронов, таких, например, как тип используемого нейромедиатора, форма и размер клетки. Изменчивость на клеточном уровне проявляется в пластичности синаптических контактов. Характер метаболической активности нейрона и свойства проницаемости синаптической мембраны могут меняться в ответ на длительную активизацию или торможение нейрона. Синаптический контакт "тренируется" в ответ на условия функционирования. Изменчивость на уровне сети связана со спецификой нейронов. Нервная ткань практически лишена характерной для других типов тканей способности к регенерации путем деления клеток. Однако нейроны демонстрируют способность к формированию новых отростков и новых синаптических контактов. Ряд экспериментов с преднамеренным повреждением нервных путей указывает, что развитие нейронных ответвлений сопровождается конкуренцией за обладание синаптическими участками. Это свойство в целом обеспечивает устойчивость функционирования нейронный сетей при относительной ненадежности их отдельных компонент - нейронов. Специфическая изменчивость нейронных сетей и свойств отдельных нейронов лежит в основе их способности к обучению - адаптации к условиям функционирования - при неизменности в целом их морфологической структуры. Следует заметить, однако, что рассмотрение изменчивости и обучаемости малых групп нейронов не позволяет в целом ответить на вопросы об обучаемости на уровне высших форм психической деятельности, связанных с интеллектом, абстрактным мышлением, речью. Прежде чем перейти к рассмотрению моделей нейронов и искусственных нейронных сетей, сформулируем общие фактологические положения о биологических нейронных сетях. Здесь мы полностью следуем изложенному в книге Ф.Блума, А.Лейзерсона и Л.Хофстедтера. Основными действующими элементами нервной системы являются отдельные клетки, называемые нейронами. Они имеют ряд общих с клетками других типов черт, при этом сильно отличаясь от них по своей конфигурации и функциональному назначению. Активность нейронов при передаче и обработке нервных импульсов регулируется свойствами мембраны, которые могут меняться под воздействием синаптических медиаторов. Биологические функции нейрона могут меняться и адаптироваться к условиям функционирования. Нейроны объединяются в нейронные сети, основные типы которых, а также схемы проводящих путей мозга являются генетически запрограммированными. В процессе развития возможно локальное видоизменение нейронных сетей с формированием новых соединений между нейронами. Отметим также, что нервная система содержит помимо нейронов клетки других типов. Формальный нейрон. Исторически первой работой, заложившей теоретический фундамент для создания искусственных моделей нейронов и нейронных сетей, принято считать опубликованную в 1943 г. статью Уоррена С.Мак-каллока и Вальтера Питтса "Логическое исчислени идей, 14 относящихся к нервной активности". Главный принцип теории Маккалока и Питтса заключается в том, что произвольные явления, относящиеся к высшей нервной деятельности, могут быть проанализированы и поняты, как некоторая активность в сети, состоящей из логических элементов, принимающих только два состояния ("все или ничего"). При этом для всякого логического выражения, удовлетворяющего указанным авторами условиям, может быть найдена сеть логических элементов, имеющая описываемое этим выражением поведение. Дискуссионные вопросы, касающиеся возможности моделирования психики, сознания и т.п. находятся за рамками этой книги. Рис.4.1. Функциональная схема формального нейрона Маккалока и Пиитса. В качестве модели такого логического элемента, получившего в дальнейшем название "формальный нейрон", была предложена схема, приведенная на Рис. 4.1. С современной точки зрения, формальный нейрон представляет собой математическую модель простого процессора, имеющего несколько входов и один выход. Вектор входных сигналов (поступающих через "дендриды") преобразуется нейроном в выходной сигнал (распространяющийся по "аксону") с использованием трех функциональных блоков: локальной памяти, блока суммирования и блока нелинейного преобразования. Вектор локальной памяти содержит информацию о весовых множителях, с которыми входные сигналы будут интерпретироваться нейроном. Эти переменные веса являются аналогом чувствительности пластических синаптических контактов. Выбором весов достигается та или иная интегральная функция нейрона. В блоке суммирования происходит накопление общего входного сигнала (обычно обозначаемого символом net), равного взвешенной сумме входов: В модели Маккалока и Питтса отсутствуют временные задержки входных сигналов, поэтому значение net определяет полное внешнее возбуждение, воспринятое нейроном. Отклик нейрон далее описывается по принципу "все или ничего", т. е. переменная подвергается нелинейному пороговому преобразованию, при котором выход (состояние активации нейрона) Y устанавливается равным единице, если net > , и Y=0 в обратном случае. Значение порога  (часто полагаемое равным нулю) также хранится в локальной памяти. Формальные нейроны могут быть объединены в сети путем замыкания выходов одних нейронов на входы других, и по мысли авторов модели, такая кибернетическая система с надлежаще выбранными весами может представлять произвольную логическую функцию. Для теоретического описания получаемых нейронных сетей предлагался математический язык исчисления логических предикатов. 15 Нужно отметить, что сегодня, спустя 50 лет после работы Маккалока и Питтса, исчерпывающей теории синтеза логических нейронных сетей с произвольной функцией, повидимому, нет. Наиболее продвинутыми оказались исследования в области многослойных систем и сетей с симметричными связями. Большинство моделей опираются в своей основе на различных модификациях формального нейрона. Важным развитием теории формального нейрона является переход к аналоговым (непрерывным) сигналам, а также к различным типам нелинейных переходных функций. Опишем наиболее широко используемые типы переходных функций Y=f(net).  Пороговая функция (рассмотренная Маккалоком и Питтсом):  Линейная функция, а также ее вариант - линейная функция с погашением отрицательных сигналов:  Сигмоидальная функция: Как указывалось еще С.Гроссбергом, сигмоидальная функция обладает избирательной чувствительностью к сигналам разной интенсивности, что соответствует биологическим данным. Наибольшая чувствительность наблюдается вблизи порога, где малые изменения сигнала net приводят к ощутимым изменениям выхода. Напротив, к вариациям сигнала в областях значительно выше или ниже порогового уровня сигмоидальная функция не чувствительна, так как ее производная при больших и малых аргументах стремится к нулю. В последнее время также рассматриваются математические модели формальных нейронов, учитывающие нелинейные корреляции между входами. Для нейронов Маккалока и Питтса предложены электротехнические аналоги, позволяющие проводить прямое аппаратное моделирование. Обучение нейрона детектированию границы "черное-белое" Способность формального нейрона к обучению проявляется в возможности изменения значений вектора весов W, соответствующей пластичности синапсов биологических нейронов. Рассмотрим обучение формального нейрона на примере простейшей задачи детектирования границы. Пусть имеется образ, составленный из одномерной цепочки черных и белых клеток. Зачерненные клетки соответствуют единичному сигналу, а белые клетки - нулевому. Сигнал на входах формального нейрона устанавливается равным значениям пар примыкающих клеток рассматриваемого образа. Нейрон обучается всякий раз возбуждаться и выдавать единичный выходной сигнал, если его первый вход (на Рис. 4.2. - левый) соединен с белой клеткой, а второй (правый) - с черной. Таким образом, нейрон должен служить детектором границы перехода от светлого к темному тону образа. 16 Рис. 4.2. Формальный нейрон с двумя входами, занятый обработкой образа в виде одномерной цепочки черных и белых клеток. Функция, выполняемая нейроном, определяется следующей таблицей. Вход 1 Вход 2 Требуемый выход 1 1 0 1 0 0 0 1 1 0 0 0 Для данной задачи значения весов и порога нейрона могут быть предъявлены и без специальной процедуры обучения. Легко убедиться, что нужным требованиям удовлетворяет набор  = 0, W1 = -1, W1 = +1. В случае задачи детектирования границы перехода от темного к светлому веса нужно поменять местами. В общем случае для подстройки весов при обучении нейрона разработаны различные алгоритмы, которые будут рассматриваться в применении к конкретным типам нейронных сетей, составленных из формальных нейронов. ЛЕКЦИЯ 4. ПЕРСЕПТРОН Розенблатта. Простейшая нейронная сеть - ПЕРСЕПТРОН Розенблатта. Линейная разделимость и теорема об обучении персептрона. В этой и последующих лекциях мы приступаем к непосредственному рассмотрению основных, описанных в литературе, моделей искусственных нейронных сетей и решаемых ими задач. Исходным будет изложение ПЕРСЕПТРОНА - первой нейросетевой парадигмы, доведенной до кибернетической реализации. ПЕРСЕПТРОН Розенблатта. Одной из первых искусственных сетей, способных к перцепции (восприятию) и формированию реакции на воспринятый стимул, явился PERCEPTRON Розенблатта (F.Rosenblatt, 1957). Персептрон рассматривался его автором не как конкретное техническое вычислительное устройство, а как модель работы мозга. Нужно заметить, что после нескольких десятилетий исследований современные работы по искусственным нейронным сетям редко преследуют такую цель. 17 Рис. 4.1. Элементарный персептрон Розенблатта. Простейший классический персептрон содержит нейроподобные элементы трех типов (см. Рис. 4.1), назначение которых в целом соответствует нейронам рефлекторной нейронной сети, рассмотренной в предыдущей лекции. S-элементы формируют сетчатку сенсорных клеток, принимающих двоичные сигналы от внешнего мира. Далее сигналы поступают в слой ассоциативных или A-элементов (для упрощения изображения часть связей от входных Sклеток к A-клеткам не показана). Только ассоциативные элементы, представляющие собой формальные нейроны, выполняют нелинейную обработку информации и имеют изменяемые веса связей. R-элементы с фиксированными весами формируют сигнал реакции персептрона на входной стимул. Розенблатт называл такую нейронную сеть трехслойной, однако по современной терминологии, используемой в этой книге, представленная сеть обычно называется однослойной, так как имеет только один слой нейропроцессорных элементов. Однослойный персептрон характеризуется матрицей синаптических связей W от S- к A-элементам. Элемент матрицы отвечает связи, ведущей от i-го S-элемента к j-му A-элементу. В Корнельской авиационной лаборатории была разработана электротехническая модель персептрона MARK-1, которая содержала 8 выходных R-элементов и 512 A-элементов, которые можно было соединять в различных комбинациях. На этом персептроне была проведена серия экспериментов по распознаванию букв алфавита и геометрических образов. В работах Розенблатта был сделано заключение о том, что нейронная сеть рассмотренной архитектуры будет способна к воспроизведению любой логической функции, однако, как было показано позднее М.Минским и С.Пейпертом (M.Minsky, S.Papert, 1969), этот вывод оказался неточным. Были выявлены принципиальные неустранимые ограничения однослойных персептронов, и в последствии стал в основном рассматриваться многослойный вариант персептрона, в котором имеются несколько слоев процессорных элементов. С сегодняшних позиций однослойный персептрон представляет скорее исторический интерес, однако на его примере могут быть изучены основные понятия и простые алгоритмы обучения нейронных сетей. Теорема об обучении персептрона. Обучение сети состоит в подстройке весовых коэффициентов каждого нейрона. Пусть имеется набор пар векторов (x, y),  = 1..p, называемый обучающей выборкой. Будем называть нейронную сеть обученной на данной обучающей выборке, если при подаче на входы сети каждого вектора x на выходах всякий раз получается соответствующий вектор y 18 Предложенный Ф.Розенблаттом метод обучения состоит в итерационной подстройке матрицы весов, последовательно уменьшающей ошибку в выходных векторах. Алгоритм включает несколько шагов: Шаг 0. Шаг 1. Шаг 2. Шаг 3. Начальные значения весов всех нейронов случайными. Сети предъявляется входной образ x, в результате формируется выходной образ Вычисляется вектор ошибки , делаемой сетью на выходе. Дальнейшая идея состоит в том, что изменение вектора весовых коэффициентов в области малых ошибок должно быть пропорционально ошибке на выходе, и равно нулю если ошибка равна нулю. Вектор весов модифицируется по следующей формуле: . Здесь Шаг 4. полагаются - темп обучения. Шаги 1-3 повторяются для всех обучающих векторов. Один цикл последовательного предъявления всей выборки называется эпохой. Обучение завершается по истечении нескольких эпох, а) когда итерации сойдутся, т.е. вектор весов перестает изменяться, или б) когда полная просуммированная по всем векторам абсолютная ошибка станет меньше некоторого малого значения. Используемая на шаге 3 формула учитывает следующие обстоятельства: а) модифицируются только компоненты матрицы весов, отвечающие ненулевым значениям входов; б) знак приращения веса соответствует знаку ошибки, т.е. положительная ошибка ( > 0, значение выхода меньше требуемого) проводит к усилению связи; в) обучение каждого нейрона происходит независимо от обучения остальных нейронов, что соответствует важному с биологической точки зрения, принципу локальности обучения. Данный метод обучения был назван Ф.Розенблаттом “методом коррекции с обратной передачей сигнала ошибки”. Позднее более широко стало известно название “ -правило”. Представленный алгоритм относится к широкому классу алгоритмов обучения с учителем, поскольку известны как входные вектора, так и требуемые значения выходных векторов (имеется учитель, способный оценить правильность ответа ученика). Доказанная Розенблаттом теорема о сходимости обучения по  -правилу говорит о том, что персептрон способен обучится любому обучающему набору, который он способен представить. Ниже мы более подробно обсудим возможности персептрона по представлению информации. Линейная разделимость и персептронная представляемость Каждый нейрон персептрона является формальным пороговым элементом, принимающим единичные значения в случае, если суммарный взвешенный вход больше некоторого порогового значения: 19 Таким образом, при заданных значениях весов и порогов, нейрон имеет определенное значение выходной активности для каждого возможного вектора входов. Множество входных векторов, при которых нейрон активен (y=1), отделено от множества векторов, на которых нейрон пассивен (y=0) гиперплоскостью, уравнение которой есть, суть: Следовательно, нейрон способен отделить (иметь различный выход) только такие два множества векторов входов, для которых имеется гиперплоскость, отсекающая одно множество от другого. Такие множества называют линейно разделимыми. Проиллюстрируем это понятие на примере. Пусть имеется нейрон, для которого входной вектор содержит только две булевые компоненты , определяющие плоскость. На данной плоскости возможные значения векторов отвечают вершинам единичного квадрата. В каждой вершине определено требуемое значение активности нейрона 0 (на рис. 4.2 - белая точка) или 1 (черная точка). Требуется определить, существует ли такое такой набор весов и порогов нейрона, при котором этот нейрон сможет отделить точки разного цвета? На рис 4.2 представлена одна из ситуаций, когда этого сделать нельзя вследствие линейной неразделимости множеств белых и черных точек. Рис. 4.2. Белые точки не могут быть отделены одной прямой от черных. Требуемая активность нейрона для этого рисунка определяется таблицей, в которой не трудно узнать задание логической функции “исключающее или”. X1 X2 Y 0 0 0 1 0 1 0 1 1 1 1 0 20 Линейная неразделимость множества аргументов, отвечающих различным значениям функции означает, что функция “ислючающее или”, столь широко использующаяся в логических устройствах, не может быть представлена формальным нейроном. Столь скромные возможности нейрона и послужили основой для критики персептронного направления Ф.Розенблатта со стороны М.Минского и С.Пейперта. При возрастании числа аргументов ситуация еще более катастрофична: относительное число функций, которые обладают свойством линейной разделимости резко уменьшается. А значит и резко сужается класс функций, который может быть реализован персептроном (так называемый класс функций, обладающий свойством персептронной представляемости). Соответствующие данные приведены в следующей таблице: Число переменных N Полное число возможных логических функций Из них линейно разделимых функций 1 4 4 2 16 14 3 256 104 4 65536 1882 5 > 1000000000 94572 Видно, что однослойный персептрон крайне ограничен в своих возможностях точно представить наперед заданную логическую функцию. Нужно отметить, что позднее, в начале 70-х годов, это ограничение было преодолено путем введения нескольких слоев нейронов, однако критическое отношение к классическому персептрону сильно заморозило общий круг интереса и научных исследований в области искусственных нейронных сетей. В завершении остановимся на тех проблемах, которые остались открытыми после работ Ф.Розенблатта. Часть из них была впоследствии решена (и будет частично рассмотрена в следующих лекциях), некоторые остались без полного теоретического решения. 1. Практическая проверка условия линейной разделимости множеств. Теорема Розенблатта гарантирует успешное обучение только для персептронно представимых функций, однако ничего не говорит о том, как это свойство практически обнаружить до обучения 2. Сколько шагов потребуется при итерационном обучении? Другими словами, затянувшееся обучение может быть как следствием непредставимости функции (и в этом случае оно никогда не закончится), так и просто особенностью алгоритма. 3. Как влияет на обучение последовательность предъявления образов в течение эпохи обучения? 4. Имеет ли вообще  -правило преимущества перед простым перебором весов, т.е. является ли оно конструктивным алгоритмом быстрого обучения? 5. Каким будет качество обучения, если обучающая выборка содержит не все возможные пары векторов? Какими будут ответы персептрона на новые вектора? Последний вопрос затрагивает глубокие пласты вычислительной нейронауки, касающиеся способностей искусственных систем к обобщению ограниченного индивидуального опыта на более широкий класс ситуаций, для которых отклик был заранее не сообщен нейросети. 21 Ситуация, когда системе приходится работать с новыми образами, является типичной, так как число всех возможных примеров экспоненциально быстро растет с ростом числа переменных, и поэтому на практике индивидуальный опыт сети всегда принципиально не является полным. Возможности обобщения в нейросетях будут подробнее рассмотрены на следующей лекции. ЛЕКЦИЯ 5. Свойства процессов обучения в нейронных сетях. Обучение нейронных сетей на примерах. Формирование обобщений (категорий) при обучении. Признаковое и конфигурационное (фазовое) пространство нейронной сети. Обучение как задача многофакторной оптимизации. Задача обучения нейронной сети на примерах. По своей организации и функциональному назначению искусственная нейронная сеть с несколькими входами и выходами выполняет некоторое преобразование входных стимулов сенсорной информации о внешнем мире - в выходные управляющие сигналы. Число преобразуемых стимулов равно n - числу входов сети, а число выходных сигналов соответствует числу выходов m. Совокупность всевозможных входных векторов размерности n образует векторное пространство X, которое мы будем называть признаковым пространством (При рассмотрении соответствующих пространств предполагается использование обычных векторных операций сложения и умножения на скаляр (подробнее см. Лекцию 2). Аналогично, выходные вектора также формируют признаковое пространство, которое будет обозначаться Y. Теперь нейронную сеть можно мыслить, как некоторую многомерную функцию F: X  Y , аргумент которой принадлежит признаковому пространству входов, а значение - выходному признаковому пространству. При произвольном значении синаптических весовых коэффициентов нейронов сети функция, реализуемая сетью также произвольна. Для получения требуемой функции необходим специфический выбор весов. Упорядоченная совокупность всех весовых коэффициентов всех нейронов может быть представлена, как вектор W. Множество всех таких векторов также формирует векторное пространство, называемое пространством состояний или конфигурационным (фазовым) пространством W. Термин "фазовое пространство" пришел из статистической физики систем многих частиц, где под ним понимается совокупность координат и импульсов всех частиц, составляющих систему. Задание вектора в конфигурационном пространстве полностью определяет все синаптические веса и, тем самым, состояние сети. Состояние, при котором нейронная сеть выполняет требуемую функцию, называют обученным состоянием сети W*. Отметим, что для заданной функции обученное состояние может не существовать или быть не единственным. Задача обучения теперь формально эквивалентна построению процесса перехода в конфигурационном пространстве от некоторого произвольного состояния W0 к обученному состоянию. Требуемая функция однозначно описывается путем задания соответствия каждому вектору признакового пространства X некоторого вектора из пространства Y. В случае сети из одного нейрона в задаче детектирования границы, рассмотренной в конце третьей Лекции, полное описание требуемой функции достигается заданием всего четырех пар векторов. Однако в общем случае, как например, при работе с видеоизображением, признаковые пространства могут иметь высокую размерность, поэтому даже в случае булевых векторов однозначное 22 определение функции становится весьма громоздким (при условии, конечно, если функция не задана явно, например, формулой; однако для явно заданных функций обычно не возникает потребности представления их нейросетевыми моделями). Во многих практических случаях значения требуемых функций для заданных значений аргумента получаются из эксперимента или наблюдений, и, следовательно, известны лишь для ограниченной совокупности векторов. Кроме того, известные значения функции могут содержать погрешности, а отдельные данные могут даже частично противоречить друг другу. По этим причинам перед нейронной сетью обычно ставится задача приближенного представления функции по имеющимся примерам. Имеющиеся в распоряжении исследователя примеры соответствий между векторами, либо специально отобранные из всех примеров наиболее представительные данные называют обучающей выборкой. Обучающая выборка определяется обычно заданием пар векторов, причем в каждой паре один вектор соответствует стимулу, а второй - требуемой реакции. Обучение нейронной сети состоит в приведении всех векторов стимулов из обучающей выборки требуемым реакциям путем выбора весовых коэффициентов нейронов. Общая проблема кибернетики, заключающаяся в построении искусственной системы с заданным функциональным поведением, в контексте нейроных сетей понимается, как задача синтеза требуемой искусственной сети. Она может включать в себя следующие подзадачи: 1) выбор существенных для решаемой задачи признаков и формирование признаковых пространств; 2) выбор или разработка архитектуры нейронной сети, адекватной решаемой задаче; 3) получение обучающей выборки из наиболее представительных, по мнению эксперта, векторов признаковых пространств; 4) обучение нейронной сети на обучающей выборке. Отметим, что подзадачи 1)-3) во многом требуют экспертного опыта работы с нейронными сетями, и здесь нет исчерпывающих формальных рекомендаций. Эти вопросы рассматриваются на протяжении всей книги в применении к различным нейросетевым архитектурам, с иллюстрациями особенностей их обучения и применения. Классификация и категоризация. В случае, когда выходное признаковое пространство представляет собой дискретный перечень из двух или более групп данных, задачей нейронной сети является отнесение входных векторов к одной из этих групп. В этом случае говорят, что нейросетевая система выполняет классификацию или категоризацию данных. Эти две интеллектуальные задачи, по-видимому, следует отличать друг от друга. Термин класс можно определить, как совокупность предметов или понятий (образов), выделенных и сгруппированных по определенным признакам или правилам. Под классификацией мы будем понимать отнесение некоторого образа к классу, выполняемое по этим формальным правилам по совокупности признаков. Категория же (если отвлечься от специфического философского характера этого понятия) определяет лишь некоторые общие свойства образов и связи между ними. Задача категоризации, т.е. определения отношения данного образа к некоторой категории, гораздо менее определена, чем задача отношения к классу. Границы различных категорий являются нечеткими, расплывчатыми, и обычно сама категория понимается не через формальное определение, а только в сравнении с другими категориями. Границы классов, напротив, определены достаточно точно - образ относится к данному классу, если известно, что он обладает необходимым числом признаков, характерных для этого класса. Итак, задачей систем-классификаторов является установление принадлежности образа к одному из формально определенных классов. Примерами такой задачи является задача классификации растений в ботанике, классификация химических веществ по их свойствам и 23 типам возможных реакций, в которые они вступают, и другие. Формальные признаки могут быть определены посредством правил типа “если..-то..”, а системы, оперирующие с такими правилами, получили название экспертных систем. Традиционной областью применения классификаторов на нейронных сетях является экспериментальная физика высоких энергий, где одной из актуальных задач выступает выделение среди множества зарегистрированных в эксперименте событий с элементарными частицами событий, представляющих интерес для данного эксперимента. Проблема категоризации находится на ступеньку выше по сложности в сравнении с классификацией. Особенность ее заключается в том, что помимо отнесения образа к какойлибо группе, требуется определить сами эти группы, т.е. сформировать категории. В случае обучения с учителем (например, в персептроне) формирование категорий происходит методом проб и ошибок на основе примеров с известными ответами, предоставляемыми экспертом. Формирование категорий весьма напоминает процесс обучения у живых организмов, поэтому обычно эксперта называют “супервизором” или учителем. Учитель управляет обучением при помощи изменения параметров связей и, реже, самой топологии сети. Задачей системы-категоризатора является формирование обобщающих признаков в совокупности примеров. При увеличении числа примеров несущественные, случайные признаки сглаживаются, а часто встречающиеся - усиливаются, при этом происходит постепенное уточнение границ категорий. Хорошо обученная нейросетевая система способна извлекать признаки из новых примеров, ранее неизвестных системе, и принимать на их основе приемлемые решения. Важно отметить различие в характере неявных “знаний”, запомненных искусственной нейронной сетью, и явных, формальных “знаний”, заложенных в экспертных системах. Некоторые сходства и различия представлены в следующей таблице. Экспертные системы (ЭС) Источник знаний Нейросетевые системы (НС) Формализованный опыт эксперта, Совокупный опыт экспертавыраженный в виде логических учителя, отбирающего примеры утверждений - правил и фактов, для обучения + индивидуальный безусловно принимаемых системой опыт обучающейся на этих примерах нейронной сети Характер знаний Формально-логическое “левополушарное” знание в виде правил Ассоциативное “правополушарное” знание в виде связей между нейронами сети Развитие знаний В форме расширения совокупности правил и фактов (базы знаний) В форме дообучения на дополнительной последовательности примеров, с уточнением границ категорий и формированием новых категорий Задает на основе правил полный объем знаний экспертной системы Отбирает характерные примеры, не формулируя специально обоснование своего выбора Роль эксперта 24 Роль искусственной системы Поиск цепочки фактов и правил для Формирование индивидуального доказательства суждения опыта в форме категорий, получаемых на основе примеров и категоризация образов Различия в характере экспертных и нейросетевых систем обуславливают и различия в их сферах применения. Экспертные системы применяются в узких предметных областях с хорошо структурированными знаниями, например в классификации неисправностей конкретного типа оборудования, фармакологии, анализе химсостава проб и т.д. Нейронные сети применяются кроме перечисленных областей и в задачах с плохо структурированной информацией, например при распознавании образов, рукописного текста, анализе речи и т.д. Обучение нейронной сети с учителем, как задача многофакторной оптимизации. Понятие о задаче оптимизации. Возможность применения теории оптимизации и обучению нейронных сетей крайне привлекательна, так как имеется множество хорошо опробованных методов оптимизации, доведенных до стандартных компьютерных программ. Сопоставление процесса обучения с процессом поиска некоторого оптимума также не лишено и биологических оснований, если рассматривать элементы адаптации организма к окружающим условиям в виде оптимального количества пищи, оптимального расходования энергии и т.п. Подробное рассмотрение методов оптимизации выходит за рамки данных лекций, поэтому здесь мы ограничимся лишь основными понятиями. Для более подробного знакомства можно порекомендовать книгу Б.Банди. Функция одной действительной переменной f(x) достигает локального минимума в некоторой точке x0, если существует такая  -окрестность этой точки, что для всех x из этой окрестности, т.е. таких, что | x - x0 | < , имеет место f(x) > f(x0). Без дополнительных предположений о свойствах гладкости функции выяснить, является ли некоторая точка достоверной точкой минимума, используя данное определение невозможно, поскольку любая окрестность содержит континуум точек. При применении численных методов для приближенного поиска минимума исследователь может столкнуться с несколькими проблемами. Во-первых, минимум функции может быть не единственным. Вовторых, на практике часто необходимо найти глобальный, а не локальный минимум, однако обычно не ясно, нет ли у функции еще одного, более глубокого, чем найденный, минимума. Математическое определение локального минимума функции в многомерном пространстве имеет тот же вид, если заменить точки x и x0 на вектора, а вместо модуля использовать норму. Поиск минимума для функции многих переменных (многих факторов) является существенно более сложной задачей, чем для одной переменной. Это связано прежде всего с тем, что локальное направление уменьшения значения функции может не соответствовать направлению движения к точке минимума. Кроме того, с ростом размерности быстро возрастают затраты на вычисление функции. Решение задачи оптимизации во многом является искусством, общих, заведомо работающих и эффективных в любой ситуации методов нет. Среди часто используемых методов можно рекомендовать симплекс-метод Нелдера, некоторые градиентные методы, а также методы 25 случайного поиска. В Приложении 2 для решения задачи оптимизации рассматриваются методы имитации отжига и генетического поиска, относящиеся к семейству методов случайного поиска. В случае, если независимые переменные являются дискретными и могут принимать одно значение из некоторого фиксированного набора, задача многомерной оптимизации несколько упрощается. При этом множество точек поиска становится конечным, а следовательно задача может быть, хотя бы в принципе, решена методом полного перебора. Будем называть оптимизационные задачи с конечным множеством поиска задачами комбинаторной оптимизации. Для комбинаторных задач также существуют методы поиска приближенного решения, предлагающие некоторую стратегию перебора точек, сокращающую объем вычислительной работы. Отметим, что имитация отжига и генетический алгоритм также применимы и к комбинаторной оптимизации. Постановка задачи оптимизации при обучении нейронной сети Пусть имеется нейронная сеть, выполняющая преобразование F:XY векторов X из признакового пространства входов X в вектора Y выходного пространства Y. Сеть находится в состоянии W из пространства состояний W. Пусть далее имеется обучающая выборка (X,Y),  = 1..p. Рассмотрим полную ошибку E, делаемую сетью в состоянии W. Отметим два свойства полной ошибки. Во-первых, ошибка E=E(W) является функцией состояния W, определенной на пространстве состояний. По определению, она принимает неотрицательные значения. Во-вторых, в некотором обученном состоянии W*, в котором сеть не делает ошибок на обучающей выборке, данная функция принимает нулевое значение. Следовательно, обученные состояния являются точками минимума введенной функции E(W). Таким образом, задача обучения нейронной сети является задачей поиска минимума функции ошибки в пространстве состояний, и, следовательно, для ее решения могут применяться стандартные методы теории оптимизации. Эта задача относится к классу многофакторных задач, так, например, для однослойного персептрона с N входами и M выходами речь идет о поиске минимума в NxM-мерном пространстве. На практике могут использоваться нейронные сети в состояниях с некоторым малым значением ошибки, не являющихся в точности минимумами функции ошибки. Другими словами, в качестве решения принимается некоторое состояние из окрестности обученного состояния W*. При этом допустимый уровень ошибки определяется особенностями конкретной прикладной задачи, а также приемлемым для пользователя объемом затрат на обучение. Задача Синаптические весовые коэффициенты однослойного персептрона с двумя входами и одним выходом могут принимать значения -1 или 1. Значение порога равно нулю. Рассмотреть задачу обучения такого персептрона логической функции “и”, как задачу многофакторной комбинаторной оптимизации. Для обучающей выборки использовать все комбинации двоичных входов. 26 ЛЕКЦИЯ 6. Многослойный ПЕРСЕПТРОН. Ограничения однослойных нейронных сетей. Необходимость иерархической организации нейронной системы. Многослойный ПЕРСЕПТРОН. Алгоритм обратного распространения ошибок. Необходимость иерархической организации нейросетевых архитектур. На предыдущих лекциях нам уже пришлось встретиться с весьма жесткими ограничениями на возможности однослойных сетей, в частности с требованием линейной разделимости классов. Особенности строения биологических сетей подталкивают исследователя к использованию более сложных, и в частности, иерархических архитектур. Идея относительно проста - на низших уровнях иерархии классы преобразуются таким образом, чтобы сформировать линейно разделимые множества, которые в свою очередь будут успешно распознаваться нейронами на следующих (высших) уровнях иерархии. Однако основной проблемой, традиционно ограничивающей возможные сетевые топологии простейшими структурами, является проблема обучения. На этапе обучения сети предъявляются некоторые входные образы, называемые обучающей выборкой, и исследуются получаемые выходные реакции. Цель обучения состоит в приведении наблюдаемых реакций на заданной обучающей выборке к требуемым (адекватным) реакциям путем изменения состояний синаптических связей. Сеть считается обученной, если все реакции на заданном наборе стимулов являются адекватными. Данная классическая схема обучения с учителем требует явного знания ошибок при функционировании каждого нейрона, что, разумеется, затруднено для иерархических систем, где непосредственно контролируются только входы и выходы. Кроме того, необходимая избыточность в иерархических сетях приводит к тому, что состояние обучения может быть реализовано многими способами, что делает само понятие “ошибка, делаемая данным нейроном” весьма неопределенным. Наличие таких серьезных трудностей в значительной мере сдерживало прогресс в области нейронных сетей вплоть до середины 80-х годов, когда были получены эффективные алгоритмы обучения иерархических сетей. Многослойный ПЕРСЕПТРОН. Рассмотрим иерархическую сетевую структуру, в которой связанные между собой нейроны (узлы сети) объединены в несколько слоев (Рис. 6.1). На возможность построения таких архитектур указал еще Ф.Розенблатт, однако им не была решена проблема обучения. Межнейронные синоптические связи сети устроены таким образом, что каждый нейрон на данном уровне иерархии принимает и обрабатывает сигналы от каждого нейрона более низкого уровня. Таким образом, в данной сети имеется выделенное направление распространения нейроимпульсов - от входного слоя через один (или несколько) скрытых слоев к выходному слою нейронов. Нейросеть такой топологии мы будем называть обобщенным многослойным персептроном или, если это не будет вызывать недоразумений, просто персептроном. 27 Рис.6.1. Структура многослойного персептрона с пятью входами, тремя нейронами в скрытом слое, и одним нейроном выходного слоя. Персептрон представляет собой сеть, состоящую из нескольких последовательно соединенных слоев формальных нейронов МакКаллока и Питтса. На низшем уровне иерархии находится входной слой, состоящий из сенсорных элементов, задачей которого является только прием и распространение по сети входной информации. Далее имеются один или, реже, несколько скрытых слоев. Каждый нейрон на скрытом слое имеет несколько входов, соединенных с выходами нейронов предыдущего слоя или непосредственно со входными сенсорами X1..Xn, и один выход. Нейрон характеризуется уникальным вектором весовых коэффициентов w. Веса всех нейронов слоя формируют матрицу, которую мы будем обозначать V или W. Функция нейрона состоит в вычислении взвешенной суммы его входов с дальнейшим нелинейным преобразованием ее в выходной сигнал: (6.1) Выходы нейронов последнего, выходного, слоя описывают результат классификации Y=Y(X). Особенности работы персептрона состоят в следующем. Каждый нейрон суммирует поступающие к нему сигналы от нейронов предыдущего уровня иерархии с весами, определяемыми состояниями синапсов, и формирует ответный сигнал (переходит в возбужденное состояние), если полученная сумма выше порогового значения. Персептрон переводит входной образ, определяющий степени возбуждения нейронов самого нижнего уровня иерархии, в выходной образ, определяемый нейронами самого верхнего уровня. Число последних, обычно, сравнительно невелико. Состояние возбуждения нейрона на верхнем уровне говорит о принадлежности входного образа к той или иной категории. Традиционно рассматривается аналоговая логика, при которой допустимые состояния синаптических связей определяются произвольными действительными числами, а степени активности нейронов - действительными числами между 0 и 1. Иногда исследуются также модели с дискретной арифметикой, в которой синапс характеризуется двумя булевыми переменными: активностью (0 или 1) и полярностью (-1 или +1), что соответствует трехзначной логике. Состояния нейронов могут при этом описываться одной булевой переменной. Данный дискретный подход делает конфигурационное пространство состояний нейронной сети конечным (не говоря уже о преимуществах при аппаратной реализации). Здесь будет в основном описываться классический вариант многослойной сети с аналоговыми синапсами и сигмоидальной передаточной функцией нейронов, определяемой формулой (6.1). 28 Обучение методом обратного распространения ошибок. Для обучения многослойной сети в 1986 г. Руммельхартом и Хинтоном (Rummelhart D.E., Hinton G.E., Williams R.J., 1986) был предложен алгоритм обратного распространения ошибок (error back propagation). Многочисленные публикации о промышленных применениях многослойных сетей с этим алгоритмом обучения подтвердили его принципиальную работоспособность на практике. В начале возникает резонный вопрос - а почему для обучения многослойного персептрона нельзя применить уже известное  -правило Розенблатта (см. Лекцию 4)? Ответ состоит в том, что для применения метода Розенблатта необходимо знать не только текущие выходы нейронов y, но и требуемые правильные значения Y. В случае многослойной сети эти правильные значения имеются только для нейронов выходного слоя. Требуемые значения выходов для нейронов скрытых слоев неизвестны, что и ограничивает применение  -правила. Основная идея обратного распространения состоит в том, как получить оценку ошибки для нейронов скрытых слоев. Заметим, что известные ошибки, делаемые нейронами выходного слоя, возникают вследствие неизвестных пока ошибок нейронов скрытых слоев. Чем больше значение синаптической связи между нейроном скрытого слоя и выходным нейроном, тем сильнее ошибка первого влияет на ошибку второго. Следовательно, оценку ошибки элементов скрытых слоев можно получить, как взвешенную сумму ошибок последующих слоев. При обучении информация распространяется от низших слоев иерархии к высшим, а оценки ошибок, делаемые сетью - в обратном напаравлении, что и отражено в названии метода. Перейдем к подробному рассмотрению этого алгоритма. Для упрощения обозначений ограничимся ситуацией, когда сеть имеет только один скрытый слой. Матрицу весовых коэффициентов от входов к скрытому слою обозначим W, а матрицу весов, соединяющих скрытый и выходной слой - как V. Для индексов примем следующие обозначения: входы будем нумеровать только индексом i, элементы скрытого слоя - индексом j, а выходы, соответственно, индексом k. Пусть сеть обучается на выборке (X,Y),  =1..p. Активности нейронов будем обозначать малыми буквами y с соответствующим индексом, а суммарные взвешенные входы нейронов малыми буквами x. Общая структура алгоритма аналогична рассмотренной в Лекции 4, с усложнением формул подстройки весов. Таблица 6.1. Алгоритм обратного распространения ошибки. Шаг 0. Начальные значения весов всех нейронов всех слоев V(t=0) и W(t=0) полагаются случайными числами. Шаг 1. Сети предъявляется входной образ X, в результате формируется выходной образ y Y. При этом нейроны последовательно от слоя к слою функционируют по следующим формулам: скрытый слой 29 выходной слой Здесь f(x) - сигмоидальная функция, определяемая по формуле (6.1) Шаг 2. Функционал квадратичной ошибки сети для данного входного образа имеет вид: Данный функционал подлежит минимизации. Классический градиентный метод оптимизации состоит в итерационном уточнении аргумента согласно формуле: Функция ошибки в явном виде не содержит зависимости от веса V jk, поэтому воспользуемся формулами неявного дифференцирования сложной функции: Здесь учтено полезное свойство сигмоидальной функции f(x): ее производная выражается только через само значение функции, f’(x)=f(1-f). Таким образом, все необходимые величины для подстройки весов выходного слоя V получены. 30 Шаг 3. На этом шаге выполняется подстройка весов скрытого слоя. Градиентный метод по-прежнему дает: Вычисления производных выполняются по тем же формулам, за исключением некоторого усложнения формулы для ошибки  j. При вычислении  j здесь и был применен принцип обратного распространения ошибки: частные производные берутся только по переменным последующего слоя. По полученным формулам модифицируются веса нейронов скрытого слоя. Если в нейронной сети имеется несколько скрытых слоев, процедура обратного распространения применяется последовательно для каждого из них, начиная со слоя, предшествующего выходному, и далее до слоя, следующего за входным. При этом формулы сохраняют свой вид с заменой элементов выходного слоя на элементы соответствующего скрытого слоя. Шаг 4. Шаги 1-3 повторяются для всех обучающих векторов. Обучение завершается по достижении малой полной ошибки или максимально допустимого числа итераций, как и в методе обучения Розенблатта. Как видно из описания шагов 2-3, обучение сводится к решению задачи оптимизации функционала ошибки градиентным методом. Вся “соль” обратного распространения ошибки состоит в том, что для ее оценки для нейронов скрытых слоев можно принять взвешенную сумму ошибок последующего слоя. Параметр h имеет смысл темпа обучения и выбирается достаточно малым для сходимости метода. О сходимости необходимо сделать несколько дополнительных замечаний. Во-первых, практика показывает что сходимость метода обратного распространения весьма медленная. Невысокий темп сходимости является “генетической болезнью” всех градиентных методов, так как локальное направление градиента отнюдь не совпадает с направлением к минимуму. Во-вторых, подстройка весов выполняется независимо для каждой пары образов обучающей выборки. При этом улучшение функционирования на некоторой заданной паре может, вообще говоря, приводить к ухудшению работы на предыдущих образах. В этом смысле, нет достоверных (кроме весьма обширной практики применения метода) гарантий сходимости. Исследования показывают, что для представления произвольного функционального отображения, задаваемого обучающей выборкой, достаточно всего два слоя нейронов. Однако 31 на практике, в случае сложных функций, использование более чем одного скрытого слоя может давать экономию полного числа нейронов. В завершение лекции сделаем замечание относительно настройки порогов нейронов. Легко заметить, что порог нейрона может быть сделан эквивалентным дополнительному весу, соединенному с фиктивным входом, равным -1. Действительно, выбирая W0=, x0=-1 и начиная суммирование с нуля, можно рассматривать нейрон с нулевым порогом и одним дополнительным входом: Дополнительные входы нейронов, соответствующие порогам, изображены на Рис. 6.1 темными квадратиками. С учетом этого замечания, все изложенные в алгоритме обратного распространения формулы суммирования по входам начинаются с нулевого индекса. ЛЕКЦИЯ 7. Другие иерархические архитектуры. Командные нейроны и нейроны-детекторы Гроссберга. Принцип "Победитель Забирает Все" (WTA). Модель Липпмана-Хемминга. Карта самоорганизации Кохонена. Сети встречного распространения. В этой лекции будут рассмотрены различные компоненты однородных (состоящих из нейронов одного типа) и неоднородных нейронных сетей. Некоторые преимущества иерархических архитектур - более развитая способность к обобщению, отсутствие жестких ограничений на типы представимых отображений с сохранением простоты нейронной функции и свойства массивной параллельности при обработке информации - уже были нами изучены на лекции, посвященной многослойному персептрону с обучением методом обратного распространения ошибок. Теперь мы познакомимся с иными подходами к построению нейросетей и методам обучения, и в частности, с методом обучения без учителя на основе самоорганизации. Звезды Гроссберга Идеи, отраженные в исследованиях Стефана Гроссберга на заре биологической кибернетики, положены в основу многих последующих нейросетевых разработок. Поэтому мы начинаем наше рассмотрение иерархических архитектур с конфигураций входных и выходных звезд Гроссберга (S. Grossberg, 1969). Нейрон в форме входной звезды имеет N входов X1..XN, которым соответствуют веса W1..XN, и один выход Y, являющийся взвешенной суммой входов. Входная звезда обучается выдавать сигнал на выходе всякий раз, когда на входы поступает определенный вектор. Таким образом, входная звезда является детектором совокупного состояния своих входов. Процесс обучения представляется в следующей итерационной форме: 32 Темп обучения  имеет начальное значение масштаба 0.1 и постепенно уменьшается в процессе обучения. В процессе настройки нейрон учится усредненным обучающим векторам. Выходная звезда Гроссберга выполняет противоположную функцию - функцию командного нейрона, выдавая на выходах определенный вектор при поступлении сигнала на вход. Нейрон этого типа имеет один вход и M выходов с весами W1..M, которые обучаются по формуле: Рекомендуется начать c  порядка единицы и постепенно уменьшать до нуля в процессе обучения. Итерационный процесс будет сходиться к собирательному образу, полученному из совокупности обучающих векторов. Особенностью нейронов в форме звезд Гроссберга является локальность памяти. Каждый нейрон в форме входной звезды помнит "свой" относящийся к нему образ и игнорирует остальные. Каждой выходной звезде присуща также конкретная командная функция. Образ памяти связывается с определенным нейроном, а не возникает вследствие взаимодействия множества нейронов в сети. Принцип Winner Take All (WTA) - Победитель Забирает Все - в модели Липпмана-Хемминга. Рассмотрим задачу о принадлежности образа  некоторому классу Xk, определяемому заданными библиотечными образами xk. Каждый из заданных образов обучающей выборки непосредственно определяет свой собственный класс, и таким образом, задача сводится к поиску "ближайшего" образа. В случае двух двоичных (0-1) образов расстояние между ними может быть определено по Хеммингу, как число несовпадающих компонент. Теперь после вычисления всех попарных расстояний искомый класс определяется по наименьшему из них. Нейросетевое решение этой задачи может быть получено на основе архитектуры ЛиппманаХемминга (Lippman R., 1987). Сеть имеет один слой одинаковых нейронов, число которых равно количеству классов. Таким образом, каждый нейрон "отвечает" за свой класс. Каждый нейрон связан с каждым из входов, число которых равно размерности рассматриваемых библиотечных образов. Веса связей полагаются равными нормированным библиотечным образам: Здесь - значение веса связи от n-го входа к m-му нейрону (см. рис.7.1.). Процесс поступления информации о векторе  в нейронную сеть является безитерационным. При этом входной вектор сначала нормируется: и нейроны принимают начальные уровни активности: 33 Здесь f(x) - переходная функция (функция активации) нейрона, которая выбирается равной нулю при x<0, и f(x)=x при x>0. Пороги  полагаются обычно равными нулю. Рис. 7.1. Нейронная сеть Липпмана-Хемминга. При поступлении входного вектора начальное возбуждение получают все нейроны, скалярное произведение векторов памяти которых с входным вектором превышает порог. В дальнейшем среди них предстоит выбрать один, для которого оно максимально. Это достигается введением дополнительных обратных связей между нейронами, устроенных по принципу "латерального торможения". Каждый нейрон получает тормозящее (отрицательное) воздействие со стороны всех остальных нейронов, пропорционально степени их возбуждения, и испытывает возбуждающее (положительное) воздействие самого на себя. Веса латеральных связей в нейронном слое нормируются таким образом, что суммарный сигнал является возбуждающим только для нейрона с максимальной исходной активностью. Остальные нейроны испытывают торможение: По выполнении некоторого числа итераций t для всех нейронов кроме одного значение аргумента функции f(x) становится отрицательным, что обращает их активность ym в нуль. Единственный, оставшийся активным, нейрон является победителем. Он и указывает на тот класс, к которому принадлежит введенный образ. Такой механизм получил название "Победитель-Забирает-Все" ( Winner Take All - WTA ). Механизм WTA используется и в других нейросетевых архитектурах. Заложенный в его основе принцип латерального торможения имеет глубокие биологические основания и весьма широко распространен в нейронных сетях живых организмов. Нейросетевая парадигма Липпмана-Хемминга является моделью с прямой структурой памяти. Информация, содержащаяся в библиотечных образах никак не обобщается, а непосредственно запоминается в синаптических связях. Память здесь не является распределенной, так как при выходе из строя одного нейрона полностью теряется информация обо всем соответствующем ему образе памяти. Карта самоорганизации Кохонена. В противоположность хемминговой сети модель Кохонена (T.Kohonen, 1982) выполняет обобщение предъявляемой информации. В результате работы НС Кохонена получается образ, представляющий собой карту распределения векторов из обучающей выборки. Таким образов, в модели Кохонена выполняется решение задачи нахождения кластеров в пространстве входных образов. 34 Данная сеть обучается без учителя на основе самоорганизации. По мере обучении вектора весов нейронов стремятся к центрам кластеров - групп векторов обучающей выборки. На этапе решения информационных задач сеть относит новый предъявленный образ к одному из сформированных кластеров, указывая тем самым категорию, к которой он принадлежит. Рассмотрим архитектуру НС Кохонена и правила обучения подробнее. Сеть Кохонена, также как и сеть Липпмана-Хемминга, состоит из одного слоя нейронов. Число входов каждого нейрона равно размерности входного образа. Количество же нейронов определяется той степенью подробности с которой требуется выполнить кластеризацию набора библиотечных образов. При достаточном количестве нейронов и удачных параметрах обучения НС Кохонена может не только выделить основные группы образов, но и установить "тонкую структуру" полученных кластеров. При этом близким входным образам будет соответствовать близкие карты нейронной активности. Рис. 7.2. Пример карты Кохонена. Размер каждого квадратика соответствует степени возбуждения соответствующего нейрона. Обучение начинается с задания случайных значений матрице связей . В дальнейшем происходит процесс самоорганизации, состоящий в модификации весов при предъявлении на вход векторов обучающей выборки. Для каждого нейрона можно определить его расстояние до вектора входа: Далее выбирается нейрон m=m*, для которого это расстояние минимально. На текущем шаге обучения t будут модифицироваться только веса нейронов из окрестности нейрона m *: Первоначально в окрестности любого из нейронов находятся все нейроны сети, в последствии эта окрестность сужается. В конце этапа обучения подстраиваются только веса самого ближайшего нейрона. Темп обучения (t)<1 с течением времени также уменьшается. Образы 35 обучающей выборки предъявляются последовательно, и каждый раз происходит подстройка весов. Нейронная сеть Кохонена может обучаться и на искаженных версиях входных векторов, в процессе обучения искажения, если они не носят систематический характер, сглаживаются. Для наглядности представления карты нейроны Кохонена могут быть упорядочены в двумерную матрицу, при этом под окрестностью нейрона-победителя принимаются соседние (по строкам и столбцам) элементы матрицы. Результирующую карту удобно представить в виде двумерного изображения, на котором различные степени возбуждения всех нейронов отображаются квадратами различной площади. Пример карты, построенной по 100 нейронам Кохонена, представлен на рис.7.2. Каждый нейрон несет информацию о кластере - сгустке в пространстве входных образов, формируя для данной группы собирательный образ. Таким образом НС Кохонена способна к обобщению. Конкретному кластеру может соответствовать и несколько нейронов с близкими значениями векторов весов, поэтому выход из строя одного нейрона не так критичен для функционирования НС Кохонена, как это имело место в случае хемминговой сети. Нейронная сеть встречного распространения. Архитектура встречного распространения (counter propagation) удачно объединяет в себе преимущества возможности обобщения информации сети Кохонена и простоту обучения выходной звезды Гроссберга. Создатель сети встречного распространения Р.Хехт-Нильсен (R.Hecht-Nielsen, 1987) рекомендует использование этой архитектуры для быстрого моделирования систем на начальных этапах исследований с дальнейшим переходом, если это потребуется, на значительно более дорогой, но более точный метод обучения с обратным распространением ошибок. НС встречного распространения (ВР) обучается на выборке пар векторов (X,Y) задаче представления отображения XY. Замечательной особенностью этой сети является способность обучению также и отображению совокупности XY в себя. При этом, благодаря обобщению, появляется возможность восстановления пары (XY) по одной известной компоненте (X или Y). При предъявлении на этапе распознавания только вектора X (с нулевым начальным Y) производится прямое отображение - восстанавливается Y, и наоборот, при известном Y может быть восстановлен соответствующий ему X. Возможность решения как прямой, так и обратной задачи, а также гибридной задачи по восстановлению отдельных недостающих компонент делает данную нейросетевую архитектуру уникальным инструментом. Сеть ВР состоит из двух слоев нейронов (см. Рис.7.3.) - слоя Кохонена и слоя Гроссберга. В режиме функционирования (распознавания) нейроны слоя Кохонена работают по принципу Победитель-Забирает-Все, определяя кластер, к которому принадлежит входной образ. Затем выходная звезда слоя Гроссберга по сигналу нейрона-победителя в слое Кохонена воспроизводит на выходах сети соответствующий образ. 36 Рис. 7.3. Архитектура сети встречного распространения (для упрощения изображения показаны не все связи). Обучение весов слоя Кохонена выполняется без учителя на основе самоорганизации (см. предыдущий пункт). Входной вектор (аналоговый) вначале нормируется, сохраняя направление. После выполнения одной итерации обучения определяется нейрон победитель, состояние его возбуждения устанавливается равным единице, и теперь могут быть модифицированы веса соответствующей ему звезды Гроссберга. Темпы обучения нейронов Кохонена и Гроссберга должны быть согласованы . В слое Кохонена обучаются веса всех нейронов в окрестности победителя, которая постепенно сужается до одного нейрона. Обученная нейронная сеть ВР может функционировать и в режиме интерполяции, когда в слое Кохонена оставляется не один, а несколько победителей. Тогда уровни их активности пропорционально нормируются, чтобы в сумме составлять единицу, а выходной вектор определяется по сумме выходных векторов каждой из активных звезд Гроссберга. Таким образом НС производит линейную интерполяцию между значениями выходных векторов, отвечающих нескольким кластерам. Однако режим интерполяции в сети встречного распространения изучен не столь достаточно, чтобы можно было рекомендовать его широкое использование. ЛЕКЦИЯ 8. Модель Хопфилда. Конфигурация и устойчивость сетей с обратными связями. Модель Хопфилда. Правило обучения Хебба. Ассоциативная память. Распознавание образов. Модель Хопфилда (J.J.Hopfield, 1982) занимает особое место в ряду нейросетевых моделей. В ней впервые удалось установить связь между нелинейными динамическими системами и нейронными сетями. Образы памяти сети соответствуют устойчивым предельным точкам (аттракторам) динамической системы. Особенно важной оказалась возможность переноса математического аппарата теории нелинейных динамических систем (и статистической физики вообще) на нейронные сети. При этом появилась возможность теоретически оценить объем памяти сети Хопфилда, определить область параметров сети, в которой достигается наилучшее функционирование. В этой лекции мы последовательно начнем рассмотрение с общих свойств сетей с обратными связями, установим правило обучения для сети Хопфилда (правило Хебба), и затем перейдем к обсуждению ассоциативных свойств памяти этой нейронной сети при решении задачи распознавания образов. 37 Сети с обратными связями Рассмотренный нами ранее ПЕРСЕПТРОН относится к классу сетей с направленным потоком распространения информации и не содержит обратных связей. На этапе функционирования каждый нейрон выполняет свою функцию - передачу возбуждения другим нейронам - ровно один раз. Динамика состояний нейронов является безитерационной. Несколько более сложной является динамика в сети Кохонена. Конкурентное соревнование нейронов достигается путем итераций, в процессе которых информация многократно передается между нейронами. В общем случае может быть рассмотрена нейронная сеть (см. Рис. 8.1), содержащая произвольные обратные связи, по которым переданное возбуждение возвращается к данному нейрону, и он повторно выполняет свою функцию. Наблюдения за биологическими локальными нейросетями указывают на наличие множественных обратных связей. Нейродинамика в таких системах становится итерационной. Это свойство существенно расширяет множество типов нейросетевых архитектур, но одновременно приводит к появлению новых проблем. Рис. 8.1. Фрагменты сетей с прямым рапространением (A) и с наличием обратных связей (B). Безитерационная динамика состояний нейронов является, очевидно, всегда устойчивой. Обратные связи могут приводить к возникновению неустойчивостей, подобно тем, которые возникают в усилительных радиотехнических системах при положительной обратной связи. В нейронных сетях неустойчивость проявляется в блуждающей смене состояний нейронов, не приводящей к возникновению стационарных состояний. В общем случае ответ на вопрос об устойчивости динамики произвольной системы с обратными связями крайне сложен и до настоящего времени является открытым. Ниже мы остановимся на важном частном случае нейросетевой архитектуры, для которой свойства устойчивости подробно исследованы. Нейродинамика в модели Хопфилда Рассмотрим сеть из N формальных нейронов, в которой степень возбуждения каждого из нейронов Si, i=1..N, может принимать только два значения {-1, +1}. Любой нейрон имеет связь со всеми остальными нейронами Sj, которые в свою очередь связаны с ним. Силу связи от i-го к j-му нейрону обозначим как Wij. В модели Хопфилда предполагается условие симметричности связей Wij=Wji, с нулевыми диагональными элементами Wii=0. К сожалению, это условие имеет весьма отдаленное отношение к известным свойствам биологических сетей, в которых, наоборот, если один нейрон передает возбуждение другому, то тот, в большинстве случаев, непосредственно не 38 связан с первым. Однако именно симметричность связей, как будет ясно из дальнейшего, существенно влияет на устойчивость динамики. Изменение состояния каждого нейрона Sj в модели Хопфилда происходит по известному правилу для формальных нейронов МакКаллока и Питтса. Поступающие на его входы сигналы Si в момент t взвешиваются с весами матрицы связей Wij и суммируются, определяя полный уровень силы входного сигнала: Далее в момент t+1 нейрон изменяет состояние своего возбуждения в зависимости от уровня сигнала h и индивидуального порога каждого нейрона T: Изменение состояний возбуждения всех нейронов может происходить одновременно, в этом случае говорят о параллельной динамике. Рассматривается также и последовательная нейродинамика, при которой в данный момент времени происходит изменение состояния только одного нейрона. Многочисленные исследования показали, что свойства памяти нейронной сети практически не зависят от типа динамики. При моделировании нейросети на обычном компьютере удобнее последовательная смена состояний нейронов. В аппаратных реализациях нейросетей Хопфилда применятся параллельная динамика. Совокупность значений возбуждения всех нейронов S i в некоторый момент времени образует вектор состояния S сети. Нейродинамика приводит к изменению вектора состояния S(t). Вектор состояния описывает траекторию в пространстве состояний нейросети. Это пространство для сети с двумя уровнями возбуждения каждого нейрона, очевидно, представляет собой множество вершин гиперкуба размерности, равной числу нейронов N. Возможные наборы значений координат вершин гиперкуба (см. Рис.8.2) и определяют возможные значения вектора состояния. Рис. 8.2. Проекция 4-х мерного гиперкуба на плоскость. Указанные на рисунке три точки служат примерами возможных состояний нейронной сети из 4-х нейронов. Рассмотрим теперь проблему устойчивости динамики изменения состояний. Поскольку на каждом временном шаге некоторый нейрон i изменяет свое состояние в соответствии со знаком величины (hi - Ti), то приведенное ниже соотношение всегда неположительно: Таким образом, соответствующая величина E, являющаяся суммой отдельных значений Ei, может только убывать, либо сохранять свое значение в процессе нейродинамики. 39 Введенная таким образом величина E является функцией состояния E=E(S) и называется энергетической функцией (энергией) нейронной сети Хопфилда. Поскольку она обладает свойством невозрастания при динамике сети, то одновременно является для нее функцией Ляпунова (А.М. Ляпунов, 1892). Поведение такой динамической системы устойчиво при любом исходном векторе состояния S(t=0) и при любой симметричной матрице связей W с нулевыми диагональными элементами. Динамика при этом заканчивается в одном из минимумов функции Ляпунова, причем активности всех нейронов будут совпадать по знаку с входными сигналами h. Поверхность энергии E(S) в пространстве состояний имеет весьма сложную форму с большим количеством локальных минимумов, образно напоминая стеганое одеяло. Стационарные состояния, отвечающие минимумам, могут интерпретироваться, как образы памяти нейронной сети. Эволюция к такому образу соответствует процессу извлечения из памяти. При произвольной матрице связей W образы также произвольны. Для записи в память сети какойлибо осмысленной информации требуется определенное значение весов W, которое может получаться в процессе обучения. Правило обучения Хебба Правило обучения для сети Хопфилда опирается на исследования Дональда Хебба (D.Hebb, 1949), который предположил, что синаптическая связь, соединяющая два нейрона будет усиливаться, если в процессе обучения оба нейрона согласованно испытывают возбуждение либо торможение. Простой алгоритм, реализующий такой механизм обучения, получил название правила Хебба. Рассмотрим его подробно. Пусть задана обучающая выборка образов  ,  = 1..p. Требуется построить процесс получения матрицы связей W, такой, что соответствующая нейронная сеть будет иметь в качестве стационарных состояний образы обучающей выборки (значения порогов нейронов T обычно полагаются равными нулю). В случае одного обучающего образа правило Хебба приводит к требуемой матрице: Покажем, что состояние S= является стационарным для сети Хопфилда с указанной матрицей. Действительно, для любой пары нейронов i и j энергия их взаимодействия в состоянии  достигает своего минимально возможного значения Eij = -(1/2)  i  j  i  j = -1/2. При этом Е -полная энергия равна E = -(1/2) N 2, что отвечает глобальному минимуму. Для запоминания других образов может применяется итерационный процесс: который приводит к полной матрице связей в форме Хебба: 40 Устойчивость совокупности образов не столь очевидна, как в случае одного образа. Ряд исследований показывает, что нейронная сеть, обученная по правилу Хебба, может в среднем, при больших размерах сети N, хранить не более чем p  0.14 N различных образов. Устойчивость может быть показана для совокупности ортогональных образов, когда В этом случае для каждого состояния   произведение суммарного входа i-го нейрона hi на величину его активности Si =  i оказывается положительным, следовательно само состояние  является состоянием притяжения (устойчивым аттрактором): Таким образом, правило Хебба обеспечивает устойчивость сети Хопфилда на заданном наборе относительно небольшого числа ортогональных образов. В следующем пункте мы остановимся на особенностях памяти полученной нейронной сети. Ассоциативность памяти и задача распознавания образов Динамический процесс последовательной смены состояний нейронной сети Хопфилда завершается в некотором стационарном состоянии, являющемся локальным минимумом энергетической функции E(S). Невозрастание энергии в процессе динамики приводит к выбору такого локального минимума S, в бассейн притяжения которого попадает начальное состояние (исходный, предъявляемый сети образ) S0. В этом случае также говорят, что состояние S0 находится в чаше минимума S. При последовательной динамике в качестве стационарного состояния будет выбран такой образ S, который потребует минимального числа изменений состояний отдельных нейронов. Поскольку для двух двоичных векторов минимальное число изменений компонент, переводящее один вектор в другой, является расстоянием Хемминга  H(S,S0), то можно заключить, что динамика сети заканчивается в ближайшем по Хеммингу локальном минимуме энергии. Пусть состояние S соответствует некоторому идеальному образу памяти. Тогда эволюцию от состояния S0 к состоянию S можно сравнить с процедурой постепенного восстановления идеального образа S по его искаженной (зашумленной или неполной) копии S0. Память с такими свойствами процесса считывания информации является ассоциативной. При поиске искаженные части целого восстанавливаются по имеющимся неискаженным частям на основе ассоциативных связей между ними. Ассоциативный характер памяти сети Хопфилда качественно отличает ее от обычной, адресной, компьютерной памяти. В последней извлечение необходимой информации происходит по адресу ее начальной точки (ячейки памяти). Потеря адреса (или даже одного бита адреса) приводит к потере доступа ко всему информационному фрагменту. При использовании ассоциативной памяти доступ к информации производится непосредственно по ее содержанию, т.е. по частично известным искаженным фрагментам. Потеря части 41 информации или ее информационное зашумление не приводит к катастрофическому ограничению доступа, если оставшейся информации достаточно для извлечения идеального образа. Поиск идеального образа по имеющейся неполной или зашумленной его версии называется задачей распознавания образов. В нашей лекции особенности решения этой задачи нейронной сетью Хопфилда будут продемонстрированы на примерах, которые получены с использованием модели сети на персональной ЭВМ. В рассматриваемой модели сеть содержала 100 нейронов, упорядоченных в матрицу 10 x 10. Сеть обучалась по правилу Хебба на трех идеальных образах - шрифтовых начертаниях латинских букв M, A и G (Рис. 8.3.). После обучения нейросети в качестве начальных состояний нейронов предъявлялись различные искаженные версии образов, которые в дальнейшем эволюционировали с последовательной динамикой к стационарным состояниям. Рис. 8.3. Идеальные образы обучающей выборки. Темные квадратики соответствуют нейронам в состоянии +1, светлые -1. Для каждой пары изображений на рисунках этой страницы, левый образ является начальным состоянием, а правый - результатом работы сети - достигнутым стационарным состоянием. Рис. 8.4. (A) - Один из идеальных образов является стационарной точкой. (Б) - Образ, заданный другим шрифтом, удачно распознается. Рис. 8.5. (A,Б) - Образы с информационным шумом удачно распознаются. Рис. 8.6. Образ может быть распознан по небольшому фрагменту. Рис. 8.7. (A) - Пример релаксации к ложному образу. (Б) - Добавление информации к левой картинке (А) приводит к правильному распознаванию. 42 Образ на Рис. 8.4.(А) был выбран для тестирования адекватности поведения на идеальной задаче, когда предъявленное изображение точно соответствует информации в памяти. В этом случае за один шаг было достигнуто стационарное состояние. Образ на Рис. 8.4.(Б) характерен для задач распознавания текста независимо от типа шрифта. Начальное и конечное изображения безусловно похожи, но попробуйте это объяснить машине! Задания на Рис. 8.5 характерны для практических приложений. Нейросетевая система способна распознавать практически полностью зашумленные образы. Задачи, соответствующие Рис. 8.6. и 8.7.(Б), демонстрируют замечательное свойство сети Хопфилда ассоциативно узнавать образ по его небольшому фрагменту. Важнейшей особенностью работы сети является генерация ложных образов. Пример релаксации к ложному образу показан на Рис. 8.7.(А). Ложный образ является устойчивым локальным экстремумом энергии, но не соответствует никакому идеальному образу. Он является в некотором смысле собирательным образом, наследующим черты идеальных собратьев. Ситуация с ложным образом эквивалентна нашему "Где-то я уже это видел". В данной простейшей задаче ложный образ является "неверным" решением, и поэтому вреден. Однако, можно надеяться, что такая склонность сети к обобщениям наверняка может быть использована. Характерно, что при увеличении объема полезной информации (сравните Рис. 8.7.(А) и (Б)), исходное состояние попадает в область притяжения требуемого стационарного состояния, и образ распознается. Несмотря на интересные качества, нейронная сеть в классической модели Хопфилда далека от совершенства. Она обладает относительно скромным объемом памяти, пропорциональным числу нейронов сети N, в то время как системы адресной памяти могут хранить до 2N различных образов, используя N битов. Кроме того, нейронные сети Хопфилда не могут решить задачу распознавания, если изображение смещено или повернуто относительно его исходного запомненного состояния. Эти и другие недостатки сегодня определяют общее отношение к модели Хопфилда, скорее как к теоретическому построению, удобному для исследований, чем как повседневно используемому практическому средству. На следующих лекциях мы рассмотрим развитие модели Хопфилда, модификации правила Хебба, увеличивающие объем памяти, а также приложения вероятностных обобщений модели Хопфилда к задачам комбинаторной оптимизации. ЛЕКЦИЯ 9. Обобщения и применения модели Хопфилда. Вероятностные обобщения модели Хопфилда и статистическая машина Больцмана. Двунаправленная ассоциативная память Коско. Представление информации в сети Хопфилда, решающей задачу комбинаторной оптимизации. Нейровычисления и нейроматематика. Принципы организации вычислительных процессов в нейроЭВМ. Модификации правила Хебба. Ограничения емкости синаптической памяти, а также проблема ложной памяти классической нейронной сети в модели Хопфилда, обученной по правилу Хебба, привели к появлению 43 целого ряда исследований, целью которых было снятие этих ограничений. При этом главный упор делался на модификацию правил обучения. Матрица Хебба с ортогонализацией образов. На предыдущей лекции было установлено, что ортогональность образов обучающей выборки является весьма благоприятным обстоятельством, так как в этом случае можно показать их устойчивое сохранение в памяти. В случае точной ортогональности достигается максимальная емкость памяти, равная N - максимально возможному числу ортогональных образов из N компонент. На этом свойстве ортогональных образов и основан один из наиболее часто используемых способов улучшения правила Хебба: перед запоминанием в нейронной сети исходные образы следует ортогонализовать. процедура ортогонализации приводит к новому виду матрицы памяти: где B-1 - матрица, обратная к матрице B: Такая форма матрицы памяти обеспечивает воспроизведение любого набора из p<N образов. Однако, существенным недостатком этого метода является его нелокальность: обучение связи между двумя нейронами требует знания состояний всех других нейронов. Кроме того, прежде чем начать обучение, необходимо наперед знать все обучающие образы. Добавление нового образа требует полного переобучения сети. Поэтому данный подход весьма далек от исходных биологических оснований сети Хопфилда-Хебба, хотя на практике приводит к заметным улучшениям ее функционирования. Отказ от симметрии синапсов. Другим подходом для улучшения правила Хебба является отказ от симметрии синаптических соединений. Матрица памяти может выбираться в следующей форме: Элементы матрицы Pij из множества {0,1} управляют наличием или отсутствием связи от нейрона i к нейрону j. Увеличение емкости памяти в такой модели в принципе может быть достигнуто за счет появления новых степеней свободы, связанных с матрицей P. В общем случае, однако, трудно предложить алгоритм выбора этой матрицы. Следует также отметить, что динамическая система с несимметричной матрицей не обязана быть устойчивой Алгоритмы разобучения (забывания). Возможность забывания ненужной, лишней информации является одним из замечательных свойств биологической памяти. Идея приложения этого свойства к искусственной нейросети 44 Хопфилда “удивительно” проста: при запоминании образов обучающей выборки вместе с ними запоминаются и ложные образы. Их-то и следует “забыть”. Соответствующие алгоритмы получили название алгоритмов разобучения. Суть их сводится к следующему. На первой фазе происходит обучение сети по стандартному правилу Хебба. Память наполняется истинными образами и множеством ложной информации. На следующей фазе (фазе разобучения) сети предъявляется некоторый (случайный) образ (0). Сеть эволюционирует от состояния (0) к некоторому состоянию (f), которое при большом объеме обучающей выборки чаще всего оказывается ложным. Теперь матрица связей может быть поправлена, с целью уменьшить глубину минимума энергии, отвечающего этому ложному состоянию: В качестве степени забывания  выбирается некоторое малое число, что гарантирует незначительное ухудшение полезной памяти, если состояние (f) не окажется ложным. После нескольких “сеансов забывания” свойства сети улучшаются (J.J.Hopfield et al, 1983). Данная процедура далека от формального теоретического обоснования, однако на практике приводит к более регулярной энергетической поверхности нейронной сети и к увеличению объема бассейнов притяжения полезных образов. Двунаправленная ассоциативная память. Дальнейшее развитие нейросетевые архитектуры ассоциативной памяти получили в работах Барта Коско (B.Kosko, 1987). Им была предложена модель гетероассоциативной памяти, в которой запоминаются ассоциации между парами образов. Запоминание происходит так, что при предъявлении сети одного из образов восстанавливается второй член пары. Запоминание образов через ассоциаций между ними весьма характерно для памяти человека. Вспоминание (воспроизведение) нужной информации может происходить путем построения цепочки ассоциаций. Так, например, наблюдая на улице столб дыма из заводской трубы, вы вполне можете вспомнить, что оставили дома чайник на включенной плите. Двунаправленная сеть в модели Коско состоит из двух слоев нейронов (слой A и слой B). Связи между слоями устроены таким образом, что каждый нейрон одного слоя связан с каждым нейроном другого слоя. Внутри слоев связи между нейронами отсутствуют, число нейронов на каждом слое может быть различным. Для запоминания предназначаются пары образов (a, b)(), =1..p. Обучение задается правилом Хебба: Динамика системы является параллельной и происходит по формулам: 45 Здесь {aj}, j=1..Na - состояния активности нейронов слоя A, {bi}, i=1..Nb - слоя B. В качестве нейронной функции f может использоваться пороговая функция или сигмоид. В частном случае одинаковых слоев и одинаковых образов в обучающих парах сеть Коско полностью эквивалентна модели Хопфилда. В процессе итерационной динамики состояния нейронов слоя A вызывают изменения состояний нейронов слоя B, те, в свою очередь, модифицируют состояния нейронов A, и так далее. Итерации, также как и в сети Хопфилда, сходятся, поскольку матрица связей симметрична. При предъявлении сети только образа на слое A будет восстановлен также и соответствующий образ на слое B, и наоборот. Сеть Коско обладает также и свойством автоассоциативности: если одновременно известны некоторые фрагменты образов на слое A и B, то в процессе динамики будут одновременно восстановлены оба образа пары. Детерминированная и вероятностная нейродинамика. На предыдущей лекции была рассмотрена классическая модель Хопфилда с двоичными нейронами. Изменение состояний нейронов во времени описывалось детерминированными правилами, которые в заданный момент времени однозначно определяли степень возбуждения всех нейронов сети. Эволюция в пространстве состояний сети Хопфилда завершается в стационарной точке локальном минимуме энергии. В этом состоянии любые изменения активности любого нейрона запрещены, так как они приводят к увеличению энергии сети. Если продолжать проводить аналогию между классической нейродинамикой и статистическими (динамическими) системами в физике, то можно ввести понятие температуры статистического ансамбля нейронов. Поведение сети Хопфилда соответствует нулевой температуре (полному замерзанию) статсистемы. При строго нулевой температуре (T=0) статистический Больцмановский фактор exp(-E/T) делает невозможным увеличение энергии. Переход к ненулевым температурам (T>0) значительно обогащает динамику системы, которая теперь может с ненулевой вероятностью делать переходы с возрастанием E и посещать новые статистические состояния. Вернемся к нейронным сетям. Для некоторого нейрона возможность перехода в состояние с большей энергией означает отказ от следования детерминированному закону изменения состояний. При ненулевых температурах состояние нейрона определяется вероятностным образом: Si(t+1) = sign( hi(t)-), с вероятностью Pi Si(t+1) = - sign( hi(t)-), с вероятностью (1-Pi) Вероятность перехода в состояние с возрастанием энергии тем меньше, чем больше разница в энергиях конечного E2 и начального E1 состояний. В статистических системах эта вероятность определяется формулой Больцмана: 46 Нетрудно заметить, что в пределе низких температур (T0) вероятность P стремится к единице, и динамика переходит в обычную детерминированную нейродинамику. При высоких температурах (T >>  E) вероятность P=1/2, т.е. изменение состояния нейрона никак не связано ни с его предыдущим состоянием, ни со значением “нейронного поля” h(t). Состояния сети меняются полностью хаотично, и ситуация ничем не напоминает систему с памятью. Динамика нейронной системы при ненулевых температурах уже не является Ляпуновской, так как энергия сети не обязана теперь уменьшаться со временем. При этом, вообще говоря, полной стабилизации состояния сети не происходит - состояние будет продолжать испытывать изменения, при которых E T. Если теперь постепенно уменьшать температуру сети, большое увеличение энергии становится все менее вероятным, и система замерзает в окрестности минимума. Очень важно отметить, что замерзание с большой вероятностью будет происходить в чаше самого глубокого и широкого минимума, т.е. сеть преимущественно достигает глобального минимума энергии. Процесс медленного остывания и локализации состояния в области низких энергий аналогичен процессу отжига металлов, применяемому в промышленности для их закалки, поэтому он получил название имитации отжига. Введение отличной от нуля температуры в динамику нейросети улучшает свойства памяти, так как система перестает “чувствовать” мелкие локальные минимумы, отвечающие ложным образам. Однако за это приходится платить неточностями при воспроизведении образов вследствие отсутствия полной стабилизации системы в точке минимума. Применения сети Хопфилда к задачам комбинаторной оптимизации. Ассоциативность памяти нейронной сети Хопфилда не является единственным ее достоинством, которое используется на практике. Другим важным свойством этой архитектуры является уменьшение ее функции Ляпунова в процессе нейродинамики. Следовательно, нейросеть Хопфилда можно рассматривать, как алгоритм оптимизации целевой функции в форме энергии сети. Класс целевых функций, которые могут быть минимизированы нейронной сетью достаточно широк: в него попадают все билинейные и квадратичные формы с симметричными матрицами. С другой стороны, весьма широкий круг математических задач может быть сформулирован на языке задач оптимизации. Сюда относятся такие традиционные задачи, как дифференциальные уравнения в вариационной постановке; задачи линейной алгебры и системы нелинейных алгебраических уравнений, где решение ищется в форме минимизации невязки, и другие. Исследования возможности использования нейронных сетей для решения таких задач сегодня сформировали новую научную дисциплину - нейроматематику. Применение нейронных сетей для решения традиционных математических задач выглядит весьма привлекательным, так нейропроцессоры являются системами с предельно высоким уровнем параллельности при обработке информации. В нашей книге мы рассмотрим использование нейро-оптимизаторов для несколько иных задач, а именно, задач комбинаторной оптимизации. 47 Многие задачи оптимального размещения и планирования ресурсов, выбора маршрутов, задачи САПР и иные, при внешней кажущейся простоте постановки имеют решения, которые можно получить только полным перебором вариантов. Часто число вариантов быстро возрастает с числом структурных элементов N в задаче (например, как N! - факториал N), и поиск точного решения для практически полезных значений N становится заведомо неприемлемо дорогим. Такие задачи называют неполиномиально сложными или NP-полными. Если удается сформулировать такую задачу в терминах оптимизации функции Ляпунова, то нейронная сеть дает весьма мощный инструмент поиска приближенного решения. Рассмотрим классический пример NP-полной проблемы - так называемую задачу коммивояжера (бродячего торговца). На плоскости расположены N городов, определяемые парами их географических координат: (xi,yi), i=1..N. Некто должен, начиная с произвольного города, посетить все эти города, при этом в каждом побывать ровно один раз. Проблема заключается в выборе маршрута путешествия с минимально возможной общей длиной пути. Полное число возможных маршрутов равно , и задача поиска кратчайшего из них методом перебора весьма трудоемка. Приемлемое приближенное решение может быть найдено с помощью нейронной сети, для чего, как уже указывалось, требуется переформулировать задачу на языке оптимизации функции Ляпунова (J.J.Hopfield, D.W.Tank, 1985). Обозначим названия городов заглавными буквами (A, B, C, D...). Произвольный маршрут может быть представлен в виде таблицы, в которой единица в строке, отвечающей данному городу, определяет его номер в маршруте. Таб. 9.1. Маршрут B-A-C-D ... Номер Город 1 2 3 4 ... A 0 1 0 0 ... B 1 0 0 0 ... C 0 0 1 0 ... D 0 0 0 1 ... ... ... ... ... ... ... Сопоставим теперь клетке таблицы на пересечении строки X и столбца i нейрон S xi из {0,1}. Возбужденное состояние данного нейрона сигнализирует о том, что город X в маршруте следует посещать в i-тую очередь. Составим теперь целевую функцию E(S) задачи поиска оптимального маршрута. Она будет включать 4 слагаемых: Первые три слагаемых отвечают за допустимость маршрута: каждый город должен быть посещен не более чем один раз (в каждой строке матрицы имеется не более одной единицы), под каждым номером должно посещаться не более одного города (в каждом столбце - не более одной единицы) и, кроме того, общее число посещений равно числу городов N (в матрице всего имеется ровно N единиц): 48 Видно, что каждое из этих трех слагаемых обращается в нуль на допустимых маршрутах, и принимает значения больше нуля на недопустимых. Последнее, четвертое слагаемое минимизирует длину маршрута: Здесь за dXY обозначено расстояние между городами X и Y. Заметим, что отрезок пути X-Y включается в сумму только тогда, когда город Y является относительно города X либо предыдущим, либо последующим. Множители  ,  ,  и  имеют смысл относительных весов слагаемых. Общий вид функции Ляпунова сети Хопфилда дается выражением (см. предыдущую лекцию): Полученная целевая функция из четырех слагаемых представляется в форме функции Ляпунова, если выбрать значения весов и порогов сети в следующем виде: Теперь можно заменить обучение Хебба прямым заданием указанных весов и порогов для нейросети, и динамика полученной системы будет приводить к уменьшению длины маршрута коммивояжера. В этой задаче целесообразно использовать вероятностную динамику с имитацией отжига, так как наибольший интерес представляет глобальный минимум энергии. Хопфилдом и Тэнком изложенная модель была опробована в вычислительном эксперименте. Нейронной сети удавалось находить близкие к оптимальным решения за приемлемые времена даже для задач с несколькими десятками городов. В дальнейшем последовало множество публикаций о разнообразных применениях нейросетевых оптимизаторов. В завершении лекции рассмотрим одно из таких применений - задачу о расшифровке символьного кода. Пусть имеется некоторое (достаточно длинное) текстовое сообщение, написанное на некотором языке с использованием алфавита A, B, C ... z и символа “пробел”, отвечающего за промежуток между словами. Данное сообщение закодировано таким образом, что каждому символу, включая пробел, сопоставлен некоторый символ из ряда i,j,k, .... Требуется расшифровать сообщение. 49 Данная задача также относится к числу NP-полных, общее число ключей шифра имеет факториальную зависимость от числа символов в алфавите. Приближенное нейросетевое решение может быть основано на том факте, что частоты появления отдельных символов и конкретных пар символов в каждом языке имеют вполне определенные значения (например, в русском языке частота появления буквы “а” заметно превосходит частоту появления буквы “у”, слог “во” появляется довольно часто, а, например, сочетание “йщ” вовсе не возможно). Частоты появления символов Pi и их пар Pij в закодированном сообщении можно вычислить непосредственно. Имея, далее, в распоряжении значения PA частот появления символов языка и их пар PAB , следует отождествить их с вычисленными значениями для кода. Наилучшее совпадение и даст требуемый ключ. Целевая функция этой задачи содержит пять слагаемых. Первые три слагаемых полностью совпадают с тремя первыми членами в выражении для энергии в задаче о коммивояжере. Они определяют допустимость ключа (каждому символу языка соответствует один символ кода). Остальные слагаемые отвечают за совпадение частот отдельных символов и частот пар в коде и языке. Полное выражение для целевой функции имеет вид: Целевая функция также, как и для задачи коммивояжера, приводится к виду функции Ляпунова, после чего нейронная сеть выполняет требуемую расшифровку. Задачи 1. Непосредственным вычислением убедиться, что все образы обучающей выборки являются устойчивыми состояниями сети с ортогонализацией матрицы Хебба. 2. Для задачи коммивояжера получить представление E(S) целевой функции в форме функции Ляпунова. 3. Вывести энергетическую функцию сети Хопфилда для задачи оптимального размещения смесей кода и данных в многопроцессорной архитектуре “гиперкуб”. Решение (Терехов С.А., Олейников П.В., 1994). В многопроцессорной ЭВМ этой архитектуры процессоры расположены в вершинах многомерного куба. Каждый процессор связан с ближайшими к нему узлами. На каждый процессор назначается некоторый фрагмент кода программы и локальные данные. В процессе вычислений процессоры обмениваются информацией, при этом скорость выполнения программ замедляется. Время, затрачиваемое на пересылку сообщения тем больше, чем дальше обменивающиеся процессоры расположены друг от друга. Требуется так разместить смеси кода и данных по реальным процессорам, чтобы максимально снизить потери на обмены информацией. 50 Как и в задаче коммивояжера, обозначим процессоры заглавными буквами, а номера смесей латинскими индексами. Если dXY - расстояние между процессорами, измеренное вдоль ребер гиперкуба (Хеммингово расстояние), а Dij - объем передаваемой информации между смесями i и j, то искомое решение должно минимизировать сумму SUMdXYDij. Поэтому целевая функция представляется в виде: E(S) = E1 + E2 + E3 + (/2) SUMi SUMj SUMX SUMY (SXiSYj dXY Dij) Это выражение далее приводится к форме функции Ляпунова. Численные эксперименты с гиперкубами размерности 3, 4 и 5 показывают, что применение нейросетевого подхода позволяет получить уменьшение числа информационных обменов (и, соответственно, повысить производительность ЭВМ) для некоторых задач до 1,5 раз. ЛЕКЦИЯ 10. НЕОКОГНИТРОН Фукушимы. КОГНИТРОН и НЕОКОГНИТРОН Фукушимы. Правила обучения. Инвариантное распознавание образов НЕОКОГНИТРОНОМ. В этой лекции мы переходим к рассмотрению некоторых относительно новых современных архитектур, среди которых прежде всего следует отметить НЕОКОГНИТРОН и его модификации. В следующей лекции будут обсуждаться варианты сетей, построенных на теории адаптивного резонанса (АРТ). КОГНИТРОН: самоорганизующаяся многослойная нейросеть. Создание КОГНИТРОНА (K.Fukushima, 1975) явилось плодом синтеза усилий нейрофизиологов и психологов, а также специалистов в области нейрокибернетики, совместно занятых изучением системы восприятия человека. Данная нейронная сеть одновременно является как моделью процессов восприятия на микроуровне, так и вычислительной системой, применяющейся для технических задач распознавания образов. КОГНИТРОН состоит из иерархически связанных слоев нейронов двух типов - тормозящих и возбуждающих. Состояние возбуждения каждого нейрона определяется суммой его тормозящих и возбуждающих входов. Синаптические связи идут от нейронов одного слоя (далее слоя 1) к следующему (слою 2). Относительно данной синаптической связи соответствующий нейрон слоя 1 является пресинаптическим, а нейрон второго слоя постсинаптическим. Постсинаптические нейроны связаны не со всеми нейронами 1-го слоя, а лишь с теми, которые принадлежат их локальной области связей. Области связей близких друг к другу постсинаптических нейронов перекрываются, поэтому активность данного пресинаптического нейрона будет сказываться на все более расширяющейся области постсинаптических нейронов следующих слоев иерархии. Вход возбуждающего постсинаптического нейрона (на Рис. 10.1 - нейрон i) определяется отношением суммы E его возбуждающих входов (a1, a2 и a3) к сумме I тормозящих входов (b1 и вход от нейрона X): 51 где u - возбуждающие входы с весами a, v-тормозящие входы с весами b. Все веса имеют положительные значения. По значениям E и I вычисляется суммарное воздействие на i-й нейрон: neti =((1+E)/(1+I))-1 . Его выходная активность ui затем устанавливается равной neti, если neti > 0. В противном случае выход устанавливается равным нулю. Анализ формулы для суммарного воздействия показывает, что при малом торможении I оно равно разности возбуждающего и тормозящего сигналов. В случае же когда оба эти сигнала велики, воздействие ограничивается отношением. Такие особенности реакции соответствуют реакциям биологических нейронов, способных работать в широком диапазоне воздействий. Рис. 10.1. Постсинаптический нейрон i слоя 2 связан с тремя нейронами в области связей (1,2 и 3) слоя 1 и двумя тормозящими нейронами (показаны темным цветом). Тормозящий нейрон X реализует латеральное торможение в области конкуренции нейрона i. Пресинаптические тормозящие нейроны имеют ту же область связей, что и рассматриваемый возбуждающий постсинаптический нейрон i. При этом веса таких тормозящих нейронов (c1, c2 и c3) являются заданными и не изменяются при обучении. Их сумма равна единице, таким образом, выход тормозного пресинаптического нейрона равен средней активности возбуждающих пресинаптических нейронов в области связей: Обучение весов возбуждающих нейронов происходит по принципу "победитель забирает все" в области конкуренции - некоторой окрестности данного возбуждающего нейрона. На данном шаге модифицируются только веса ai нейрона с максимальным возбуждением: где cj - тормозящий вес связи нейрона j в первом слое, uj - состояние его возбуждения, q коэффициент обучения. Веса тормозящего нейрона i второго слоя модифицируются пропорционально отношению суммы возбуждающих входов к сумме тормозящих входов: В случае, когда победителя в области конкуренции (на слое 2) нет, как это имеет место, например в начале обучения, веса подстраиваются по другим формулам: 52 Данная процедура обучения приводит к дальнейшему росту возбуждающих связей активных нейронов и торможению пассивных. При этом веса каждого из нейронов в слое 2 настраиваются на некоторый образ, часто предъявляемый при обучении. Новое предъявление этого образа вызовет высокий уровень возбуждения соответствующего нейрона, при появлении же других образов, его активность будет малой и будет подавлена при латеральном торможении. Веса нейрона X, осуществляющего латеральное торможение в области конкуренции, являются немодифицируемыми, их сумма равна единице. При этом во втором слое выполняются итерации, аналогичные конкурентным итерациям в сети Липпмана-Хемминга, рассмотренной нами в 7 лекции. Отметим, что перекрывающиеся области конкуренции близких нейронов второго слоя содержат относительно небольшое число других нейронов, поэтому конкретный нейронпобедитель не может осуществить торможение всего второго слоя. Следовательно, в конкурентной борьбе могут выиграть несколько нейронов второго слоя, обеспечивая более полную и надежную переработку информации. В целом КОГНИТРОН представляет собой иерархию слоев, последовательно связанных друг с другом, как было рассмотрено выше для пары слой 1 - слой 2. При этом нейроны слоя образуют не одномерную цепочку, как на Рис. 10.1, а покрывают плоскость, аналогично слоистому строению зрительной коры человека. Каждый слой реализует свой уровень обобщения информации. Входные слои чувствительны к отдельным элементарным структурам, например, линиям определенной ориентации или цвета. Последующие слои реагируют уже на более сложные обобщенные образы. В самом верхнем уровне иерархии активные нейроны определяют результат работы сети - узнавание определенного образа. Для каждого в значительной степени нового образа картинка активности выходного слоя будет уникальной. При этом она сохранится и при предъявлении искаженной или зашумленной версии этого образа. Таким образом, обработка информации КОГНИТРОНОМ происходит с формированием ассоциаций и обобщений. Автором КОГНИТРОНА Фукушимой эта сеть применялась для оптического распознавания символов - арабских цифр. В экспериментах использовалась сеть с 4-мя слоями нейронов, упорядоченными в матрицы 12 x 12 с квадратной областью связей каждого нейрона размером 5 x 5 и областью конкуренции в форме ромба с высотой и шириной 5 нейронов. Параметры обучения были равны q=16, q'=2. В результате было получено успешное обучение системы на пяти образах цифр (аналогичных картинкам с буквами, которые мы рассматривали для сети Хопфилда), при этом потребовалось около 20 циклов обучения для каждой картинки. Рис. 10.2. Смещенные друг относительно друга "одинаковые" образы требуют для установления их "одинаковости" инвариантного относительно произвольных сдвигов характера распознавания. Несмотря на успешные применения и многочисленные достоинства, как то соответствие нейроструктуры и механизмов обучения биологическим моделям, параллельность и 53 иерархичность обработки информации, распределенность и ассоциативность памяти и др., КОГНИТРОН имеет и свои недостатки. По-видимому, главным из них является не способность этой сети распознавать смещенные или повернутые относительно их исходного положения образы. Так например, две картинки на Рис. 10.2 с точки зрения человека несомненно являются образами одной и той же цифры 5, однако КОГНИТРОН не в состоянии уловить это сходство. О распознавании образов независимо от их положения, ориентации, а иногда и размера и других деформации, говорят как об инвариантном относительно соответствующих преобразований распознавании. Дальнейшие исследования группы под руководством К.Фукушимы привели к развитию КОГНИТРОНА и разработке новой нейросетевой парадигмы - НЕОКОГНИТРОНА, который способен к инвариантному распознаванию. НЕОКОГНИТРОН и инвариантное распознавание образов. Новая работа Фукушимы была опубликована в 1980 г. НЕОКОГНИТРОН хотя и имеет много общих черт с его прародителем КОГНИТРОНОМ, но одновременно он претерпел значительные изменения и усложнения, в соответствии с появлением новых нейробиологических данных (Hubel D.H., Wiesel T.N., 1977, и др.). НЕОКОГНИТРОН состоит из иерархии нейронных слоев, каждый из которых состоит из массива плоскостей. Каждый элемент массива состоит из пары плоскостей нейронов. Первая плоскость состоит из так называемых простых нейроклеток, которые получают сигналы от предыдущего слоя и выделяют определенные образы. Эти образы далее обрабатываются сложными нейронами второй плоскости, задачей которых является сделать выделенные образы менее зависимыми от их положения. Нейроны каждой пары плоскостей обучаются реагировать на определенный образ, представленный в определенной ориентации. Для другого образа или для нового угла поворота образа требуется новая пара плоскостей. Таким образом, при больших объемах информации, НЕОКОГНИТРОН представляет собой огромную структуру с большим числом плоскостей и слоев нейронов. Простые нейроны чувствительны к небольшой области входного образа, называемой рецептивной областью (или что тоже самое, областью связей). Простой нейрон приходит в возбужденное состояние, если в его рецептивной области возникает определенный образ. Рецептивные области простых клеток перекрываются и покрывают все изображение. Сложные нейроны получают сигналы от простых клеток, при этом для возбуждения сложного нейрона достаточно одного сигнала от любого простого нейрона. Тем самым, сложная клетка регистрирует определенный образ независимо от того, какой из простых нейронов выполнил детектирование, и, значит, независимо от его расположения. По мере распространения информации от слоя слою картинка нейронной активности становится все менее чувствительной к ориентации и расположению образа, и, в определенных пределах, к его размеру. Нейроны выходного слоя выполняют окончательное инвариантное распознавание. 54 Рис. 10.3. Общая схема НЕОКОГНИТРОНА. Области связей показаны большими белыми кружками, а области конкуренции - маленькими темными. Обучение НЕОКОГНИТРОНА аналогично уже рассмотренному обучению КОГНИТРОНА. При изменяются только синаптические веса простых клеток. Тормозящие нейроны вместо средней активности нейронов в области связей используют квадратный корень из взвешенной суммы квадратов входов: Такая формула для активности тормозящей клетки менее чувствительна к размеру образа. После выбора простого нейрона, веса которого будут обучаться, он рассматривается в качестве представителя слоя, и веса всех остальных нейронов будут обучаться по тем же правилам. Таким образом, все простые клетки обучаются одинаково, выдавая при распознавании одинаковую реакцию на одинаковые образы. Для уменьшения объема обрабатываемой информации рецептивные поля нейронов при переходе со слоя на слой расширяются, а число нейронов уменьшается. В выходном слое на каждой плоскости остается только один нейрон, рецептивное поле которого покрывает все поле образа предыдущего слоя. В целом функционирование НЕОКОГНИТРОНА происходит следующим образом. Копии входного изображения поступают на все плоскости простых клеток первого слоя. Далее все плоскости функционируют параллельно, передавая информацию следующему слою. По достижении выходного слоя, в котором каждая плоскость содержит один нейрон, возникает некоторое окончательное распределение активности. На результат распознавания указывает тот нейрон, активность которого оказалась максимальной. При этом существенно разным входным изображениям будут соответствовать разные результаты распознавания. НЕОКОГНИТРОН успешно проявил себя при распознавании символов. Нужно отметить, что структура этой сети необычайно сложна, и объем вычислений очень велик, поэтому компьютерные модели НЕОКОГНИТРОНА будут слишком дорогими для промышленных приложений. Возможной альтернативой является, конечно, переход на аппаратные или оптические реализации, однако их рассмотрение находится за рамками этой книги. 55 ЛЕКЦИЯ 11. Теория адаптивного резонанса. Проблема стабильности - пластичности при распознавании образов. Принцип адаптивного резонанса Стефана Гроссберга и Гейл Карпентер. Нейросетевые архитектуры AРT. Дилемма стабильности-пластичности восприятия. Проблема стабильности-пластичности является одной из самых сложных и трудно решаемых задач при построении искусственных систем, моделирующих восприятие. Характер восприятия внешнего мира живыми организмами (и, прежде всего, человеком) постоянно связан с решением дилеммы, является ли некоторый образ "новой" информацией, и следовательно реакция на него должна быть поисково-познавательной, с сохранением этого образа в памяти, либо этот образ является вариантом "старой", уже знакомой картиной, и в этом случае реакция организма должна соответствовать ранее накопленному опыту. Специальное запоминание этого образа в последнем случае не требуется. Таким образом, восприятие одновременно пластично, адаптировано к новой информации, и при этом оно стабильно, то есть не разрушает память о старых образах. Рассмотренные на предыдущих лекциях нейронные системы не приспособлены к решению этой задачи. Так например, многослойный персептрон, обучающийся по методу обратного распространения, запоминает весь пакет обучающей информации, при этом образы обучающей выборки предъявляются в процессе обучения многократно. Попытки затем обучить персептрон новому образу приведут к модификации синаптических связей с неконтролируемым, вообще говоря, разрушением структуры памяти о предыдущих образах. Таким образом, персептрон не способен к запоминанию новой информации, необходимо полное переобучение сети. Аналогичная ситуация имеет место и в сетях Кохонена и Липпмана-Хемминга, обучающихся на основе самоорганизации. Данные сети всегда выдают положительный результат при классификации. Тем самым, эти нейронные сети не в состоянии отделить новые образы от искаженных или зашумленных версий старых образов. Исследования по проблеме стабильности-пластичности, выполненные в Центре Адаптивных Систем Бостонского университета под руководством Стефана Гроссберга, привели к построению теории адаптивного резонанса (АРТ) и созданию нейросетевых архитектур нового типа на ее основе. Мы переходим к рассмотрению общих положений АРТ, выдвинутых С.Гроссбергом в 1976 г. и подробно изложенных в основополагающей работе 1987 г (S.Grossberg, G.Carpenter, 1987). Принцип адаптивного резонанса. Привлекательной особенностью нейронных сетей с адаптивным резонансом является то, что они сохраняют пластичность при запоминании новых образов, и, в то же время, предотвращают модификацию старой памяти. Нейросеть имеет внутренний детектор новизны - тест на сравнение предъявленного образа с содержимым памяти. При удачном поиске в памяти предъявленный образ классифицируется с одновременной уточняющей модификацией синаптических весов нейрона, выполнившего классификацию. О такой ситуации говорят, как о возникновении адаптивного резонанса в сети в ответ на предъявление образа. Если резонанс не возникает в пределах некоторого заданного порогового уровня, то успешным считается тест новизны, и образ воспринимается сетью, как новый. Модификация весов нейронов, не испытавших резонанса, при этом не производится. 56 Важным понятием в теории адаптивного резонанса является так называемый шаблон критических черт (critical feature pattern) информации. Этот термин показывает, что не все черты (детали), представленные в некотором образе, являются существенными для системы восприятия. Результат распознавания определяется присутствием специфичных критических особенностей в образе. Рассмотрим это на примере. Рис. 11.1. Иллюстрация к понятию критических черт образа. Обе пары картинок на Рис. 11.1 имеют общее свойство: в каждой из пар черная точка в правом нижнем углу заменена на белую, а белая точка левом нижнем углу - на черную. Такое изменение для нижней пары картинок (на рисунке - пара (b)), очевидно, является не более чем шумом, и оба образа (b) являются искаженными версиями одного и того же изображения. Тем самым, измененные точки не являются для этого образа критическими. Совершенно иная ситуация имеет место для верхней пары картинок (a). Здесь такое же изменение точек оказывается слишком существенным для образа, так что правая и левая картинки являются различными образами. Следовательно, одна и та же черта образа может быть не существенной в одном случае, и критической в другом. Задачей нейронной сети будет формирование правильной реакции в обоих случаях: "пластичное" решение о появлении нового образа для пары (a) и "стабильное" решение о совпадении картинок (b). При этом выделение критической части информации должно получаться автоматически в процессе работы и обучения сети, на основе ее индивидуального опыта. Отметим, что в общем случае одного лишь перечисления черт (даже если его предварительно выполнит человек, предполагая определенные условия дальнейшей работы сети) может оказаться недостаточно для успешного функционирования искусственной нейронной системы, критическими могут оказаться специфические связи между несколькими отдельными чертами. Вторым значительным выводом теории выступает необходимость самоадаптации алгоритма поиска образов в памяти. Нейронная сеть работает в постоянно изменяющихся условиях, так что предопределенная схема поиска, отвечающая некоторой структуре информации, может в дальнейшем оказаться неэффективной при изменении этой структуры. В теории адаптивного резонанса это достигается введением специализированной ориентирующей системы, которая самосогласованно прекращает дальнейший поиск резонанса в памяти, и принимает решение о новизне информации. Ориентирующая система также обучается в процессе работы. В случае наличия резонанса теория АРТ предполагает возможность прямого доступа к образу памяти, откликнувшемуся на резонанс. В этом случает шаблон критических черт выступает ключем-прототипом для прямого доступа. Эти и другие особенности теории адаптивного резонанса нашли свое отражение в нейросетевых архитектурах, которые получили такое же название - АРТ. 57 Нейронная сеть AРT-1. Имеется несколько разновидностей сетей АРТ. Исторически первой явилась сеть, в дальнейшем получившая название АРТ-1 (S.Grossberg, G.Carpenter, 1987). Эта сеть ориентирована на обработку образов, содержащих двоичную информацию. Дальнейший шаг архитектура АРТ-2, опубликованная в том же 1987 году (S.Grossberg, G.Carpenter, 1987) ориентирована на работу как с двоичными, так и с аналоговыми образами. В появившемся относительно недавно сообщении о системе АРТ-3 (G.Carpenter, 1990) говорится о распространении адаптивной резонансной теории Гроссберга и Карпентер на многослойные нейроархитектуры. В нашей лекции мы остановимся на классической сети АРТ-1. Нейросистема АРТ-1 является классификатором входных двоичных образов по нескольким сформированным сетью категориям. Решение принимается в виде возбуждения одного из нейронов распознающего слоя, в зависимости от степени похожести образа на шаблон критических черт данной категории. Если эта степень похожести невелика, т.е. образ не соответствует ни одной из имеющихся категорий, то для него формируется новый класс, который в дальнейшем будет модифицироваться и уточняться другими образами, формируя свой шаблон критических признаков. Для описания новой категории отводится новый, ранее не задействованный нейрон в слое распознавания. Полное описание структуры сети адаптивного резонанса и теории ее работы, представленное в оригинальной публикации Гроссберга и Карпентер, является весьма громоздким, поэтому в своем изложении мы будем следовать более поздней книге Ф.Уоссермена , дополнив ее общим описанием особенностей АРТ-2 и новой архитектуры АРТ-3. Сеть АРТ-1 состоит из пяти функциональных модулей (Рис. 11.2): двух слоев нейронов - слоя сравнения и слоя распознавания, и трех управляющих специализированных нейронов - сброса, управления 1 и управления 2. Рис. 11.2. Общая схема нейронной сети АРТ-1. Начальное значение нейрона управления 1 полагается равным единице: G1=1. Входной двоичный вектор X поступает на слой сравнения, который первоначально пропускает его без изменения, при этом выходной вектор слоя сравнения C=X. Это достигается применением так называемого правила 2/3 для нейронов слоя сравнения. Каждый из нейронов этого слоя имеет три двоичных входа - сигнал от соответствующей компоненты вектора X, сигнал от нейрона управления 1 и сигнал обратной связи из слоя распознавания P (который в начальный момент равен нулю). Для активации нейрона в слое сравнения требуется, чтобы по крайней мере два 58 из трех сигналов были равны единице, что и достигается в начальный момент входом от управления 1 и активными компонентами вектора X. Выработанный слоем сравнения сигнал C поступает на входы нейронов слоя распознавания. Каждый нейрон слоя распознавания имеет вектор весов bj - действительных чисел, при этом возбуждается только один нейрон этого слоя, вектор весов которого наиболее близок к C. Это может быть достигнуто, например, за счет механизма латерального торможения типа "Победитель забирает все" (Лекция 7). Выход нейрона-победителя устанавливается равным единице, остальные нейроны полностью заторможены. Сигнал обратной связи от нейронапобедителя поступает обратно в слой сравнения через синаптические веса T. Вектор T, по существу, является носителем критических черт категории, определяемой выигравшим нейроном. Выход нейрона управления 1 равен единице, только когда входной образ X имеет ненулевые компоненты, то есть этот нейрон выполняет функцию детекции факта поступления образа на вход. Однако, когда возникает ненулевой отклик нейронов слоя распознавания R, значение управления 1 зануляется G1=0. Сигнал нейрона управления 2 также устанавливается на единицу при ненулевом векторе X. Задачей этого нейрона является погашение активность на слое распознавания, если в сеть не поступило никакой информации. Итак, при генерации отклика R слоя распознавания выход G1=0, и теперь нейроны слоя сравнения активируются сигналами образа X и отклика R. Правило двух третей приводит к активации только тех нейронов слоя сравнения, для которых и X, и R являются единичными. Таким образом, выход слоя сравнения C теперь уже не равен в точности X, а содержит лишь те компоненты X, которые соответствуют критическим чертам победившей категории. Этот механизм в теории АРТ получил название адаптивной фильтрации образа X. Теперь задачей системы является установить, достаточен ли набор этих критических черт для окончательного отнесения образа X к категории нейрона-победителя. Эту функцию осуществляет нейрон сброса, который измеряет сходство между векторами X и C. выход нейрона сброса определяется отношением числа единичных компонент в векторе C к числу единичных компонент исходного образа X. Если это отношение ниже некоторого определенного уровня сходства, нейрон выдает сигнал сброса, означающий что уровень резонанса образа X с чертами предлагаемой категории не достаточен для положительного заключения о завершении классификации. Условием возникновения сигнала сброса является соотношение , где  < 1 - параметр сходства. Сигнал сброса выполняет полное торможение нейрона-победителя-неудачника, который не принимает в дальнейшем участия в работе сети. Опишем последовательно события, происходящие в сети АРТ в процессе классификации. Начальное состояние сети. 59 Нулевые значения компонент входного вектора X устанавливают сигнал нейрона управления 2 в нуль, одновременно устанавливая в нуль выходы нейронов слоя распознавания. При возникновении ненулевых значений X, оба сигнала управления (G1 и G2) устанавливаются равными единице. При этом по правилу двух третей выходы нейронов слоя сравнения C в точности равны компонентам X. Вектор C поступает на входы нейронов слоя распознавания, которые в конкурентной борьбе определяют нейрон-победитель, описывающий предполагаемый результат классификации. В итоге выходной вектор R слоя распознавания содержит ровно одну единичную компоненту, остальные значения равны нулю. Ненулевой выход нейрона-победителя устанавливает в нуль сигнал управления 1: G1=0. По обратной связи нейрон-победитель посылает сигналы в слой сравнения, и начинается фаза сравнения. Фаза сравнения. В слое сравнения веер сигналов отклика слоя распознавания сравнивается с компонентами вектора X. Выход слоя сравнения C теперь содержит единичные компоненты только в тех позициях, в которых единицы имеются и у входного вектора X и у вектора обратной связи P. Если в результате сравнения векторов C и X не будет обнаружено значительных отличий, то нейрон сброса остается неактивным. Вектор C вновь вызовет возбуждение того же нейронапобедителя в слое распознавания, что и удачно завершит процесс классификации. В противном случае будет выработан сигнал сброса, который затормозит нейрон-победитель в слое распознавания, и начнется фаза поиска. Фаза поиска. В результате действия тормозящего сигнала сброса все нейроны слоя распознавания получат нулевые выходы, и, следовательно, нейрон управления 1 примет единичное значение активности. Снова выходной сигнал слоя сравнения C установится равным в точности X, как и в начале работы сети. Однако теперь в конкурентной борьбе в слое распознавания предыдущий нейрон-победитель не участвует, и будет найдена новая категория - кандидат. После чего опять повторяется фаза сравнения. Итерационный процесс поиска завершается двумя возможными способами. 1. Найдется запомненная категория, сходство которой с входным вектором X будет достаточным для успешной классификации. После этого происходит обучающий цикл, в котором модифицируются веса bi и ti векторов B и T возбужденного нейрона, осуществившего классификацию. 2. В процессе поиска все запомненные категории окажутся проверенными, но ни одна из них не дала требуемого сходства. В этом случае входной образ X объявляется новым для нейросети, и ему выделяется новый нейрон в слое распознавания. Весовые вектора этого нейрона B и T устанавливаются равными вектору X. Важно понимать, почему вообще требуется фаза поиска и окончательный результат классификации не возникает с первой попытки. Внимательный читатель вероятно уже обнаружил ответ на это вопрос. Обучение и функционирование сети АРТ происходит одновременно. Нейрон-победитель определяет в пространстве входных векторов ближайший к заданному входному образу вектор памяти, и если бы все черты исходного вектора были критическими, это и было бы верной классификацией. Однако множество критических черт стабилизируется лишь после относительно длительного обучения. На данной фазе обучения лишь некоторые компоненты входного вектора принадлежат актуальному множеству 60 критических черт, поэтому может найтись другой нейрон-классификатор, который на множестве критических черт окажется ближе к исходному образу. Он и определяется в результате поиска. Отметим, что после относительной стабилизации процесса обучения классификация выполняется без фазы поиска. В этом случае говорят, что формируется прямой доступ к памяти. Возникновение в процессе обучения прямого доступа доказывается в теории АРТ. Обучение сети АРТ. В начале функционирования все веса B и T нейронов, а также параметр сходства получают начальные значения. Согласно теории АРТ, эти значения должны удовлетворять условию где m - число компонент входного вектора X, значение L>1 (например L=2). Такой выбор весов будет приводить к устойчивому обучению. Уровень сходства  выбирается на основе требований решаемой задачи. При высоких значениях этого параметра будет сформировано большое число категорий, к каждой из которых будут относиться только очень похожие вектора. При низком уровне  сеть сформирует небольшое число категорий с высокой степенью обобщения. Процесс обучения происходит без учителя, на основе самоорганизации. Обучение производится для весов нейрона-победителя в случае как успешной, так и неуспеншной классификации. При этом веса вектора B стремятся к нормализованной величине компонент вектора C: При этом роль нормализации компонент крайне важна. Вектора с большим число единиц приводят к небольшим значениям весов b, и наоборот. Таким образом, произведение оказывается масштабированным. Масштабирование приводит к тому, что возможно правильное различение векторов, даже если один является подмножеством другого. Пусть нейрон X1 соответствует образу (100000), а нейрон X2 - образу (111100). Эти образы являются, очевидно, различными. При обучении без нормализации (т.е. bi  ci ) при поступлении в сеть первого образа, он даст одинаковые скалярные произведения, равные 1, как с весами нейрона X1, так и X2. Нейрон X2, в присутствии небольших шумовых отклонений в значениях весов, может выиграть конкуренцию. При этом веса его вектора T установятся равными (100000), и образ (111100) будет безвозвратно "забыт" сетью. При применении нормализации исходные скалярные произведения будут равны единице для нейрона X1, и значению 2/5 для нейрона X2 (при L=2). Тем самым, нейрон X1 заслуженно и легко выиграет конкурентное соревнование. Компоненты вектора T, как уже говорилось, при обучении устанавливаются равными соответствующим значениям вектора C. Следует подчеркнуть, что это процесс необратим. 61 Если какая-то из компонент tj оказалась равной нулю, то при дальнейшем обучении на фазах сравнения соответствующая компонента cj никогда не получит подкрепления от tj=0 по правилу 2/3, и, следовательно, единичное значение tj не может быть восстановлено. Обучение, таким образом, сопровождается занулением все большего числа компонент вектора T, оставшиеся ненулевыми компоненты определяют множество критических черт данной категории. Эта особенность проиллюстрирована на Рис. 11.3. Рис. 11.3. Обучающие образы C и сформированный вектор критических черт T - минимальный набор общих элементов категории. В оригинальной работе обучение рассматривается в терминах дифференциальных уравне-ний, из которых указанные нами значения получаются в виде предельных. Остановимся теперь кратко на основных теоремах теории АРТ, характеризующих обучение и функционирование сети. Некоторые из них нами уже упоминались в тексте. Теоремы АРТ. 1. По достижении стабильного состояния обучения предъявление одного из обучающих векторов будет сразу приводить к правильной классификации без фазы поиска, на основе прямого доступа. 2. Процесс поиска устойчив. 3. Процесс обучения устойчив. Обучение весов нейрона-победителя не приведет в дальнейшем к переключению на другой нейрон. 4. Процесс обучения конечен. Обученное состояние для заданного набора образов будет достигнуто за конечное число итерации, при этом дальнейшее предъявление этих образов не вызовет циклических изменений значений весов. Дальнейшее развитие АРТ: архитектуры АРТ-2 и АРТ-3. Нерешенные проблемы и недостатки АРТ-1. Нейронные сети АРТ, при всех их замечательных свойствах, имеют ряд недостатков. Одним из них является большое количество синаптических связей в сети, в расчете на единицу запоминаемой информации. При этом многие из весов этих связей (например, веткора T) оказываются после обучения нулевыми. Эту особенность следует учитывать при аппаратных реализациях. Сеть АРТ-1 приспособлена к работе только с битовыми векторами. Это неудобство преодолевается в сетях АРТ-2 и АРТ-3. Однако в этих архитектурах, равно как и в АРТ-1, 62 сохраняется главный недостаток АРТ - локализованность памяти. Память нейросети АРТ не является распределенной, некоторой заданной категории отвечает вполне конкретный нейрон слоя распознавания. При его разрушении теряется память обо всей категории. Эта особенность, увы, не позволяет говорить о сетях адаптивной резонансной теории, как о прямых моделях биологических нейронных сетей. Память последних является распределенной. Сети АРТ-2 и АРТ-3. Основной отличительной чертой нейронной сети АРТ-2 является возможность работы с аналоговыми векторами и сигналами. По сравнению с АРТ-1 в архитектуре сети сделаны некоторые изменения, позволяющие отдельным подсистемам функционировать асинхронно, что принципиально для аппаратных реализаций. Важным отличием аналоговых сигналов от битовых является принципиальная возможность аналоговых векторов быть сколь угодно близкими друг к другу (в то время как пространство битовых векторов дискретно). Это накладывает дополнительные требования на функционирование нейронов слоя сравнения - требуется более тонкий и чувствительный механизм для выделения областей резонанса. Общим решением здесь является переход к многослойной архитектуре, с все более точной настройкой при переходе от слоя к слою, что и применено в АРТ-2. Функционирование слоя распознавания принципиально не изменяется. Сети АРТ-2 применялись для распознавания движущихся изображений. Успешные эксперименты выполнены в Массачусетском Технологическом Институте (MIT). Поскольку нейросистемы АРТ не содержат механизма инвариантного распознавания (в отличие от НЕОКОГНИТРОНА, см. предыдущую Лекцию), то в сочетании с ними применяются специализированные (часто не нейросетевые) системы инвариантного представления образов, например двумерное преобразование Фурье, или более сложные алгоритмы. Более подробное рассмотрение особенностей и применений АРТ-2 требует профессионального изучения и не входит в наши цели. Следующим шагом в развитии АРТ явилась сеть АРТ-3. Особенности обучения нейронов сетей АРТ-1 и АРТ-2 не позволяют использовать эти сети, как элементы более крупных иерархических нейросистем, в частности, компоновать из них многослойные сети. Это затрудняет представление в АРТ иерархически организованной информации, что характерно для систем восприятия человека и животных. Эти проблемы решены в сети АРТ-3, которая выступает как многослойная архитектура. При переходе от слоя к слою происходит контрастирование входных образов и запоминание их в виде все более общих категорий. При этом основной задачей каждого отдельного слоя является сжатие входящей информации. Образ входит в адаптирующийся резонанс между некоторой парой слоев, в дальнейшем этот резонанс распространяется на следующие слои иерархии. В АРТ-1 и АРТ-2 недостаточный уровень резонанса приводил к генерации сигнала сброса, что приводило к полному торможению слоя распознавания. В случае многослойной сети АРТ-3 это недопустимо, так как это разрывает поток информации. Поэтому в АРТ-3 введен специальный механизм зависимости активности синапсов обратных связей от времени, аналогичный рефрактерному торможению биологического нейрона после передачи возбуждения. Поэтому вместо полного сброса сигнала происходит торможение синаптических сигналов обратной связи, и слой сравнения получает исходное состояние возбуждения для выполнения фазы поиска нового резонанса. 63 Интересным предложением является также использование в многослойной иерархии слоев, которые не являются слоями АРТ, а принадлежат некоторой другой архитектуре. В этом случае система получается гибридной, что может привести к возникновению новых полезных свойств. Развитие теории АРТ продолжается. По высказыванию авторов теории, АРТ представляет собой нечто существенно более конкретное, чем философское построение, но намного менее конкретное, чем законченная программа для компьютера. Однако уже в современном виде, опираясь на свою более чем 20-летнюю историю, сети АРТ демонстрируют свои успешные применения в различных областях. АРТ сделала также важный шаг в общей проблеме моделирования пластично-стабильного восприятия. ЛЕКЦИЯ 12. Черты современных архитектур. Современные архитектуры нейронных сетей. Актуальные направления фундаментальных исследований. Программные и аппаратные реализации нейронных сетей. Нейропроцессоры. Научные и промышленные приложения. Черты современных архитектур. Классические исследования, выполненные в послевоенные годы и дальнейших бурный прогресс в нейроинформатике в 80-е годы определили некоторые общие черты перспективных архитектур и направления исследований. И, хотя любые оценки в этой области весьма субъективны, автор счел возможным изложить свою точку зрения на наблюдающиеся тенденции. Остановимся на некоторых из них. 1. Плотное сопряжение теоретических исследований с поиском новых физических принципов и физических сред для аппаратной реализации нейронных сетей. Здесь прежде всего следует отметить оптические системы, как линейные, так и нелинейные: фурье-оптика, голограммы, нелинейные фоторефрактивные кристаллы, оптические волноводные волокна, электронно-оптические умножители и другие. Перспективными также являются среды с естественными автоволновыми свойствами (химические и биологические). Все эти среды реализуют важное свойство массивной параллельности при обработке информации. Кроме того, они, как правило, содержат механизмы "саморегулирования", позволяющие организовывать обучение без учителя. 2. Иерархичность архитектур и разделение функций нейронов. В современных архитектурах используются слои или отдельные нейроны нескольких различных типов: командные нейроны-переключатели, пороговые нейроны, нейронные слои с латеральным торможением, работающие по принципу "победитель забирает все". Априорное разделение функций нейронов значительно упрощает обучение, так как сеть изначально структурно соответствует задаче. 3. Преимущественное использование методов обучения без учителя, за счет самоорганизации. Эти методы имеют глубокие биологические основания, они обеспечивают локальный характер обучения. Это позволяет не применять глобальную связность сети. С учителем обучаются только внешние, выходные слои нейронов, причем роль учителя часто сводится только к общей экспертной оценке качества работы сети. 4. Ориентация исследований и архитектур непосредственно на приложения. Модели общего характера, такие как сеть Хопфилда или многослойный персептрон, в основном 64 представляют научный интерес, так как допускают относительно полное теоретическое исследование. Этот список является, разумеется, далеко не полным. В него не включены, например, современные исследования в области гибридных неронно-экспертных систем, использующих как формальную логику, так и ассоциативное узнавание. Читатель также может и сам проанализировать рассматриваемые типы нейронных сетей на предмет выявления общих свойств и тенденций. Сегодняшний день нейронауки. Некоторые сведения из истории нейронауки читатель уже почерпнул во введении. Фундаментальные исследования в теории нейронных сетей и интеллектуальных методов обработки информации достигли новой фазы после ряда состоявшихся начиная с 1986 г. специализированных конференций, непосредственно посвященных нейронауке. Осенью 1988 г. было учреждено Международное общество нейросетей (INNS - International Neural Networks Society), которое координирует мировую "нейроактивность". Предстоящий летом 1994 г. Всемирный конгресс по нейронным сетям, организуемый этим обществом, подведет основные итоги и проявит современное состояние фундаментальных исследований. Для охвата тенденций развития нейронауки в целом мы остановимся на основных тематических вопросах программы этого конгресса. 1. Биологическое зрение. Этот раздел возглавляет С.Гроссберг. 2. Машинное зрение. Раздел охватывает аспекты моделирования зрительных функций в технических системах. Особое внимание будет уделено принципам избирательного внимания к объектам зрительной сцены. 3. Речь и язык. Различные аспекты синтеза и распознавания речи. 4. Биологические нейронные сети. Тематика раздела охватывает свойства отдельных нейронов, нейронных сетей управления движением и слухом, аспекты обучения в биологических сетях, а также пути перехода от биологических нейронов к искусственным (кремниевым). 5. Нейроуправление и робототехника. 6. Обучение с учителем. 7. Обучение без учителя. 8. Распознавание образов. 9. Прогноз и идентификация систем. Рассматриваются моделирования сложных систем на базе нейронных сетей. методы кибернетического 10. Нейронаука о сознании. Аспекты организации и моделирования высшей нервной деятельности. 11. Связь науки о сознании с искусственным интеллектом. 65 12. Нечеткие нейронные системы. Построение нейромоделей нечеткой логики. 13. Обработка сигналов. Одна из старейших областей приложений нейронных сетей и теории распознавания образов - выделение и анализ свойств сигнала из шума. 14. Нейродинамика и хаос. Сюда относятся свойства нейронных сетей, как нелинейных динамических систем. 15. Аппаратные реализации. Ключевой вопрос перспективных приложений - новые физические принципы и среды для обработки информации. 16. Ассоциативная память. 17. Приложения. Данный раздел будет, по-видимому, наиболее широко представлен. 18. Нейровычисления и виртуальная реальность. Здесь рассматривается возможность применения нейронных сетей и высокопараллельных вычислений на них для создания искусственной реальности. Сложная аппаратно-программная система виртуальной реальности моделирует основные сигналы, воспринимаемые человеком от внешнего мира, и реагирует на его действия, подменяя собой реальный мир. 19. Сети и системная нейронаука. Основное внимание в этом разделе будет уделено временному поведению сигналов в нейронных контурах как биологических, так и искусственных сетей. 20. Математические основания. Некоторые разделы, такие, например, как обучение с учителем и без учителя, нейродинамика и ассоциативная память, распознавание образов, решение математических задач на нейронных сетях, в виде основных классических результатов были затронуты в этой книге. Другие, возможно, знакомы читателю из других книг (в том числе, и из научно-фантастических). Некоторые показались совершенно новыми. По всем из них мы с нетерпением будем ждать результатов работы конгресса. Замечание к электронному варианту 1998 г. Конгресс 1994 года успешно состоялся. После него прошли и другие форумы, нейроинформатика пополнилась новыми приложениями. Особый интерес появился к приложениям в сфере экономики и финансов. Программное и аппаратное обеспечение. Нейро-ЭВМ. К настоящему времени сформировался обширный рынок нейросетевых продуктов. Подавляющее большинство продуктов представлено в виде моделирующего программного обеспечения. Ведущие фирмы разрабатывают также и специализированные нейрочипы или нейроплаты в виде приставок к обычным ЭВМ (как правило, персональным ЭВМ линии IBM PC AT). При этом программы могут работать как без нейро-приставок, так и с ними. В последнем случае быстродействие гибридной ЭВМ возрастает в сотни и тысячи раз. Перечислим некоторые наиболее известные и популярные нейросистемы и их производителей. Пакет программ NeuralWorks Professional II Plus. Это одна из последних версий программного продукта NeuralWorks, разработанного фирмой NeuralWare. Пакет содержит программные модели десятков архитектур нейронных сетей (в том числе, некоторые из рассмотренных в 66 этой книге). Фирма объявила также о выпуске версии пакета для рабочих станций типа SUN и параллельных процессоров nCUBE. Пакет программ ExploreNet 3000. Разработка фирмы HNC, основанной профессором Робертом Хехт-Нильсеном. Пакет предоставляет широкие возможности по моделированию и управлению данными. В качестве ускорителя используется аппаратные разработки фирмы HNC - нейропроцессоры ANZA и ANZA+, являющиеся одними из первых аппаратных решений. Фирма предложила также средство для разработки прикладных программ специализированный язык программирования AXON, основанный на языке C. Оболочка NeuroShell 2.0. Достоинством этой программы является совместимость с популярным пакетом управления данными MicroSoft Excel, что делает продукт удобным для массового использования. В России известны также разработки НИИ многопроцессорных вычислительных систем, г.Таганрог (СБИС для цифровых нейрокомпьютеров, имеющая около 100000 вентилей и работающая на частоте 20 МГц), Московского центра нейрокомпьютеров (аппаратные системы на основе транспьютеров). Среди программных систем следует отметить разработки кафедры нейрокибернетики Красноярского университета, системы распознавания образов НИИ нейрокибернетики Ростовского университета и Института прикладной физики в Нижнем Новгороде. В 1993 немецкая фирма Simens объявила о выпуске самого быстродействующего на сегодняшний день нейрокомпьютера, названногоSYNAPSE-I. Этот нейрокомпьютер в целом представляет собой систему из управляющей (host) машины и специализированного нейропроцессора с локальной памятью для синаптических весов. В каждой нейросетевой парадигме можно выделить относительно небольшой набор операций, специфических для нейронных сетей, который может быть очень эффективно в параллельном режиме выполнен на специализированном процессоре. К таким операциям относятся, например, умножение и сложение матриц и векторов, транспонирование матриц, вычисление пороговых преобразований, параллельное вычисление табличных функций и другие. Оставшиеся фрагменты алгоритма, имеющие развитую логику, но требующие обычно лишь несколько процентов от общего времени вычислений, могут быть успешно выполнены и на обычной ЭВМ. В нейрокомпьютере SYNAPSE-1 в качестве такой host-машины выступает рабочая станция Sun Sparc Station II. Плановое ускорение на нейро-операциях в SYNAPSE-1 будет составлять 8000 раз (!) по сравнению с host-станцией. Для пользователя предусмотрены удобный проблемно-ориентированный на нейросети язык программирования nAPL, среда программирования на языке C++ и удобная UNIX-совместимая операционная система. Перечисленные выше нейросистемы являются относительно дорогими и предназначены в основном для профессионального использования. В учебно-исследовательских целях в приложении к этой книге приведена простая программа, реализующая алгоритмы обучения и распознавания однослойного персептрона. Читатель, знакомый с языком программирования Паскаль, может использовать эту программу, снабдив ее модулями ввода-вывода, для экспериментирования с нейроной сетью, а также в качестве введения в технологию создания нейропрограммного обеспечения. Итоги. Эта книга завершена, но в нейронауке, разумеется, рано ставить точку. Автор надеется, что этот учебник не только выполнит свою основную функцию - систематическое введение в теорию нейронных сетей - но и поможет приблизиться к ответу на важный вопрос: являются 67 ли искусственные нейронные сети долгожданным магистральным направлением, в котором будет продолжаться развитие методов искусственного интеллекта, или же они окажутся веянием своеобразной моды, как это ранее было с экспертными системами и некоторыми другими аппаратами научных исследований (например, диаграммами Фейнмана), от которых вначале ожидали революционных прорывов. Постепенно, однако, эти методы обнаруживали свои ограничения и занимали соответсвующее (но достойное!) место в общей структуре науки. Сегодня нейронные сети уже не являются уделом небольшой группы теоретиков. К нейросетевым приложениям подключаются инженеры и исследователи разных специальностей. Особенно радует прогресс в построении удачных нейросетевых моделей исследуемых явлений, полностью базирующихся на экспериментальных данных. Здесь наиболее полно проявляются замечательные свойства искусственных нейронных систем: массивная параллельность обработки информации, ассоциативность памяти и возможность к обучению на опыте. Это открывает новые перспективы для систематизации многочисленной экспериментальной информации в таких областях знаний, где традиционно трудно приживается математический формализм, например, в медицине, психологии и истории. ПРИЛОЖЕНИЕ 2. Дополнительные главы. Введение в эволюционные алгоритмы. Комбинаторная оптимизация методом генетического поиска. Нейронные сети с нечеткой логикой. Конечные автоматы и нейронные сети. Методы анализа информации при помощи ЭВМ постоянно совершенствуются. При этом, наряду с прочно устоявшимися и широко применяемыми методиками математического моделирования все шире развиваются и используются другие, нетрадиционные подходы. Один из них, связанный с искусственными нейронными сетями, составляет главный предмет этой книги. Для полноты картины автор счел необходимым дать краткий обзор прочих методов, и, прежде всего, генетических алгоритмов, систем с нечеткой логикой и клеточных автоматов. Чтобы не нарушать цельность изложения, эти методы будут рассматриваться в их соотношении с нейросетевыми алгоритмами. Генетический поиск. Успех в развитии нейронных сетей не в последнюю очередь связан глубокими биологическими основаниями, заложенными во многих архитектурах. Некоторые особенности биологической эволюции, на уровне механизма кодирования и наследования в ДНК, легли в основу так называемых генетических алгоритмов, предложенных в начале 70-х годов (J.H.Holland, 1975) и получивших интенсивное развитие в последнее время. Произвольный объект или система (в биологии - организм) могут быть описаны совокупностью признаков или черт, которые кодируются цепочкой символов или битов и составляют генотип объекта. Несколько объектов формируют популяцию, характеризующуюся набором цепочек каждого из объектов, совокупность которых определяет генофонд популяции. Различные объекты могут иметь, вообще говоря, разные наборы признаков. О большом разнообразии признаков и популяции говорят как о богатом генофонде. При эволюции популяции в ней появляются новые объекты, наследующие те или иные признаки от своих предков. При этом размер популяции в целом изменяется мало, что обеспечивается 68 конкурентным отбором объектов. В процессе отбора производится направленный поиск таких признаков или их совокупностей (кодонов и генов), которые являются ценными в смысле некоторой заданной целевой функции, например уровня адаптации объекта к условиям существования. Поэтому эволюционные алгоритмы также называют методами генетического поиска. Обработка информации генетическим алгоритмом использует два основных механизма отбора полезных признаков, заимствованных из современных представлений о естественном отборе: мутации в отдельной цепочке и скрещивание (кроссинговер) между двумя цепочками. Рассмотрим эти механизмы подробнее. 001110101100001001 а) Исходные генетические цепочки 000110100001101001 0011101 .......01100001001 б) Случайное образование области для последующего скрещивания .......00001101001 0001101 0011101 в) Обмен фрагментами кода .......00001101001 .......01100001001 0001101 001110100001101001 г) Цепочки после скрещивания 000110101100001001 Рис П2.1. Процесс скрещивания двух генетических цепочек. На рисунке П2.1 представлены последовательные этапы обмена информацией между двумя цепочками при скрещивании. Полученные новые цепочки (или одна из них) могут быть в дальнейшем включены в популяцию, если задаваемый ими набор признаков дает лучшее значение целевой функции. В противном случае они будут отсеяны, а в популяции останутся их предки. Мутация в генетической цепочке носит точечный характер: в некоторой случайной точке цепочки один из кодов заменяется другим (ноль - единицей, а единица - нулем). С точки зрения искусственных систем обработки информации генетический поиск представляет собой специфический метод нахождения решения задачи оптимизации. При этом такой итерационный поиск является адаптирующимся к особенностям целевой функции: рождающиеся в процессе скрещивания цепочки тестируют все более широкие области пространства признаков и преимущественно располагаются в области оптимума. 69 Относительно редкие мутации препятствуют вырождению генофонда, что равносильно редкому, но не прекращающемуся поиску оптимума во всех остальных областях признакового пространства. Генетический алгоритм может быть применен для обучения нейронной сети. При этом цепочкой кодируется состояние сети - совокупность всех весовых коэффициентов. Код может быть устроен следующим образом. Первые восемь элементов цепочки соответствуют 8битному представлению первого элемента матрицы весов, следующие восемь - второму, и так далее. Целевой функцией выступает полная ошибка обучения. Популяция нейронных сетей эволюционирует к обученному состоянию, при этом в процессе отбора выживают цепочки, кодирующие нейронные сети с малыми ошибками. Генетический алгоритм является примером задачи, допускающей высокую степень параллельности при моделировании на современных векторных ЭВМ. Простота выполняемых операций открывает также широкие перспективы для разработки специализированных генетических процессоров. Системы нечеткой логики. Нечеткая логика (fuzzy logic) является обобщением привычной булевой логики, оперирующей с двоичными числами, которые соответствуют понятиям истина и ложь. В нечеткой логике эти понятия обобщаются и на все промежуточные между истиной и ложью состояния. В соответствии с этим нечеткая логика оперирует числами из интервала [0,1], которые отражают степень истинности высказывания. Впервые теория нечетких множеств была сформулирована профессором Калифорнийского университета Заде. Нечеткая логика опирается на многие практические потребности прикладных наук, оперирующих с не полностью достоверной и противоречивой информацией. К ним относятся теория управления и принятия решений по неполной информации, системная экология, занимающаяся оценками риска от техногенного воздействия промышленных производств и последствиями аварий, макроэкономика и другие. Переход от двоичного представления чисел к интервальному требует обобщения логических операций на соответствующие операции с нечеткими числами. При этом обобщенные операции должны переходить в классические, если операнды имеют значения 0 или 1. Рассмотрим пример такого обобщения. Пусть имеются нечеткие числа a и b. Суммой двух нечетких чисел называется нечеткое число, совпадающее с максимальным операндом: c = a + b = max(a,b). Произведением двух нечетких чисел называется нечеткое число, равное минимальному операнду: c = a * b = min(a,b). В соответствии с введенными определениями множество нечетких чисел является замкнутым относительно данных операций. Одним из важных применений нечеткой логики выступают нечеткие экспертные системы (НЭС), в которых логические правила вывода оперируют с нечеткими операциями. Для знакомства с НЭС и другими приложениями нечеткой логики можно порекомендовать книгу японских авторов Т.Тэрано, К.Асаи и М.Сугэно. В этой части книги мы остановимся на формулировке нейросетевых моделей на языке нечеткой логики. В модели Хопфилда (Лекция 8) с обучением сети по правилу Хэбба все вычисления основаны на операциях сложения и умножения. Если описывать значения весов и активности нейронов нечеткими числами, то правило Хэбба может быть сформулировано на языке нечетких операций. Вклад в матрицу связей от образа (k) принимает вид: 70 Полная матрица связей получается нечетким суммированием отдельных вкладов: Вычисление активности произведения: нейронов производится на с использованием скалярного Представленная в нечеткой арифметике нейронная сеть Хопфилда очень удобна для моделирования с использованием обычной теневой оптики. Операнды могут представляются прямоугольными отверстиями, площади которых пропорциональны величинам чисел. Для умножения чисел отверстия следует наложить друг на друга, при этом пропускание света будет ограничено минимальным отверстием, которое и дает требуемое произведение. При сложении следует фокусировать на одну плоскость два параллельных луча света, каждый из которых пропущен независимо через одно из отверстий. Полученное световое пятно будет соответствовать максимальному отверстию. Соответствующая оптическая схема сети Хопфилда была предложена и опубликована в журнале Optics Letters. Необходимо отметить, что оптическая реализация нейронной сети Хопфилда с нечетким правилом Хэбба естественным образом обладает большой скоростью вычислений и высоким уровнем параллелизма. Клеточные автоматы и нейронные сети. Клеточным автоматом называют сеть из элементов, меняющих свое состояние в дискретные моменты времени в зависимости от состояния самого элемента и его ближайших соседей в предшествующий момент времени. Различные клеточные автоматы могут демонстрировать весьма разнообразное поведение, которое может быть адаптировано для целей обработки информации за счет выбора (а) закона изменения состояния элемента и (б) конкретного определения понятия “ближайшие соседи”. Внимательный читатель без труда заметит, что, например, нейронная сеть Хопфилда вполне может рассматриваться, как клеточный автомат, элементами которого являются формальные нейроны. В качестве закона изменения состояния нейро-автомата используется пороговое преобразование взвешенной суммы входов нейронов, а ближайшими соседями каждого элемента являются все прочие элементы автомата. В мире клеточных автоматов имеется классификация (S. Wolfram, 1983), согласно которой все автоматы делятся на четыре класса, в зависимости от типа динамики изменяющихся состояний. Автоматы первого класса по истечении конечного времени достигают однородного состояния, в котором значения всех элементов одинаковы и не меняются со временем. Ко второму классу автоматов относятся системы, приводящие к локализованным структурам стационарных или периодических во времени состояний элементов. Третий класс составляют “блуждающие” автоматы, которые с течением времени посещают произвольным (непериодическим) образом все возможные состояния элементов, не задерживаясь ни в одном из них. И, наконец, четвертый класс составляют “странные” автоматы, характер динамики 71 которых зависит от особенностей начального состояния элементов. Некоторые начальные состояния приводят к однородному вырождению автомата, другие - к возникновению циклической последовательности состояний, третьи - к непрерывно меняющимся (как “по системе”, так и без видимой системы) картинам активности элементов. К автоматам четвертого типа относится знаменитая игра “Жизнь” Дж. Конвея. Каждый элемент (организм) колонии “Жизни” может находиться в состоянии покоя или активности. Ближайшими к данному элементу объявляются четыре его соседа на квадратной решетке. Покоящийся элемент может возродиться к активности, если рядом с ним находится ровно три активных соседа. Активный элемент сохраняет “жизнеспособность” при двух активных соседях. Если соседей больше чем два, то элемент гибнет от тесноты, а если их меньше, чем два, то гибель наступает от скуки. Хотя наблюдение за сложной эволюцией начального состояния “Жизни” может дать определенную пищу для мыслительной исследовательской деятельности, в целом этот автомат остается не более чем математическим курьезом. Существуют, однако, более серьезные приложения клеточных автоматов. Среди них прежде всего следует выделить автоматы, реализующие дискретные разностные схемы для решения разнообразных задач математической физики. Для этих целей используются автоматы второго рода. Активность популяции элементов автомата может также описывать такие сложные явления, как рост кристаллов из зародышевых состояний, диффузию и миграцию жидкости в неоднородной пористой среде, особенности возникновения и развития турбулентности о потоках жидкостей и газов, распространение импульса в нервной системе, рост опухоли в биологической ткани, развитие лесных пожаров и другие явления. Описание разнообразных применений клеточных автоматов заслуживает отдельного пристального внимания. Однако это уже составляет предмет другой книги. Задачи. 1. Сформулируйте задачу поиска минимума функции f(x)=(x-0.5)2 на отрезке [0,1] для генетического алгоритма. 2. К какому типу клеточных автоматов относится классическая нейронная сеть Хопфилда? Каков тип автомата, задаваемого вероятностным обобщением сети Хопфилда (Лекция 9) при очень высоких температурах? Почему? 72

Лекции по теории и приложениям искусственных нейронных сетей

Related documents

Products

Support

Лекции по теории и приложениям искусственных нейронных сетей

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib