Нейронные сети

advertisement
Нейронные сети
Немного биологии. Биологический прототип
Развитие искусственных нейронных сетей вдохновляется биологией.
То есть, рассматривая сетевые конфигурации и алгоритмы, исследователи делают
это, используя термины характерные для описания организации мозговой деятельности.
Но на этом аналогия, пожалуй, заканчивается. Наши знания о работе мозга столь
ограничены, что мало бы нашлось ориентиров для тех, кто стал бы ему подражать.
Поэтому разработчикам сетей приходится выходить за пределы современных
биологических знаний в поисках структур, способных выполнять полезные функции.
Начнем с рассмотрения биологического прототипа - нейрона. Нейрон является
нервной клеткой биологической системы. Он состоит из тела и отростков, соединяющих
его с внешним миром (рис. 1.1).
Отростки, по которым нейрон получает возбуждение, называются дендритами.
Отросток, по которому нейрон передает возбуждение, называется аксоном, причем аксон
у каждого нейрона один.
Дендриты и аксон имеют довольно сложную ветвистую структуру.
Место соединения аксона нейрона - источника возбуждения с дендритом называется
синапсом.
Основная функция нейрона заключается в передаче возбуждения с дендритов на аксон. Но
сигналы, поступающие с различных дендритов, могут оказывать различное влияние на
сигнал в аксоне. Нейрон выдаст сигнал, если суммарное возбуждение превысит некоторое
пороговое значение, которое в общем случае изменяется в некоторых пределах. В
противном случае на аксон сигнал выдан не будет: нейрон не ответит на возбуждение. У
этой основной схемы много усложнений и исключений, тем не менее, большинство
искусственных нейронных сетей моделируют лишь эти простые свойства.
Искусственный нейрон
Искусственный нейрон имитирует в первом приближении свойства биологического
нейрона. На вход искусственного нейрона поступает некоторое множество сигналов,
каждый из которых является выходом другого нейрона. Каждый вход умножается на
соответствующий вес, аналогичный синаптической силе, и все произведения
суммируются, определяя уровень активации нейрона.
Рис. 1.2.
На рис. 1.2 представлена модель, реализующая эту идею. Множество входных сигналов,
обозначенных
, поступает на искусственный нейрон. Эти входные
сигналы, в совокупности обозначаемые вектором
, соответствуют сигналам,
приходящим в синапсы биологического нейрона. Каждый сигнал умножается на
соответствующий вес
, и поступает на суммирующий блок,
обозначенный . Каждый вес соответствует "силе" одной биологической синаптической
связи. (Множество весов в совокупности обозначается вектором .) Суммирующий блок,
соответствующий телу биологического элемента, складывает взвешенные входы
алгебраически, создавая выход, который мы будем называть
. В векторных
обозначениях это может быть компактно записано следующим образом:
Сигнал
далее, как правило, преобразуется активационной функцией и дает
выходной нейронный сигнал
. Активационная функция может быть обычной
линейной функцией
где
— константа, пороговой функцией
где — некоторая постоянная пороговая величина, или же функцией, более точно
моделирующей нелинейную передаточную характеристику биологического нейрона и
предоставляющей нейронной сети большие возможности.
Рис. 1.3.
На рис. 1.2 блок, обозначенный , принимает сигнал
и выдает сигнал
. Если
блок сужает диапазон изменения величины
так, что при любых значениях
значения
принадлежат некоторому конечному интервалу, то называется
"сжимающей" функцией. В качестве "сжимающей" функции часто используется
логистическая или "сигмоидальная" (S-образная) функция, показанная на рис. 1.3. Эта
функция математически выражается как
. Таким образом,
По аналогии с электронными системами активационную функцию можно считать
нелинейной усилительной характеристикой искусственного нейрона. Коэффициент
усиления вычисляется как отношение приращения величины
к вызвавшему его
небольшому приращению величины
. Он выражается наклоном кривой при
определенном уровне возбуждения и изменяется от малых значений при больших
отрицательных возбуждениях (кривая почти горизонтальна) до максимального значения
при нулевом возбуждении и снова уменьшается, когда возбуждение становится большим
положительным. С. Гроссберг (1973) обнаружил, что подобная нелинейная
характеристика решает поставленную им дилемму шумового насыщения. Каким образом
одна и та же сеть может обрабатывать как слабые, так и сильные сигналы? Слабые
сигналы нуждаются в большом сетевом усилении, чтобы дать пригодный к
использованию выходной сигнал. Однако усилительные каскады с большими
коэффициентами усиления могут привести к насыщению выхода шумами усилителей
(случайными флуктуациями), которые присутствуют в любой физически реализованной
сети. Сильные входные сигналы, в свою очередь, также будут приводить к насыщению
усилительных каскадов, исключая возможность полезного использования выхода.
Центральная область логистической функции, имеющая большой коэффициент усиления,
решает проблему обработки слабых сигналов, в то время как области с падающим
усилением на положительном и отрицательном концах подходят для больших
возбуждений. Таким образом, нейрон функционирует с большим усилением в широком
диапазоне уровня входного сигнала
Другой широко используемой активационной функцией является гиперболический
тангенс. По форме она сходна с логистической функцией и часто используется биологами
в качестве математической модели активации нервной клетки. В качестве активационной
функции искусственной нейронной сети она записывается следующим образом:
Рис. 1.4.
Подобно логистической функции гиперболический тангенс является S-образной
функцией, но он симметричен относительно начала координат, и в точке
значение выходного сигнала
равно нулю (см. рис. 1.4). В отличие от логистической
функции, гиперболический тангенс принимает значения различных знаков, и это его
свойство применяется для целого ряда сетей.
Рассмотренная простая модель искусственного нейрона игнорирует многие свойства
своего биологического двойника. Например, она не принимает во внимание задержки во
времени, которые воздействуют на динамику системы. Входные сигналы сразу же
порождают выходной сигнал. И, что более важно, она не учитывает воздействий функции
частотной модуляции или синхронизирующей функции биологического нейрона, которые
ряд исследователей считают решающими в нервной деятельности естественного мозга.
Несмотря на эти ограничения, сети, построенные из таких нейронов, обнаруживают
свойства, сильно напоминающие биологическую систему. Только время и исследования
смогут ответить на вопрос, являются ли подобные совпадения случайными или же они
есть следствие того, что в модели верно схвачены важнейшие черты биологического
нейрона.
Однослойные искусственные нейронные сети
Хотя один нейрон и способен выполнять простейшие процедуры распознавания, но для
серьезных нейронных вычислений необходимо соединять нейроны в сети. Простейшая
сеть состоит из группы нейронов, образующих слой, как показано в правой части рис. 1.5.
Отметим, что вершины-круги слева служат лишь для распределения входных сигналов.
Они не выполняют каких-либо вычислений и поэтому не будут считаться слоем. Для
большей наглядности обозначим их кругами, чтобы отличать их от вычисляющих
нейронов, обозначенных квадратами. Каждый элемент из множества входов отдельным
весом соединен с каждым искусственным нейроном. А каждый нейрон выдает
взвешенную сумму входов в сеть. В искусственных и биологических сетях многие
соединения могут отсутствовать, но здесь они показаны все для демонстрации общей
картины. Могут существовать также соединения между выходами и входами элементов в
слое.
Рис. 1.5.
Удобно считать веса элементами матрицы . Матрица имеет
строк и столбцов, где
— число входов, а — число нейронов. Например,
— это вес, связывающий
второй вход с третьим нейроном. Таким образом, вычисление выходного вектора
,
компонентами которого являются выходы OUT нейронов, сводится к матричному
умножению
, где и — векторы-строки.
Многослойные искусственные нейронные сети
Более крупные и сложные нейронные сети обладают, как правило, и большими
вычислительными возможностями. Хотя созданы сети всех конфигураций, какие только
можно себе представить, послойная организация нейронов копирует слоистые структуры
определенных отделов мозга. Оказалось, что такие многослойные сети обладают
большими возможностями, чем однослойные, и в последние годы были разработаны
алгоритмы для их обучения. Многослойные сети могут строиться из каскадов слоев.
Выход одного слоя является входом для последующего слоя. Подобная сеть показана на
рис. 1.6 и снова изображена со всеми соединениями. Многослойные сети не могут
привести к увеличению вычислительной мощности по сравнению с однослойной сетью,
если активационная функция между слоями линейна. Вычисление выхода слоя
заключается в умножении входного вектора на первую весовую матрицу с последующим
умножением (если отсутствует нелинейная активационная функция) результирующего
вектора на вторую весовую матрицу
Так как умножение матриц ассоциативно, то
.
Рис. 1.6.
Это показывает, что двухслойная линейная сеть эквивалентна одному слою с весовой
матрицей, равной произведению двух весовых матриц. Следовательно, любая
многослойная линейная сеть может быть заменена эквивалентной однослойной сетью.
Однако однослойные сети весьма ограничены по своим вычислительным возможностям.
Таким образом, для расширения возможностей сетей по сравнению с однослойной сетью
необходима нелинейная активационная функция.
У сетей, рассмотренных до сих пор, не было обратных связей, т. е. соединений, идущих от
выходов некоторого слоя к входам этого же слоя или предшествующих слоев. Этот
специальный класс сетей, называемых сетями без обратных связей или сетями прямого
распространения, представляет большой интерес и широко используется. Сети более
общего вида, имеющие соединения от выходов к входам, называются сетями с
обратными связями. У сетей без обратных связей нет памяти, их выход полностью
определяется текущими входами и значениями весов. В некоторых конфигурациях сетей с
обратными связями предыдущие значения выходов возвращаются на входы; выход,
следовательно, определяется как текущим входом, так и предыдущими выходами.
Поэтому сети с обратными связями могут обладать свойствами, сходными с
кратковременной человеческой памятью, где сетевые выходы тоже частично зависят от
предыдущих входов.
К сожалению, нет общепринятого способа подсчета числа слоев в сети. Многослойная
сеть состоит, как показано на рис. 1.6, из чередующихся множеств нейронов и весов.
Ранее, в связи с рис. 1.5, уже говорилось, что входной слой не выполняет суммирования.
Эти нейроны служат лишь в качестве разветвлений для первого множества весов и не
влияют на вычислительные возможности сети. По этой причине первый слой не
принимается во внимание при подсчете слоев, и сеть, подобная изображенной на рисунке
1.6, считается двуслойной, так как только два слоя выполняют вычисления. Далее, веса
слоя считаются связанными со следующими за ними нейронами. Следовательно, слой
состоит из множества весов со следующими за ними нейронами, суммирующими
взвешенные сигналы.
Обучение искусственных нейронных сетей
Среди всех интересных свойств искусственных нейронных сетей ни одно не захватывает
так воображения, как их способность к обучению. Их обучение до такой степени
напоминает процесс интеллектуального развития человеческой личности, что может
показаться, будто нами достигнуто глубокое понимание этого процесса. Но, проявляя
осторожность, следует сдерживать эйфорию. Возможности обучения искусственных
нейронных сетей ограничены, и нужно решить много сложных задач, чтобы определить,
находимся ли мы на правильном пути.
Цель обучения
Сеть обучается, чтобы для некоторого множества входов давать желаемое (или, по
крайней мере, сообразное с ним) множество выходов. Каждое такое входное (или
выходное) множество рассматривается как вектор. Обучение осуществляется путем
последовательного предъявления входных векторов с одновременной подстройкой весов в
соответствии с определенной процедурой. В процессе обучения веса сети постепенно
становятся такими, чтобы каждый входной вектор вырабатывал выходной вектор.
Обучение с учителем
Различают алгоритмы обучения с учителем и без учителя. Обучение с учителем
предполагает, что для каждого входного вектора существует целевой вектор,
представляющий собой требуемый выход. Вместе они называются обучающей парой.
Обычно сеть обучается на некотором числе таких обучающих пар. Предъявляется
выходной вектор, вычисляется выход сети и сравнивается с соответствующим целевым
вектором, разность (ошибка) с помощью обратной связи подается в сеть, и веса
изменяются в соответствии с алгоритмом, стремящимся минимизировать ошибку.
Векторы обучающего множества предъявляются последовательно, ошибки вычисляются и
веса подстраиваются для каждого вектора до тех пор, пока ошибка по всему обучающему
массиву не достигнет приемлемо низкого уровня.
Обучение без учителя
Несмотря на многочисленные прикладные достижения, обучение с учителем
критиковалось за свою биологическую неправдоподобность. Трудно вообразить
обучающий механизм в мозге, который бы сравнивал желаемые и действительные
значения выходов, выполняя коррекцию с помощью обратной связи. Обучение без
учителя является намного более правдоподобной моделью обучения для биологической
системы. Развитая Кохоненом и многими другими, она не нуждается в целевом векторе
для выходов и, следовательно, не требует сравнения с предопределенными идеальными
ответами. Обучающее множество состоит лишь из входных векторов. Обучающий
алгоритм подстраивает веса сети так, чтобы получались согласованные выходные
векторы, т. е. чтобы предъявление достаточно близких входных векторов давало
одинаковые выходы. Процесс обучения, следовательно, выделяет статистические свойства
обучающего множества и группирует сходные векторы в классы. Предъявление на вход
вектора из данного класса даст определенный выходной вектор, но до обучения
невозможно предсказать, какой выход будет производиться данным классом входных
векторов. Следовательно, выходы подобной сети должны трансформироваться в
некоторую понятную форму, обусловленную процессом обучения. Это не является
серьезной проблемой. Обычно не сложно идентифицировать связь между входом и
выходом, установленную сетью.
Алгоритмы обучения
Большинство современных алгоритмов обучения выросло из концепций Д.О. Хэбба. Он
предложил модель обучения без учителя, в которой синаптическая сила (вес) возрастает,
если активированы оба нейрона, источник и приемник. Таким образом, часто
используемые пути в сети усиливаются и феномены привычки и обучения через
повторение получают объяснение.
В искусственной нейронной сети, использующей обучение по Хэббу, наращивание весов
определяется произведением уровней возбуждения передающего и принимающего
нейронов. Это можно записать как
где
— значение веса от нейрона к нейрону до подстройки,
—
значение веса от нейрона к нейрону после подстройки, — коэффициент скорости
обучения,
— выход нейрона и вход нейрона ,
— выход нейрона
.
Сети, использующие обучение по Хэббу, конструктивно развивались, однако за последние
20 лет появились и разрабатывались более эффективные алгоритмы обучения. В
частности, были развиты алгоритмы обучения с учителем, приводящие к сетям с более
широким диапазоном характеристик обучающих входных образов и большими
скоростями обучения, чем использующие простое обучение по Хэббу.
Персептроны и зарождение искусственных нейронных сетей
В качестве предмета исследования искусственные нейронные сети впервые заявили о себе
в 1940-е годы. Стремясь воспроизвести функции человеческого мозга, исследователи
создали простые аппаратные (а позже программные) модели биологического нейрона и
системы его соединений. Когда нейрофизиологи достигли более глубокого понимания
нервной системы человека, эти ранние попытки стали восприниматься как весьма грубые
аппроксимации. Тем не менее, на этом пути были достигнуты впечатляющие результаты,
стимулировавшие дальнейшие исследования, которые привели к созданию более
изощренных сетей.
Рис. 2.1.
Первое систематическое изучение искусственных нейронных сетей было предпринято
Маккалокком и Питтсом в 1943 г. Позднее они исследовали сетевые парадигмы для
распознавания изображений, подвергаемых сдвигам и поворотам. Простая нейронная
модель, показанная на рис. 2.1, использовалась в большей части их работ. Элемент
умножает каждый вход на вес и суммирует взвешенные входы. Если полученная
сумма больше заданного порогового значения, выход равен единице, в противном случае
— нулю. Эти системы (и множество им подобных) получили название персептронов. Они
состоят из одного слоя искусственных нейронов, соединенных с помощью весовых
коэффициентов с множеством входов (см. рис. 2.2), хотя, в принципе, описываются и
более сложные системы. В 60-е годы персептроны вызвали большой интерес и оптимизм.
Одной из первых искусственных сетей, способных к перцепции (восприятию) и
формированию реакции на воспринятый раздражитель, явился PERCEPTRON Розенблатта
(F.Rosenblatt, 1957). Персептрон рассматривался его автором не как конкретное
техническое (вычислительное) устройство, а как модель работы мозга. Розенблатт
называл такую нейронную сеть трехслойной, однако, по современной терминологии,
представленная сеть обычно называется однослойной, так как имеет только один слой
нейропроцессорных элементов.
Рис. 2.2.
В Корнеллской авиационной лаборатории была разработана электротехническая модель
персептрона MARK-1, которая содержала 8 выходных элементов. На этом персептроне
была проведена серия экспериментов по распознаванию букв алфавита и геометрических
образов.
Ф. Розенблатт доказал замечательную теорему об обучении персептронов (которую мы
рассмотрим на следующей лекции). Д. Уидроу дал ряд убедительных демонстраций
систем персептронного типа, и исследователи во всем мире стремились изучить
возможности этих систем. Первоначальная эйфория сменилась разочарованием, когда
оказалось, что персептроны не способны обучаться решению ряда простых задач.
Минский строго проанализировал эту проблему и показал, что имеются жесткие
ограничения того, что могут выполнять однослойные персептроны, и, следовательно,
того, чему они могут обучаться. Так как в то время методы обучения многослойных сетей
не были известны, исследователи занялись более многообещающими проектами, и
исследования в области нейронных сетей пришли в упадок. Недавнее открытие методов
обучения многослойных сетей привело к возрождению интереса и возобновлению
исследований.
Работа М.Л.Минского, возможно, и охладила пыл энтузиастов персептрона, но
обеспечила время для необходимой консолидации и развития лежащей в основе теории.
Важно отметить, что анализ Минского не был опровергнут. Он остается актуальным
исследованием и должен непременно учитываться как часть базовых знаний, чтобы
ошибки 60-х годов не повторились. Несмотря на свои ограничения, персептроны широко
изучались. Теория персептронов является основой для многих других типов
искусственных нейронных сетей, персептроны иллюстрируют важные принципы. В силу
этих причин они являются логической исходной точкой для изучения искусственных
нейронных сетей.
Этапы решения задач









Сбор данных для обучения;
Подготовка и нормализация данных;
Выбор топологии сети;
Экспериментальный подбор характеристик сети;
Экспериментальный подбор параметров обучения;
Собственно обучение;
Проверка адекватности обучения;
Корректировка параметров, окончательное обучение;
Вербализация сети[11] с целью дальнейшего использования.
Следует рассмотреть подробнее некоторые из этих этапов.
Сбор данных для обучения
Выбор данных для обучения сети и их обработка является самым сложным этапом
решения задачи. Набор данных для обучения должен удовлетворять нескольким
критериям:


Репрезентативность — данные должны иллюстрировать истинное положение
вещей в предметной области;
Непротиворечивость — противоречивые данные в обучающей выборке приведут к
плохому качеству обучения сети.
Исходные данные преобразуются к виду, в котором их можно подать на входы сети.
Каждая запись в файле данных называется обучающей парой или обучающим вектором.
Обучающий вектор содержит по одному значению на каждый вход сети и, в зависимости
от типа обучения (с учителем или без), по одному значению для каждого выхода сети.
Обучение сети на «сыром» наборе, как правило, не даёт качественных результатов.
Существует ряд способов улучшить «восприятие» сети.



Нормировка выполняется, когда на различные входы подаются данные разной
размерности. Например, на первый вход сети подается величины со значениями от
нуля до единицы, а на второй — от ста до тысячи. При отсутствии нормировки
значения на втором входе будут всегда оказывать существенно большее влияние на
выход сети, чем значения на первом входе. При нормировке размерности всех
входных и выходных данных сводятся воедино;
Квантование выполняется над непрерывными величинами, для которых
выделяется конечный набор дискретных значений. Например, квантование
используют для задания частот звуковых сигналов при распознавании речи;
Фильтрация выполняется для «зашумленных» данных.
Кроме того, большую роль играет само представление как входных, так и выходных
данных. Предположим, сеть обучается распознаванию букв на изображениях и имеет один
числовой выход — номер буквы в алфавите. В этом случае сеть получит ложное
представление о том, что буквы с номерами 1 и 2 более похожи, чем буквы с номерами 1 и
3, что, в общем, неверно. Для того, чтобы избежать такой ситуации, используют
топологию сети с большим числом выходов, когда каждый выход имеет свой смысл. Чем
больше выходов в сети, тем большее расстояние между классами и тем сложнее их
спутать.
Выбор топологии сети
Выбирать тип сети следует исходя из постановки задачи и имеющихся данных для
обучения. Для обучения с учителем требуется наличие для каждого элемента выборки
«экспертной» оценки. Иногда получение такой оценки для большого массива данных
просто невозможно. В этих случаях естественным выбором является сеть, обучающаяся
без учителя, например, самоорганизующаяся карта Кохонена или нейронная сеть
Хопфилда. При решении других задач, таких как прогнозирование временных рядов,
экспертная оценка уже содержится в исходных данных и может быть выделена при их
обработке. В этом случае можно использовать многослойный перцептрон или сеть Ворда.
Экспериментальный подбор характеристик сети
После выбора общей структуры нужно экспериментально подобрать параметры сети. Для
сетей, подобных перцептрону, это будет число слоев, число блоков в скрытых слоях (для
сетей Ворда), наличие или отсутствие обходных соединений, передаточные функции
нейронов. При выборе количества слоев и нейронов в них следует исходить из того, что
способности сети к обобщению тем выше, чем больше суммарное число связей между
нейронами. С другой стороны, число связей ограничено сверху количеством записей в
обучающих данных.
Экспериментальный подбор параметров обучения
После выбора конкретной топологии, необходимо выбрать параметры обучения
нейронной сети. Этот этап особенно важен для сетей, обучающихся с учителем. От
правильного выбора параметров зависит не только то, насколько быстро ответы сети
будут сходиться к правильным ответам. Например, выбор низкой скорости обучения
увеличит время схождения, однако иногда позволяет избежать паралича сети. Увеличение
момента обучения может привести как к увеличению, так и к уменьшению времени
сходимости, в зависимости от формы поверхности ошибки. Исходя из такого
противоречивого влияния параметров, можно сделать вывод, что их значения нужно
выбирать экспериментально, руководствуясь при этом критерием завершения обучения
(например, минимизация ошибки или ограничение по времени обучения).
Собственно обучение сети
В процессе обучения сеть в определенном порядке просматривает обучающую выборку.
Порядок просмотра может быть последовательным, случайным и т. д. Некоторые сети,
обучающиеся без учителя, например, сети Хопфилда просматривают выборку только один
раз. Другие, например, сети Кохонена, а также сети, обучающиеся с учителем,
просматривают выборку множество раз, при этом один полный проход по выборке
называется эпохой обучения. При обучении с учителем набор исходных данных делят на
две части — собственно обучающую выборку и тестовые данные; принцип разделения
может быть произвольным. Обучающие данные подаются сети для обучения, а
проверочные используются для расчета ошибки сети (проверочные данные никогда для
обучения сети не применяются). Таким образом, если на проверочных данных ошибка
уменьшается, то сеть действительно выполняет обобщение. Если ошибка на обучающих
данных продолжает уменьшаться, а ошибка на тестовых данных увеличивается, значит,
сеть перестала выполнять обобщение и просто «запоминает» обучающие данные. Это
явление называется переобучением сети или оверфиттингом. В таких случаях обучение
обычно прекращают. В процессе обучения могут проявиться другие проблемы, такие как
паралич или попадание сети в локальный минимум поверхности ошибок. Невозможно
заранее предсказать проявление той или иной проблемы, равно как и дать однозначные
рекомендации к их разрешению
Проверка адекватности обучения
Даже в случае успешного, на первый взгляд, обучения сеть не всегда обучается именно
тому, чего от неё хотел создатель. Известен случай, когда сеть обучалась распознаванию
изображений танков по фотографиям, однако позднее выяснилось, что все танки были
сфотографированы на одном и том же фоне. В результате сеть «научилась» распознавать
этот тип ландшафта, вместо того, чтобы «научиться» распознавать танки[12]. Таким
образом, сеть «понимает» не то, что от неё требовалось, а то, что проще всего обобщить.
Download