Анализ архитектур темпоральных нейронных сетей и их

advertisement
П.В.Кобяков , Г.Ф.Малыхина
P.V.Kobyakov, G.F.Malykhina,
АНАЛИЗ АРХИТЕКТУР ТЕМПОРАЛЬНЫХ НЕЙРОННЫХ СЕТЕЙ И ИХ ПРИМЕНЕНИЕ В
ИНФОРМАЦИОННЫХ СИСТЕМАХ
TEMPORAL NEURAL NETWORK ARCHITECTURES ANALYSIS AND ITS APPLICATION IN
INFORMATION SYSTEMS
Санкт-Петербургский государственный технический университет
St. Petersburg State Technical University
Report includes temporal neural network architectures analysis and perspective fields of its
application for dynamic data processing.
Время является важной составляющей многих реальных задач обработки информации. С
другой стороны, нейронные сети являются мощным механизмом решения различных прикладных
задач. Поэтому актуальной является разработка моделей нейронных сетей, способных эффективно
учитывать временную информацию. Подобные сети получили название темпоральных нейронных
сетей.
Применение темпоральных сетей в информационных системах предоставляет уникальные
возможности обработки данных, среди которых косвенные измерения и возможность моделирования
сложных нелинейных процессов.
Для обеспечения обработки временной информации архитектура сети должна быть
организована соответствующим образом, также необходимо использование специализированных
алгоритмов обучения.
В данной работе предлагается классификация темпоральных нейронных сетей, критериями
которой являются основные элементы архитектуры сети, такие как нейрон и синапс. Преимуществом
данного подхода по сравнению с существующими (см., например, [2]) является то, что он позволяет
легко конструировать новые архитектуры сетей с помощью комбинирования базовых элементов
классификации. Классификациями использует следующие критерии.
Модель нейрона Наибольшее распространение получили темпоральные сети, использующие
классическую модель нейрона. Использование специализированной модели нейрона, как, например,
модели «integrate-and-fire» ([9]), позволяет учитывать темпоральную информацию на самом
«низком» уровне.
Модель синапса. Классическая модель синапса содержит только один параметр – вес.
Данная модель может быть очевидным образом расширена для учета темпоральной информации с
помощью введения временной задержки, зависящей от времени [8].
Еще одним подходом к обеспечению динамического поведения сети является моделирование
синапсов с помощью фильтров. В [3] синапс моделируется с помощью КИХ фильтра, в [6]
рассматривается БИХ фильтр. Интересной также является модель, предложенная в [4].
Топология сети. Данный критерий является достаточно широким, и включает множество
различных архитектурных решений.
В простейшем случае используется стандартная модель многослойного персептрона; для
введения темпоральных свойств применяются специализированные модели нейрона или синапсов.
Альтернативой является включение в архитектуру рекуррентных связей. В зависимости от характера
данных связей обеспечивается различное темпоральное поведение.
Представление данных. С помощью выбора представления данных можно обеспечивать
темпоральное поведение, используя статические модели сетей. Например, использование линии
задержки, хранящей несколько отсчетов входного сигнала, позволяет использовать обычный
многослойный персептрон.
В следующей таблице приведены наиболее известные архитектуры темпоральных сетей в
контексте рассмотренных критериев классификации.
@2002, электронная версия подготовлена ЗАО АВТЭКС Санкт-Петербург, http://www.autex.spb.ru
Международная Конференция «Датчики и Системы» 2002
Нейронная сеть
Модель
нейрона
Модель
синапса
Топология
Представление
данных
МСП с окном во
времени
TDNN
Классический
нейрон
Классический
нейрон
Классический
нейрон
Классический
нейрон
Классический
нейрон
Классический
нейрон
обычный
МСП
обычный
МСП
КИХ фильтр
МСП
линия задержки для
входного слоя
линия задержки для
всех слоев
Непосредственное
БИХ фильтр
МСП
Непосредственное
гамма
фильтр
синапс с
адаптивной
задержкой
МСП
Непосредственное
МСП
Непосредственное
КИХ МСП
БИХ МСП
Гамма сеть
Сеть с
адаптивными
временными
задержками
Сеть Джордана
Классический
нейрон
Обычный
Сеть Элмана
Классический
нейрон
Обычный
Полностью
рекуррентная
сеть
Сеть integrateand-fire
Классический
нейрон
Обычный
integrate-andfire
Обычный
частично рекуррентная сеть,
обратная связь с нейронов
выходного слоя к нейронам
скрытого слоя
частично рекуррентная
сеть, обратная связь с
нейронов скрытого слоя к
нейронам скрытого слоя
полностью рекуррентная
сеть
МСП
Непосредственное
Непосредственное
Непосредственное
Непосредственное
МСП с окном во времени. Применение линии задержки или временного окна для
предварительной обработки входных данных позволяет использовать обычный многослойный
персептрон в задачах, требующих учета временной информации. С точки зрения обработки
сигналов данная модель является нелинейным расширением АР модели порядка p, равного длине
линии задержки.
TDNN. Дальнейшее расширение идеи линии задержки приводит к модели сети с временными
задержками (TDNN). В данной сети линии задержки присутствуют во всех слоях сети. Модель также
может считаться АР моделью, с дополнительной «абстрактной памятью», формируемой в скрытых
слоях сети. Сети TDNN получили широкое распространение в задачах распознавания речи ([12]).
Одним их существенных недостатков архитектур, использующих линии задержки является
ограниченный размер буфера. Это может приводить к тому, что две одинаковых
последовательности, присутствующих в разное время, не будут различаться сетью.
КИХ МСП. Данная сеть использует КИХ фильтры в качестве синапсов. Функционально она
аналогична сети TDNN, различия заключаются в формальной архитектуре (количество нейронов), и
в формулировках уравнений обучения. Последние являются векторным обобщением стандартного
алгоритма обратного распространения ([3]).
БИХ МСП Использование БИХ фильтров в качестве синапсов позволяет говорить о данной
модели как о нелинейном расширении АРСС модели обработки сигнала. Подробное описание
модели можно найти в [6].
Гамма сеть. Моделирование синапсов с использованием гамма памяти ([4]) позволяет
строить сети с хорошими динамическими характеристиками. Модель синапса в данном случае
содержит два настраиваемых параметра, позволяющих учитывать глубину памяти (то есть длину
линии задержки) и количество информации, сохраняемой для прошлых значений входных данных
(влияние прошлых данных на работу сети).
Сеть с адаптивными временными задержками. Включение временной задержки в модель
синапса также позволяет реализовать динамические свойства сети. Предложенная в [8] модель
изображена на рис 1.
input xi (t )
τ ji (t )
xi (t − τ ji (t ))
time delay
w ji (t )
вес
output
s ji (t ) = w ji (t ) xi (t − τ ji (t ))
Fig 1. Adaptive time delay network
-2-
Международная Конференция «Датчики и Системы» 2002
Сеть Джордана, изображенная на рис. 2, является примером рекуррентной архитектуры,
являющейся нелинейным расширением АРСС модели.
Output layer
copy
Hiden layer
Context layer
Input layer
Fig 2. Jordan network
Контекстный слой содержит копию значений активации выходного слоя для предыдущего
момента времени. Каждый его нейрона имеет обратную связь с самим собой с коэффициентом,
меньшим 1.
Сеть Элмана [5] является еще одним известным представителем рекуррентной архитектуры.
Output layer
Hiden layer
copy
Context layer
Input layer
Fig.3Elman network
Контекстные нейроны содержат копию значений активации скрытых нейроном для
предыдущего временного отсчета. Единственными настраиваемыми связями являются прямые
связи, веса обратных связей фиксированы.
В рамках задачи обработки сигналов данная сеть может рассматриваться как реализующая модель
пространства состояний.
Полностью рекуррентная сеть. Полностью рекуррентная сеть позволяет моделировать
сложные динамические системы [1]. Для данной сети вычислительные затраты сильно возрастают с
увеличением числа нейронов, поэтому на практике часто комбинируют полностью рекуррентные
сети с малым числом нейронов в конвейерные структуры [10].
Устойчивость является важнейшим параметром для всех рекуррентных сетей, но рассмотрение
данной проблемы выходит за рамки работы.
Сеть integrate-and-fire. Сеть построена с использованием специализированного типа
нейронов, интегрирующих входные сигналы. Нейрон активизируется при достижении определенного
порогового значения. Информация о сетях данного типа содержится в ([9]).
Применение темпоральных нейронных сетей. Типичные задачи, решаемые
темпоральными сетями, относятся к одному из трех основных типов: распознавание, предсказание,
темпоральная ассоциация. Некоторые области применения темпоральных нейронных сетей
приведены в следующей таблице.
Область
Промышленность
Финансовая система
Телекоммуникации
Информационные системы
Искусственный интеллект
Решаемые задачи
техническая диагностика, управление
предсказание рынка ценных бумаг
адаптивная фильтрация, сжатие данных
косвенные измерения, моделирование процессов
распознавание речи
-3-
Международная Конференция «Датчики и Системы» 2002
Заключение. Спецификой темпоральных нейронных сетей является возможность
эффективного моделирования произвольных нелинейных систем с учетом сложных временных
зависимостей. Это позволяет решать такие сложные задачи, как организация косвенных измерений
и адаптивное инверсное управление. Такие качества нейронных сетей, как простота обучения и
способность к обобщению, позволяют рассматривать их как перспективный способ решения
различных прикладных задач.
Предложенная классификация темпоральных нейронных сетей позволяет оценить
существующие архитектуры, а также предоставляет возможность генерации новых архитектур путем
комбинирования различных критериев.
Использованные источники
1. Williams R. and Zipser, D. A learning algorithm for continually running fully recurrent neural
networks - Neural Computation 1(3) 1990, 270-280.
2. Chappelier J., Gori M., Grumbach A. Time in Connectionist Models. Sequence Learning:
Paradigms, Algorithms and Applications, Springer, 2001, 105-134.
3. Wan A. Time Series Prediction by Using a Connectionist Network with Internal Delay Lines. Time
Series Prediction. Forecasting The Future and Understanding the Past, Addison Wesley, 1994.
4. de Vries, B. and Principe, J. The Gamma Model – a New Neural Network for Temporal Processing
– Neural Networks 5(4) (1992): 565-576.
5. Elman J. Finding Structure in Time – Cognitive Science 14 (1990): 179-211.
6. Back, A.D. and Tsoi, A.C. FIR and IIR Synapses, a New Neural Network Architecture for Time
Series Modelling – Neural Computation 3(3) (1991): 375-385.
7. Mozer, M.C. Neural Net Architectures for Temporal Sequence Processing – Time Series
Prediction, Addison-Wesley, 1994, 243-264.
8. Day, S. and Davenport, M. Continuous-Time Temporal Back-Propagation with Adaptive Time
Delays – IEEE Transactions on Neural Networks, 1991.
9. Gerstner, W. Time Structure of the Activity in Neural Network Models – Physical Review E 51, 738758.
10. Baltersee, J. and Chambers J.A. Non-Linear Adaptive Prediction of Speech Signals Using a
Pipelined Recurrent Network – IEEE Transactions on Signal Processing 46/8, 1998.
11. Jordan M.I., Attractor Dynamics and Parallelism in a Connectionist Sequential Machine –
Proceeding of The Eighth Annual Conference of the Cognitive Science Society, 1986: 531-546.
12. Waibel, A. Consonant Recognition by Modular Construction of Large Phonemic Time-DELAY
Neural Netwoks, Advansec in Neural Information Processing Systems, 1989: 215-223.
-4-
Download