К вопросу об использовании самоорганизующихся карт Кохонена

advertisement
К вопросу об использовании самоорганизующихся карт Кохонена
для квантования пространства признаков речевого сигнала.
Г.Галунов
При конструировании систем распознавания речи, часто прибегают к квантованию пространства признаков и
реaлизуют на его основе дискретное представление речевого сигнала. Для квантования пространства
признаков могут быть использованы различные алгоритмы, в частности, в последнее время для этой цели
часто используются самоорганизующиеся карты Кохонена, эквивалентные алгебраическому алгоритму
векторного квантования. В данной статье приводится описание модифицированного алгоритма векторного
квантования, использованного нами при создании дикторонезависимой системы распознавания речи.
Системы распознавания речи основываются, как правило, на сравнении
распознаваемого сигнала с эталонами, в некотором пространстве признаков. При этом
размерность пространства признаков может быть достаточно велика — порядка 30 - 50,
что делает задачу хранения эталонов очень ресурсоемкой. Это усугубляется еще и тем, что
для построения дикторонезависимой системы распознавания речи, как правило,
оказывается необходимым хранить по несколько эталонов на слово. Эффективным
способом хранения информации, позволяющим сократить требования к памяти в десятки
раз, является векторное квантование пространства признаков, когда многомерный
действительный вектор признаков может быть представлен в виде номера
аппроксимирующего его вектора из некоторого набора векторов, называемого кодовой
книгой. Основной задачей векторного квантования является выбор кодовой книги,
отражающей свойства сигнала наилучшим образом, т. е. минимизирующей ошибку
аппроксимации входного сигнала векторами из кодовой книги. Для этой цели часто
применяются нейронные сети, а именно, их разновидность — самоорганизующиеся карты
Кохонена (SOM — self-organising map).
В классическом векторном квантователе, построенном на нейронной сети,
создается самоорганизующуяся карта Кохонена с заданной метрикой в пространстве
признаков
d ( x , y )    i xi  yi ,
(1)
где x и y — вектора свойств обучающего множества, и заданным числом кластеров (
нейронов второго слоя ). Коэффициенты  i задаются априорно из тех или иных
соображений и учитывают вес отдельных признаков в принятии решения. Как правило,
центры кластеров инициализируются случайным образом и в дальнейшем итеративно
улучшаются с целью минимизации дисторсии. Часто также используется альтернативный
алгоритм, когда изначально сеть состоит из одного нейрона, с координатами в центре
тяжести векторов обучающего множества, и в дальнейшем в сеть добавляются новые
нейроны. Начальные координаты добавляемого нейрона соответствуют наиболее
удаленному от всех остальных нейронов вектору обучающего множества. После
добавления каждого нового нейрона в сеть, производится настройка сети с целью
минимизации дисторсии, пока изменения последней не станут малы. Данная процедура
продолжается до тех пор, пока сеть не достигнет требуемых размеров или пока дисторсия
не достигнет требуемого уровня.
Основным недостатком описанных выше алгоритмов является невозможность
автоматического выбора весов a i и, следовательно, необходимость иметь априорное
представление о значимости отдельных признаков в распознавании речи. Для решения
этой проблемы нами был разработан модифицированный алгоритм обучения нейронной
сети, в ходе которого определяются также величины коэффициентов  i .
По этому алгоритму, изначально весовые коэффициенты  i определяются из
соотношения
xi  yi
x,y
 i  1
(2)
где x, y — вектора обучающего множества. В определенной таким способом метрике
производится обучение нейронной сети, по второму из описанных выше алгоритмов до
достижения требуемого числа кластеров. По завершении обучения, кластера, плохо
представленные в обучающем множестве и мало влияющие на дисторсию, отбрасываются.
Оставшиеся кластера используются для получения новых значений коэффициентов  i .
Коэффициенты  i
соотношение
выбираются теперь таким образом, чтобы выполнялось
xi  yi
x , y
 1,
(3)
где x, y — центры кластеров.
Процесс обучения повторяется с новыми коэффициентами  i .
Данная процедура продолжается итеративно, пока значение коэффициентов  i не
стабилизируется. Как правило, удовлетворительных результатов можно достичь в
результате 7-8 итераций.
Описанный алгоритм векторного квантования был использован при построении
дикторонезависимой системы распознавания речи. В сравнении с обычным алгоритмом,
использующем расстояние (1) с коэффициентами, отвечающими условию (2), этот
алгоритм дает более высокий процент распознавания на том же наборе признаков. На базе
из 20 слов, на 50 дикторах было достигнуто распознавание 98,5 % слов при применении
модифицированного алгоритма против 96 % при применении классического алгоритма с
коэффициентами, удовлетворяющими соотношению (2).
Download