Нгуен Минь Туан Специальность 05.13.11 – Математическое и программное обеспечение вычислительных машин,

advertisement
На правах рукописи
Нгуен Минь Туан
РАЗРАБОТКА АЛГОРИТМОВ ПОСТРОЕНИЯ ОЦЕНОК
ДОСТОВЕРНОСТИ ДЛЯ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ
Специальность 05.13.11 – Математическое
и программное обеспечение вычислительных машин,
комплексов и компьютерных сетей
АВТОРЕФЕРАТ
диссертация на соискание ученой степени
кандидата технических наук
Москва – 2008
Работа выполнена в Вычислительном центре им. А. А. Дородницына
Российской академии наук
Научный руководитель:
кандидат физико-математических наук, в.н.с.
Чучупал Владимир Яковлевич
Официальные оппоненты:
доктор технических наук, с.н.с.
Бондарос Юлия Григорьевна
кандидат технических наук
Кринов Сергей Николаевич
Ведущая организация:
Защита состоится « 18 »
Институт проблем передачи информации РАН
декабря
2008г. в
15
часов на заседании
диссертационного совета Д002.017.02 в Вычислительном центре им. А. А.
Дородницына Российской академии наук по адресу: 119333, г. Москва, ул.
Вавилова, 40, конференц-зал.
С диссертацией можно ознакомиться в библиотеке ВЦ РАН.
Автореферат разослан «____» __________ 2008г.
Учёный секретарь
диссертационного совета
доктор физико-математических наук,
профессор
В. В. Рязанов
2
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы.
Прогресс современного общества в значительной мере обусловлен
развитием автоматических и роботизированных систем. Компьютеры и
микропроцессоры
стали
неотъемлемым
атрибутом
жизни
людей
в
индустриально развитых странах. Научно-техническая проблема создания
адекватных средств для взаимодействия человека с компьютерными системами
приобрела в последние десятилетия важный социальный статус.
Одним из наиболее очевидных и перспективных путей организации
взаимодействия человека с компьютером является использование человеческой
речи, в частности, автоматическое распознавание речевых сообщений.
Исследования по автоматическому распознаванию речи начались более
пятидесяти лет назад, в середине прошлого века и интенсивно продолжаются в
настоящее время.
Несмотря на достигнутые успехи в создании методов и технологий,
показатели эффективности систем распознавания речи (например, вероятность
пословной ошибки распознавания) при применении в естественных условиях
эксплуатации пока далеки от желаемых. Основная причина кроется в
вариативности
речевого
сигнала,
которая
обуславливается,
например,
индивидуальными особенностями дикторов, характеристиками каналов связи, а
также влиянием окружающей обстановки. На эффективность распознавания
речи также оказывают существенное влияние условия прикладной области, в
частности, состав и размер словаря. Обычно словарь системы распознавания
является замкнутым, то есть содержит все слова, которые в принципе могут
быть произнесены. Увеличение размера словаря, вообще говоря, снижает
вероятность правильного распознавания.
Потребность распознавания естественной, неограниченной, по словарному
составу, речи, приводит к тому, что требование правильного распознавания
всего высказывания вряд ли осуществимо и обычно не требуется. Поскольку в
данном
случае
словарь
системы
является
3
открытым,
необходимо
предусмотреть
возможность
отказа от распознавания
частей
речевого
высказывания, которые содержат новые, не входящие в словарь, выражения и
слова. Таким образом, развитие речевой технологии в направлении анализа и
распознавания естественной речи приводит к необходимости решения
проблемы идентификации в речевом потоке новых, так называемых, несловарных (OOV, «out of vocabulary») слов или иных акустических событий.
Естественным способом решения этой проблемы является синтез оценок
достоверности результатов распознавания, на основе значений которых можно,
в частности, идентифицировать OOV.
Под оценкой достоверности («confidence measure») для некоторого
результата распознавания речи, под которым может подразумеваться отдельное
слово, звук или предложение, далее будет пониматься число, в интервале от 0
до 1, которое характеризует степень доверия или уверенности в правильности
этого результата. При анализе результата распознавания оценка достоверности
сравнивается с некоторым пороговым значением. Если её значение больше
порога, то слово считается правильно распознанным. В противном случае
соответствующая
результату
последовательность
признаков
считается
незнакомым словом.
Применение оценок достоверности также повышает эффективность
использования традиционных систем распознавания речи, которые оперируют с
замкнутыми словарями. Часто эти системы используются как составная часть
более
крупных
автоматических
систем,
например,
управления
робототехническими комплексами, доступа к информационным ресурсам и т.п.
В этом случае существует возможность коррекции ошибок автоматического
распознавания на основе дополнительной информации, которой располагает
«большая» система. Такая коррекция возможна, если система распознавания
речи предоставит расширенную информацию о результате распознавания,
включающую не только предполагаемые слова, но и примерную оценку
достоверности их распознавания.
4
Важность
решения
проблемы
построения
эффективных
оценок
достоверности для систем распознавания речи увеличивается по мере
дальнейшего прогресса в области речевых технологий. Это обстоятельство
определяет актуальность исследований в этом направлении.
Цель диссертационной работы.
Основная цель диссертационной работы заключалась в исследовании и
разработке эффективных алгоритмов построения оценок достоверности для
систем автоматического распознавания речи.
Для достижения этой цели в ходе выполнения диссертационной работы
решались следующие основные задачи:
1. Исследование
существующих
методов
моделирования
и
автоматического распознавания речи, а также известных методов
построения оценок достоверности для систем распознавания речи.
2. Разработка
новых
методов
и
алгоритмов
построения
оценок
достоверности результатов работы систем распознавания речи.
3. Программная реализация предлагаемых алгоритмов и проведение
экспериментальных исследований их эффективности.
Методы исследований.
В работе использовались методы математического анализа, методы
цифровой обработки сигналов, теории распознавания образов, теории
вероятностей, теории оптимизации и теории формальных языков.
Научная новизна.
Научная новизна диссертационной работы заключается в том, что
предложен новый метод построения оценок достоверности для систем
распознавания речи, который основан на построении дополнительных моделей
для распределения признаков речевого сигнала. Разработаны алгоритмы
оценивания значений параметров дополнительных моделей, а также выбора
оптимального количества их параметров. Проведены экспериментальные
исследования и получены численные значения показателей эффективности для
предложенных оценок.
5
Практическая ценность диссертации.
Предложенный метод формирования оценок достоверности показал
высокую эффективность при верификации результатов распознавания речи.
Исследования были выполнены в рамках работ по проектам «Разработка и
тестирование системы распознавания речевых команд управления в акустикофоновой обстановке кабины пилота» и «Разработка и исследование методов
распознавания речи на основе комбинированных моделей звуков» (гранты
РФФИ № 06-08-1534 и № 07-01-00657).
Апробация работы.
Полученные в работе научные и практические результаты докладывались
и обсуждались на XII Международной конференции «Речь и Компьютер»
SPECOM’2007 (г. Москва, 2007 г.), на XIX сессии Российского Акустического
Общества (г. Нижний Новгород, 2007 г.), на XIII Всероссийской конференции
«Математические методы распознавания образов» (г. Санкт-Петербург, 2007
г.), на VII Открытом немецко-российском семинаре «Распознавание образов и
понимание изображений» (г. Эттлинген, 2007 г.), а также на семинаре отдела
математических проблем распознавания и методов комбинаторного анализа ВЦ
РАН (г. Москва, 2008 г.).
Публикации.
По материалам диссертации опубликовано 6 печатных работ, в том числе
одна в журнале, входящем в список изданий, рекомендованных ВАК РФ.
Список опубликованных работ приведён в конце автореферата.
Структура и объём работы.
Диссертация состоит из введения, трёх глав, заключения, двух приложений
и библиографического списка использованных источников из 85 наименований.
Общий объём работы составляет 102 страницы, в том числе 13 рисунков и 20
таблиц.
6
СОДЕРЖАНИЕ РАБОТЫ
Во
Введении
обоснована
актуальность
диссертационной
работы,
сформулированы цель и задачи исследования, аргументирована научная
новизна исследований и показана практическая значимых полученных
результатов. Дана краткая характеристика основных разделов диссертационной
работы.
Первая глава является обзорной. В ней рассмотрены современные методы
распознавания речи и оценивания достоверности результатов распознавания.
Проведен
обзор
вероятностного
подхода
к
моделированию
и
распознаванию речи. Задача автоматического распознавания речи, на основе
вероятностного подхода, сформулирована так: найти самое вероятное
предложение
(цепочку
слов)
S*
языка
L,
которое
соответствует
последовательности векторов признаков X речевого высказывания, т.е.
S *  arg max P(S | X )  arg max P( X | S ) P(S ) .
SL
SL
Выделены основные компоненты (модули) систем распознавания речи:
извлечения
векторов
признаков
сигнала,
акустико-фонетического
моделирования, моделирования языка и декодирования. Извлечение векторов
признаков речевого сигнала является первым этапом при распознавании речи.
На этом этапе входной речевой сигнал преобразуется в набор векторов
признаков X , пригодных для дальнейшего анализа и обработки. В качестве
системы
признаков,
диссертационной
используемой
работы,
в
выбраны
численных
экспериментах
мел-кепстральные
коэффициенты.
Приведены обоснование выбора этой системы признаков и описание алгоритма
формирования
векторов
моделирования
является
признаков.
оценка
Целью
вероятности
акустико-фонетического
P( X | S )
появления
последовательности векторов признаков X при заданной цепочке слов S .
Описана скрытая Марковская модель (СММ), которая является на сегодняшний
день наиболее широко применяемым и эффективным подходом к проблеме
построения акустической модели. Приведены критерии обучения СММ.
7
Модель
языка
гипотетических
служит
для
предложений
описания
и
пространства
оценки
всех
вероятности
допустимых
P( S )
каждого
предложения языка L. Рассмотрены методы построения модели языка с
помощью формальных грамматик и статистических n-грамм. Декодирование
речевого сигнала заключается в поиске цепочки слов S * из множества
допустимых цепочек слов языка L . Приведено описание метода поиска,
основанного на использовании алгоритма Витерби.
Рассмотрены способы измерения эффективности оценок достоверности.
Эффективность оценок достоверности результатов распознавания часто
оценивается в терминах ошибок первого и второго вида. Графический способ
представления эффективности оценок достоверности состоит в построении
характеристик DET («detection error trade-off») или ROC («receiver operating
characteristic»). Также описаны скалярные показатели эффективности оценок
достоверности, такие как равная частота ошибок первого и второго рода (EER,
«equal error rate»), минимум сумы частот ошибок первого и второго рода
(MTER, «minimum total error rate»), общая частота ошибок (CER, «classification
error rate»).
Проведено исследование существующих алгоритмов построения оценок
достоверности для систем распознавания речи. Оценки достоверности
предложено условно разделить на три группы: элементарные оценки, оценки на
основе
апостериорных
вероятностей
и
оценки
на основе
отношения
правдоподобия.
К элементарным оценкам достоверности слова относится любая числовая
характеристика, получаемая в процессе декодирования. Эти характеристики
могут иметь акустическую или грамматическую природу. В качестве оценок
достоверности
берутся
такие
характеристики,
у
которых
функция
распределения вероятности для правильно распознанных слов существенно
отличается
от
функции
распределения
вероятности
для
неправильно
распознанных слов. Более хорошего результата можно достичь путем
комбинирования нескольких, взаимно независимых характеристик. В то же
8
время, экспериментально показано, что простые характеристики обладают
высокой корреляционной зависимостью. Поэтому комбинирование простых
характеристик часто не приводит к заметному повышению эффективности, по
сравнению с использованием характеристик по отдельности.
Методы,
основанные на вычислении простых характеристик, просты и не требуют
больших вычислительных ресурсов.
Методы формирования оценок достоверности второй группы заключаются
в
вычислении
вероятности
наблюдения
последовательности
векторов
признаков P( X ) . В этом случае в качестве оценки достоверности для слова W
используется апостериорная вероятность P (W | X W ) , которая вычисляется
согласно формуле Байеса
P(W | X W ) 
P( X W | W ) P(W )
,
P( X W )
где X W - соответствующая последовательность векторов признаков слова W .
На практике невозможно оценить точно значение P( X W ) . Имеются несколько
алгоритмов, которые аппроксимируют значения P( X ) с помощью списка из N
лучших гипотез («N-best list») или словного графа («Word graph»). Таким
образом, для применения методов, которые используют в качестве оценок
правдоподобия апостериорные вероятности необходимо выполнить построение
словного графа или списка N лучших гипотез. Построение словного графа или
списка N лучших гипотез обычно приводит к большому объему вычислений.
Подход, основанный на
предлагает
рассматривать
формировании отношения правдоподобия,
задачу
оценки
достоверности
результата
распознавания с точки зрения проблемы проверки гипотез. Пусть имеются
распознанное слово W и соответствующая ему последовательность векторов
признаков X W , тогда рассмотрим 2 гипотезы:
H 0 : последовательность векторов признаков X W является реализацией
слова W .
9
H 1 : последовательность векторов признаков X W не является реализацией
слова W и была некорректно распознана как слово W .
и соответствующее отношение правдоподобия:
LR(W , X W ) 
P( X W | H 0 )
.
P ( X W | H1 )
Если значение LR (W , X W ) больше значения порога  , то принимается гипотеза
H 0 , в противном случае принимается гипотеза H 1 . Таким образом, при
известных вероятностях P( X W | H 0 ) и P ( X W | H1 ) можно определить, является
ли слово W на выходе из распознавателя корректно распознанным. Чтобы
использовать решение на основе отношения правдоподобия, для каждого слова
W из словаря системы строятся 2 акустические модели: W (целевая модель) и
W
(альтернативная
модель)
такие,
что
P( X | H 0 )  P( X | W )
и
P( X | H1 )  P( X | W ) для любого сегмента сигнала X . Основная проблема
методов,
основанных
на
использовании
отношении
правдоподобия,
заключается в удачном выборе и моделировании альтернативных моделей. Это
объясняется тем, что множество акустических событий, которые должны
моделироваться альтернативными моделями обычно очень большое.
Подход,
основанный
на
построении
отношения
правдоподобия,
представляется наиболее перспективным для решения проблемы построения
оценок достоверности.
Во второй главе представлены предложенные в диссертации методы
формирования оценок достоверности для систем распознавания речи, которые
относятся к классу методов на основе построения отношения правдоподобия. В
отличие
от
существующих
методов
данного
класса,
где
отношения
правдоподобия вычисляются для каждого слова или части слова, в работе
предлагается использовать значения отношения правдоподобия на уровне
отдельных векторов признаков.
Пусть дана система распознавания речи, основанная на вероятностном
подходе с использованием скрытых Марковских моделей (СММ). Тогда для
10
последовательности векторов признаков X  ( x1 ,..., xT ) , распознанной как слово
W , можно однозначно найти оптимальную последовательность состояний
СММ Q  (q1 ,..., qT ) в соответствии с соотношением
Q  arg max P( X | (q1 ,..., qT ),  )
( q1 ,...,qT )

 arg max  q1 bq1 ( x1 )aq1q2 bq2 ( x2 )...aqT 1qT bqT ( xT )
( q1 ,...,qT )

,
где  - параметры СММ для слова W ,  q1 - вероятность начального состояния
q1 , bqi ( x) вероятность появления вектора признаков x в состоянии qi , aqi 1qi -
вероятность перехода от состояния qi 1 к состоянию qi . Таким образом, каждый
вектор признаков xt ассоциируется с некоторым состоянием qt .
Предлагается определить целевую и альтернативную модели  qt и  qt ,
соответственно, для состояния qt следующим образом:
P( xt , qt | X  корректно распознана)  P( xt |  qt )
,
P( xt , qt | X  некорректно распознана)  P( xt |  qt )
где P( x |  q ) и P( x |  q ) - распределения, являющиеся смесями нормальных
распределений
M0
P( x |  q )   c0,k N ( x, m0,k , v0,k )
k 1
,
M1
P( x |  q )   c1,k N ( x, m1,k , v1,k )
k 1
здесь
c0,k  0
удовлетворяют
и
c1,k  0
условиям
-
веса
M0
c
k 1
0,k
нормальных
распределений,
M1
  c1,k  1 ;
N ( x, m, v)
-
которые
нормальное
k 1
распределение со средним m и дисперсией v .
Согласно правилу принятия решения по максимуму апостериорной
вероятности,
принимается
гипотеза
о
корректном
последовательности векторов признаков X  ( x1 ,..., xT ) , если
11
распознавании
LR ( xt , qt ) 
P ( xt |  qt )
P ( xt |  qt )
  qt
.
В противном случае, последовательность векторов признаков X  ( x1 ,..., xT )
считается некорректно распознанной.
Введено определение элементарной функции достоверности на уровне
вектора признаков
C ( xt , qt ) 
1
1   LR( xt , qt ) 
1
.
Предлагается следующий метод формирования оценки достоверности
Cm(W , X ) , названный одноуровневым методом, на основе средних значений
элементарных функций достоверности:
T
Cm(W , X )   t C ( xt , qt )
t 1
,
 T

Cm(W , X )  exp   t ln C ( xt , qt ) 
 t 1

где  t  0 - весовые коэффициенты, удовлетворяющие условию
T

t 1
Для
системы
распознавания
речи
с
большим
t
1.
объемом
словаря
акустические модели, как правило, строятся для контексто-зависимых
реализаций фонем или фонов. Поэтому, кроме распознанного слова W , на
выходе
из
декодера
также
определена
соответствующая
ему
последовательность образующих фонов. Тогда для слова W , состоящего из N
фонов (W  u1...u N ), оценка достоверности формируется как арифметическое
или геометрическое среднее оценок достоверности для составляющих его
фонов:
Cm(W , X ) 
1 N
 Cm(un , X un )
N n1
1 N

Cm(W , X )  exp   ln Cm(un , X un ) 
 N n1

12
,
где Cm(un , X un ) - оценка достоверности для фона u n и соответствующей
последовательности векторов признаков X un , которая вычисляется с помощью
предложенного одноуровневого метода. Предложенный, таким образом, метод
формирования оценок достоверности для слова называется двухуровневым
методом.
Различия
между
одноуровневым
и
двухуровневым
методами
формирования оценок достоверности для слов наглядно представлены на
следующем рисунке.
Рисунок 1. Схемы формирования одноуровневых и
двухуровневых оценок достоверности.
Для каждой пары моделей  q и  q определена дискриминационная
величина d q
dq 
|  Cq   I q |
C   I
q
13
q
,
где  Zq и  Zq - среднее и дисперсия значений элементарной функции векторов
признаков выборки Z q ; Cq и I q - выборки векторов признаков, которые
определяются
следующим
последовательностей
образом:
векторов
пусть
имеется
выборка
из
{ X (i ) }(1  i  K ) ,
признаков
K
где
X (i )  ( x1(i ) ,..., xT(ii ) ) , и каждая из последовательностей векторов признаков X (i )
распознана декодером как слово W (i ) с соответствующей оптимальной
последовательностью состояний Q(i )  (q1(i ) ,..., qT(ii ) ) . Выборка { X (i ) } считается
большой и содержит достаточное количество как корректно распознанных, так
и некорректно распознанных последовательностей векторов признаков для
каждого слова словаря системы распознавания речи. Для каждой пары
( xm(i ) , qm(i ) )(1  i  K ,1  m  Ti ) определим функцию
1, если X (i ) корректно распознана как слово W (i )
 (x , q )  
.
(i )
(i )

1,
если
X
некорректно
распознана
как
слово
W

(i )
m
(i )
m
Тогда
Cq  {xm(i ) | qm( i )  q   ( xm( i ) , qm( i ) )  1  1  i  K  1  m  Ti }
I q  {xm(i ) | qm(i )  q   ( xm(i ) , qm(i ) )  1  1  i  K  1  m  Ti }
.
Предлагается использовать следующий способ задания значений весовых
коэффициентов:
t 
(d qt ) p
,1  t  T
T
 (d
i 1
qi
)
,
(1)
p
где p  0 - числовой параметр.
Обучение целевых и альтернативных моделей состоит в нахождении
значений их параметров согласно критерию обучения. К числу параметров
каждой целевой или альтернативной модели, которые подлежат нахождению,
относятся
размерность
модели
(т.е.
количество
смесей
нормальных
распределений), веса, средние и дисперсии смесей. Обучение проводится на
14
выборках векторов признаков Cq и I q . Для каждого вектора признаков x
выборки Cq считается, что имеет место ошибка, если LR( x, q)   q . Аналогично
для каждого вектора признаков x выборки I q имеет место ошибка, если
LR( x, q)   q . Обучение целевых и альтернативных моделей предлагается
проводить отдельно для каждой пары ( q ,  q ) таким образом, чтобы сумма
частот ошибок F ( q ,  q , q ) была минимальной, т.е.
( q ,  q )  arg min F ( q ,  q , q )
(  q , q )
 |{x | x  Cq  LR ( x, q )   q }| |{x | x  I q  LR( x, q)   q }| 
 arg min 

 ,
|
C
|
|
I
|
(  q , q ) 
q
q


 1

1
 arg min 
R
(
x
,

,

,

)

R
(
x
,

,

,

)


q
q
q
q
q
q 

| I q | xI q
(  q , q )  | Cq | xC
q


где
R( x,  q ,  q , q ) 
1
1  exp  aq ( x, q)  ln LR( x, q)  bq 
,
aq  0 , bq - числовые параметры, выбираемые в зависимости от значения  q .
Показано, что обучение моделей согласно выбранному критерию можно
осуществлять с помощью метода градиентного спуска. Однако данный метод
обладает некоторыми недостатками. Первым недостатком, свойственным
алгоритму градиентного спуска, является зависимость вычисленных значений
параметров от начального приближения. Второй недостаток заключается в том,
что необходимо заранее выбрать число компонентов смесей нормальных
распределений, которые будут использованы для описания распределений
P ( x |  q ) и P( x |  q ) .
В диссертационной работе предложен улучшенный алгоритм оценки
параметров моделей, который позволяет решить проблемы выбора размерности
моделей
и
начального
приближения.
Идея
алгоритма
заключается
в
следующем. Имея целевую и альтернативную модели, распределения P( x |  q )
15
и P( x |  q ) которых являются смесями нормальных распределений из M  и
M  компонентов, попытаться увеличить M  или M  на единицу с целью
уменьшения значения функционала
алгоритма
распределения
F ( q ,  q , q ) . На начальном шаге
P( x |  q )
P( x |  q )
и
описываются
однокомпонентными смесями, т.е. M   M   1 .
Для реализации алгоритма предложен способ генерирования новой модели
 ' из имеющейся модели  , где распределения P( x | ) и P( x |  ') являются
смесями из M и M  1 компонентов, соответственно:
M
P( x | )   ck N ( x, mk , vk )
k 1
M 1
P( x |  ')   c 'k N ( x, m 'k , v 'k )
.
k 1
Генератор новой модели зависит от выборки векторов признаков Z и
параметра r (1  r  M ) , т.е.  '  Генерирование(, Z , r ) .
Обозначим через Z ( r ) множество векторов признаков, где

Z ( r )  x | x  Z  arg max  ck N ( x, mk , vk )   r
1 k  M

.
С помощью метода k-средних находим значения векторов 0 и 1 , которые
минимизируют сумму
J (Z( r ) , 0 , 1 ) 

xZ( r )
x   ( x )
,
где  ( x)  arg min  x  i  . Начальные значения векторов 0 и 1 задаются
i 0,1
следующим образом
0  E{x | x  Z ( r ) }  
1  E{x | x  Z ( r ) }  
,
где  - вектор, элементы которого являются достаточно малыми числами.
В качестве начальных значений параметров модели  ' берутся
16
(ck , mk , vk ), k  r

(c 'k , m 'k , v 'k )  (cr / 2, 0 , vr ), k  r
,1  k  M  1 .
(c / 2,  , v ), k  M  1
1 r
 r
Окончательные значения параметров модели получаются в результате
применения алгоритма EM (expectation maximization) для того, чтобы
максимизировать функцию правдоподобия
L( Z |  ')   P( x |  ') .
xZ
Ниже приводится пошаговое описание предлагаемого алгоритма обучения
целевой и альтернативной моделей для некоторого состояния q СММ.
Алгоритм обучения целевой и альтернативной моделей.
1. Инициализировать модели curr  {c0,1, m0,1, v0,1} и curr  {c1,1, m1,1, v1,1}, где
c0,1  c1,1  1
m0,1 
v0,1,i 
1
1
x, m1,1 

x
| Cq | xCq
| I q | xI q
1
1
( xi  m0,1,i ) 2 , v1,1,i 
( xi  m1,1,i ) 2


| Cq | xCq
| I q | xI q
и установить
M   1, M   1
(best ,  best )  ГрадиентныйСпуск(curr ,  curr , )
2. Для всех (i, j ) {(1,0),...,( M  ,0),(0,1),...(0, M  )} выполнять
 Curr , i  0
i, j  
 Генерирование( curr , Cq , i ), i  0
 Curr , j  0
i, j  
 Генерирование( curr , I q , j ), j  0
(*i , j ,  *i , j )  ГрадиентныйСпуск ( i , j ,  i , j , )
3. Установить
(i* , j * )  arg min  F (*i , j ,  *i , j , ) 
(i , j )
 curr   i*, j* ,  curr   i*, j*
17
M   M   1, если i*  0
M   M   1, если j*  0
4. Если   F (best , best , )  F (*i*, j* , *i*, j* , )  0 , то установить
best  *i*, j* , best  *i*, j*
5. Если    и M   M   M min , то закончить алгоритм с моделями  best и
 best для целевой и альтернативной модели соответственно. Иначе перейти к
шагу 2.
В третьей главе приведены результаты практического применения
предложенных в работе методов и алгоритмов.
Приведено описание корпуса речевых данных FaVoR, на котором
выполнялись практические применения. FaVoR содержит записи слитной речи
1673 дикторов. Все записи корпуса оцифрованы с частотой дискретизации
22,050 кГц и хранятся в файлах формата Microsoft Wave. Словарь корпуса
состоит из 14 слов и содержит цифры от 0 до 9, и служебные слова «да», «нет»,
«старт» и «стоп». Корпус FaVoR записан в естественной, достаточно шумной
акустико-фоновой обстановке (среднее отношение сигнал/шум равно 15 дБ), с
присутствием значительного количества различных незнакомых слов и
экстралингвистических событий (кашель, заполненные паузы, смех и т.п.).
Описаны модули базовой системы распознавания речи, основанной на
вероятностном подходе. Модуль извлечения признаков преобразует входной
речевой сигнал в последовательность векторов признаков, состоящих из 13
мел-кепстральных коэффициентов, логарифма энергии, их первых и вторых
производных. Для акустического моделирования речевого потока был выбран
подход на основе построения т.н. контекстно-зависимых моделей звуков речи,
которые моделировались с помощью СММ. Приведены результаты работы
базовой системы распознавания на настроечной и тестовой выборках.
Проведено обучение целевых и альтернативных моделей предложенным
методом обучения со значением минимальной суммы компонентов смесей
M min  8 и значением   0.01 . Для вычисления значения функции ошибки
18
F ( q ,  q , q ) параметры aq и bq установлены равными 1 и 0, соответственно.
При анализе результатов обучения целевых и альтернативных моделей
установлено,
что
значения
дискриминационных
величин
для
каждого
отдельного слова имеют тенденцию к убыванию на краях реализации слова, что
подтверждает известный эмпирический подход к взвешиванию оценок
правдоподобия данных для отдельных кадров анализа. На следующем рисунке
представлен график зависимости значения дискриминационных величин от
состояния для слов «Два», «Три» и «Семь».
Рисунок 2. График зависимости значения дискриминационной
величины от состояния.
Проведено сравнение эффективности предложенного в работе алгоритма
обучения целевых и альтернативных моделей с алгоритмом градиентного
спуска.
Результаты
показали,
что
предложенный
алгоритм
обучения
обеспечивает лучший выбор количества смесей целевых и альтернативных
моделей. Типичные результаты обучения на примере одного из состояний
СММ представлены в следующей таблице.
19
F ( q ,  q ,  q )
Алгоритм
M0
M1
4
Градиентный
спуск
обучения
Предлагаемый
алгоритм
Проведены
формирования
Минимум
Максимум
Среднее
4
0.095566
0.156027
0.111625
4
8
0.022771
0.088676
0.050130
6
6
0.028989
0.116700
0.067049
8
8
0.023937
0.095824
0.053019
4
8
исследования
оценок
0.01556
эффективности
достоверности.
Для
предложенных
случаев,
когда
методов
весовые
коэффициенты вычислялись при p  0 (1), получены следующие показатели
эффективности: равная частота ошибок первого и второго EER составляла
12.045, общая частота ошибок CER=2.746. Проведены эксперименты по
нахождению значения числового параметра p , при котором показатель равной
частоты ошибок является наименьшим. Получен показатель EER=11.911.
Аналогичные
эксперименты
проведены
для
показателя
CER,
которые
позволили получить значение CER=2.533. Анализ результатов применения
показал, что двухуровневый метод формирования оценок достоверности
превосходит одноуровневый метод. В следующей таблице представлены
сравнительные результаты применения предложенной в работе оценки
достоверности и известных современных оценок достоверности.
Относительное улучшение
Оценка достоверности
показателя CER (%)
Элементарная
0.9%
На основе апостериорных вероятностей
21.7%
На основе отношения правдоподобия
9.0%
Предлагаемая
31.0%
20
Результаты
показывают,
что
по
сравнению
с
известными
оценками
достоверности, предложенные в работе оценки достоверности обладают более
высокой эффективностью.
В приложениях приведены пример аннотации речевой записи из корпуса
FaVoR и результаты работы базовой системы распознавания речи на
настроечной и тестовой выборках для каждого слова словаря.
В Заключении сформулированы основные теоретические и практические
результаты диссертационного исследования.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИОННОЙ РАБОТЫ
Основные
результаты
диссертационной
работы
заключаются
в
следующем:
1. Проведено исследование современных методов построения систем
распознавания на основе вероятностного подхода.
2. Проведен анализ существующих подходов к формированию оценок
достоверности для систем распознавания речи.
3. Введены
определения
целевых
и
альтернативных
моделей
распределения векторов признаков речевого сигнала и приведен способ
построения
элементарной
функции
достоверности
для
вектора
признаков. Предложен новый метод построения оценок достоверности
для систем распознавания речи, который основан на построении
целевых и альтернативных моделей для распределения признаков
речевого сигнала.
4. На основе предложенного метода построения функции достоверности
для вектора признаков разработан алгоритм построения целевых и
альтернативных моделей, который позволяет решить проблему выбора
количества параметров этих моделей.
5. Выполнена практическая реализация и проведены численные измерения
показателей эффективности предложенных методов и алгоритмов.
Результаты экспериментов показали более высокую эффективность
21
предложных
в работе оценок достоверности
по
сравнению с
известными оценками.
СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ
1. М. Т. Нгуен. Оценка достоверности результатов автоматического
распознавания речи // Труды Института системного анализа РАН.
Динамика неоднородных систем, выпуск 10(2), 2006, стр. 405-414.
2. М. Т. Нгуен. Обнаружение новых слов и невербальных событий при
распознавании речи // Модели, методы, алгоритмы и архитектуры
систем распознавания речи, 2006, стр. 119-137.
3. М.
Т.
Нгуен.
Построение
оценок
достоверности
результатов
распознавания речи с использованием альтернативных моделей //
Сборник докладов XIII Всероссийской конференции «Математические
методы распознавания образов», 2007, стр. 370-371.
4. М. Т. Нгуен, В. Я. Чучупал. Верификация результатов автоматического
распознавания речи // Сборник трудов XIX сессии Российского
Акустического Общества, 2007, т. 3, стр. 63-67.
5. M. T. Nguyen, V. J. Chuchupal. Word verification method for automatic
speech recognition // Proceedings of the XII International conference
“Speech and Computer” Specom’2007, v. 1, pp. 152-156.
6. M. T. Nguyen, V. J. Chuchupal. Word confidence measure based on frame
likelihood score // Pattern recognition and image analysis. Advances in
mathematical theory and application, 2008, n. 3, pp. 431-433.
22
Download