РАЗРАБОТКА МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ И АЛГОРИТМОВ ПОИСКА КЛЮЧЕВЫХ СЛОВ В АУДИО-СООБЩЕНИЯХ

advertisement
На правах рукописи
Зулкарнеев Михаил Юрьевич
РАЗРАБОТКА МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ И АЛГОРИТМОВ
ПОИСКА КЛЮЧЕВЫХ СЛОВ В АУДИО-СООБЩЕНИЯХ
Специальность 05.13.18 – Математическое моделирование,
численные методы и комплексы программ
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата физико-математических наук
РОСТОВ-НА-ДОНУ
2006 г.
Работа выполнена в Южно-Российском региональном центре информатизации
Ростовского государственного университета (ЮГИНФО РГУ)
Научный руководитель:
кандидат технических наук,
старший научный сотрудник
ЛЕДНОВ Дмитрий Анатольевич
Официальные оппоненты:
доктор физико-математических наук,
профессор ПОТЕТЮНКО Эдуард Николаевич
кандидат физико-математических наук,
доцент РАШИДОВА Елена Викторовна
Ведущая организация:
Федеральное
государственное
унитарное
предприятие
«Научно-исследовательский институт «Квант», г. Москва
Защита диссертации состоится "
заседании
диссертационного
техническим
наукам
в
совета
Ростовском
" ________ 2006 г. в 11 часов на
К.212.208.04
по
Государственном
физико-математическим
Университете
по
и
адресу:
344090, г. Ростов-на-Дону, пр. Стачки 200/1, корпус 2, ЮГИНФО РГУ, к. 206.
С диссертацией можно ознакомиться в научной библиотеке РГУ по адресу:
г. Ростов-на-Дону, ул. Пушкинская, 148.
Автореферат разослан "____" ________________ 2006 г.
Ученый секретарь
диссертационного совета,
кандидат физико-математических наук
Муратова Г. В.
Общая характеристика работы
Актуальность темы. Развитие компьютерной техники, компьютерных технологий
и интернета, приводит к росту объема информации, с которым приходится сталкиваться
современному человеку. В связи с этим актуальной является проблема автоматической
обработки информации, включая сортировку, хранение и быстрый поиск.
В этом смысле, не остается в стороне и задача автоматической обработки речевых
данных, целью которой является выявление содержания речевых сообщений для
сокращения их объема. Для решения этой задачи используются технологии распознавания
речи, которые бурно развиваются последние четыре десятилетия, и к настоящему времени
в этой области достигнуты значительные успехи. Так, преобразование речи, записанной из
программ радиовещания, в текст выполняется с точностью распознавания слов 83-87%,
спонтанной речи, записанной из стандартного телефонного канала – с точностью 71-75%.
Технологии распознавания речи в настоящее время используются в целом ряде
практических приложений таких как:
 Поиск и классификация речевых сообщений в больших массивах речевых данных по
их содержанию;
 Диалоговые системы «Человек - компьютер», «Человек - автоматическая справочная
система» и т.д.;
 Управление промышленными, бытовыми и другими устройствами с использованием
естественного языка;
 Автоматические системы перевода.
Однако не всегда требуется полное преобразование речи в текст, в некоторых
приложениях может оказаться достаточной возможность определить наличие в сообщении
лишь некоторых слов, или фраз. Эту задачу решают системы поиска ключевых слов в
аудио-сообщениях. В настоящее время наиболее перспективными из них считаются
системы поиска ключевых слов, основанные на полном распознавании речи, от которых
они отличаются размером словаря – размер словаря системы поиска ключевых слов
намного меньше (порядка 1000 слов), чем размер словаря системы распознавания речи
(десятки тысяч слов и более).
Несмотря на достигнутые успехи, существует ряд практических задач, для которых
точность поиска ключевых слов остается все еще не достаточной для практического
3
использования. К таким задачам относится поиск ключевых слов в речевых сообщениях,
записанных с сотовых телефонов или в условиях низкого отношения сигнал/шум (менее
10дБ). Точность поиска ключевых слов для таких систем может не превышать 40-50% в
зависимости от уровня шума.
В связи с этим актуальной является задача разработки новых моделей и методов
поиска ключевых слов, которые позволили бы повысить точность поиска ключевых слов.
Цель и задачи работы. Цель данной работы является разработка математических
моделей и алгоритмов, позволяющих повысить точность поиска ключевых слов в аудиосообщениях за счет: создания более точных акустических моделей ключевых слов и
оптимизации словаря заполнения.
В соответствии с этими целями сформулирован и решен ряд задач:
 Введено
понятие
длинноконтекстных
акустических
моделей
фонем,
предназначенных для создания акустических моделей ключевых слов;
 Введено понятие показателя влияния контекста на параметры акустических моделей
фонем, основанное на близости акустических моделей фонем, разработан метод и
алгоритм его расчета;
 Разработан метод аппроксимации длинноконтекстных акустических моделей фонем,
оптимальный с точки зрения показателя влияния контекста на параметры моделей;
 Поставлена задача формирования словаря заполнения как задача разбиения слов
языка на непересекающиеся подмножества, для которой в качестве критерия взят
критерий минимума средней ошибки распознавания и записана соответствующая
целевая функция;
 Доказана лемма, на основании которой целевая функция процедуры разбиения слов
языка на непересекающиеся подмножества может быть заменена функцией
языковых вероятностей и перекрестной энтропии СММ;
 Разработан метод и алгоритм расчета перекрестной энтропии СММ;
 Предложен алгоритм кластеризации, который может быть использован для
разбиения слов языка на непересекающиеся подмножества с использованием
полученной целевой функции;
 Разработана
программная
реализация
и
выполнены
экспериментальные
исследования системы поиска ключевых слов, использующей разработанный метод
формирования словаря заполнения.
4
 Создана программная реализация системы, предназначенной для оценки параметров
длинноконтекстных
акустических
экспериментальные
исследования
моделей
фонем,
предлагаемого
а
также
метода
проведены
аппроксимации
длинноконтекстных акустических моделей фонем;
Методы исследования. В работе использованы методы распознавания естественной
речи, основанные на скрытых Марковских моделях, в том числе теория цифровой
обработки сигналов, теория распознавания образов и элементы теории вероятностей и
математической статистики.
Научная новизна. Предложен новый подход к созданию акустических моделей
ключевых слов с использованием длинноконтекстных акустических моделей фонем,
отличающихся
от
известных
контекстнозависимых
моделей
переменной
длиной
учитываемого контекста. Впервые поставлена и решена задача формирования словаря
заполнения, оптимального с точки зрения средней ошибки распознавания. Выполнен ряд
экспериментов, подтверждающих эффективность предлагаемых методов.
Достоверность. Представленные в диссертации леммы и теоремы имеют строгое
математическое обоснование, предложенные методы исследованы теоретически и
проверены экспериментально.
Практическая значимость. Предложен метод и алгоритм создания акустических
моделей ключевых слов с использованием длинноконтекстных моделей фонем. Предложен
метод и алгоритм формирования словаря заполнения, оптимального с точки зрения
минимума средней ошибки распознавания, который позволяет повысить точность поиска
ключевых слов.
Результаты диссертации были применены при выполнении следующих работ:
 НИР "Ключ", НИР "Живец-1 СВА", ОКР "Творение-2А", заказчик – ФГУП "18
ЦНИИ" МО РФ;
 НИР "Беседа", НИР "Хоровод", НИР "Хор-Р", заказчик – ФГУП "НИИ "КВАНТ";
 НИР "Речь-О", заказчик – ФГНУ НИИ "Спецвузавтоматика".
Апробация работы. Основные результаты диссертационной работы докладывались
и
обсуждались
на
седьмой
международной
научно-практической
конференции
"Интеллектуальные и многопроцессорные системы-2006" (Кацивели, Украина, 2006), на
XVI сессии Российского акустического общества (Москва, 2005), на международной
конференции
Speech
and
Computer
"Specom-2004"
5
(Санкт-Петербург,
2004),
на
международной научной конференции Speech and Computer "Specom-2005" (Patras, Greece,
2005), на шестой международной научно-практической конференции "Интеллектуальные и
многопроцессорные системы-2005" (поселок Дивноморское, Геленджикский район,
г. Новороссийск, 2005).
Публикации. По теме диссертации опубликовано 25 печатных работ. Из них 10
статей в научных журналах, 13 тезисов докладов и два свидетельства об официальной
регистрации программ для ЭВМ.
Личный вклад автора. Вклад автора в совместные работы заключается: в
формировании постановки проблемы [4,5,6,7,8,9,13,14,16,17,21,24,25], теоретическом
обосновании [5,6,7,8,21,22], совместном теоретическом обосновании [2,9,10,13,14,15,24],
постановке и анализе численных экспериментов [1,3,6,13,19,24,25].
Структура и объем диссертации. Диссертация состоит из введения, трех глав и
списка литературы. Общий объем диссертации – 124 страницы, в том числе 31 рисунок, 6
таблиц. Список литературы содержит 101 наименование.
Содержание работы
Во введении раскрывается актуальность темы диссертации, изложены основные
цели и задачи диссертации, показана их практическая значимость, представлена структура
диссертации и сформированы основные положения, выносимые на защиту.
В первой главе рассматриваются существующие методы и алгоритмы поиска
ключевых слов в аудио-сообщениях, основанные на скрытых Марковских моделях1.
В первом разделе первой главы описывается статистический подход к решению
задачи распознавания речи, основанный на Байесовской теории принятия решений.
Особенности этого подхода состоят в следующем:
1. Речевое сообщение, представленное в виде звукового файла, преобразуется в
последовательность векторов признаков O  o1 ,.., oT .
2. Решение о содержании речевого сообщения W  w1 ,.., wN принимается на основании
Байесовского критерия минимума средних потерь, который в случае матрицы
1
Рабинер Л.Б. Скрытые Марковские модели и их применение в избранных приложениях
при распознавании речи: Обзор // ТИИЭР, т.77, № 2, февраль 1989 – с. 86-120.
6
потерь lij  1   ij , где  ij – символ Кронекера, преобразуется в критерий максимума
апостериорной вероятности:
W  arg max P W | O   arg max
W
W
P  O, W 
P O 

 arg max P  O, W   arg max P W  P  O | W 
W
,
(1)
W
где P  O | W  – вероятность того, что последовательность слов W может быть
представлена последовательностью векторов признаков O ; P W  – вероятность
последовательности слов W .
3. Для расчета вероятности P  O | W  используется акустическая модель.
4. Для расчета вероятности P W  используется модель языка.
Во втором разделе первой главы описывается этап преобразования речевого сигнала
в последовательность векторов признаков. Выдвигаются требования, которым должна
удовлетворять результирующая последовательность O , чтобы обеспечить наиболее
качественный и в то же время эффективный процесс распознавания. Эти требования
связаны с предположениями, выдвигаемыми акустической моделью по отношению к
процессу речеобразования.
Далее во втором разделе описывается PLP -преобразование речевого сигнала,
которое в настоящий момент дает наилучшее качество распознавания речи для систем,
основанных на скрытых Марковских моделях, при этом указывается, что при выборе
преобразования руководствуются результатами психоакустических экспериментальных
исследований.
В третьем разделе первой главы описываются скрытые Марковские модели (СММ),
которые в настоящее время широко используются для моделирования акустического
сигнала при распознавании речи.
Определение 1 Скрытая Марковская модель – это система с конечным числом состояний,
которая каждый момент времени t переходит из состояния в состояние в соответствии с
вероятностью перехода
aij  P  st  j | st 1  i 
и генерирует вектор признаков
ot
в
соответствии с выходной вероятностью bj  o  , характерной для текущего состояния.
Параметры a i , j , bi  o  обладают свойствами, которые являются следствием их
вероятностной природы:
7
a i , j  0 , i, j  1,..., N ,
S
a
j 1
i, j
 1 , i  1,..., N ,
 b o  1 , i  1,..., N ,
oO
i
где N – количество состояний СММ-модели.
a22
s1 a12
o1
a33
a23
s2
s3
o2
o3
b2  o1  b2  o2  b3  o3 
a44
a34
s4
o4
a45 s
5
o5
b4  o4  b4  o5 
Рисунок 1 – Пример СММ-модели
В третьем разделе первой главы описываются СММ-модели, которые используются
в системах распознавания речи для моделирования акустического сигнала. Это так
называемые СММ-модели типа «слева-направо» (см. рисунок 1). Множество состояний
этих моделей является упорядоченным, и при этом переход из некоторого состояния
возможен либо в это состояние, либо в следующее. Для удобства вводятся начальное и
конечное состояния, в которых система находится перед началом и после завершения
процесса генерации. Эти состояния не соответствуют реальным векторам признаков из
последовательности векторов признаков O .
Также в диссертации конкретизируется вид bi  o  : в качестве bi  o  используется
смесь нормальных распределений
M
bi  o   
m 1
wi ,m
 2 
d
2
i , m
1
2
e

#
1
 o  i ,m  i,1m  o  i ,m 
2
,
(2)
где
M – количество элементов смеси;
8
wi ,m , i ,m ,  i , m – соответственно вес, среднее вектор и корреляционная матрица
m -й
компоненты состояния s i ;
# – знак транспонирования.
Параметры смеси обладают следующими свойствами:
wi ,m  0 , i  2,..., N  1 , m  1,..., M ,
M
w
m 1
i ,m
 1 , i  2,..., N  1 ,
x#i,1m x  0 x  0 , i  2,..., N  1 , m  1,..., M .
Таким образом, акустическая модель
M W 
гипотезы W
характеризуется
множеством параметров
M W   ai , j : i, j  1,..., N W  ; wi ,m , i ,m , i ,m : i  2,..., N  1, m  1,..., M  ,
где N W  – количество состояний модели M W  .
По аналогии для обозначения множества параметров всех СММ-моделей системы
распознавания речи в диссертации используется символ  :


  M W  : W  любая возможная последовательность слов .
Далее
в
третьем
разделе
последовательности слов W .
описывается
способ
построения
СММ-модели
Существуют два разных подхода к моделированию
акустического сигнала при распознавании речи:
1) Минимальными структурными элементами языка являются слова. В этом случае
модель последовательности слов строится конкатенацией моделей слов, из которых
она состоит.
2) Минимальными структурными элементами языка являются составные элементы
слов (слоги, фонемы и т.д.), в этом случае модель слова строится конкатенацией
моделей
структурных
элементов,
из
которых
оно
состоит,
а
модель
последовательности слов строится конкатенацией моделей слов, из которых эта
последовательность состоит.
Первый подход используется при распознавании речи с ограниченным словарем. Второй
подход является более предпочтительным для больших словарей. В настоящей
диссертационной работе используется второй подход, в котором в качестве структурных
элементов выступают фонемы, при этом фонема моделируется тремя состояниями, из
9
которых первое моделирует часть фонемы, подверженную влиянию предшествующей
фонемы, последнее – часть фонемы подверженную влиянию последующей фонемы, а
центральное состояние моделирует «чистую» часть фонемы. На рисунке 1 показана СММ
фонемы, а также сгенерированная моделью последовательность векторов признаков
O  o1 ,.., o5 . Также на рисунке показаны начальное и конечное состояния модели, в которых
система находится перед началом и после завершения процесса.
В третьем разделе первой главы описывается способ вычисления вероятности
P  O | W  при помощи СММ:
P  O | M    P  O, X | M 
(3)
X
где
M
– СММ последовательности слов
W , суммирование ведется по всем
последовательностям состояний X  x1 ,..., xT модели M .
Вероятность P  O, X | M  рассчитывается по формуле:
T
 T

P  O, X | M   P  X | M  P  O | X , M   a1x1  axt1xt  axT N  bxt  ot  ,
t 1
 t 2

где
 T

P  X | M   a1x1  axt 1xt  axT N ,
 t 2

T
P  O | X , M    bxt  ot  ,
t 1
где T – длина последовательности O , N – количество состояний модели M .
В четвертом разделе первой главы описываются основные подходы к оценке
параметров СММ-моделей. Процедура обучения в общем случае сводится к нахождению
таких параметров СММ-моделей  , которые бы максимизировали некоторую целевую
функцию F    :
ˆ  arg max F  
(4)

Наиболее распространенным для обучения СММ является метод максимального
правдоподобия,
в
котором
в
качестве
целевой
функции
выступает
величина
правдоподобия:
FMLE     log P  O | M W   ,
(5)
10
где P  O | M  рассчитывается по формуле (3), O – обучающая последовательность
векторов
признаков,
а
W
–
последовательность
слов,
соответствующая
этой
последовательности.
Однако непосредственное использование выражения (5) для нахождения параметров
СММ является весьма трудной задачей, поэтому для нахождения оптимальных параметров
 
используется вспомогательная функция Q  , ˆ , которая зависит от двух наборов
параметров СММ-моделей 
и ̂ , и связана с функцией
FMLE   
следующими
соотношениями:
QMLE
 
 
 , ˆ  QMLE   ,    FMLE ˆ  FMLE    ,
 
QMLE  , ˆ
ˆ

ˆ 
FMLE   

.
 
Из этих выражений следует, что QMLE  , ˆ возрастает одновременно с FMLE    , а с другой
стороны они одновременно достигают экстремума.
 
Непосредственная оптимизация вспомогательной функции QMLE  , ˆ по параметрам
̂ приводит к итерационным формулам для расчета параметров СММ-моделей.
В пятом разделе первой главы описывается n -граммная модель языка2, которая
используется для моделирования языка. Название объясняется тем, что основным
рассматриваемым в данной методике объектом являются грамматики ( n -граммы) –
последовательности слов длиной n . Модель языка предназначена для расчета вероятности
P W  :
NW
PW    Pwi | wi  n 1 ,..., wi 1  ,
i 1
где для оценки вероятностей используется формула
2
Moore G.L. Adaptive Statistical Class-based Language Modelling // Ph.D thesis, Cambridge
University, 2001.
11


  wi  n 1 ,..., wi 1   P  wi | wi  n  2 ,..., wi 1  : C  wi  n 1 ,..., wi   0

C  wi  n 1 ,..., wi 

P  wi | wi  n 1 ,..., wi 1   d  wi  n 1 ,..., wi  
:1  C  wi  n 1 ,..., wi   k ,
C  wi  n 1 ,..., wi 1 

 C  w ,..., w 
i  n 1
i

: C  wi  n 1 ,..., wi   k
 C  wi  n 1 ,..., wi 1 
где
 wi n1 ,..., wi 1  

 wi n1 ,..., wi 1 
wi : C  wi  n 1 ,..., wi 1
,



P
w
|
w
,...,
w
i
i

n

2
i

1
0
 wi n1 ,..., wi 1   w : C w
i
da 
am
, m
a
i  n 1 ,...,wi 1

wi | win1 ,..., wi1  ,
P
0
c1
.
 aca
a
где C  wi n1 ,..., wi  – количество встреч грамматики wi n1 ,..., wi обучающем тексте.
Основной особенностью этой модели является так называемый метод отхода,
позволяющий
рассчитывать
вероятности
последовательностей
слов,
которые
не
встречались в обучающем тексте.
В шестом разделе первой главы описывается декодер, выполняющий поиск
оптимальной гипотезы в соответствии с (1). В диссертации описывается Витерби-декодер,
который в настоящее время используется в системах распознавания речи, основанных на
СММ-моделях. В качестве практической реализации Витерби-декодера описывается
алгоритм перемещающегося маркера, который может быть использован для решения
различных задач распознавания речи.
В заключение первой главы рассматриваются недостатки существующих методов,
основным из которых является низкая точность поиска ключевых слов в каналах с
повышенным уровнем шума, и предлагаются направления их разрешения, а также
выполняется постановка задачи исследования.
Во второй главе предлагается понятие, а также метод обучения длинноконтекстных
акустических моделях фонем, которые используются для создания более точных СММмоделей ключевых слов.
Пусть w – некоторое ключевое слово и PH  w   ph1 ,.., phN
ph
 w
– его фонетическая
транскрипция, где phi , 1  i  N ph  w , – i -я фонема транскрипции. Акустическая модель
12
ключевого слова w строится конкатенацией акустических моделей фонем. В диссертации
для создания акустических моделей ключевых слов предлагаются так называемые
длинноконтекстные модели фонем:
Определение 2 длинноконтекстной моделью (ДК-моделью) фонемы phi называется
модель,
зависящая
от
всей
последовательности
LCi  w  ph1 ,.., phi 1 ,
фонем
предшествующих данной фонеме в фонетической транскрипции слова, и всей
последовательности фонем RCi  w   phi 1 ,.., phN
ph
 w ,
следующих за данной фонемой в
фонетической транскрипции слова. LCi  w и RCi  w называются соответственно левым и
правым
контекстом
данной
длинноконтекстной
модели.
Тройка
элементов
d   LCi  w , phi , RCi  w  называется описателем данной длинноконтекстной модели (ДК-
описателем).
Определение 3 Между двумя описателями d1 и d 2 существует отношение включенности
d1
d2 , если описатель d1 полностью содержится в описателе d 2 , когда совмещаются их
центральные фонемы.
Во второй главе предлагается следующий метод обучения ДК-моделей. Когда
количество
речевых
участков,
соответствующих
ДК-модели
меньше
некоторого
минимального значения N  d   Nmin ДК-модель аппроксимируется моделью M  d  :
 
M d   M d ,
(6)
которая имеет достаточное количество обучения
 
N d  N min ,
(7)
и при этом описатели моделей находятся в отношении включенности d
d.
Поскольку существует множество описателей d , которые могут находиться в
отношении включенности с описателем d , стоит проблема выбора наиболее подходящего
в некотором смысле описателя d . В диссертации предлагается выбирать описатель d ,
который получается из описателя d отбрасыванием контекста c  d \ d , и при контекст
минимальным образом влияет на параметры модели M  d  .
Для оценки величины влияния контекста на параметры модели во второй главе
вводится понятие показателя влияния контекста на параметры модели:
13
Определение 4 Пусть заданы две акустические модели – M и M  . Их критерием близости
называется величина

s  M , M    EPO|M   P  O | M      sT  M , M   ,
T 1
sT  M , M     P  O | M  P  O | M   dO ,
где
EPO|M  

означает
математическое
ожидание
по
плотности
распределения
вероятностей P  O | M  , интеграл берется по многомерной величине dO  do1  do2  ...  doT .
Определение 5 Пусть имеются две ДК-модели с описателями, находящимися в отношении
включенности d  d . Контекст c  d \ d  отличает модель M  d  от модели M  d  .
Показателем влияния контекста c на параметры модели M  d  называется величина
CIF  d , c  
s  d , d   s  d , d 
.
s  d , d 
Таким образом, для аппроксимации модели M  d  в соответствии с (6) выбирается
модель M  d  с описателем
d  arg min CIF  d , d \ d  ,
(8)
d D
и при этом для описателя d выполняется условие (7), D  – множество описателей,
находящихся в отношении включенности с описателем d .
Таким образом, для аппроксимации ДК-модели с описателем d предлагается
использовать модель, удовлетворяющую условию (8).
Однако для расчета величины CIF  d , d \ d  требуется модель M  d  , параметры
которой неизвестны. В связи с этим в диссертации величину CIF  d , d \ d  в выражении (8)
предлагается заменить величиной
CIF  d  
1
 CIF  d , d  \ d  ,
N  D  d D
(9)
которая называется средним показателем влияния контекста на параметры модели
M  d   . Множество
D 
– множество всех описателей, находящихся в отношении
включенности с описателем d  .
В заключение второй главы приводится описание программной реализации системы
поиска ключевых слов, использующей ДК-модели. Программная реализация создана для
14
проверки возможностей предлагаемых ДК-моделей и методов их обучения. Она состоит из
двух экспериментальных стендов:
 стенд обучения ДК-моделей;
 стенд тестирования с использованием ДК-моделей.
Стенды представляют собой консольные приложения, являющиеся набором
Perl-скриптов, которые управляют последовательностью вызовов утилит для работы с
СММ-моделями, словарями, и др., написанные на языке С.
В таблице 1 представлены результаты экспериментальных исследований системы
поиска ключевых слов, использующей ДК-модели фонем. В таблице указаны две
величины: вероятность правильного распознавания в процентах и количество ложных
вызовов.
Таблица 1 – Результаты экспериментов для системы поиска ключевых слов, использующей
ДК-модели
встречаемость
длина
уч. контекста
2
3
4
50
100
82.07
254
76.37
186
73.42
162
82.70
396
81.43
361
80.38
353
Сравнение полученных результатов с результатами экспериментов со стандартной
системой поиска ключевых слов показывает, что использование ДК-моделей дает
увеличение вероятности правильного распознавания на 3.8 % при максимальной длине
учитываемого контекста, равной 2 и Nmin  100 (стандартная система дает вероятность
распознавания P  78.9 %, количество ложных вызовов 244).
При увеличении максимальной длины учитываемого контекста происходит падение
вероятности правильного распознавания, особенно для случая N min  50 . Причиной этого
является так называемый эффект переобучения, который состоит в том, что при оценке
параметров СММ-моделей они становятся слишком настроены под данные, на которых
они обучались и в меньшей степени начинают моделировать данные, которые не
присутствовали в обучающей выборке. Фактически, переобучение проявляется в
15
заниженных значениях дисперсий компонент смесей, моделирующих состояния СММмоделей.
В третьей главе предлагается метод формирования словаря заполнения системы
распознавания ключевых слов, оптимальный с точки зрения минимума средней ошибки
распознавания, а также разрабатывается алгоритм для его реализации.
Для постановки задачи формирования словаря заполнения вводится понятие модели
распознавания:
Определение 6 Пусть C множество возможных последовательностей c  C слов языка и
U – множество возможных последовательностей u U элементов словаря V . Моделью
распознавания называется отображение множества C на множество U :
u : C U .
(10)
В диссертации используется частный случай модели распознавания (10), которая
задает способ распознавания отдельных слов языка:
v :Y V ,
где Y – множество слов языка, V – словарь заполнения.
Поскольку слов языка гораздо больше, чем слов в словаре заполнения, одному слову
vk словаря заполнения в модели распознавания будет соответствовать целое множество Yk
слов языка:
v  y   vk , y  Yk , vk V ,
(11)
Yl   , то есть множества Yk являются попарно
при этом предполагается, что Yk
непересекающимися.
Таким образом, модель распознавания (11) разбивает множество слов языка на
попарно непересекающиеся подмножества Yk и задача нахождения словаря заполнения
сводится и нахождению этого разбиения и соответствующих каждому множеству Yk
элементов словаря заполнения vk , такому, что оптимизируется некоторая целевая функция
F v :
v  arg max F  v  ,
(12)
v
В диссертации в качестве целевой функции используется статистика, которая
используется в решающем правиле (1):
R
R
r 1
r 1


F  v    log P  v Wr  | Or    log P  Or , v Wr    log P  Or  .
16
(13)
Вид целевой функции предполагает, что для ее расчета требуется обучающая
выборка речевых сообщений U r rR1 , R – их количество с соответствующими словесными
транскрипциями
R
Wr r 1 . Обучающая выборка представлена в виде множества
последовательностей
наблюдений
Or rR1 .
v Wr 
–
транскрипция,
получаемая
преобразованием v каждого слова эталонной транскрипции Wr .
Необходимо отметить, что второе слагаемое в (13) не влияет на решение задачи (12),
потому что не зависит от v . Поэтому вместо целевой функции (13) можно рассматривать
целевую функцию
R
F  v    log P  Or , v Wr   .
(14)
r 1
Выбор целевой функции (13) определяется тем, что в этом случае решение задачи
нахождения
модели
распознавания
(12)
становится
Байесовским.
Использование
Байесовского критерия в данном случае имеет два преимущества:
 Байесовский критерий принятия решений минимизирует средние потери, что в
случае систем распознавания речи означает минимизацию средней ошибки
распознавания;
 При распознавании (решающее правило (1)), используется та же статистика, это
означает, что модель распознавания v 
 является оптимальной в том смысле, что
при распознавании вероятность реализации этой модели максимальна.
В третье главе доказывается лемма, которая позволяет рассчитать значение целевой
функции (14) без использования реальных данных. При этом источником акустической и
языковой информации являются СММ-модели и модель языка:
Лемма 1: Целевая функция (14)
R
F   log P  Or , v Wr  
r 1
является состоятельной оценкой величины


F   N  S1  S2   N    p  c, y  log p  v  y  | v  c     p  y  a  y, v  y    ,
yY
 yY cC

(15)
где N – количество слов в обучающей выборке,  – языковой множитель, C – множество
различных последовательностей слов y  Y длиной n 1 , где n – размер грамматик
используемой модели языка, v  c  – последовательность слов, которая получается
17
преобразованием v над последовательностью слов c , a  y, v  y   – среднее значение
величины log P  o | v  y   по плотности распределения вероятностей Py  O  :


a  y, v  y    M Py O log P  O | v  y   ,
O – последовательность наблюдений, соответствующих реализации слова y , а Py  O  – ее
плотность распределения вероятностей.
В третьей главе предлагается метод и алгоритм расчета величины a  y1 , y2  ,
y1 , y2  Y , в случае, когда для аппроксимации плотности распределения вероятностей
Py1  O  используется акустическая вероятность P  O | M  y1   СММ-модели слова y1 :
Py1  O   P O | M  y1   .
В этом случае
a  y1 , y2 
становится перекрестной энтропией для скрытых
Марковских моделей.
Основным результатом доказанной в третьей главе леммы является факт, что целевая
функция (14)
R
F   log P  Or , v Wr  
r 1
является состоятельной оценкой функции (15)


F   N  S1  S2   N    p  c, y  log p  v  y  | v  c     p  y  a  y, v  y   
yY
 yY cC

(16).
Это означает, что при неограниченном возрастании размера обучающей выборки
N   целевая функция стремится к функции F  в вероятностном смысле:
P | F  F  |    1 , N   .
Откуда следует, что при неограниченном возрастании размера обучающей выборки можно
заменить целевую функцию F функцией F  , поскольку для расчета функции F  не
требуется реальная речевая база, и размер вымышленной базы может быть каким угодно, в
том числе неограниченно большим.
Далее в третьей главе показывается, что если в языковых вероятностях в (16)
пренебречь зависимостью от предшествующей последовательности слов p  y | c   p  y  , то
функция F  примет вид
F   d  y, v  y   ,
yY
18
где


d  y, v  y    p  y   log p  v  y    a  y, v  y  
(17)
характерный для целевой функции метода кластеризации К-средних3. Однако метод Ксредних не может быть использован непосредственно, поскольку он разработан для
евклидового пространства, а в задаче разбиения слов это не так, как это видно из
выражения (17).
В связи с этим в третьей главе предлагается модифицированный алгоритм Ксредних, в котором изменен шаг, связанный с нахождением центров кластеров, поскольку
на этом шаге алгоритма используется евклидовость данных. Для нахождения центров
кластеров в третьей главе предлагается использовать перебор всех возможных
претендентов:
vi  arg max  d  y, y  , для всех vi  V .
yY
yYi
В третьей главе описывается программная реализация системы распознавания
ключевых слов, использующей оптимальный словарь заполнения, которая состоит из двух
стендов:
 стенд формирования оптимального словаря заполнения;
 стенд тестирования.
Программная
реализация
представляет
собой
консольные
приложения,
реализованные в виде набора Perl-скриптов, которые осуществляют вызов утилит,
выполняющих основные расчеты. Утилиты представляют собой консольные приложения и
написаны на языке С.
Таблица 2 – Результаты поиска ключевых слов с использованием оптимального словаря
lf
1
5
10
15
17.5
20
22.5
25
30
Ph
76.37
75.74
79.11
79.11
78.06
80.17
77.64
78.69
78.06
FA
309
292
311
278
267
297
264
269
261
заключение
третьей
главы
В
описываются
результаты
экспериментальных
исследований, выполненных при помощи созданной программной реализации. В
3
Дуда Р., Харт П. Распознавание образов и анализ сцен. – М.: Мир, 1976. – 511 с.
19
результате исследований был проведен ряд экспериментов, в ходе которых менялся
языковой множитель
 . Зависимости вероятности правильного распознавания и
количества ложных вызовов от языкового множителя приведены в таблице 2.
Сравнение полученных результатов с результатами тестирования стандартной
системы показывает, что использование процедуры оптимизации словаря заполнения
приводит к повышению точности системы выделения ключевых слов в случае, когда
  10 ,   15 , на 0.21% и в случае, когда   20 , на 1.27%.
К защите представлены следующие результаты:
 Разработан метод и алгоритм обучения длинноконтекстных моделей фонем
 Разработан метод формирования словаря заполнения, основанный на разбиении
слов языка на непересекающиеся подмножества, оптимальные с точки зрения
критерия минимума средней ошибки распознавания
 Доказана лемма о целевой функции процедуры разбиения слов языка на
непересекающиеся подмножества
 Создана программная реализация и проведены экспериментальные исследования
системы поиска ключевых слов, использующей длинноконтекстные модели фонем
 Создана программная реализация и проведены экспериментальные исследования
системы поиска слов, использующей оптимальный словарь заполнения
Основные результаты диссертации опубликованы в следующих
работах:
1. Аграновский А.В., Леднов Д.А., Репалов С.А., Зулкарнеев М.Ю. Двухслойная
модель распознавания слитной речи // Интеллектуальные и многопроцессорные
системы-2001,
Материалы
второй
международной
научно-практической
конференции, Таганрог: Изд. ТРТУ, 2001, с. 36-39.
2. Аграновский А.В., Леднов Д.А., Репалов С.А., Зулкарнеев М.Ю. Организация
иерархической модели распознавания слитной речи // Научно-теоретический
международный журнал "Искусственный интеллект", № 3, 2001, Донецк: Изд. НАН
Украины, с. 17–22.
3. Аграновский
А.В.,
Леднов
Д.А.,
Зулкарнеев
М.Ю.
Двухслойная
модель
формирования состояний для скрытых цепей Маркова // Сборник трудов XI сессии
20
РАО, 19-23 ноября 2001, Т3, Акустика речи. Медицинская и биологическая
акустика, Москва: Изд. ГЕОС, 2001, с.38-41.
4. Аграновский
А.В.,
Леднов
Д.А.,
Зулкарнеев
М.Ю.
Поэлементный
метод
распознавания слов // Материалы второй всероссийской конференции ''Теория и
практика речевых исследований'' (АРСО-2001), Москва, 2001, с. 39-41.
5. Аграновский А.В., Леднов Д.А., Сулима П.М, Зулкарнеев М.Ю. Формантное
представление речевого сигнала для решения задач обработки речи // Известия
ТРТУ, Тематический выпуск: Материалы всероссийской научно-технической
конференции с международным участием "компьютерные технологии в инженерной
и управленческой деятельности", № 2 (25), Таганрог: ТРТУ, 2002, с. 92-95.
6. Аграновский
А.В.,
Леднов
Д.А.,
Зулкарнеев
М.Ю.
Применение
скрытых
Марковских моделей в распознавании отдельных слов // Акустика речи и
прикладная лингвистика, Ежегодник Российского акустического общества, Выпуск
3, Москва, 2002, с. 31-34.
7. Аграновский А.В., Можаев О.Г., Леднов Д.А., Зулкарнеев М.Ю. Автоматическая
идентификация языка // Научно-теоретический журнал "Искусственный интеллект",
№ 4, 2002, Донецк: Изд. НАН Украины, с. 142-150.
8. Аграновский
А.В.,
Можаев
О.Г.,
Леднов
Д.А., Зулкарнеев
М.Ю. Метод
идентификации языка, основанный на фонетическом содержании сообщения //
Интеллектуальные и многопроцессорные системы-2002,
Материалы
третьей
международной научно-практической конференции, Таганрог: Изд. ТРТУ, 2002, с.
29-31.
9. Agranovsky A.V., Lednov D.A., Zulkarneyev M.Y. Statistical Approach to Creating
Phonetic Transcription // Proc of Int. Workshop "Speech&Computer", "Specom-2002",
St.Petersburg, Russia, 2-5 september 2002, pp.99-101.
10. Аграновский
А.В.,
Леднов
Д.А.,
Зулкарнеев
М.Ю.
Двухслойная
модель
формирования состояний для скрытых цепей Маркова // Акустический журнал, т.48,
4, с.560-562.
11. Аграновский
А.В.,
Леднов
Д.А.,
Телеснин
Б.А.,
Зулкарнеев
М.Ю.
Экспериментальный стенд для тестирования системы поиска ключевых слов в
непрерывном потоке русской речи// Свидетельство об официальной регистрации
программы для ЭВМ №2003611308.
21
12. Аграновский А.В., Леднов Д.А., Телеснин Б.А., Зулкарнеев М.Ю. Классификатор
аудио-файлов по языкам // Свидетельство об официальной регистрации программы
для ЭВМ №2003611311.
13. Аграновский А.В., Леднов Д.А., Зулкарнеев М.Ю. Моделирование вариативности
произношения
для
распознавания
русской
речи
//
Научно-теоретический
международный журнал «Искусственный интеллект», №3, 2003, Донецк: дон ГИИИ,
с. 388-393.
14. Аграновский А.В., Свирепо О.А., Леднов Д.А., Зулкарнеев М.Ю. Эксперименты по
моделированию
вариативности
произношения
//
Интеллектуальные
многопроцессорные системы-2003, Материалы четвертой международной научнопрактической конференции, Таганрог: Изд. ТРТУ, 2003, с. 170-172.
15. Свирепо
О.А.,
Зулкарнеев
классификации
произношения
М.Ю.
фонетических
(на
Исследование
ошибок
материале
в
русского
возможности
моделировании
языка)
//
применения
вариативности
Интеллектуальные
и
многопроцессорные системы-2003, Материалы четвертой международной научнопрактической конференции, Таганрог: Изд. ТРТУ, 2003, с. 173-175.
16. Леднов Д. А., Куликов Л. С., Зулкарнеев М.Ю. Обзор патентов в области поиска
ключевых слов, часть 1. Схемы, не использующие верификацию результатов
распознавания // Телекоммуникации, № 4, 2004 г., с. 8-13.
17. Леднов Д. А., Куликов Л. С., Зулкарнеев М.Ю. Обзор патентов в области поиска
ключевых слов, часть 2. Схемы, использующие верификацию результатов
распознавания // Телекоммуникации, № 5, 2004 г., с. 16-23.
18. Зулкарнеев М.Ю. Учет корреляции в последовательности векторов признаков,
характеризующей
системы-2005,
высказывание
Материалы
//
Интеллектуальные
шестой
международной
и
многопроцессорные
научно-практической
конференции, т.3, Таганрог: Изд. ТРТУ, с. 291-294.
19. Леднов Д.А., Репалов С.А., Зулкарнеев М.Ю. Влияние глубины учета динамики на
точность идентификации дикторов // Сборник трудов XIV международной научной
конференции
"Информатизация
и
информационная
безопасность
правоохранительных органов". Москва: Академия управления МВД России, 2005. с.
359-361.
22
20. Зулкарнеев М.Ю. Использование автоматической фонетической разметки речевой
базы для обучения системы распознавания непрерывной речи // Сборник трудов XVI
сессии РАО, Т.III, Москва: ГЕОС, 2005, с. 40-44.
21. Ivanov V.D., Potapova R.K., Zulkarneyev M.Y. A heuristic method of grapheme-tophoneme conversion // Proceedings of 10th International Conference on SPEECH and
COMPUTER "Specom2005", v. I, pp.263-264.
22. Зулкарнеев М.Ю. Представление СММ с линейными предсказателями в виде
базовых СММ для задач распознавания речи // Обозрение прикладной и
промышленной математики том 12, выпуск 4, с. 972-973.
23. Zulkarneyev M.Y. An approach to compensation for language modeling errors in the keyspotting systems // Proceedings of 9th International Conference of SPEECH and
COMPUTER "Specom2004", pp. 348-350.
24. Иванов В.Д., Зулкарнеев М.Ю. Оптимальный метод формирования словаря
заполнения для задачи распознавания ключевых слов в аудио-сообщениях //
Научно-теоретический международный журнал "Искусственный интеллект", №3,
2006, Донецк: дон ГИИИ, 2006, с. 510-520.
25. Сатуновский П.С., Зулкарнеев М.Ю. Метод построения фонетической транскрипции
слов // Интеллектуальные и многопроцессорные системы-2006, Материалы седьмой
международной научно-практической конференции, Т.2. Таганрог: Изд. ТРТУ, 2006,
с.390-393.
Тип. ООО «ФЕНИКС» Заказ № 892 от 10.11.2006 г. Тираж 100 экз.
Download