Document 3831899

advertisement
Обработка сигналов в системах телекоммуникаций
____________________________________________________________________________________________
СРАВНИТЕЛЬНАЯ ХАРАКТЕРИСТИКА БАЗИСОВ ВЕЙВЛЕТОВ ДЛЯ ПРЕДСТАВЛЕНИЯ
РЕЧЕВЫХ СИГНАЛОВ
Жарких А.А., Юрко А.С.
ФГОУВПО «Мурманский государственный технический университет»
Введение
В современных системах распознавания речи можно выделить два этапа: это этап обучения системы и
некоторый этап распознавания. Оба этапа работают, как правило, в условиях ограниченных ресурсов.
Поэтому на этапе обучения необходимо создать банк эталонов относительно небольшого размера,
обладающий гибкой системой адресации.
Для формирования банка копий речевых сигналов необходимо выбрать такой базис представления
речевых сигналов, который позволял бы, с одной стороны, хранить небольшое количество коэффициентов, а
с другой стороны – обладал бы простым алгоритмом перехода от одного набора векторов базиса к другому.
С точки зрения правильной передачи физических свойств речевого сигнала разумно выбирать такие
базисы, которые выделяют как частотную составляющую сигнала, так и временную локализацию частотной
составляющей. Указанным требованиям к базису удовлетворяют базисы вейвлетов.
Предположим, что сигнал записан с интервалом дискретизации t D . Согласно теореме Котельникова
любой сигнала с неограниченным спектром может быть представлен с некоторыми потерями как сигнал с
ограниченным спектром. При этом относительная ошибка аппроксимации определяется отношением нормы
расхождения между сигналом и его моделью с ограниченным спектром к норме сигнала. Другим словами,
рассматривается, насколько точно представляет сигнал базис Котельникова при выбранном фиксированном
значении t D .
В данной работе исследуется зависимость относительной ошибки аппроксимации от верхней частоты
спектра, нормированной на величину масштаба, для двух типов сигналов: вейвлет-функции Хаара и
вейвлета «Мексиканская шляпа».
Вейвлет-преобразование сигналов
Последние 20 лет в теории и практике обработки сигналов активно используется вейвлетпреобразование. В общетеоретическом плане это преобразование означает представление сигнала в виде
обобщенного ряда или интеграла Фурье. Коэффициенты такого ряда являются обобщенными амплитудами
некоторых колебаний.
Вейвлеты позволяют выделять одновременно как низкочастотные характеристики сигнала, так и
высокочастотные составляющие. Это свойство является существенным преимуществом в задачах обработки
речевых сигналов по сравнению с оконным преобразованием Фурье, где, варьируя ширину окна, приходится
выбирать масштаб, на котором требуется выделять особенности в сигнале.
Результатом вейвлет-преобразования одномерного ряда является двумерный массив амплитуд вейвлетпреобразования. Распределение этих значений в пространстве «временной масштаб» – «временная
локализация» дает информацию об эволюции относительного вклада компонент разного масштаба во
времени и называется спектром коэффициентов вейвлет-преобразования или вейвлет-спектром [1].
Вейвлет Хаара
Дискретным вейвлет-преобразованием называют представление сигналов в виде обобщенного ряда
Фурье по системе базисных функций, возникающих из некоторого исходного вейвлета  t за счет
операций сдвига во времени и изменения временного масштаба [2].
Рассмотрим случай, когда порождающим элементом базиса служит вейвлет Хаара. Вейвлет-функция Хаара

существует на отрезке [0;1] и принимает здесь одно из двух возможных значений:
1

 1, 0  t  2
 t   
1
 1,
 t 1
2

Рассмотрим преобразование Фурье вейвлет-функции Хаара. Так как преобразование Фурье сигнала
S   

 st e
 jt
dt , (2),
(1)
st  :
то преобразование Фурье вейвлет-функции Хаара имеет вид:

____________________________________________________________________________________________
Цифровая обработка сигналов и ее применение
143
Digital signal processing and its applications
Обработка сигналов в системах телекоммуникаций
____________________________________________________________________________________________
1/ 2
S H     e
 jt
1
dt   e
0
функции 
ab
 jt
dt 

2 je0,5 j  j 1  e  j

1/ 2
t  

1

 
 j  4  sin 2  
4,

  W ab  d  E ab
U
W ab    S ab  
 ab
2
2
а преобразование Фурье
(3),

a
t b :
 jb

 S a   e  jb 

 S ab    S a 0    e
a  a 
a
и энергия сигнала E  
 ab
ab
2
 j 0, 5
1
Если энергетический спектр сигнала
sош
 e
 a 
e  j 0,5a  j  4  sin 2 

 4   e  jb .
a
a 
 a 
16  sin 4 

 4  , a 0,

a  2
(5)
2
ba 
 1 

 dt 
  1  dt  1 ,
(6),
то по теореме Рэлея [2]:
  

 a 


a
b
ba / 2




U

 1n  aU 2n3  1  1  .
1
2
(7)
   W ab  d  1   


 0
 n0 2n  4!2n  3  2 2 n2 
ba / 2
2
Тогда относительная ошибка аппроксимации в контексте разложения вейвлета Хаара
Котельникова описывается выражением:  
 2fU 
sош

U
(8)
На графиках
(4)
E ab
 1
2

 ab
в ряд
 1n  aU 2 n3  1  1  .


2 2 n2 
n  0 2n  4 !2n  3 


lg  U  показана зависимость ошибки аппроксимации от верхней частоты
фильтра fU  k / a , a  0 , a  const , k  0,, U  2f U
и
Рис. 1. Ошибка аппроксимации для вейвлета Хаара.
Вейвлет «Мексиканская шляпа»
Наряду с разрывными функциями, подобными вейвлетам Хаарам, можно пользоваться и непрерывными
вейвлетами, построив на их основе полные аналоги преобразований Фурье [2]. Примером такой функции
 t   t  1 e
2
может служить вейвлет «сомбреро» (мексиканская шляпа):
второй производной гауссова импульса g t   e
t2

2

Фурье гауссова импульса имеет вид: S G   
e
t2
2
,
(9) являющийся
.

Рассмотрим преобразование Фурье вейвлет-функции  t   t  1  e


t2

2
2
 e  jt dt  2 e


t2
2
. Известно, что преобразование
2
2
.
(10)

Так как вейвлет «сомбреро» – это вторая производная гауссова импульса, а G     j n S   , где
st  и g t  
– спектральная плотность сигнала
имеет вид: S     j  S G    2   j   e
2
2

d ns
, то преобразование Фурье вейвлета «сомбреро»
dt n
2
2
.
(11).
Найдем преобразование Фурье функции

 
 t  b  . Так как  t   1   t   1    t   1  e 2 a 2 , а спектральная плотность


a0


a a
a  a 
a  a 

2
 ab t  
S  
t2
1
 a 
skt  , есть 1 S    , то S    a  S a   a  2   ja 2  e  2 .
2
сигнала
k
k
a0
a
____________________________________________________________________________________________
Доклады 9-й Международной конференции
Proceedings of the 9-th International Conference
144
Обработка сигналов в системах телекоммуникаций
____________________________________________________________________________________________
2
t  b 
Так как  t   1   t  b     t  b   1  e  2 a 2 , а спектральная плотность сигнала, смещенного во
ab

a  a    a 

2
времени
st  t 0  , есть S    e
 jt0
, то S    S    e
ab
a0
Если энергетический спектр сигнала
то s
ош
2

1


  W ab  d 
U
 ab

 jb

a  2   ja   e
2

a 2
2
 e  jb .
W ab    S ab    2  a 5   4  e a  , a  0 ,
2
2
2

a  U  e  a   2  a 2  U2  3 3 

 erfca  U  .
2
4
2
2
(12)
(13)
(14)
2
2
t b 2 

 
Энергия сигнала при этом равна: E   2 dt   1    t  b   1  e  2 a 2  dt  3  .
(15)
 ab
 ab  a   a  

4




Тогда относительная ошибка аппроксимации в контексте разложения вейвлета «Мексиканская шляпа»
 ab в ряд Котельникова описывается выражением:
 U  
sош
E ab
4  a  U  e a 
2

3 
2
3

2
  a  U     erfca  U  .
2

 2fU 
(16)
lg  U  показана зависимость ошибки
аппроксимации от верхней частоты фильтра fU  k / a , a  0 , a  const , k  0,, U  2f U :
Как и в случае с вейвлетами Хаара на графиках
и
Рис. 2. Ошибка аппроксимации для вейвлета «Мексиканская шляпа».
Заключение
По результатам моделирования можно сделать вывод, что вейвлет Хаара плохо представляет сигнал с
ограниченным спектром такого же масштаба. Даже в случае, когда частота равна пяти единицам частотного
масштаба, величина ошибки аппроксимации примерно равна 25%. В отличие от этого для вейвлета
«Мексиканская шляпа» ошибка аппроксимации спадает очень быстро и при частоте, равной уже трем
75
единицам частотного масштаба, имеет значение порядка 10 .
Литература
1. Астафьева Н.В. Вейвлет-анализ: основы теории и примеры применения // Успехи физических наук, 1996.
Т.166, №11. С. 1145 - 1170.
2. Баскаков С.И. Радиотехнические цепи и сигналы. М.: Высш. шк., 2000. 462 с.
3. Воробьев В.И., Грибунин В.Г. Теория и практика вейвлет-преобразования. СПб.: Изд-во ВУС,1999. 180с.
4. Столниц Э., ДеРоуз Т., Салезин Д. Вейвлеты в компьютерной графике. Ижевск: НИЦ «Регулярная и
хаотическая динамика», 2002. 272 с.
5. Яковлев А.Н. Основы вейвлет-преобразования сигналов. М.: Сайнс-пресс, 2003. 79 с.

COMPARATIVE CHARACTERISTIC OF WAVELET BASES FOR SPEECH SIGNAL
REPRESENTATION
Zharkikh A., Yurko A.
Murmansk State Technical University
The continuous analog signal is sampled using an analog-to-digital converter in the modern systems of speech
signal recognition. The set of values of sampled signal can be represented as an array of binary numbers with
bounded bit capacity. The quantity of bits of each number is determined by quantification method of speech signal
and the quantity of elements in the array is determined by time duration of utterance and by sampling interval that is
used in ADC. The sampling interval is selected as t D  1  1 (on the base of Kotelnikov theorem). As a rule
f D 2 fU
the data array is processed with using of hardware and software. Consequently,
f U is selected greater then real up-
____________________________________________________________________________________________
Цифровая обработка сигналов и ее применение
145
Digital signal processing and its applications
Обработка сигналов в системах телекоммуникаций
____________________________________________________________________________________________
per frequency in the signal spectrum to reduce influence of computational errors on reproduction quality of processed file.
The process of speech signal recognition can be divided into two main stages: the training stage and the stage of
recognition. Both stages work in conditions of scarce resources. Therefore it is necessary to create a bank of small
models with flexible addressing system in the training stage.
It is necessary to choose the basis of speech signal representation before creating a bank of models of speech
signal images. On the one hand this basis has to keep elements. On the other hand this basis has to have a simple
algorithm of transfer from one set of basis vectors to another.
It is reasonable to choose bases that extract frequency components of signal and time localization of frequency
component. These conditions are satisfied by wavelet bases. The most simple and well known wavelet basis is Haar
basis. The basis of Haar wavelets has remarkable property to create simple algorithms of low-frequency and highfrequency filtration. Such property is used in systems of speech signal recognition when the bank of utterances is
created.
It is supposed that sampling interval of signal is t D . According the Kotelnikov theorem any signal with infinitive spectrum can be represented as signal with finite spectrum and some errors. The relative approximation error is
defined by ratio of norm of difference between signal and its model with finite spectrum to norm of signal. In other
words, approximation error characterizes how directly the Kotelnikov basis represents a signal when the value of
t D is fixed.
We investigate a dependence of such approximation error for Haar wavelet and wavelet «Sombrero» from upper
spectrum frequency that is normalized on the scale value.
Simulated results show that Haar wavelet represents signal with finite spectrum of the same scale poorly. When
frequency is equal to five units of frequency scale the value of approximation error is equal to 25%. In contrast to
Haar wavelet the approximation error for «Sombrero» wavelet is reduced very fast and when the frequency is equal
to three units of frequency scale the order of approximations error is equal to 10
75
.

ПРИМЕНЕНИЕ СОГЛАСОВАННЫХ ОДНОМЕРНЫХ ВЕЙВЛЕТ-ФИЛЬТРОВ В ЗАДАЧЕ
РАСПОЗНАВАНИЯ РЕЧЕВЫХ СИГНАЛОВ
Новоселов С.А.
Ярославский государственный университет им. П.Г. Демидова
150000, Россия, Ярославль, ул. Советская, 14
Тел. (0852) 79-77-75. E-mail: dcslab@uniyar.ac.ru
По мере развития компьютерных систем становится все более очевидным, что использование этих
систем намного расширится, если станет возможным использование человеческой речи при работе
непосредственно с компьютером, и в частности станет возможным управление машиной обычным голосом в
реальном времени, а также ввод и вывод информации в виде обычной человеческой речи.
Существующие технологии распознавания речи не имеют пока достаточных возможностей для их
широкого применения, но на данном этапе исследований проводится интенсивный поиск путей
использования коротких многозначных процедур для облегчения понимания.
Одним из основных подходов, используемых при построении речевых распознавателей, является подход,
основанный на обработке акустических сигналов. Он опирается на следующее положение. Поскольку
речевой сигнал является особой формой сигнала (или вектором чисел), то к нему применимы общие методы
обработки (например, анализ частотного спектра Фурье, анализ основных составляющих, процедуры
статистических решений и другие математические методы). Эти методы используются для того, чтобы
установить идентичность входного сигнала одному из шаблонов.
Многие методы математической обработки сигналов (кепстральный анализ, скрытое марковское
моделирование) для получения описательных признаков речи используют в основе частотный анализ Фурье.
Однако преобразование Фурье обладает рядом существенных недостатков:
1. Преобразование Фурье плохо работает при изменении параметров процесса со временем
(нестационарности), поскольку дает усредненные коэффициенты для всего исследуемого образца.
2. Речевой сигнал является примером нестационарного процесса, в котором информативным является
сам факт изменения его частотно-временных характеристик.
____________________________________________________________________________________________
Доклады 9-й Международной конференции
Proceedings of the 9-th International Conference
146
Обработка сигналов в системах телекоммуникаций
____________________________________________________________________________________________
Для выполнения анализа таких процессов требуются базисные функции, обладающие способностью
выявлять в анализируемом сигнале как частотные, так и его временные характеристики. Другими словами,
сами функции должны обладать свойствами частотно-временной локализации.
Здесь уместно применить такой математический метод, как вейвлет-преобразование [1, 2].
Вейвлет-анализ является на сегодняшний день одной из самых перспективных технологий анализа
данных, его инструменты находят применение в самых различных сферах деятельности.
Вейвлет-анализ [3, 4] – это методика исследования сигнала s (t ) при помощи базисных функций.
Применяемые для этой цели базисы были названы вейвлетами – функциями двух аргументов – масштаба и
сдвига:  :  ( t  b ) . В отличие от традиционного преобразования Фурье, вейвлет-преобразование
a ,b
a
обеспечивает двумерное представление исследуемого сигнала в частотной области (в плоскости частотаположение). Аналогом частоты при этом является масштаб a аргумента базисной функции, а положение
характеризуется ее сдвигом b . Это позволяет разделять крупные и мелкие особенности сигналов,
одновременно локализуя их на временной шкале. Иными словами, вейвлет-анализ можно охарактеризовать
как спектральный анализ локальных возмущений.
Идея дискретного вейвлет-анализа состоит в представлении сигнала последовательностью образов с
разной степенью детализации (многомасштабный анализ), что позволяет выявлять локальные особенности
сигнала и классифицировать их по интенсивности. Как показано на схеме рис.1, дискретное вейвлетпреобразование осуществляется с использованием цифровых вейвлет-фильтров (ВФ) H , G и блоков
децимации.
Рис. 1. Одноуровневое вейвлет-разложение
Таким образом, многомасштабный вейвлет-анализ сводится к нахождению коэффициентов
аппроксимации a j n  и детализирующих коэффициентов d j n  в разложении сигнала S j n  .
Для реализации ортогонального дискретного вейвлет-преобразования необходимо, чтобы амплитудночастотная характеристика ВФ H ( j ) удовлетворяла следующим условиям:
Таблица № 1
№
Наименование
Математическое представление
1
Положительность АЧХ
H ( j )  0
2
Ортогональность
H ( j )  H ( j (   ))  2
3
Гладкость 0-го порядка
H ( j)    0
2
2
В процессе теоретического анализа в области вейвлет-преобразования, было получено выражение,
позволяющее выполнять расчет АЧХ ВФ, который обеспечивает полное восстановление сигнала после
процедуры одноуровневого вейвлет-разложения, используя только низкочастотные компоненты
разложения.
Пусть S k - исходный сигнал, длиной N отсчетов, а F ( j ) - его Фурье-спектр. Тогда АЧХ и ФЧХ ВФ
со свойством полного восстановления определяется формулами: H 2 ( ) 
arg( H ( j ))  
2 F 2 ( )
,
F (   )  F 2 ( )
(1)
2
(arg( F ( j ))  arg( F ( j (   )))   ( )) N .

2
2
(2)
Такие фильтры называют одномерными согласованными ВФ [5]. Видно, что данный фильтр
удовлетворяет условиям 1-3 таблицы №1.
Под термином одномерный оптимизированный согласованный ВФ
понимается ВФ, квадрат АЧХ которого удовлетворяет условию: lim
M N
H
2
H ( j ) порядка M  N
2
( )  H ( ) d  0 .
Далее одномерный оптимизированный согласованный вейвлет-фильтр мы будем называть просто
согласованным ВФ (СВФ). Ниже приводится схема работы СВФ рассчитанного для сигнала S j n  :
____________________________________________________________________________________________
Цифровая обработка сигналов и ее применение
147
Digital signal processing and its applications
Обработка сигналов в системах телекоммуникаций
____________________________________________________________________________________________
Рис. 2. Согласованный вейвлет-фильтр
В данной работе для решения задачи распознавания речи [6] предлагается использование согласованных
одномерных вейвлет-фильтров. Основная особенность данных фильтров в том, что их импульсная
характеристика формируется с учетом характеристик обрабатываемого сигнала. Информация о сигнале как
бы закладывается в сам фильтр.
Рис. 3. Алгоритм распознавания речевых сигналов
Используя свойство согласованности СВФ с обрабатываемыми сигналами, в работе предложено
синтезировать отдельный фильтр для каждой фонемы и образовать блок фонемных СВФ. Обрабатывая
речевой сигнал данными фильтрами, можно определить наличие тех или иных фонем в исходном сигнале
путем простого сравнения энергии детализирующих вейвлет-коэффициентов на выходе фильтров.
Рассмотрим предложенный алгоритм пофонемного распознавания речевого сигнала, структурная схема
которого представлена на рис. 3:
1. Исходный речевой сигнал сегментируется на фонемы;
2. Каждая фонема поступает на вход системы фонемных СВФ, в которой происходит вычисление
детализирующих коэффициентов;
3. Для каждого СВФ вычисляется энергия вейвлет-коэффициентов на его выходе;
4. Блок сравнения находит минимальную энергию и выдает номер фильтра соответствующий этому
минимуму;
5. По номеру фильтра происходит идентификация фонемы.
Для проверки эффективности работы алгоритма был рассчитан блок СВФ следующих фонем: «а», «о»,
«у», «д», «л», «м».
Эксперименты велись как по распознаванию отдельных фонем, так и фонем в составе слов (слитная
речь). Результаты исследований приведены в таблице №2.
Таблица №2
Фонема
Вероятность верного распознавания
отдельно произнесенной
«а»
«о»
«у»
«д»
«л»
«м»
0,98
0,97
0,98
0,95
0,94
0,94
Вероятность верного
распознавания в слитной речи
0,89
0,85
0,86
0,81
0,80
0,83
Средняя вероятность
распознавания
0,93
0,91
0,92
0,88
0,87
0,88
Исследования данного алгоритма распознавания носили лишь предварительный характер. В частности, в
работе не были использованы аппроксимирующие коэффициенты вейвлет-преобразования и выбран
наиболее простой критерий распознавания – энергия детализирующих коэффициентов. Предварительные
результаты, описанные в этой статье дают основания полагать, что вейвлет-анализ речевого сигнала может
быть с успехом использован для построения систем распознавания изолированной и слитной речи. Так же
проведенные исследования показывают, что применение согласованных вейвлет-фильтров в задаче
распознавания речи может быть очень эффективным. Дальнейшая работа в этой области будет направлена
на усовершенствование и модернизацию метода путем использования адаптивной вейвлет-фильтрации и на
поиск новых критериев распознавания речи с помощью СВФ.
____________________________________________________________________________________________
Доклады 9-й Международной конференции
Proceedings of the 9-th International Conference
148
Обработка сигналов в системах телекоммуникаций
____________________________________________________________________________________________
Литература
1. Воробьев В.И., Грибунин В.Г. Теория и практика вейвлет-преобразования. – СПб.: ВУС, 1999.
2. Daubechies I. Ten Lectures on Wavelets. SIAM, Philadelphia, PA, 1992.
3. Chui C.K., editor. An Introduction to Wavelets. Academic Press, New York, 1992.
4. Блаттер К. Вейвлет анализ. Основы теории. М.: Техносфера, 2004. 280 c.
5. Кобелев В.Ю., Приоров А.Л. Применение неразделимых вейвлет-фильтров в задачах сжатия
изображений // Цифровая обработка сигналов. 2006. №2. С. 21-26.
6. Леонович А.А. Модуль распознавания речи в системе MATLAB. // Труды Второй Всероссийской
научной конференции «Проектирование инженерных и научных приложений в среде MATLAB».— М.:
ИПУ РАН, 2004.

APPLICATION OF THE COORDINATED ONE-DIMENSIONAL WAVELET FILTERS IN A PROBLEM
OF SPEECH RECOGNITION
Novosyelov S.
Yaroslavl State University
14 Sovetskaya st., Yaroslavl, Russia 150000. Phone: 7-4852-797775. E-mail: dcslab@uniyar.ac.ru
In process of development of computer systems it is more and more obvious that use of these systems will much
more extend if we can use human speech at work direct deal with a computer. It will be possible to operate machine
with using usual voice in real time and also to enter and to deduce the information as usual human speech.
Existing technologies of speech recognition have no sufficient opportunities for their wide use yet, but at the
given stage of researches intensive search of opportunities of the use of short multiple-valued procedures for simplification of understanding is carried out.
The speech signal is an example of non-stationary process in which the fact of change of its time-and-frequency
characteristics is informative. To the analysis of speech signals pertinently to apply such mathematical method as
wavelet – transformation [1].
In view of recent theoretical researches in the branch of wavelet –analysis [2], the expression was received, allowing to carry out calculation of the amplitude and - frequency characteristics of wavelet -filter (WF) which provides full restoration of a signal after procedure of single-level wavelet - decomposition, using only low-frequency
components of decomposition.
Let S k - an initial signal, length N of readout, and F ( j ) - its Furier-spectrum. Then amplitude – and – frequency H ( j ) and phase – and – frequency arg( H ( j )) characteristics of wavelet -filter with property of full
restoration is defined by formulas: 2
, arg( H ( j ))   (arg( F ( j ))  arg( F ( j (   )))   ( ))  N .
2 F 2 ( )
H ( ) 
F 2 (   )  F 2 ( )
2
2
Such filters is named one-dimensional coordinated WF (CWF).
In the given work for the solving of a problem of speech recognition we offer to use the coordinated onedimensional wavelet filters which the basic feature is that their pulse characteristic is formed in view of characteristics of a processable signal. The information on a signal is as though pawned in the filter.
Using property of coordination СWF with processable signals, we have suggested to synthesize the separate filter for each phoneme and to form the block of СWF of phonemes. Processing a speech signal the given filters, it is
possible to define presence of those or other phonemes in an initial signal by simple comparison of energy of detail
wavelet coefitients on an output of filters.
We had developed the algorithm of speech signals recognition with use of the block CWF. Experiments were
conducted as on recognition of separate phonemes and phonemes in structure of words (conjoint speech).
Preliminary results allow the basis to believe that application of the coordinated wavelet - filters in a problem of
speech recognition is very effective.
References
1. Daubechies I. Ten Lectures on Wavelets. SIAM, Philadelphia, PA, 1992.
2. Chui C.K., editor. An Introduction to Wavelets. Academic Press, New York, 1992.

____________________________________________________________________________________________
Цифровая обработка сигналов и ее применение
149
Digital signal processing and its applications
Download