ФУРЬЕ И ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ В ПРОБЛЕМЕ РАСПОЗНАВАНИЯ РЕЧИ А.П. Зубаков

advertisement
ISSN 1810-0198 Вестник ТГУ, т.15, вып.6, 2010
УДК 519.95
ФУРЬЕ И ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ
В ПРОБЛЕМЕ РАСПОЗНАВАНИЯ РЕЧИ
© А.П. Зубаков
Ключевые слова: Фурье-преобразования; вейвлет-преобразования; речь.
Проведено сравнительное рассмотрение двух классов преобразований функций и сигналов
средствами компьютерной математики Фурье и вейвлет-преобразований. Показано, что, несмотря на разработки новейших методов Фурье-преобразований (дискретного FFT, оконного и др.), ряд недостатков таких преобразований устраняется применением новейших методов вейвлет-преобразований.
Итак, затронем вновь тему распознавания речи. Для осуществления «анализа сигнала» (мы
работаем с особым видом сигнала, который воспроизводится определенной биологической
системой – человеком) можно достаточно точно определить характеристики сигнала речи и его
основные свойства. С другой стороны, для этого сигнала природой уже разработан приемник,
близкий к идеальному. Это наш слуховой тракт. Пока что не изобретено и не найдено ни одной
другой системы, которая могла бы так же точно и качественно заниматься распознаванием речи.
Голосовой сигнал создается с помощью воздушных волн, испускающихся ртом и носовыми отверстиями говорящего. В большинстве языков мира состав фонем можно разделить на два
основных класса:
1) согласные – произносятся при наличии сжатия горла или препятствий в ротовой полости
(языка, зубов, губ) говорящего;
2) гласные – произносятся при отсутствии каких-либо препятствий в речевом тракте.
В дальнейшем, на основании различных артикулярных свойств, звуки могут быть классифицированы на более мелкие классы. Существенный вклад в речеобразование вносят легкие,
трахея, гортань, полость глотки (горло), ротовая и носовая полость.
РЕЧЕВОЙ ТРАКТ [1]
Легкие – это источник воздуха в процессе речи.
Голосовые связки: когда голосовые связки находятся на маленьком расстоянии друг от
друга и колеблются друг относительно друга в процессе речи, говорят, что звук – вокализованный. Если же связки не колеблются, то говорят, что звук – невокализованный.
Мягкое нёбо: работает как заслонка, которая открывает проход воздуху в носовую полость.
Твердое нёбо: длинная, относительно твердая поверхность верхней стенки ротовой полости, в сочетании с языком позволяет произносить согласные звуки.
Язык: гибкий артикулятор. При отдалении от нёба позволяет произносить гласные звуки,
при приближении к нёбу – согласные.
Зубы: в сочетании с языком используются при произношении некоторых согласных звуков.
Губы: могут округляться или растягиваться, изменяя звучание гласных звуков, либо смыкаться для остановки воздушного потока при произношении некоторых согласных звуков.
1893
ISSN 1810-0198 Вестник ТГУ, т.15, вып.6, 2010
Основным различием между звуками является их разграничение на вокализованные и невокализованные звуки.
Вокализованные звуки в своей частотной и временной структуре имеют квазипериодическую составляющую. Она вносится, когда при произношении звука участвуют голосовые связки, вибрирующие с различной частотой (от 60 Гц у взрослого мужчины до 300 Гц или выше у
девушки или ребенка). Частота вибрации голосовых связок называется основной частотой звука, т. к. она является базовой частотой для остальных высокочастотных гармоник, создаваемых
в гортанной и ротовой полости. Так же основная частота больше чем какой-либо другой фактор влияет на основной тон речи.
В какой-то момент давление воздуха перед голосовыми связками преодолевает барьер, и
воздух вырывается наружу через голосовую щель. Тем не менее ткани и мускулы голосовых
связок, благодаря природной эластичности, возвращаются в исходное состояние, закрывая голосовую щель. Таким образом создается последовательность звуковых колебаний, которая является источником энергии для всех вокализованных звуков.
При произношении невокализованных звуков голосовые связки либо расслаблены, либо
сильно напряжены, вследствие чего не производят звуковых колебаний. Воздух свободно проходит из легких в ротовую и/или носовую полость речевого тракта. В результате взаимодействия воздуха с различными артикуляторами происходит преобразование воздушного потока, что
приводит к произношению того или иного звука.
Проблема при распознавании речи возникает, когда слово начинается или заканчивается
невокализованным звуком.
СЛУХОВОЙ ТРАКТ [1]
В системе восприятия речи есть 2 основных составляющих части: внешние слуховые органы и слуховой отдел мозга. Ухо обрабатывает сигнал, который несет в себе звуковая волна,
путем преобразования его в механическую вибрацию барабанной перепонки и последующего
отображения этой вибрации в последовательности импульсов, передаваемых слуховым нервом.
Полезная информация извлекается в различных участках слухового отдела мозга человека.
Ухо человека состоит из 3-х отделов: наружное ухо, средне ухо и внутреннее ухо. Наружное ухо состоит из видимой части и внешнего слухового канала, который завершается барабанной перепонкой. Звук, проходя по внешнему звуковому каналу, воздействует на барабанную перепонку, и она вибрирует.
Рис. 1. Слуховой тракт
Рис. 2. Мембрана улитки
Среднее ухо – это воздушная область объемом примерно 6 см3. Вибрации барабанной перепонки передаются системой звуковых косточек (молоточек, наковальня и стремя) в мембрану, которая называется «овальное окно». Это интерфейс между средним ухом и внутренним
ухом (улиткой), т. к. остальная поверхность внутреннего уха состоит из костной ткани. Смысл
1894
ISSN 1810-0198 Вестник ТГУ, т.15, вып.6, 2010
наличия среднего уха в том, что колебания воздуха слишком слабы, чтобы напрямую колебать
жидкость, и среднее ухо вместе с барабанной перепонкой и перепонкой внутреннего уха составляют гидравлический усилитель – площадь барабанной перепонки во много раз больше
перепонки внутреннего уха, поэтому давление (которое равно F/S) усиливается в десятки раз.
УЛИТКА
Важной для восприятия звука структурой внутреннего уха является улитка, которая сообщается непосредственно со слуховым нервом. Продольная мембрана разделяет спираль улитки
на две заполненных жидкостью части. Во внутреннем ухе по всей его длине натянута некая напоминающая струну вытянутая мембрана, жесткая к началу уха и мягкая к концу. Определенный участок этой мембраны колеблется в своём диапазоне, низкие частоты – в мягком участке
ближе к концу, самые высокие – в самом начале. Вдоль этой мембраны расположены нервы,
которые воспринимают колебания и передают их в мозг, используя два принципа.
Первый – ударный принцип. Поскольку нервы еще способны передавать колебания (бинарные импульсы) с частотой до 400–450 Гц, именно этот принцип используется в области
низкочастотного слуха. Ударный принцип немного расширяется примерно до 4 кГц с помощью
особенной конструкции – несколько (до десяти) нервов ударяют в разных фазах, складывая
свою пропускную способность. Этот способ хорош тем, что мозг воспринимает информацию
более полно. Этот принцип продлен на самую важную для нас часть – спектр человеческого
голоса.
Второй принцип – местоположение возбуждаемого нерва, применяется для звуков более 4 кГц.
Таким образом, в области высоких частот мы имеем чисто спектральный слух не очень высокого разрешения, а для частот, близких к человеческому голосу, более полный, основанный
не только на разделении спектра, а еще и на дополнительном анализе информации самим мозгом, давая более полную акустическую стерео-картину.
Таким образом, человек обладает электромеханической системой регистрации звуковых
колебаний, конструкция которой обусловливает особенности звуковосприятия.
Основное восприятие звука происходит в диапазоне 1–4 кГц, в этом же диапазоне заключен человеческий голос (также звуки, издаваемые большинством важных нам процессов в природе).
Из теории музыки и практики наблюдений за способностью человека различать звуки различной частоты известно, что диапазон от 16 Гц до 20 кГц является предельно различимым для
человеческого уха. При этом звуки кратных частот (Ля – 27,5 Гц, 55 Гц, 110 Гц и т. д.) звучат в
«унисон» – одинаково. Это понятно. Возбудив колебания в струне любой из этих кратных частот, мы обнаружим собственные кратные механические колебания струны, которые при помощи нервных рецепторов передадут эту информацию через слуховой нерв в мозг. В теории музыки это явление известно как октавы (субконтроктава, контроктава, большая октава, малая
октава, первая октава, вторая октава и т. д.). Считается, что человек способен различить до десяти октав. В пределах любой октавы человек способен различить 12 нот – это отличимые по
частоте звуки (полутоны). Частота f1 выше частоты f2 на октаву тогда и только тогда, когда f1 =
2f2. В одной октаве 12 полутонов.
Классическим подходом для цифровой обработки звука является преобразование амплитудно-временной зависимости в частотный вид. И первое, что приходит в голову, – это преобразование Фурье. Действительно, мы знаем, что любой сигнал f(t) можно преобразовать в F(ω)
c помощью прямого преобразования Фурье [2]:
∞
F (ω) =
∫ f (t )e
− iω t
dt
(1)
−∞
и обратного преобразования Фурье:
1895
ISSN 1810-0198 Вестник ТГУ, т.15, вып.6, 2010
f (t ) =
1
2π
∞
∫ F (ω)e
− iωt
dω .
(2)
−∞
Теоретически ряд Фурье имеет бесконечное число членов (гармоник), но на практике оно
всегда конечно. Поэтому ряд (2) записывается как приближенный:
f (t ) ≈
N
∑ Ck eitk .
(3)
k =0
Ряд Фурье использует в качестве базисных функций синусы и косинусы, представленные
комплексной экспонентой:
eitk = cos(tk ) + i sin(tk ) .
(4)
Коэффициенты Фурье Ck – комплексные числа, вычисляются как:
Сk =
1
2π
2π
∫ y (t )e
− itk
dt .
(5)
0
Число k – номер гармоники (0, 1, 2, ...). Гармоники, представляющие собой синусоиды с
разной частотой, кратной частоте первой гармоники, и разной фазой, образуются умножением
Сk на eitk.
Для существенного ускорения процесса разработан алгоритм быстрого преобразования
Фурье, БПФ, или по-английски FFT. FFT работает с комплексными числами и размерами преобразований, представляющими степень двойки (2, 4, ..., 1024, 2048 и т. д.). Не стоит, однако,
думать, что FFT – это что-то другое, нежели разложение Фурье. Это то же самое, но в сотни раз
быстрее. Комплексные коэффициенты – это коэффициенты перед cos(tk), а действительные –
перед sin(tk). В большинстве современных алгоритмов обработки сигналов применяется FFT,
поэтому это название прочно закрепилось за всеми алгоритмами, которые раскладывают сигнал на частоты.
Однако, несмотря на популярность преобразования Фурье для частотного представления
сигнала, необходимо понимать, что FFT раскладывает функцию y(t) не на ее гармоники, а на
свои гармоники. И уж во всяком случае не на те колебания мембраны внутреннего уха, которые мы ощущаем своим органом слуха.
В ряде работ [2–7] были показаны фундаментальные ограничения Фурье-анализа для представления нестационарных сигналов. Эти серьезные ограничения были преодолены за счет
применения специального аппарата представления произвольных сигналов – вейвлетпреобразований.
Технология вейвлетов базируется на обобщенном представлении сигналов y(t), или функций f(x), в векторном пространстве в виде взвешенной суммы базисных функций Ψk(t), умноженных на коэффициенты Сk.
Термин wavelet, введенный впервые Морле (J. Morlet), означает буквально «короткая волна». Временной образ вейвлетов определяется psi-функцией времени ψ(t). Частотный образ определяется выражением:
∞
F (ω) =
)
∫ ψ(t )e
−∞
1896
− iω t
dt .
(6)
ISSN 1810-0198 Вестник ТГУ, т.15, вып.6, 2010
В основе вейвлет-преобразования лежит использование двух непрерывных интегрируемых
по всей оси t функций:
∞
−
вейвлет-функция psi ψ(t) cо свойством
∫ ψ(t )dt = 0 ;
−∞
∞
−
масштабирующая функция phi φ(t) cо свойством
∫ ϕ(t )dt = 1 .
−∞
На рис. 3, 4 показан пример построения вейвлета типа «мексиканская шляпа» – функция
mhat(t) в среде MathCad, для которого существует аналитическое выражение, как вторая производная от «гауссиана» [4, 5].
Рис. 3. Временной образ вейвлета «мексиканская
шляпа»
Рис. 4. Частотный образ вейвлета «мексиканская
шляпа»
Phi-функция φ(t) присуща не всем вейвлетам, а только тем, которые относятся к ортогональным. Psi-функции создаются на основе базисной функции ψ0(t), определяющей тип вейвлета, которая должна иметь свойства масштабирования и смещения во времени:
ψ(t ) ≡ ψ (a, b, t ) =
1
⎛t −b⎞
ψ0 ⎜
⎟.
a ⎝ a ⎠
(7)
Параметр a задает ширину вейвлета, а b – его положение.
Прямое непрерывное вейвлет-преобразование (ПНВП) сигнала y(t) задается вычислением
вейвлет-коэффициентов по формуле:
1897
ISSN 1810-0198 Вестник ТГУ, т.15, вып.6, 2010
∞
C ( a, b) =
∫ y (t )
−∞
1
⎛t −b⎞
ψ0 ⎜
⎟dt .
a ⎝ a ⎠
(8)
ПНВП используется для построения вейвлет-спектрограмм сигналов y(t). Вейвлет-спектрограмма отображает в плоскости масштаб-время значения вейвлет-коэффициентов.
На рис. 5, 6 представлено прямое непрерывное вейвлет-преобразование для функции синуса в кубе. Данная функция имеет ряд особенностей, а именно переходы производной через
ноль в моменты экстремума функции и отчетливые изменения структуры коэффициентов во
временной области при переходе функции через ноль. Способность вейвлет-спектрограмм обнаруживать артефакты сигналов выгодно отличает данную технологию от других методов
спектрального анализа.
Рис. 5. Построение ПНВП спектрограммы s(t)
Рис. 6. Спектрограмма функции s(t)
1898
ISSN 1810-0198 Вестник ТГУ, т.15, вып.6, 2010
Обратное непрерывное вейвлет-преобразование осуществляется по формуле реконструкции во временной области:
y (t ) =
1
Kφ
∫ ∫ C ( a, b)
R+ R
⎛ t − b ⎞ dadb
ψ⎜
.
⎟
a ⎝ a ⎠ a2
1
(9)
Вейвлет-спектрограммы отчетливо выделяют такие особенности сигналов, как разрывы,
изменение знаков первой и второй производных, изменение частоты нестационарного сигнала
и т. д. То есть те особенности сигналов, которые плохо выделяются на спектре Фурье-сигнала.
Большие уровни при вейвлет-анализе характерны для коэффициентов тех вейвлетов, которые
смещены вблизи той или иной локальной особенности функции. Таким образом, вейвлетанализ сигналов открывает принципиально новые возможности в анализе нестационарных сигналов, к которым и относится анализ звуковых сигналов и речи.
ЛИТЕРАТУРА
1. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. Киев: Наукова думка, 1987.
264 с.
2. Кристалинский Р.Е., Кристалинский В.Р. Преобразование Фурье и Лапласа в системах компьютерной
математики. М.: Горячая линия, Телеком, 2006. 216 с.
3. Добеши И. Десять лекций по вейвлетам / пер. с англ. Е.В. Мищенко; под ред. А.П. Петухова. М.: РХД,
2001. 464 с.
4. Дьяконов В.П. Компьютерная математика. Теория и практика. М.: Нолидж, 2001. 1296 с.
5. Дьяконов В.П., Абраменкова И.В. MATLAB. Обработка сигналов и изображений. СПб.: Питер, 2002.
608 с.
6. Воробьев В.И., Грибунин В.Г. Теория и практика вейвлет-преобразований. СПб.: ВУС, 1999.
7. Чун К. Введение в вейвлеты / пер. с англ.; под ред. Я.М. Жилейкина. М.: Мир, 2001. 412 с.
Поступила в редакцию 10 сентября 2010 г.
Zubakov A.P. Fourier and Wavelet-transformations in the problem of speech identification
The comparative consideration of two classes of function transformations and signals by means of computer
mathematics of Fourier and Wavelet-transformations is carried out. It is shown, that despite of development of
the newest methods of Fourier-transformations (discrete FFT, window etc.) a number of lacks of such transformations is eliminated by application of the newest methods of Wavelet-transformations.
Key words: Fourier-transformations; Wavelet-transformations; speech.
1899
Download