Серия изданий «Научно-образовательные и научно

advertisement
Серия изданий
«Научно-образовательные и
научно-информационные
материалы
МГТУ им. Н.Э. Баумана —
национального
исследовательского
университета
техники и технологий»
Департамент образования города Москвы

Ассоциация московских вузов

Московский государственный технический университет
имени Н.Э. Баумана
Кафедра ИУ-10
«Защита информации»
С.Д. Панин, С.Б. Козлачков
Научно-образовательный материал
«Электронное учебное пособие
по распознаванию звуков речи»
Москва
МГТУ им. Н.Э. Баумана
2011
Введение
Речевой канал передачи информации играет исключительную роль в
решении проблем распознавания объектов и информационной безопасности
систем. Этот канал очень информативен, человек способен правильно
распознать частично искаженную информацию по отдельным фрагментам.
В настоящем пособии рассмотрены
некоторые аспекты данного
научного направления и приведены примеры распознавания отдельных
гласных звуков русского языка.
1. Речевая связь
Следует начать с вопроса: а для чего необходимо создавать системы
распознавания речи? Сама по себе речь людей является вершиной эволюции,
уникальный речевой канал информации в обществе является исключительно
надежным и универсальным, несмотря на наличие шума, пропусков частей
речи, искажений. Поэтому существует фундаментальная задача исследования
речи людей и ее восприятия вне
практических приложений. Этим
занимаются лингвисты, акустики, нейрофизиологи, математики и другие
ученые.
В реальной деятельности людей решение задач распознавания речи
имеет смысл для управления голосом создаваемых технических систем. Но
в общей проблеме защиты информации необходимо решения частных задач
при действии акустических каналов передачи сообщений – обеспечение
маскировки сигнала полезной информации с помощью
сознательно
создаваемого шума. Тогда возникает комплекс задач по организации смеси
полезной и защитной информации и последующему разделению этой смеси
уже
на выходе из приемника информации. Эти задачи
имеют
формализованный характер и представляют собой отдельное направление в
общей задачи понимания речи. Основным показателем решения такой задачи
является разборчивость речи.
Определение 1. Разборчивость речи представляет собой отношение
числа правильно понятых элементов речи к общему числу переданных
элементов.
Известны некоторые разновидности определения разборчивости речи:
слоговая, фразовая, словесная и др. На практике используют слоговую
разборчивость, измеряемую в процентах. Существует даже ГОСТ на методы
оценки разборчивости и качество работы речевого канала информации
считается хорошим, если для среднего уровня громкости
значение
разборчивости превышает 40%.
Искусственное распознавание и понимание речи является очень
сложным процессом и простой модели взаимодействия между передатчиком
и пассивным приемником недостаточно. В процессе речевого обмена
приемник активен и еще существует адаптация источника (диктора) к
2
приемнику (слушателю). С позиций эргономики управления технической
системой гораздо проще использовать набор из 20 слов, чем из 20 кнопок.
Речь легко передается по каналам связи, оставляя свободными глаза и руки.
Сравнение источников создания слов дано в таблице 1.
Вид источника
чтение
вслух
речь
Производительность
слов/с
4
2,5
Таблица 1
клавиа- письмо телефонтелетура
от руки
ный
графный
диск
ключ
2
0,4
0,3
0,3
С точки зрения теории информации речь есть сигнал с большой
избыточностью (чистый речевой сигнал без помех и искажений).
Речеобразование
в информационном обмене рассматривают на
нескольких уровнях. Информация для передачи сначала возникает в форме
понятий (семантический уровень), затем понятия
преобразуются
в
упорядоченные фразы (синтаксический уровень), реализуемые с помощью
слов (лексический уровень) и излучаемых органом речеообразования
(акустический уровень). Излучаемые звуки характеризуются физическими
параметрами: частота, длительность, амплитуда, тембр
и т.д. Речь
представляют непрерывным сигналом, где пределы слов и их составляющих
трудно определить объективными методами. Существует большая разница
между слуховым восприятием речи при естественном распознавании и
физической записью речи – границы речи, четкие при естественном
восприятии, не так очевидны при физической записи. Между словами нет
маркеров, нет их и между составными частями слов. В целом
речеобразование
изучают
артикуляция
речи
и
фонетика,
т.е.
функционирование лицевых и внутренних мышц в полости рта,
обеспечивающее произношение звуков, а фонетика есть учение о
характеристиках речи человека.
Очень трудными являются операции сегментации. Кроме того, пауза в
записи, а точнее – наличие шума в записанном сигнале, не всегда означает
отсутствие речи. Отдельные фонемы (лингвистические единицы,
соответствующие отдельным элементам устной речи) содержат
высокочастотные составляющие, и это делает их похожими на шум.
Лингвистические понятия в речи рассматривают на разных уровнях.
Рассмотрим эти уровни в порядке возрастания сложности.
1.
На низшем фонетическом уровне определены первичные элементы
речи. Ими являются фонемы и аллофоны. Единицей звукового строя является
фонема, представляющая собой последовательность звуков в качестве
неделимых частиц языка. Именно из фонем возникают слоги и слова. Но
фонемы подвержены изменчивости. Гласная буква о, например, в словах
вода и водяной произносится по-разному. Тогда различные реализации
фонем называются аллофонами.
3
2.
Следующим является фонетический уровень, на котором определяют
комбинации фонем и аллофонов. Все звуки русского языка делят на гласные
и согласные. Гласными звуками считают пять: а, и, о, у, э, столько же и
гласных фонем. Согласных фонем некоторые авторы насчитывают до 39 с
учетом различения звонких и глухих согласных.
3.
Далее на морфологическом уровне появляются более крупные
лингвистические единицы – слоги и морфемы, из которых составляют слова.
Слоги представляют собой минимальную фонетическую единицу речи и
состоят из гласного звука и примыкающих к нему согласных звуков. Слог
является абсолютно естественным отрезком речи. Создаваемая система
должна распознавать слоги. Морфемой называют наименьшую значимую
часть слова.
4. На лексическом уровне происходит образование предложений. Собственно
лексемой называют множество словоформ с общим лексическим значением.
На этом уровне определяются слова, которые могут быть лексемами.
Отметим, что слово является реальной единицей речи. Здесь же можно
говорить о синтагмах – единицах речи, высших по отношению к слову.
Синтагма образуется в соответствии со смыслом, вкладываемым говорящим.
Теперь уже можно говорить о фразе, состоящей из одной или нескольких
синтагм и имеющей законченность
5. Высшим уровнем языка является семантика, на этом уровне мозг
отображает речевые образы, возникает предложение – единица речи,
оформленная по правилам конкретного языка. Мысли человека выражают
именно предложения и система распознавания речи должна из потока
информации выделять предложения языка. При этом важную роль играют
эмоции человека вовремя произнесения речи – жесты, например, могут
придать противоположный смысл высказываемому предложению.
Фонетике есть такое понятие – просодия или учение об ударении, тоне и
интонации. При произношении речи под интонацией понимают изменение
высоты основного тона растяжением голосовых связок, изменение громкости
и темпа. С помощью интонации выделяют отдельные слова в предложении,
создают вопросительные предложения. Поэтому существует серьезная
проблема расстановки интонаций и система распознавания должна понимать
смысл тестового сообщения.
Словесное ударение представляет собой выделение
одного или
нескольких слогов в слове с помощью интонации. При этом меняется сила,
высота и длительность звуков. В литературе различают динамическое,
музыкальное и количественное ударение. Динамическое ударение приводит
к усилению звучания, музыкальное – к изменению тона, а количественное
изменяет продолжительность звучания. Однако лингвистическая функция
ударения состоит в объединении вокруг него всех частей слова, а не в
выделении ударного слова.
Теперь рассмотрим некоторые вопросы, связанные с произношением
речи и записью ее параметров на каком-либо носителе, т.е. изображении
речи в виде записи каких-либо ее показателей во времени или функциями
4
других аргументов. Начались исследования этих процессов в 30-е годы
прошлого века при решении проблемы сокращения объема речевой
информации при передаче по проводам и восстановления сигнала при
приеме. Стали создавать вокодеры – кодировщики голоса, от английского
voice coder, первый вокодер представил H. Dudley в 1936г. Записи звука
выполняли на аналоговых устройствах – осциллографах.
Форма сигнала, соответствующая одной и той же фразе (или слову)
исключительно сильно зависит от произносящего ее диктора (в том числе и
от расстояния микрофона от диктора). Если слушатель воссоздает
необязательные элементы, пропущенные диктором, то можно считать, что
происходит адаптация. А при записи сигнала отсутствие этих же элементов
становится очевидным.
Необходимо различать генерирование и модуляцию звуковых
колебаний. Физиологический источник действует на трех основных модах.
Первая мода – периодическая и генерирует основной тон. Воздух выходит из
легких при выдохе и непрерывное истечение создает периодические
колебания, являющихся отражением гласных звуков. Сужение двух мышц
голосовых связок приводит к вихревому режиму истечения выталкиваемых
порций воздуха, и так возникают согласные звуки. Полное перекрытие на
короткое время голосовой щели и такое же резкое ее открывание вызывают
быстрое сжатие объема выдыхаемого воздуха. В этот момент и возникают
взрывные согласные.
Основные моды могут накладываться друг на друга так, что
происходит сложение колебаний: периодическая волна + переходная или
периодическая волна + шумовая волна. Сигналы, создаваемые в процессе
речеобразования, являются результатом возбуждения звукового тракта
основными модами. Любой произносимый звук состоит из фонем, т.е.
последовательность элементарных звуков, включая паузу. В момент
произнесения гласной звуковой тракт можно считать неподвижным и
голосовая щель выполняет роль генератора колебаний, возбуждающих
образовавшийся неподвижный резонатор. Основная частота характеризует
высоту произносимого звука и чем более «резкий» звук, тем «больше»
высота. Такой неподвижный в течение короткого промежутка времени
звуковой тракт есть резонатор с несколькими полостями и каждая из них
обладает собственной резонансной частотой, или формантой. Набор
формант одной гласной составляет характеристику говорящего, по сути, это
его «звуковая подпись». А путь образования согласных еще более сложный и
вообще, «чистую» согласную произнести невозможно. Осциллограммы
речевого сигнала приведены на рис. 1. В сигнале щелевых согласных
заметны участки, подобные шуму и это еще раз указывает на сложность
задачи сегментации сигнала, получаемого микрофоном. Такая структура
сигнала может соответствовать и шуму, и согласной, и паузе в речи.
5
Рис. 1. Осциллограммы фонем французского языка
Согласные звуки возникают при вихревом движении воздушной струи в
звуковом тракте или при резком изменении его конфигурации (опять же
будет образование вихревых структур). В этот момент происходит смена
резонансных частот. Оценка числа Рейнольдса для струи воздуха в ротовой
полости
при атмосферном давлении (плотность воздуха
,
скорости струи
и эквивалентном диаметре щели 2 см, вязкости
воздуха
, дает значения Re> 100 и струя должна иметь
турбулентную структуру.
Вся вышеперечисленная совокупность физических и физиологических
элементов и образует речевой сигнал под управлением мозга. Приемником
этого сигнала является орган слуха, воспринимающий все звуки – от
музыкальных до шумовых. Коснемся некоторых особенностей восприятия
слуха. Человек воспринимает звуки в диапазоне частот 20 Гц…20 кГц,
существует ряд теорий слуха, начиная с Г. Гельмгольца (XIX век). В
настоящее время признана наиболее точной теория места. Согласно этой
теории в ухе находится ряд резонаторов, которые могут колебаться в такт с
приходящими извне звуковыми сигналами. Распознавание частот связано с
определенным местом колебаний в элементах уха. В зависимости от частоты
сигналы, принятые нервными клетками внутреннего уха, поступают по
слуховым нервам в кору головного мозга, которая распознает смысл
принятого сообщения. Восприятие высоты тона обеспечивают конкретные
нервные волокна, параллельно передающие импульсы в мозг, громкость
воспринимается от импульсов, приходящих по частотным
нервным
волокнам. В результате человек слышит, воспринимая амплитуду сигналов
нескольких частот одновременно, и информация поступает о каждой
отдельной частоте.
Считается, что фазовые характеристики речи слабо влияют на слуховое
восприятие. Именно поэтому возникла гипотеза о возможности
представления звука графическими
образами в виде динамических
спектрограмм.
Для субъективного восприятия основную роль играют две
характеристики: высота и тембр. Одна и та же фонема может вызывать
6
ощущения разной высоты в зависимости от занимаемого места в слове или
фразе. Высота также зависит от типа фразы: вопрос, утверждение, отрицание
выражаются различными интонациями со своими оттенками. Все это только
затрудняет распознавание.
Тембр характеризует индивидуальную окраску звука и позволяет
выделить конкретный звук из других с такой же частотой и интенсивностью.
В общем случае звуковые колебания не гармоничны и преобразованием
Фурье их приводят к сумме гармоник. Основной тон – это составляющая с
гармонического колебания с минимальной частотой, а обертоны – все
остальные колебания. У первого обертона частота в два раза больше
основного тона, у второго – в три и т.д. Чем больше амплитуда основного
тона и нижних гармоник, тем более «гнусавым» будет тембр. У каждого
человека свой голосовой аппарат и неповторимый голос со своим тембром.
Размеры голосовой щели и голосовых связок у людей разные и они
определяют высоту звука (частоту). Большим размерам соответствуют голоса
низкие, т.е. мужские.
Для связи и передачи
команд можно использовать не только
вербальные (словесные) сигналы, а более простые – свист, например. Свист
понимают как изменение высоты тона единственной гласной. Семантика
такого сообщения кодируется изменением амплитуды и ритма (долгий –
краткий). Такой тип связи существует у некоторых народов Земли, но «язык
свиста» труден для изучения и технической реализации ввиду низкого
отношения сигнал–шум.
В заключении этого раздела, еще раз отметим особенности
фонетических процессов.
- аккомодация как приспособление между согласными и гласными звуками,
стоящими рядом;
- ассимиляция как сближение звуков – согласных с гласными, гласных с
гласных;
- диссимиляция, представляющий собой процесс, обратный ассимиляции;
- протезы как надставки к началу слова (слово шла произносится как ишла);
- интонация или высота основного тона, которую человек меняет
растяжением голосовых связок;
- словесное ударение в виде выделения слога в многосложном слове с
помощью интонации, в результате происходит изменение силы, высоты и
длительности звуков;
2. Элементы распознавания изолированных гласных
Процесс физиологического распознавания речи может быть
имитирован электронными устройствами по схеме, показанной на рис. 2.
Выбор датчиков зависит
от ряда условий: наличие шума, число
одновременно работающих дикторов, требования к направленности и т.д.
Ушная улитка определяет интенсивность сигнала в зависимости от частоты и
эту функцию позволяет выполнить спектральный анализ. Выделение
7
примитивов (характерных элементов), а ими являются фонемы,
осуществляют совместно слуховой нерв, улитка и кортиев орган мозга.
Окончательно уже в коре головного мозга происходит понимание принятой
информации. В технической системе решается задача классификации
предъявляемых слов сравнением их с эталонными образами и выбором
наиболее близких.
В общей проблеме обработки речи выделяют три группы задач. В
первой распознают отдельные признаки для управления, фонетического
анализа. Во второй распознают изолированные слова, произносимые одним
или многими дикторами, а в третьей распознают слитную речь. Есть
отдельная сложная задача распознавания диктора по характерным
особенностям его речи.
Системы распознавания изолированных слов
уже созданы и способны «понять» более 100 000 слов.
Датчик
Микрофон
Обработка
Спектральный
анализ
Выделение
примитивов
Классификация
Обнаружение формант. Распознавание
фонем, слов
Распознавание и
понимание
сообщения
Рис. 2. Моделирование распознания речи
Распознавание и обработка речи требует обнаружения основного тона и
определение его основных характеристик. Сразу же можно установить,
произнесен звук с голосом или нет. Существует метод непосредственного
наблюдения вибраций голосовых связок, генерирующих основной тон, с
помощью световых, ультразвуковых и электрических устройств.
Оптический метод заключается в освещении голосовых связок внешним
источником, затем отраженный свет попадает в фототранзистор, с которого
снимают электрический сигнал. Собственно изменение сигнала во времени
отражает изменение голосовых связок (необходимо вводить фототранзистор
через нос).
Ультразвуковой метод определяет раскрытие голосовой щели во
времени с помощью двух преобразователей, расположенных на шее, на
уровне гортани. Чем больше раскрытие голосовой щели, тем больше длина
воздушного участка пути ультразвуковой волны и, тем самым, больше ее
затухание.
8
Электрический метод оценивает изменение сопротивления мышечных
тканей в процессе речеобразования. На уровне гортани к шее крепят два
электрода, величина сигнала, снимаемого с них, зависит от характеристик
вертикальной составляющего воздушного потока от голосовых связок. Далее
анализатор выдает высоту вибраций гортани, основной тон и субгармоники.
Основная проблема при создании систем распознавания речи состоит в
выделении из потока лингвистических единиц именно фонем и аллофонов и
она не решена. Есть и другие подходы, например, на основе дифонной
модели. Элементарной речевой единицей принят дифон или протяженность
от середины одного звука до середины следующего. Тогда из записи речи
можно выделить некоторые стационарные участки, на звучание которых не
оказывают влияние соседние звуки. Но возникают трудности с созданием
дифонной базы данных, есть попытки использования этой модели именно
для задач синтеза речи.
Измерения параметров акустических сигналов выполняются с
помощью низкочастотного анализатора А17 со штатным программным
обеспечением. В качестве приемника звука используются измерительные
датчики: микрофон воздушной среды МРА261 с предусилителем с полосой
частот от 20 до 20.000 Гц и акселерометр АР98-100 с полосой частот от 10 до
10.000 Гц. Эти измерительные датчики 1-го класса точности имеют
встроенный электронный усилитель, что позволяет снизить влияние внешних
факторов на процедуру измерений.
Программное обеспечение ZETLab предназначено для использования
на персональных компьютерах типа IBM PC Intel® Pentium®/Celeron®/ или
совместимые с ними, работающих под управлением русскоязычной
(локализованной) либо корректно русифицированной версии операционных
систем Microsoft® Windows® XP с пакетом обновления SP1 или SP2, Microsoft® Windows® Server 2003, Microsoft® Windows® Media Center Edition
2005, Microsoft® Windows® Vista.
Для установки и запуска программного обеспечения ZETLab и
драйверов устройств требуется следующая конфигурация компьютера:
 тактовая частота процессора – не менее 1,7 ГГц;
 Наличие интерфейса HighSpeed USB 2.0*;
 Оперативная память – не менее 512Мб;
 Свободное место на жестком диске – не менее 200Мб;
 Видеокарта с 3D-графическим ускорителем, поддержкой
ОреnGL, DirectХ, не менее 32 Мб памяти;
 Разрешение экрана не менее 1024.768;
 Наличие манипулятора «мышь» или иного указательного
устройства (сенсорный
 экран, трекбол (track ball), тачпад (TouchPad), графический
планшет);
 Наличие стандартной клавиатуры или иного устройства ввода
(сенсорный экран,
9
 графический планшет);
 Привод CD-ROM для установки программ.
В набор штатного программного обеспечения анализатора входит
программа Узкополосный спектр, предназначенная для частотного анализа
сигнала. По временной реализации сигнала находятся отклики по набору
частотных фильтров. Центральные частоты фильтров равномерно
распределены по оси частот.
При помощи программы Узкополосный спектр пользователь по форме
спектра может определить наличие в измерительном канале тональных
сигналов
(дискретных
составляющих)
и
шумовых
компонент.
Дополнительные возможности построения спектрограмм (набор спектров,
рассчитанные в последовательные промежутки времени и представленные в
2-мерном и/или 3-мерном виде) позволяют проследить динамику
нестационарных процессов.
Построение сечений спектрограммы по времени и по частоте позволяет
измерить параметры нестационарных процессов. Кроме этого, возможность
получения максимальных и усредненных спектров, сравнение спектров с
заданным спектром (нормой) позволяет легко определить различие между
заданным и реальным уровнем. Это необходимо при проведении различного
вида мониторинга оборудования, входного/выходного контроля.
Одновременный спектральный анализ в различных частотных
диапазонах одного и того же сигнала дает возможность наблюдать спектр как
во всем частотном диапазоне (панорамный режим), так и проводить
детальный анализ спектра в выбранных частотных диапазонах. Это
необходимо при наличии в сигнале высокочастотных и низкочастотных
дискретных составляющих.
Высокое разрешение (до 32000-х полос) позволяет с высокой точностью
определить частоту стационарного тонального сигнала; разделить несколько
близлежащих частотных компонент. Эта ситуация часто наблюдается при
виброакустическом анализе различных механизмов с электрическим
приводом. В окрестности 50 Гц, как правило, наблюдается несколько
дискретных составляющих, связанных с электромагнитной наводкой,
механическими колебаниями, связанных с вращением асинхронного
электродвигателя. Как правило, все эти источники находятся в полосе не
более 0,5 Гц.
При анализе шумовых компонент мешающим фактором является
наличие дискретных составляющих на спектре. В программе также
предусмотрена функция Очистка спектра от дискретных составляющих
(ДС). Эта функция подавляет все стационарные тональные сигналы и помехи
(например промышленные помехи 50 Гц).
При
виброакустическом
анализе
обычно
используется
пьезоэлектрические акселерометры. Эти датчики отдают сигнал,
пропорциональный ускорению в точке крепления. Нормы на уровни
вибрации и их спектральный состав часто задаются по виброскорости. Для
10
того чтобы получить сигнал виброскорости, необходимо проинтегрировать
по времени сигнал виброускорения. При балансировке важно получать
виброперемещение в точке крепления датчика. Двойной интеграл по времени
сигнала виброускорения позволяет получить сигнал виброперемещения. Эти
дополнительные функции интегрирования и дифференцирования сигнала
реализованы в программе.
Для измерения уровня дискретных составляющих обычно используют
измерение уровня среднеквадратического значения (СКЗ) в полосе фильтра.
В этом случае уровень дискретной составляющей практически не зависит от
полосы анализа. Для измерения уровня шумовых компонент необходимо
измерять спектральную плотность мощности (СПМ), которая задается в
размерности - единица измерения Гц. Это необходимо, так как спектральная
плотность мощности шума не зависит от полосы анализа.
Для снижения погрешностей цифровых преобразований аналоговых
сигналов используются функции сглаживания (фильтры). Список Весовая
функция – позволяет выбрать типа весовой функции (окно взвешивания),
применяемой при спектральном анализе. Весовая функция описывает
зависимость вклада предшествующих отсчетов исследуемого сигнала в
вычисляемый спектр. Возможный тип выбираемой весовой функций:
прямоугольная; Хана; Хэмминга; Блэкмана; Барлета; Блэкмана стандартная.
Основные параметры весовых функций приведены в таблице 2.
Таблица 2
При анализе речи часто реализуют Кепстральный анализ, например,
для определения частоты основного тона, что позволяет отделить медленно
меняющуюся составляющую спектра от быстро меняющейся.
Кепстр - это обратное преобразование Фурье от логарифма спектра
имеющий размерность времени.
При
исследованиях
нестационарных
сигналов
рекомендуется
использовать режим Спектрограмма. В этом режиме отображается времячастотное распределение сигнала - спектрограмма. Спектрограмма дает
представление о распределении частот спектра в разные моменты времени. В
названии окна пишется название самого спектра (Узкополосный спектр),
через тире название дополнительного окна (Спектрограмма) и, через тире,
название канала (например Сигнал1).
11
Цвет отображает уровень спектра. Низкие уровни отображаются черным
цветом, высокие – красным. Перемещение курсора графика осуществляется
установкой указателя «мыши» на пересечение интересующих частоты и
времени и нажатием левой клавишей «мыши».
Наряду с анализатором А17 отдельные виды измерений параметров
акустических сигналов могут выполняться с помощью звуковых редакторов,
например программы Adobe Audition. В этом случае вместо дорогостоящего
измерительного микрофона можно использовать студийные микрофоны,
например Sound Max superbeam, шумозащищенный микрофон (приемник
градиента давления) с рабочей полосой частот от 50 до 15.000 Гц.
Сравнительные испытания показали, что по линейности частотной
характеристики оба микрофона имеют близкие параметры.
Программа Adobe Audition позволяет исследовать временные,
спектральные, статистические характеристики сигналов. Здесь также имеется
набор соответствующих весовых функций. С помощью настроек можно
выбрать необходимые параметры разрешения. Отличительной особенностью
программы Adobe Audition является возможность исследования параметров
сигнала с помощью функции – Графическая сонограмма.
Кроме этого в программе имеется значительный набор инструментов для
специфических преобразований над сигналом: эквалайзеры, узкополосные
фильтры, динамические характеристики и т.д.
Рассмотрим наиболее простую задачу распознавания гласных звуков.
Практическое применение она может найти при управлении технического
устройства голосом. Необходимо создать программно-аппаратный комплекс
(ПАК), включающий в себя технику записи речи человека, компьютер и
программное обеспечение. Схема ПАК показана на рис. 3.
Речь
человека
аа
Кластеризация
для создания
эталонов
фонем и
слогов
Компьютер,
фильтры,
адаптер,
анализаторы спектра
микрофон
Первичная
оцифрованаая
информация в
виде
диаграмм
Распознавание речи
Рис. 3. Блок-схема программно-аппаратного комплекса
Рассмотрим следующую
методологию распознавания отдельных
гласных букв. Записанные образцы речи человека хранятся в памяти
12
компьютера в оцифрованном виде и графически представляют собой
диаграммы, показывающие зависимость амплитуды колебаний во времени.
Из этой информации необходимо выделить признаки слов и предложений в
глобальной задаче распознавания речи человека. Собственно зависимость
интенсивности звука L во времени не является информативной для
распознавания речи, так как представляет собой энергию звукового сигнала
(квадрат амплитуды колебания пропорционален передаваемой энергии).
Интенсивности звука соответствует ощущение громкости звука. Но
громкость звука – это субъективное понятие и человеческое ухо
воспринимает громкость звука логарифмически. Тогда шкалу оценки
громкости выбирают следующим образом:
 I 
L  10  lg   , децибел
 I0 
В качестве опорного значения выбирают интенсивность звука на пороге
слышимости
I 0  1  10 12
вт
,
м2
соответствующей
амплитуде
давления
Па сухого воздуха при стандартных условиях (температура Т=273
К и давление p= 1 бар).
Отсюда уровень громкости звука
p0  2  10 5
 I 
L  10  lg   + 120, дБ
 I0 
(1)
Информативной является зависимость громкости от частоты передачи
речи, которую получают стандартной процедурой преобразования Фурье
ранее полученной зависимости амплитуды колебаний во времени.
Необходимо обработать данные зависимости L=L(f) таким образом,
что можно будет получить эталоны фонем и аллофонов. А затем по этим
эталонов классифицировать предъявленные образцы новых записей речи.
В распознавании речи используют
методы теории распознавания
образов, основанных на наличии эталонов единиц речи, т.е. предварительно
составленных словарей фонем, слогов, слов с характерными признаками.
Затем предъявляют образец новой записи единицы речи и производят его
классификацию
каким-либо методом.
Будем рассматривать
детерминированные задачи.
Наиболее простым и понятным способом
классификации является распознаванием по минимуму расстояния между
эталоном класса и предъявляемым образцом. Если класс образов содержит
один эталон, а именно так понимают единицу речи и ее эталон, то
евклидово расстояние между векторами x и z будет иметь следующий вид
(n – размерность векторов, один из векторов x,z есть эталон):
1
 n
2 2
D1  x, z     x k  z k 
 k 1

(2)
Начнем с создания эталонов звуков. В соответствии со схемой рис.3
запишем три звука: «а», «о» и «и», произнесенными одним человеком на
одинаковом расстоянии от микрофона. Приборы первоначально записали
13
эти звуки в виде зависимостей громкости звука во времени. Затем с
помощью преобразования Фурье получим спектральные характеристики
произнесенных гласных как зависимости громкости от частоты и они
приведены на рис.4…рис. 6.
По оси ординат отложена громкость
произносимых звуков, полученная измерением звукового давления с
последующим представлением в виде, отличном от формулы (1)
 p
L  20  lg   , дБ
 p0 
(3)
В зависимости (3) множитель равен 20, т.к. интенсивность звучания
пропорционально квадрату амплитуды давления. Отсутствие слагаемого 120
дБ приводит к отрицательным значениям громкости в логарифмической
шкале.
На графиках четко видны локальные максимумы громкости Li max при
значениях частоты, соответствующим формантам речевого тракта человека,
произносившего звуки.
Теперь предстоит определиться с важнейшей проблемой: что же
считать информативными признаками записанных изолированных звуков
«а», «о» и «и» для последующего распознавания их каким-либо методом? В
литературе
информативным признаком считают огибающую кривую
громкости по локальным максимумам частот, эти огибающие показаны на
рис.4….рис.6. Этот признак далеко не единственный для выявления
индивидуальностей каждого звука, но будем считать его доминирующим.
Сам факт представления спектральной характеристики
звучания
преобразованием Фурье исключил из рассмотрения фактор времени и,
естественно, связанные с ним признаки.
Рис. 4. Спектральная характеристика произношения звука «а»
14
Рис. 5. Спектральная характеристика произношения звука «о»
15
Рис. 6. Спектральная характеристика произношения звука «и»
 L f  . Эти
Пока ограничимся одним признаком – зависимостью Lmax
i
зависимости приведены на рис. 7 и показывают, что при малых значениях
частоты (200…500 Гц) и для частоты более 3600 Гц огибающая кривая
громкости не будет информативным признаком – трудно отделить буквы
одну от другой.
Участки невысокой информативности
признаков
заштрихованы на рис. 7 и в дальнейшем их не будем рассматривать. Рабочий
диапазон частот в данном исследовании составит f = 600…2600 Гц.
Рис. 7. Огибающие максимумов громкости букв
1 – звук «а», 2 – звук «о», 3 – звук «и»
16
Для дальнейшего применения методов классификации необходимо
признаки масштабировать показатели признаков таким образом, чтобы их
значения находились в диапазоне 0…1. Значения громкости букв сделаем
безразмерными следующим образом. Сначала сделаем значения громкости
положительными добавлением 120 дБ к ординате графика рис. 7, а затем
безразмерными делением текущих значений L на диапазон изменения
громкости 60 дБ: L 
L
.
60
Безразмерные значения аргумента, т.е. частоты получим делением
текущих значений ее на диапазон изменения частоты f :
f 
f
.
2000
Полученные зависимости L  L f  для трех произнесенных букв приведены
на рис. 8. Будем считать эти опытные данные записи громкости трех букв
собственно эталонами этих букв. Зависимости L  L f  для каждой буквы
можно получить в виде аналитических выражений путем аппроксимации
опытных данных какими-либо специальными функциями, например,
полиномами. На рис. 8 кривые 1,2 и 3 проведены произвольно только для
понимания алгоритма распознавания звуков.
Рис.8. Изменение громкости в зависимости от частоты после
масштабирования.
1 – звук "а", 2 – звук "о", 3 – звук "и"
После предъявления классифицируемого образа изолированной гласной
виде дискретной зависимости Li  L f i  для значений аргумента
fi
необходимо вычислить по аппроксимационным полиномам эталонные
17
значения громкости трех букв. Затем необходимо вычислить расстояния от
предъявленного образа до эталонных кривых


1
2 2
 n
D1 j L эj , L i    L эij  L ij 
 k 1

(4)
где i – индекс дискретных точек в предъявляемой зависимости Li  L f i , j–
индекс эталонных зависимостей изолированных гласных (в рассматриваемом
примере j=1,2,3), э – индекс эталонного значения относительной громкости
звука.
Для получения эталонных значений использована команда Матлаба
Basic Fiting, открывающая окно с доступом к полиноминальной
аппроксимации дискретной зависимости L  L f  .
Применительно к звуку «а» эталонная зависимость и опытные данные
для ее получения показаны на рис. 9. Эталонная зависимость имеет вид
3
2
(5)
L э1  0,55 f   0,46 f   1,4 f   1
18
Рис.9. Опытные данные по распределению относительной громкости
звука "а" в зависимости от частоты (ломаная линия) и аппроксимация их
кубическим полиномом
Использование кубического полинома приводит к наименьшей
погрешности аппроксимации. Реализация аппроксимации
дискретной
зависимости Li  L f i  сплайном не имеет смысла ввиду отсутствия единой
аппроксимирующей зависимости, хотя достигается высокая степень
приближения. Но на каждом отрезке сплайнового приближения применяют
кубический полином с новыми коэффициентами.
Аналогично для звука «о» получена эталонная зависимость в виде
полинома
3
2
(6)
L э2  8,2 f   13 f   5,6 f   1,1
и показана на рис. 10.
Таким же способом получена эталонная зависимость для буквы «и»,
приведенная на рис. 11.
3
2
(7)
L э3  1,4 f   0,51 f   0,65 f   0,51
19
Рис.10 . Опытные данные по распределению относительной громкости
звука "о" в зависимости от частоты (ломаная линия) и аппроксимация их
кубическим полиномом
Теперь для классификации созданы эталоны трех звуков и можно
приступить к реализации распознавания по
алгоритму минимума
расстояния.
В общем случае алгоритм минимума расстояния является интегральной
оценкой близости эталона класса в виде полиноминальной зависимости
относительной громкости звука от относительной частоты его
к
предъявленному образцу звука
в виде дискретной зависимости
относительной громкости от относительной частоты.
Применим этот подход к классификации изолированных гласных на
примере новой записи звука «а», произнесенным тем же человеком, что и при
записи звука «а» для уже созданного эталона. Спектральная характеристика
новой записи звука «а» показана на рис. 11. Сравнение с первой записью
этого звука (рис.1) показывает, что
количественное совпадение как
громкости, так
и резонансных частот (формант) отсутствует, но
качественное совпадение кривых L(f) наблюдается.
20
Рис.11. Опытные данные по распределению относительной громкости
звука "и" в зависимости от частоты (ломаная линия) и аппроксимация их
кубическим полиномом
По данным рис. 12 вычислена безразмерная зависимость относительной
громкости от безразмерной частоты для огибающей кривой по локальным
максимумам для резонансных значений частоты. Относительная громкость
вычислена по формуле L 
L  120 L

 1 , в знаменателе указан диапазон
60
60
изменения громкости 0…60 дБ. Относительная частота
диапазона 600…2600 Гц по формуле
вычислена
для
f  600
f 
. Результаты расчетов
2000
приведены в таблице 3.
Таблица 3
f, Гц
f
L, дБ
L
681
847
1016
1200
1359
1530
1698
1865
2042
2200
2375
2543
0,04
0,123
0,208
0,300
0,380
0,465
0,549
0,633
0,720
0,800
0,887
0,972
-17
0,716
-22,5
0,625
-24
0,600
-24
0,600
-25,5
0,575
-38
0,366
-41
0,316
-45,4
0,243
-46
0,233
43,5
0,275
-34
0,433
-41
0,316
21
Рис. 12. Спектральная характеристика произношения звука «а»
для классификации
Теперь определим расстояния от предъявленного образа буквы «а»
(табл. 3) до эталонных значений букв «а», «о» и «и», которые выражены
полиномами (7)…(9) . Для относительных значений частот таблицы 2
вычислены значения относительной громкости для эталонов и результаты
приведены в таблице 4.
В этой же таблице приведены значения модуля расстояния между
представленным значением относительной громкости
и эталонными
значениями для букв «а», «о», «и».
Таблица 4
f
La
0,04
0,123
0,208
0,300
0,38
0,465
0,549
0,632
0,72
0,8
0,887
0,972
0,945
0,835
0,734
0,636
0,565
0,504
0,461
0,438
0,436
0,456
0,504
0,578
Lo
0,896
0,591
0,424
0,396
0,399
0,483
0,487
0,683
0,746
0,742
0,638
0,409
Lи
0,483
0,425
0,365
0,307
0,266
0,238
0,231
0,249
0.300
0,380
0,509
0,682
d ai
0,229
0,210
0,134
0,036
0,010
0,138
0,145
0,195
0,203
0,181
0,071
0,263
d 0i
0,180
0,034
0,176
0,204
0,176
0,117
0,171
0,44
0,514
0,467
0,205
0,093
d иi
0,233
0,200
0,235
0,293
0,309
0,128
0,085
0,006
0,067
0,105
0,076
0,366
Теперь вычислим расстояния между предъявленным образом звука «а» и
эталонными значения звуков «а», «о», «и» по формулам
22
Da 
i 12

i 1
d ai
2
Do 
i 12
 d oi
i 1
2
Dи 
i 12
d
i 1
2
иi
Получаем численные значения
Da  0,585
Do  0,952
Dи  0,714
Наименьшее значение расстояния от предъявленного образа до трех
эталонов получается для буквы «а». Отсюда следует, что предъявленный
образ правильно классифицирован как звук «а»!
3. О распознавании изолированных слов
Изолированное слово может быть произнесено либо на фоне
молчания, либо включенным во фразу. Задачу распознавания изолированных
слов решают сравнением признаков сигнала с признаками эталонов,
хранящихся в памяти системы. Набор эталонов получают обработкой
изолированных слов, произнесенных в хороших акустических условиях, т.е.
без помех. Такой же обработке подвергают сигнал от распознаваемого слова
и вычисляют некоторое расстояние до эталонов для оценки сходства D.
Однако одно и то же слово может быть произнесено в разном ритме, тогда
длительность его звучания будет разной.
Поэтому необходимо динамическое сравнение и вычисляют значения
функции локального сходства между i-м отрезком опорного сигнала и j-м
отрезком исследуемого
L(i,j)= (1-G)L(i-a,j-b)+KGD(I,j).
Здесь: (i-a,j-b) – координаты предшествующих отрезков, a и b такие, что
(a,b)=(0;1) или (1;1) или (1;0); G –
константа, определяемая
экспериментально; D – уже определенная степень сходства; К =1 при
(a,b)=(1;1) и 0  К  1 при (a,b) =(1;0) или (0;1).
Так по отрезкам сигнала и происходи оценка сходства с эталоном.
Установлено, что G=0,3 как универсальная константа, в то время как
величина К зависит от диктора и слова. В данной задаче внешний шум не
влияет на распознавание, если отношение сигнал/шум более 25.
4. О распознавании диктора
Пусть действует группа дикторов и есть записи образцов речи
каждого. Можно выполнить две операции:
- проверка соответствия голоса идентифицируемого диктора какой-либо
копии
и выполняется одно сравнение;
- поиск на основе знания фрагментов голоса неизвестного диктора и
выполняется N сравнений при записанных N реализаций.
Сличение есть метод распознавания, основанный на сравнении
текущего речевого сигнала с имеющейся моделью голоса диктора, личность
23
которого известна. Результат получают вследствие применения обучения «с
учителем». Идентификация также основана на обучении «с учителем» для
случая выделения диктора из других. Есть вариант обучения без учителя,
если требуется сначала классифицировать имеющиеся голоса, а затем
отождествить их с определенными дикторами.
Но во всех случаях необходимой операцией является распознавание
речи. Собственно распознающее устройство может быть рационально
использовано только при наличии сведений о говорящем кандидате на
распознавание и о произносимом им тексте.
Процедура распознавания разделяется на два этапа: прием исходных
данных и автоматическая классификация. К измерениям дикторской речи
предъявляют следующие требования:
- легкость измерения;
- стабильность во времени;
- независимость от окружения;
- независимость от эмоционального состояния диктора;
- трудность для подражания;
- тесная связь с личностью диктора.
На распознавание существенно влияют следующие факторы:
- интенсивность сигнала;
- основной тон;
- частоты и величины формант;
- носовая окраска звука;
- спектральные связи;
- ритм и темп речи.
Классификацию осуществляют вероятностным подходом ввиду
неизбежного разброса данных измерений речи дикторов. Параметры
распознавания есть вектор x, нормальная плотность распределения для
диктора i
p i (x)=
1
2 n / 2 C 1 / 2




T
 1

exp   x  m i C 1 x  m i 
 2

Здесь матрица ковариации С есть характеристика всех дикторов. Степень
сходства между i-м диктором и предъявляемым сигналом определяет с
помощью расстояния Махаланобиса


d i (x)= x  m i  C x  m i  .
T
1
1
2
Изучаемый речевой сигнал приписывают диктору j, если
d j x   d i x 
Задача распознавания даже диктора исключительна сложна. Используя
только спектрограммы сигналов, удавалось получить одинаковые результаты
от различных дикторов. Непонятно, как выявить истинное состояние диктора
– диктор может действовать совместно с другим, быть вольным или
невольным обманщиком (имитатором).
24
Заключение
Представленные материалы являются некоторым введением в
проблемы распознавания речи и связанные с ними вопросы разборчивости
речи. Дальнейшее изучение этих задач требует серьезных усилий как в
экспериментальных исследованиях, так и в собственно распознавании
элементов речи по измеренным признакам с последующим обращением к
проблемам семантики. Существуют различные подходы к распознаванию
голосовой информации, начиная от реализации нейронных сетей с
обучением, т.е. с использованием заранее сделанных записей образцов
фрагментов речи. Более сложным является подход на основе распознавании
лексических элементов, теперь уже выделенные фонемы и аллофоны должны
быть объединены в слоги и морфемы. Такие системы настраиваются на речь
конкретного человека в процессе обучения (диктора), но остается не
решенным ряд проблем.
Литература
1. Фролов А.В., Фролов Г.В. Синтез и распознавание речи. Современные
решения. Frolov – lib.ru
25
Download