Газин А.И. Обработка 5 параметров/кадр тон/шум частота ОТ

advertisement
Газин А.И.
СТАТИСТИЧЕСКАЯ ОБРАБОТКА РЕЧЕВЫХ СИГНАЛОВ, СОХРАНЯЮЩАЯ БИОМЕТРИЮ ПОЛЬЗОВАТЕЛЯ
Рассматриваются вопросы обработки речевых сигналов, произнесенных голосом одного диктора, сохраняющей индивидуальные статистики биометрических данных идентифицируемого на произвольном тексте человека.
Обработке речевых сигналов человека уделялось и уделяется значительное внимание на протяжении
длительного времени. За это время появилось несколько концепций построения речепреобразующих
устройств - вокодеров: полосные вокодеры и полувокодеры, формантные, корреляционные, ЛПКвокодеры, фонемные вокодеры. Традиционная схема фонемного вокодера приведена на рисунке 1.
Фонемный
состав
сообщения
Слитная
речь
Обработка
5 параметров/кадр
тон/шум
частота ОТ
число переходов нуля
число смены знака
число формант
Кодирование
2400 бит/с
Акустическая модель
Эвристический
алгоритм обработки
звука
Моделирование
слухового аппарата
человека
Лингвистическая модель
Синтезированный
звуковой
сигнал
Фонетический
блок
Фонологический
блок
Морфологический
блок
Лексический
блок
Синтаксический
блок
Семантический
блок
Рис.1. Традиционная схема фонемного вокодера
Структурно он состоит из акустической и лингвистической частей. Акустическая модель отвечает
за преобразование речевого сигнала из временного процесса в некоторую форму, в которой в более
явном виде присутствует информация о содержании речевого сообщения. Лингвистическая модель интерпретирует информацию, получаемую от акустической модели, и отвечает за представление результата
распознавания потребителю (в роли которого может выступать не только человек, но и техническая
система, управляемая речью). Обработка идет по 5 параметрам (тон/шум, частота ОТ, число переходов
нуля, число смены знака, число формант), битовый поток - 2400 бит/с. Среди трудностей данного
подхода выделяют временную (изменение темпа) и спектральную (изменение формы) нестационарность
образцов речевого сигнала, коартикуляционную нестационарность (изменение взаимовлияния соседних
звуков от образца к образцу), проблему кластеризацию слитной речи и т.д.
Следует заметить, что, исключая избыточность речи, современные вокодеры существенно искажают
структуру речевого сигнала. К сожалению, современные вокодеры в погоне за разборчивостью речи
очень сильно деформируют ее биометрию. В принципе можно создать вокодер с очень высокой разборчивостью, который полностью убрал избыточную биометрию. Он будет монотонно говорить «железным» голосом синтезатора, хорошо понимаемыми людьми, но практически полностью утратившим индивидуальность.
В этом плане биометрические технологии, опирающиеся на использование классических вокодеров,
следует рассматривать как ущербные, так как они ориентированы на использование
классических
принципов только частотной или только временной обработки звуковых сигналов речи человека. Похоже, что лингвистический анализ вообще как метод синтеза звука не оправдывает себя при его реализации в системах распознавания речи, так как сделан он был людьми и отвечает только возможностям
человеческого мозга, но никак не возможностям вычислительных машин.
Возникает задача одновременно связанная и с повышением степени сжатия речи и с увеличением
стабильности биометрических параметров речи. Схема фонемного биометрического вокодера с многомерной статистической обработкой речи и извлечением биометрических характеристик приведена на
рисунке 2. Она включает нечеткий кодировщик-распознаватель низкочастотных и высокочастотных тональных, шумовых и взрывных фонем.
Обработка
идет по 200 параметров/кадр (50 коэффициентов
Фурье X 4 части периода), кодирование - 600 бит/с. Увеличение числа анализируемых параметров позволяет повысить качество распознавания фонем и, соответственно, качество воспроизведения речи.
Многомерный статистический анализ звуковых потоков и распознаватель грамматик формализации
многомерного звукового потока позволяют учитывать вариацию фонем в зависимости от положения в
слове (в начале, в середине, в конце), стыков фонем. Наряду с просодическими характеристиками
высокоинтеллектуальный биометрический вокодер извлекает биометрические характеристики голоса
пользователя. Синтез фонем происходит по образцам голоса пользователя, предварительно извлеченным
и сохраненным отдельно от тестового (фонемного) состава сообщения.
Фонемный
состав
сообщения
Слитная
речь
Обработка
200 параметров/кадр
50 коэффициентов
Фурье X
4 части кадра
Кодирование
600 бит/с
Блок обработки звука
Биометрические
характеристики
Блок синтеза голоса
Выделение
тональных
фонем
Синтез
тональных
фонем
Выделение
взрывных
фонем
Синтез
взрывных
фонем
Выделение
шумовых
фонем
Синтез
шумовых
фонем
Выделение
пауз, придыхания,
стыков фонем
Синтез
пауз, придыхания,
стыков фонем
Варианты фонем (в
начале, середине,
конце слова)
Преобразование
фонем по положению
в слове
Мелодика,
временные
характеристики голоса
Наложение
просодических
характеристик
Биометрические
характеристики голоса
пользователя
Наложение
биометрии
пользователя
Синтезированный
звуковой
сигнал
На основе
образцов голоса
пользователя
Рис. 2. Схема фонемного биометрического вокодера с многомерной статистической обработкой речи
и извлечением биометрических характеристик
Построенный таким образом биометрический вокодер:
позволяет при необходимости более плотно упаковывать речевую информацию в сравнении с классическими вокодерами;
позволяет получать более стабильные биометрические параметры выходного битового потока, ориентированные не только на человека хорошо понимающего речь и хорошо узнающего диктора, но и биометрические автоматы с их относительно низкими (по сравнению с человеком) интеллектуальными возможностями.
Переход от вокодеров, ориентированных на работу с диктором, к системам распознавания речи –
высокоинтеллектуальным биометрическим вокодерам, работающим с обычным пользователем, обеспечивается реализации режима самообучения. При этом пользователь не произносит много раз один и тот же
большой по объему текст. Он произносит фразу, содержащую максимум возможностей для сбора образцов
фонем и их соединений. Этого вполне достаточно на первое время работы, впоследствии можно всегда
дообучить систему, повысив качество воспроизведения речи.
Таким образом, уровень интеллекта биометрического вокодера определяется размерностью данных,
извлекаемых из речевого сигнала, в виде фонемного состава и биометрических характеристик.
Объединение концепции многомерного статистического анализа и извлечения биометрических характеристик голоса с уходом от лингвистических моделей, приспособленных к высокому интеллекту человека, позволяют получить одновременно повышение степени сжатия речи и увеличение стабильности
биометрических параметров речи, позволяя говорить о высоком качестве синтеза речи голосом пользователя и о высоком интеллекте фонемного биометрического вокодера.
Download