Программа для расчёта параметров сегментарной модели

advertisement
М.В. КАЛЮЖНЫЙ, Н.Н. ФИЛАТОВА
Тверской государственный технический университет
ПРОГРАММА ДЛЯ РАСЧЁТА ПАРАМЕТРОВ СЕГМЕНТАРНОЙ МОДЕЛИ РЕЧЕВОГО
СИГНАЛА
Рассмотрена программная разработка, позволяющая производить анализ и модификацию речевых сигналов на основе сегментарной модели.
В Тверском государственном техническом университете а кафедре «Автоматизация технологических
процессов» разработана и реализована сегментарная модель[1] представления вокализованных участков
речевого сигнала (РС). На ее основе осуществляется разработка модуля эмоциональной коррекции для синтезаторов русской речи систем реабилитации незрячих и слабовидящих.
Модель позволяет описывать РС как последовательность периодов основного тона (ПОТ), состоящих из
множества сегментов с параметрами: длительность L, высота H и коэффициент формы k.
В связи с этим требовалось решить задачи автоматического нахождения сегментов и вычисления их параметров, а также модификации РС в соответствии с заданными параметрами сегментов.
Для решения указанных задач разработано приложение Sound, реализующее следующие функции: создание, открытие, редактирование и сохранение файлов wav; запись и воспроизведение звука в формате
PCM (wav); отображение осциллограммы звука в окне документа; сегментация выделенного фрагмента wavфайла, расчёт параметров сегментов и вывод в окно редактирования, сохранение в файл, загрузка из файла
параметров сегментов; модификация звукового файла в соответствии заданными параметрами сегментов.
Программа разработана в среде MS Visual C++ и является MDI- приложением для ОС Windows. За основу
взято демонстрационное приложение, описанное в [2].
Типовой алгоритм работы с приложением следующий:
1. Пользователь, открыв и прослушав wav-файл, выделяет нужный фрагмент осциллограммы и выбирает
в меню Операции -> Сегментация.
2. Процедура сегментации включает выделение периодов основного тона (ПОТ), их разбивку на сегменты, вычисление параметров сегментов и вывод результатов в специальное окно. Границей первого ПОТ признается локальный максимум, ближайший к левой границе выделенной области. Длительность всех ПОТ
рассчитывается по максимальному значению автокорреляционной функции в интервале, задаваемом отношением частоты дискретизации сигнала к частоте основного тона. Найденное по АКФ значение ПОТ корректируется сдвигом границы ПОТ в точку ближайшего локального максимума. Далее каждый ПОТ разделяется на сегменты и вычисляются их параметры. Границами сегментов являются локальные экстремумы
осциллограммы. Длительность L каждого сегмента вычисляется как разность между номерами отсчётов его
границ,
высота H – как разность значений этих отсчётов. Коэффициент формы k вычисляется перебором значений в интервале [0;5] с шагом 0,1. Из данного интервала выбирается значение, при котором сумма квадратов разностей действительных значений сигнала и значений, рассчитанных по модели, минимальна. Все вычисленные
параметры фиксируются в соответствующих переменных, являющихся элементами двумерных массивов,
первый индекс которых соответствует номеру ПОТ, второй – номеру сегмента. Результат вычислений выводится в виде таблицы в окно.
3. Сохранение таблицы параметров сегментов в файл формата xls, txt, seg. Возможно копирование в буфер, а также редактирование в окне.
4. Анализ либо модификация параметров сегментов в других приложениях (Excel, Matlab и т.п.) и сохранение результата в файл (или буфер).
5. Загрузка модифицированных параметров сегментов в окно сегментации. Выполняется нажатием кнопки «Загрузить» в окне «Сегментация» и выбором нужного файла. Возможна вставка данных из буфера.
6. Модификация РС в соответствии с загруженными параметрами сегментов. Процедура выполняется
при нажатии кнопки «Применить» в окне «Сегментация» и включает коррекцию (при необходимости) длины wav файла, последовательный расчёт новых значений отсчётов сигнала в соответствии с загруженными
параметрами сегментов и вставку рассчитанных значений в выделенную область.
7. Воспроизведение получившегося речевого сигнала.
8. Сохранение изменённого РС в wav-файл.
Разработка позволила автоматизировать процесс обработки экспериментальных данных и верификации
разрабатываемых алгоритмов коррекции эмоционального окраса РС.
Список литературы
1. Калюжный М.В., Филалова Н.Н. Параметрическое описание речевого сигнала в модели эмоционально окрашенной речи.
//Электроника и информатика - 2005. V Международная научно-техническая конференция: Материалы конференции. Часть 2. - М.:
МИЭТ, 2005. - 208 с. ISBN 5-7256-0407-1. С. 11-12.
2. Секунов Н.Ю. Обработка звука на PC. - СПб.: БХВ-Петербург, 2001.
Download