Программа для расчёта параметров сегментарной модели

М.В. КАЛЮЖНЫЙ, Н.Н. ФИЛАТОВА Тверской государственный технический университет ПРОГРАММА ДЛЯ РАСЧЁТА ПАРАМЕТРОВ СЕГМЕНТАРНОЙ МОДЕЛИ РЕЧЕВОГО СИГНАЛА Рассмотрена программная разработка, позволяющая производить анализ и модификацию речевых сигналов на основе сегментарной модели. В Тверском государственном техническом университете а кафедре «Автоматизация технологических процессов» разработана и реализована сегментарная модель[1] представления вокализованных участков речевого сигнала (РС). На ее основе осуществляется разработка модуля эмоциональной коррекции для синтезаторов русской речи систем реабилитации незрячих и слабовидящих. Модель позволяет описывать РС как последовательность периодов основного тона (ПОТ), состоящих из множества сегментов с параметрами: длительность L, высота H и коэффициент формы k. В связи с этим требовалось решить задачи автоматического нахождения сегментов и вычисления их параметров, а также модификации РС в соответствии с заданными параметрами сегментов. Для решения указанных задач разработано приложение Sound, реализующее следующие функции: создание, открытие, редактирование и сохранение файлов wav; запись и воспроизведение звука в формате PCM (wav); отображение осциллограммы звука в окне документа; сегментация выделенного фрагмента wavфайла, расчёт параметров сегментов и вывод в окно редактирования, сохранение в файл, загрузка из файла параметров сегментов; модификация звукового файла в соответствии заданными параметрами сегментов. Программа разработана в среде MS Visual C++ и является MDI- приложением для ОС Windows. За основу взято демонстрационное приложение, описанное в [2]. Типовой алгоритм работы с приложением следующий: 1. Пользователь, открыв и прослушав wav-файл, выделяет нужный фрагмент осциллограммы и выбирает в меню Операции -> Сегментация. 2. Процедура сегментации включает выделение периодов основного тона (ПОТ), их разбивку на сегменты, вычисление параметров сегментов и вывод результатов в специальное окно. Границей первого ПОТ признается локальный максимум, ближайший к левой границе выделенной области. Длительность всех ПОТ рассчитывается по максимальному значению автокорреляционной функции в интервале, задаваемом отношением частоты дискретизации сигнала к частоте основного тона. Найденное по АКФ значение ПОТ корректируется сдвигом границы ПОТ в точку ближайшего локального максимума. Далее каждый ПОТ разделяется на сегменты и вычисляются их параметры. Границами сегментов являются локальные экстремумы осциллограммы. Длительность L каждого сегмента вычисляется как разность между номерами отсчётов его границ, высота H – как разность значений этих отсчётов. Коэффициент формы k вычисляется перебором значений в интервале [0;5] с шагом 0,1. Из данного интервала выбирается значение, при котором сумма квадратов разностей действительных значений сигнала и значений, рассчитанных по модели, минимальна. Все вычисленные параметры фиксируются в соответствующих переменных, являющихся элементами двумерных массивов, первый индекс которых соответствует номеру ПОТ, второй – номеру сегмента. Результат вычислений выводится в виде таблицы в окно. 3. Сохранение таблицы параметров сегментов в файл формата xls, txt, seg. Возможно копирование в буфер, а также редактирование в окне. 4. Анализ либо модификация параметров сегментов в других приложениях (Excel, Matlab и т.п.) и сохранение результата в файл (или буфер). 5. Загрузка модифицированных параметров сегментов в окно сегментации. Выполняется нажатием кнопки «Загрузить» в окне «Сегментация» и выбором нужного файла. Возможна вставка данных из буфера. 6. Модификация РС в соответствии с загруженными параметрами сегментов. Процедура выполняется при нажатии кнопки «Применить» в окне «Сегментация» и включает коррекцию (при необходимости) длины wav файла, последовательный расчёт новых значений отсчётов сигнала в соответствии с загруженными параметрами сегментов и вставку рассчитанных значений в выделенную область. 7. Воспроизведение получившегося речевого сигнала. 8. Сохранение изменённого РС в wav-файл. Разработка позволила автоматизировать процесс обработки экспериментальных данных и верификации разрабатываемых алгоритмов коррекции эмоционального окраса РС. Список литературы 1. Калюжный М.В., Филалова Н.Н. Параметрическое описание речевого сигнала в модели эмоционально окрашенной речи. //Электроника и информатика - 2005. V Международная научно-техническая конференция: Материалы конференции. Часть 2. - М.: МИЭТ, 2005. - 208 с. ISBN 5-7256-0407-1. С. 11-12. 2. Секунов Н.Ю. Обработка звука на PC. - СПб.: БХВ-Петербург, 2001.

Программа для расчёта параметров сегментарной модели

Related documents

Products

Support

Программа для расчёта параметров сегментарной модели

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib