Исследование устойчивого метода

advertisement
ИССЛЕДОВАНИЕ УСТОЙЧИВОГО
МЕТОДА АУДИО СЕГМЕНТАЦИИ
Методические указания
к лабораторной работе
по курсу
«Статистическая радиофизика»
Для студентов факультета
радиофизики и электроники
специальности 1-31 04 02 «Радиофизика»
МИНСК
БГУ
2007
УДК 536.3(075.83)
ББК 22.34p30-252.43
И88
Авторы – составиятели:
Е.И.Бовбель,
У Ши,
Рецензент
Рекомендовано Ученым советом
факультета радиофизики и электроники
30 октября 2007г., протокол № 1
Исследование устойчивого метода аудио сегментации: Метод.
И88 указания к лабораторной работе по курсу «Статистическая радиофизика»
/Авт. - сост. Е.И.Бовбель,У Ши,
- Мн.:БГУ,2007.-71с.
Методические указания предназначены для студентов факультета радиофизики и
электроники специальности 1-31 04 02 «Радиофизика».
УДК 536.3(075.83)
ББК 22.34p30-252.43
©БГУ,2007
2
ВВЕДЕНИЕ
Сегментация сигналов - это задача разделения непрерывного
потока данных на однородные участки. Такое определение достаточно
абстрактно и не предполагает спецификации правил однородности,
которые зависят от конкретной ситуации. Именно поэтому определяющую
роль в процессе сегментации играет классификация данных. Именно
процесс классификации и устанавливает правила однородности. Таким
образом, задача устойчивой сегментации неразрешима без эффективного
метода
классификации.
сегментации
аудио
Наиболее
данных
распространенными
являются:
задачами
сегментация на участки
речь/музыка, сегментация дикторов по полу, сегментация речи по языковому
признаку и другие.
Теме
сегментации
аудио
потока
на
участки
музыка/речь
посвящено множество научных работ. Сандерс [1] разработал алгоритм
сегментации для FM-ресиверов, работающий в режиме реального
времени. В основе предложенного им похода лежит анализ таких
признаков как Пересечение Нулевого Уровня и Кратковременная Энергия.
Шнайер и Сланли [2] предложили подход, используемый преимущественно
для систем автоматического распознавания речи. Жанг и Куо [3]
разработали свой метод, в котором осуществляется классификация на типы:
речь, музыка, шум, тишина. Более утонченный подход был предложен
Сринивасаном [4] - делаются попытки ввести смешанные классы:
наложение музыки на речь, речь с фоновым шумом. Характерной чертой
приведенных алгоритмов является тот факт, что много внимание
уделяется именно классификации данных, в то время как сама схема
сегментации остается довольно простой: разделение потока на фреймы
одинаковой длины, их классификация и на основании ее результатов
формирование границ сегментов. В некоторых подходах длина сегмента
3
является фиксированной. Несмотря на удобство с точки зрения
практической реализации, это приводит к отсутствию "глобальной
сегментации". Дробление однородных по содержимому участков на
более мелкие части может привести к невозможности сбора и анализа
статистических
данных,
необходимых
для
оценки
некоторых
признаков сегментов. "Глобальная" сегментация подразумевает собой
разделение на сегменты с точки зрения содержимого аудио информации.
Для преодоления вышеприведенных недостатков нами был
разработан подход, имеющий более сложную четырехуровневую схему
сегментации.
Рис. 1. Простая схема сегментации, основанная на анализе
фреймовых признаков .
В основе работы предложенного нами алгоритма лежат
физиологические особенности восприятия звука человеком. Алгоритм
включает в себя четыре этапа, на каждом из которых, происходит процесс
сегментации и классификации. Анализируя такие характеристики, как
частота основного тона (ЧОТ), частота и длительность временных пауз,
соотношение энергий частотных диапазонов можно добиться высокой
точности классификации на каждом из этапов.
4
ЛАБОРАТОРНАЯ РАБОТА
ИССЛЕДОВАНИЕ УСТОЙЧИВОГО МЕТОДА
АУДИО СЕГМЕНТАЦИИ
Цель работы. Эксперементально исследовать устойчивый метод аудио
сегментации.
Задание по работе:
1. Проработать теоретический материал по источникам, указанным в списке
литературы, и настоящему руководству.
2. Изучить особенности настройки программы «Радио сегментация» и
возмоности работы с ней.
3. Используя программу «Радио сегментация», провести анализ радио
сегментации, распознавание музыки и речи и тишины.
5
1. ИЗВЛЕЧЕНИЕ ПРИЗНАКОВ АУДИО
СУГМЕНТОВ
В отличие от стандартной схемы сегментации, которая
основана на анализе признаков фреймов, нами был разработан подход,
основывающийся на признаках сегментах. Вводятся четыре сегментных
признака, на которых зиждется предложенная схема классификации:
Соотношение Энергий Диапазонов Сегмента, Коэффициент Появления
Пауз, Частота Основного Тона Сегмента, Центроид Поддиапазона Сегмента.
Базой для вычисления сегментных признаков является совокупность
признаков фреймов, которые образуют данный сегмент. В данной работе
были использованы такие признаки фреймов как Соотношение Энергий
Диапазонов
(СЭД),
Полная
Энергия
Фрейма
(ПЭФ),
центроид
поддиапазона (ЦП), Частота Основного Тона (ЧОТ). Все они являются
широко известными и достаточно подробно описаны в литературе
(например [1]).
Рис. 2. Первоначальная обработка аудио потока
6
По определению сегмент есть временной отрезок аудио
потока,
имеющий
определенную
длительность.
Вводится
два
базовых типа сегментов: сегменты, содержащие сигнал и бесшумные
сегменты
(тишина).
Операция
извлечения
признаков
сегментов,
дальнейшая их обработка и классификация проводится только над теми*
сегментами, которые были на первом этапе отнесены к сегментам,
содержащим
сигнал.
Единственным
фрейм-признаком,
который
используется для бесшумных сегментов, является Полная Энергия
Фрейма. Если суммарная длительность фреймов следующих друг за
другом, ПЭФ которых позволяет классифицировать их как бесшумные,
больше чем определенный порог, определяемый как минимальная
длительность сегмента, сегмент классифицируется как бесшумный. Для
остальных сегментов извлекаются следующие признаки.
1.1. Соотношение энергий диапазонов сегмента
Так как для человеческой речи характерна концентрация большей
части энергии в диапазоне нижних частот (эмпирически определенный
порог 500 Герц), соотношение энергий диапазонов может служить
классификатором
на
речь/музыку.
Однако
это
весьма
ненадежная
классификация, ибо применяется к фреймовому базису, а длительность
фрейма очень небольшая. Однако в сегментном базисе данный признак
может служить первоначальным классификатором. Введем сегментный
признак под названием доминантное соотношение энергий диапазонов
сегмента (СЭДС). Классификация по данному признаку происходит по
следующей схеме: анализируется результат классификации по СЭД
всех фреймов, принадлежащих сегменту, при этом классом сегмента
7
становится доминирующий класс. Стоит отметить, что классификация по
СЭДС имеет менее высокую точность по сравнению с классификацией по
остальным признакам сегмента, описанным ниже. Поэтому СЭДС
используется только на первых этапах классификации, главным образом
для операции глобализации сегментов путем сравнения данного признака у
соседних сегментов. Совпадение классов по СЭДС является одним из
непременных условий для объединения сегментов в один.
1.2. Коэффициент появления пауз
Для разделения сигнала на классы речь/музыка весьма
целесообразно
проанализировать
соотношение
числа
фреймов,
содержащих сигнал к общему числу фреймов. Вследствие естественных
пауз
и
непроизносимых
определенный
процентный
согласных
уровень
человеческая
пауз,
который
речь
имеет
обычно
не
достигается в музыкальных блоках. Таким образом путем сравнения
данного соотношения с заданным порогом, определенным эмпирическим
путем, можно произвести классификацию на речь и музыку. Однако,
если учитывать только количественную характеристику бесшумных
фреймов в сегменте, в некоторых ситуациях могут возникнуть ошибки
классификации. Например, быстрая речь (отсутствие достаточной
суммарной длительности пауз), малая длина речевого сегмента (менее 3
секунд). Для человеческой речи иногда такой параметр как частота
появления пауз достигает высокого значения, несмотря на то, что их
суммарная длительность может быть весьма небольшой. С другой
стороны, в некоторых музыкальных композициях (особенно это
характерно для классической музыки) в различных переходах вероятно
появления довольно длительных участков с тишиной.
8
Учитывая приведенные выше особенности, нами был введен такой
признак сегментов как Коэффициент Появления Пауз (КПП):
N
KPP 
N - число фреймов в сегменте,
f ri
N   Ki
i 1
(1)
2N
K i - может быть получено из таблицы:
f ri1
тишина —> не тишина
не тишина —> тишина
тишина —> тишина
не тишина —> не тишина
Ki
+1
+1
+1
-1
КПП учитывает не только количественную характеристику пауз,
но и качественную (частота появления). Таким образом, в случае быстрой
речи несмотря на то, что суммарная длительность пауз будет мала, значение
КПП будет высоким вследствие частого их появления.
1.3. Частота основного тона сегмента
Частота основного тона является широко известным признаком,
используемым для дифференцирования на классы речь/музыка по причине
того, что музыка, как правило, более гармонична, чем речь. Человеческая
9
речь представляет собой последовательность гласных (гармонических тонов)
и согласных (негармоничные звуки). Так как ЧОТ имеют только
гармонические тона, поведение ЧОТ в речевом сегменте будет представлять
собой быструю смену фреймов с нулевой ЧОТ и фреймов с ЧОТ не
превышающей характерный для речи порог (500 Гц). Таким образом,
среднее значение ЧОТ в речевом сегменте обычно мало.
Для сегментов содержащих музыку ситуация иная. Звучание
большинства музыкальных инструментов (за исключением группы ударных)
представляет
собой
смену
звуков
(музыкальных
нот)
различных
длительностей и высот. При этом высота ноты и определяется главным
образом
частотой
основного
тона.
Таким
образом,
вследствие
непрерывности звучания гармонических тонов и отсутствия верхнего
предела ЧОТ, среднее значение параметра в сегменте будет довольно
высоким. Однако, в некоторых исключительных ситуациях (сегменты с
гармоническим женским голосом, музыкальные композиции в стиле
хард-рок
с
интенсивным
боем
ударных
и
глубоким
басом)
классификация по ЧОТ может быть ошибочной.
Для улучшения дискриминационного фактора данного признака, в
качестве значения ЧОТ сегмента принимается не среднее значение по всем
фреймам, а значение, вычисленное по формуле:
N
FF 
 FF
i
i 1
(2)
N
Где FFt рассчитывается как:
10
{
FFi 
FFi , j  [i  k , i  k ], FFj  0
k N
0 остальных случаях
Основная идея заключается в том, чтобы учесть поведение ЧОТ
на протяжении сегмента. То есть для того, чтобы значение FF t в
сумме было отличным от нуля, необходимо, чтобы к фреймов с обеих
сторон фрейма с индексом i имели значение ЧОТ отличное от нуля. .Для
речевых сегментов это приведет к значительному уменьшению значения
сегментного признака ЧОТ.
1.4. Центроид поддиапазона сегмента
Вследствие присутствия в речевом сигнале и гласных и согласных
звуков, среднее значение признака ЦП в сегменте, как правило,
небольшое, в то время как дисперсия
(разброс значений) весьма значительная. Для сегментов, содержащих
музыку ситуация противоположная: среднее значение большое, дисперсия
незначительная. Однако экспериментальные исследования показывают,
что композиции, принадлежащие некоторым направления музыки, имеют
довольно небольшое среднее значение ЦП. Таким образом, для устойчивой
классификации по данному признаку, во внимание будет приниматься
только значение дисперсии ЦП. Единственным исключением будет является
случай "принудительной классификации", когда среднее значение ЦП
превысит заданный верхний порог. В такой ситуации можно с
уверенностью утверждать факт принадлежности сегмента к классу
музыка, не прибегая к анализу дисперсии.
11
N
DFF (n) 
 (SC  FF )
2
i
i
(3)
N
2. СХЕМА СЕГМЕНТАЦИИ И
КЛАССФИКАЦИИ
В основе предложенного нами подхода сегментации аудио
сигналов лежит следующий факт: автоматическая классификация и
сегментация - взаимосвязанные и взаимозависимые задачи. То есть
эффективная схема сегментации требует устойчивой классификации и
наоборот.
В разработанном нами алгоритме был реализован итерационный
подход.
Начиная
с
классификации
отдельных
фреймов
и
первоначальной сегментации по сле многочисленных итераций на
этапах промежуточной сегментации и классификации, мы получаем в
качестве результата глобально-сегментированный аудио поток.
Для улучшения производительности, и самое главное точности, схема классификации определяет принадлежность сегментов
только к четырем типам: "тишина", "речь", "музыка", "смешанный" тип.
Первые три класса относятся к "простым" типам. Сегмент может быть
классифицирован как "смешанный" тип в случае, если его нельзя отнести
ни к одному из простых типов. Это может быть вследствие некоторых
неопределенностей или аномалий в источнике аудио информации либо в
случае, когда данный сегмент имеет признаки сразу нескольких
простых классов. Для оценки
алгоритма
с егмент ации
эффективно сти
при
проведении
12
предложенного
экспериментальных
исследований вводятся два типа ошибок:
1.
Критические ошибки.Происходят в случае некорректной
классификации сегмента, принадлежавшего одному простому классу,
как сегмента, принадлежавшего другому простому классу.
2.
Некритические ошибки. Происходят в случае некорректной
классификации сегмента,принадлежавшего к одному из простых
классов,как cегмента,принадлежавшего к "смешанному" классу.
Рассмотрим каждый этап более подробно.
Рис. 3. Четырехуровневая схема сегментации
13
2.1.
Этап 1:
Первоначальная классификация
Основная задача, которая стоит на первом этапе, заключается в
разделении фреймов на две категории: содержащие сигнал, содержащие
тишину, и в последующей классификации фреймов, отнесенных к первому
классу. Так как пофреймовая классификация используется только для
первоначальной сегментации, нет необходимости вводить "смешанный"
тип на данном этапе. Таким образом, в результате все фреймы
подразделяются на три класса: содержащие речь, музыку, тишину.
Для определения фреймов содержащих тишину производится
сравнение значения ПЭФ с порогом ТПЭФ, который для инвариантности
относительно громкости звучания вычисляется как:
TПЭФ  Emin  s  ( E  Emin )
s -
(4)
коэффициент, определяющий значение порога ТПЭФ, лежащее между
E min и E  .
Если ПЭФ меньше порога Т ПЭФ, фрейм классифицируется
как тишина. В случае, если ПЭФ превышает порог, для данного фрейма
вычисляется значение СЭД с частотой среза 500 Герц. Это обусловлено
фактом того, что большая часть энергии человеческой речи содержится
именно в диапазоне частот до 500 Герц. На основании этого производится
классификация сегментов, содержащих сигнал на речь и музыку.
14
Рис. 4. Первоначальная классификация.
2.2. Этап 2 : Первоначальная сегментация и
промежуточная классфикация
На
этом
этапе
происходит
первоначальное
формирование
сегментов, извлекаются первые признаки сегментов, осуществляются
первые попытки классификации.
Сначала происходит поиск и выделение сегментов,с тишиной.
На предыдущем этапе уже были выявлены все фреймы с тишиной. Именно
теперь стоит задача объединить их в сегменты. В процессе образования
сегментов
с
тишиной
большое
значение
имеет
эмпирически
установленный порог минимальной длины сегмента (например, 0.2
секунды). Если суммарная длительность фреймов с тишиной, следующих
друг за другом превышает данный порог, происходит формирование
сегмента.
формируют
Части,
находящиеся
сегменты,
между
содержащие
15
полученными
сигнал.
При
этом
сегментами
сразу же
осуществляется их промежуточная классификация, используя такие
признаки сегментов, как КПП и ДСЭД. Следует отметить, что не
исключены ситуации, в которых классификация по этим двум признакам
будет различна. Эта возможность допускается по причине того, что на
данном этапе происходит только подготовка для дальнейшей, глобальной
целевой сегментации.
Рис. 5. Первоначальная сегментагция и промежуточная классификация
16
Рис. 6. Результаты второго этапа сегментации.
2.3. Этап 3: Глобализация сегментов и базавая
классфикация
Этот этап является наиболее важным, так как именно на нем
подводится итог попыткам осуществить глобализацию сегментов.
На практике часто бывает так, что сегменты содержащие тишину,
сформированные на предыдущих этапах могу быть просто естественными
паузами человеческой речи, либо быть разделителем между сегментами с
различными
типами
классов.
Если
первое
предположение
верно,
становится очевидно, что такие сегменты дробят семантически гомогенные
участки аудио потока на мелкие части. Для более эффективной
сегментации
и,
как
следствие
классификации,
такие
сегменты
с
тишиной,должны быть устранены. Для устранения сегмента с тишиной и
объединения его соседей необходимо выполнение двух условий:
17
Рис. 7.
Глобализация сегментов и базавая классфикация
18
1.
Длительность сегмента с тишиной не должна превышать
заданный порог.
2.
Классы соседних сегментов, вычисленные отдельно по
КПП и СЭДС должны совпадать.
После выполнения вышеописанного действия количество и
структура сегментов оказывается измененной. Для
возможности
перехода на следующую итерацию необходимо вычислить заново
признаки КПП и СЭДС для новообразованных сегментов и осуществить
процесс ре-классификации, результатом которой может стать возможность
дальнейшего
устранения
сегментов
с
тишиной
(Изначально
такое
устранение могло быть невозможно из-за несовпадения классов соседних
сегментов). Цикл вышеописанных итераций выполняется до тех пор, пока
не будут проверены все возможности удаления коротких сегменты с
тишиной и глобализации сегментов, содержащих сигнал.
Завершающей стадией данного этапа является фильтрация
слишком коротких сегментов, содержащих сигнал и последующая
классификация "глобальных" сегментов.
2.4. Этап 4: Внутренняя сегментация
На этом завершающем этапе предпринимаются действия
направленные на улучшение полученной на предыдущем этапе схемы
путем осуществления попыток внутренней сегментации. На практике в
ряде случаев аудио поток содержит участки, которые относятся к
различным классам, но не являются разделенными даже очень короткой
паузой (например, сформированный на предыдущих этапах длинный
сегмент, содержащий участки чистой речи и чистой музыки без паузы между
ними). Именно на выделение таких под-сегментов и направлены действия
по анализу возможности и осуществления внутренней сегментации. В
19
данной работе в основу алгоритма внутренней сегментации лежит широко
распространенный принцип "обнаружения точек перехода". Непременным
условием для осуществления внутренней сегментации является
минимальная
длина
сегмента.
Нецелесообразность
разделения
слишком коротких сегментов на еще более мелкие очевидна. Кроме
того,
при
слишком
короткой
длительности
становится
весьма
затруднительно извлечение таких признаков как КПП, ЦП, ЧОТ. Основная
идея принципа "обнаружения точек перехода" состоит в том, чтобы
наблюдать поведение какого-либо устойчивого сегментного признака (в
данном случае ЦП) на протяжении сегмента. Осуществляется поиск точек
перехода, то есть положений фреймов в сегменте, в которых происходит
переход класса, вычисленного по выбранному сегментному признаку (в
этом случае ЦП) по отношению к классу глобального сегмента. На
следующей стадии происходит верификация найденных точек перехода и
финальная классификация.
20
Рис. 8. Внутренняя сегментация
3. ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ
УСТОЙЧИВОГО МЕТОДА АУДИО
СЕГМЕНТАЦИИ
3.1. Описание интерфейса программы
сегментации
Для
практического
применения
разработанного
алгоритма
сегментации применительно к сигналам реальной жизни, а также для
исследования и отладки этих алгоритмов на “JAVA Programming Language”
был разработан дополнительный модуль “Segmentation” к программному
комплексу
“LAOE”
(Layer-based
Audio
Operation
Environment,
www.oli4.ch/laoe/). Разработанный модуль имеет удобный интерфейс и
гибко
настраиваемые
параметры
работы,
что
даёт
возможность
практического использования без необходимости его перекомпиляции при
изменении параметров алгоритма.
Главное окно программы состоит из нескольких частей:
1.
Меню программы;
2.
Кнопки быстрого вызова различных функций программы;
3.
Кнопки быстрого вызова функций модуля сегментации.
Вид основного окна среды показан на рис. 9.
21
1
2
3
Рис. 9.
Вид основного окна среды “LAOE”
3.1.1. Меню среды “LAOE”
Меню File
22
Ри. 10. Меню File
В меню File (рис. 10) находятся следующие пункты:
new… – создает новый файл для дальнейшей обработки.
open – открывает находящийся на диске файл. Поддерживаются
наиболее распространенные форматы PCM, mp3, AAC.
save as – сохраняет файл на диск с возможностью выбора
пользователем места расположения на дисковом пространстве и имени
файла.
save – сохраняет открытый ранее и измененный файл на диск
close – закрывает открытый ранее файл.
exit – выход из программы с сохранением всех конфигурационных
настроек.
23
save as image – сохраняет на диск графическое представление
звукового файла в виде изображения.
LAoE options…– вызов диалога настройки конфигурационных
параметров
программы.
Меню Help
Рис. 11. Меню Help
Меню Help (рис. 11) содержит следующие пункты:
tip of the day…, вызывающий диалог с полезными советами.
·system info…, вызывающий диалог с краткой информацией о
системе.
about…, вызывающий диалог с краткой информацией о программе
и авторе.
24
3.1.2. Кнопки быстрого вызова функций модуля
сегментации
Рис.12.
Кнопки “Group Segmentation” и “Report”
Group Segmentation
– кнопка открытия диалогового окна для
вызова модуля групповой сегментации. При нажатии вызывается окно с
возможностью выбора директории, содержащей файлы для автоматической
обработки (рис. 13).
Рис. 13.
Диалоговое окно “Group Segmentation”
25
После выбора нужной директории и нажатия кнопки open
происходит сегментация всех файлов, содержащихся в директории,
форматы которых поддерживаются.
Report – кнопка открытия модуля для генерации итогового отчета,
который формируется на основе данных, полученных после сегментации
аудио
файлов.
При
нажатии
вызывается
окно,
предоставляющее
возможность сформировать итоговый отчет путем нажатии кнопки apply,
либо
осуществить
принудительную
очистку
файлов,
содержащих
результаты предыдущих операций сегментации путем нажатия кнопки clear
dirs (рис. 14).
Рис.14.
Диалоговое окно “Report”
3.1.3 Окно графического отображения данных
После открытия пользователем звукового файла происходит
графическое отображения в этом окне формы анализируемого сигнала (рис.
15).
26
Рис.15.
Окно графического отображения данных.
После осуществления операции сегментации над предварительно
открытым файлом происходит автоматическое отображение результатов
сегментации и классификации в виде разноцветных отрезков различных
длин. При этом черным цветом обозначаются отрезки, классифицированные
как речь, красным – музыка, белым – тишина (рис. 16).
Рис. 16.
Окно графического отображения данных после осуществления
операции сегментации.
27
3.2 Настройка модуля сегментации
3.2.1 Диалог настойки модуля сегментации
На рис. 17 показан диалог настройки модуля сегментации.
Рис. 17.
Диалог настройки модуля сегментации
Диалог содержит следующие пункты:
Frame
duration
–
длительность
фреймов,
на
которые
осуществляется разбиение аудио потока.
Silence factor – коэффициент, предназначенный для определения
порога уровня минимальной энергии.
28
Cut-off frequency – частота среза, необходимая для извлечения
фреймового признака
СЭД.
BER bound – процентное соотношение энергий диапазонов,
необходимое для классификации фреймов по СЭД.
minSilenceDur – минимально возможная длительность сегмента
содержащего тишину, выраженная в миллисекундах.
minSegmentDur
сегмента,
содержащего
–
минимально
информационный
возможная
сигнал,
длительность
выраженная
в
миллисекундах.
maxSegmentDur – максимально возможная длительность сегмента,
содержащего информационный сигнал, выраженная в миллисекундах.
maxLForDeleting
–
максимально
возможная
длительность
сегмента содержащего тишину, рассматриваемого для вероятного удаления
на этапе глобализации сегментов, выраженная в миллисекундах.
n_For_FF_Estimation – параметр, необходимый для расчета
частоты основного тона сегмента.
FF_Upper_Bound – значение частоты основного тона сегмента,
необходимое для задания нижнего предела классификации для класса
“музыка”.
FF_Lower_Bound – значение частоты основного тона сегмента,
необходимое для задания верхнего предела классификации для класса
“речь”.
FF_Forced_Bound – значение частоты основного тона сегмента,
необходимое для задания нижнего предела принудительной классификации
по признаку ЧОТ сегмента.
29
TR_Bound – значение коэффициента появления пауз сегмента,
необходимое для задания предела классификации по КПП.
TR_Forced_Bound – значение коэффициента появления пауз
сегмента,
необходимое
для
задания
предела
принудительной
классификации по КПП.
SC_Mean_Bound
–
значение
математического
ожидания
центроида поддиапазона, необходимое для задания предела классификации
по ЦП.
SC_Mean_Forced_Bound – значение математического ожидания
центроида поддиапазона, необходимое для задания предела принудительной
классификации по ЦП.
SC_Deviation_Forced_Bound – значение дисперсии
поддиапазона,
необходимое
для
задания
предела
центроида
принудительной
классификации по ЦП.
SC_Deviation
–
_Bound
значение
дисперсии
центроида
поддиапазона, необходимое для задания предела классификации по ЦП.
4. ИССЛЕДОВАНИЕ РАБОТЫ УСТОЙЧИВОГО МЕТОДА
АУДИО СЕГМЕНТАЦИИ
Для проверки на практике эффективности разработанной схемы
сегментации
предложенный
нами
алгоритм
был
программно
реализован. В качестве языка программирования был выбран "JAVA
Programming Language" в силу ряда причин: синтаксис имеет очень
много общего с языком C++, технология "Java Sound" предоставляет
API (Application programming interface), не требующий трудоемкой работы
с
прерываниями
процессора,
а
30
позволяющий
выполнять
такие
простейшие операции с аудио потоками как воспроизведение и захват.
В
качестве
отличительных
особенностей
предложенной
реализации необходимо отметить: инвариантность к аудио параметрам
обрабатываемого
потока
(частота
дискретизации,
число
каналов
(моно/стерео), степень сжатия данных (bit-rate), уровень громкости,
длительность обрабатываемого потока), отсутствие необходимости
предварительного обучения системы.
Интерфейс пользователя представляется весьма удобным:
предусмотрена возможность визуального отображения аудио потока
(как в большинстве звуковых редакторов), наглядного представления
результатов сегментации как графически, так и в виде таблицы.
Рис. 18. Графической отображение результатов сегментации аудио потока.
Черным цветом обозначены сегменты, содержащие речь,
краснымсодержащие музыку, белым ~ содержащие тишину
31
Таблица 1
Класс
Начало
Длительность
сегмента
сегмента
Тишина
0.0
6.28
0.0
Тишина
Музыка
6.28
27.56
621.0
Музыка
Тишина
33.84
1.96
0.0
Тишина
Речь
46.0
Класс по
КПП
5.84
1070.0
Речь
ЦП
Дисперсия
Класс
ЦП
ЦП
0.0
Тишина
0.0
0.0
Тишина
0.12119013
Речь
3437.4429
35.070736
Музыка
0.0
Тишина
0.0
0.0
Тишина
0.41438356
Речь
1427.1205
52.71876
Речь
КПП
чот
Класс по
чот
по
Представленная схема сегментации была протестирована на
содержимом двух баз данных, содержащих сугубо аудио информацию:
музыкальная база и языковая база.
Музыкальная
база
содержит
композиции различных стилей и направлений. Ее структура приведена в
таблице 2.
Таблица 2
Музыкальный стиль
Процент (%)
Классика
Поп
36
30
Рок
24
32
Техно
10
Языковая база данных содержит записи Интернет-радиотрансляций
на 25 мировых языках. Общий объем данных составляет 350 часов.
Записи содержат и речь, и музыку. Аудио файлы сохранены под
именами, содержащими интернациональный код языка, чтобы сделать
использование базы более удобным. Языковой состав базы данных
представлен таблице 3.
Таблица 3
Язык
Процент (%)
Русский
Французский
29
24
Английский
12
Немецкий
10
Испанский
9
Белорусский
4
Другие
12
Результаты работы предложенной схемы сегментации приведены в
таблице 4:
Таблица 4
Корректно
Музыка
Критические
Некритическ
ошибки
ие ошибки
89.2 %
3.7 %
7.1 %
92.3 %
2.9 %
4.8 %
87.4 %
4.2 %
8.4 %
(музыкальная база)
Речь
(языковая база)
Музыка
33
(языковая база)
УКАЗАНИЕ К ОТЧЕТУ
Отчет должен содержать
1. Цель и задание по работе.
2. Ответы на контрольные вопросы.
3. Графики и таблицы по пунктам 3 и4 согласно заданию к работе.
4. Выводы и оценку полученных результатов.
КОНТРОЛЬНЫЕ ВОПРОСЫ
1. Что такое метод аудио сегментации?
2.В
каких
приложениях
эффективно
применение
метода
аудио
сегментации?
3. В чем премущество метода аудио сегментации?
ЛИТЕРАТУРА
1.
J. Saunders, “Real Time Discrimination of Broadcast Speech/Music”, Proc.
ICASSP96, vol.II, Atlanta, May, pp. 993-996, 1996.
2.
E. Scheirer and M. Slaney, “Construction and Evaluation of a Robust Mul-
tifeature, Speech/Music Discriminator”, Proc. IEEE Int. Conf. on Acoustics,
Speech, Signal Proc. Pp. 1331-1334, Munich, Germany, Apr. 1997.
3.
T. Zhang and C.–C. J. Kuo, “Hierarchical Classification of Audio Data for
Archiving and Retrieving”, Proc. IEEE Int. Conf. on Acoustics, Speech, Signal
Proc., pp. 3001-3004, Phoenix. March, 1999.
34
4.
S. Srinivasan, D. Petkovic and D. Ponceleon, “Towards robust featuresfor
classifying audio in the CueVideo System”, Proc. of the seventh ACM International Conf. On Multimedia, pp. 393-400, Ottawa, Canada 1999.
35
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ ......................................................................................................... 3
ЛАБОРАТОРНАЯ
РАБОТА .......................................................................... 5
ИССЛЕДОВАНИЕ УСТОЙЧИВОГО МЕТОДА ........................................... 5
1.
ИЗВЛЕЧЕНИЕ ПРИЗНАКОВ АУДИО СУГМЕНТОВ ........................ 6
1.1. Соотношение энергий диапазонов сегмента.............................................................7
1.2. Коэффициент появления пауз......................................................................................8
1.3. Частота основного тона сегмента..............................................................................9
1.4. Центроид поддиапазона сегмента.............................................................................11
2. СХЕМА СЕГМЕНТАЦИИ И КЛАССФИКАЦИИ ............................ 12
2.1. Этап 1: Первоначальная классификация..................................................................14
2.2.Этап2:Первоначальная сегментация и промежуточная классфикация
..........15
2.3. Этап 3: Глобализация сегментов и базавая классфикация.....................................17
2.4. Этап 4: Внутренняя сегментация..............................................................................19
3.ПРАКТИЧЕСКАЯ
РЕАЛИЗАЦИЯ УСТОЙЧИВОГО
МЕТОДА
АУДИО СЕГМЕНТАЦИИ..........................................................................................................21
3.1. Описание интерфейса программы сегментации......................................................21
3.1.1. Меню среды “LAOE” .............................................................................. 22
3.1.2. Кнопки быстрого вызова функций модуля сегментации ......................... 25
3.1.3
Окно графического отображения данных .............................................. 26
36
3.2
Настройка модуля сегментации..............................................................................28
3.2.1 Диалог настойки модуля сегментации....................................................... 28
4. ИССЛЕДОВАНИЕ РАБОТЫ УСТОЙЧИВОГО МЕТОДА ..................... 30
УКАЗАНИЕ К ОТЧЕТУ ................................................................................................ 34
КОНТРОЛЬНЫЕ ВОПРОСЫ .................................................................................... 34
ЛИТЕРАТУРА ...................................................................................................................... 34
37
Download