SWorld – 18-27 December 2012

advertisement
SWorld – 18-27 December 2012
http://www.sworld.com.ua/index.php/ru/conference/the-content-of-conferences/archives-of-individual-conferences/december-2012
MO DERN PROBLEMS AND WAYS OF THEIR SOLUTIO N IN SCIENCE, TRANSPORT, PRO DUCTION AND EDUCATIO N‘ 2012
УДК 81'342.1
Лихачёв Э. В.
ОСОБЕННОСТИ ПРОГРАММНОГО ЭЛЕКТРОАКУСТИЧЕСКОГО
АНАЛИЗА ПРОСОДИЧЕСКИХ ХАРАКТЕРИСТИК РЕЧИ
Таврический национальный университет им. В. И. Вернадского
Симферополь, Вернадского 4, 95007
UDC 81'342.1
Likhachov E.V.
THE FEATURES OF THE PROGRAMMED ELECTROACOUSTIC
ANALYSIS OF THE PROSODIC PROPERTIES OF THE SPEECH
Taurida National V.I.Vernadsky University
Simferopol, Academician Vernadsky Ave 4, 95007
В
данной
статье
рассматривается
система
просодических
характеристик речи как предмет электроакустического анализа. Исследуются
особенности
проведения
электроакустического
анализа
просодических
средств. Описываются возможности программного изучения просодии речи.
Ключевые слова: электроакустический анализ, система просодических
средств,
частота
основного
тона,
интенсивность,
длительность,
программное обеспечение.
In this report we describe the system of the prosodic properties of the speech as
a subject of electroacoustic analysis. The features of electroacoustic analysis are
investigated. The means of the programmed prosodic research are described.
Key words: electroacoustic analysis, system of prosodic means, main pitch,
intensity, duration, software
Введение.
Изучение
функционирования
языка
в
различных
коммуникативных и социальных ситуациях является актуальной задачей
современного языкознания. Системный подход к исследованию предполагает
анализ
всех
лексического,
языковых
уровней
синтаксического.
—
фонетического,
Развитие
грамматического,
информационных
технологий
позволяет использовать инструментальные методы исследования языковой
системы, фиксации и статистической обработки полученных результатов. На
лексическом уровне примером такого использования является частотный анализ
словоупотреблений, обрабатывающий значительные языковые корпусы за
короткий промежуток времени. Изучение сегментного и суперсегментного
уровня должно опираться на программные средства фиксации и анализа.
Теоретическое значение данной работы заключается в классификации
исследуемых просодических средств и отношений между ними. Точность
результатов требует учета особенностей программного анализа просодических
средств, которые описываются на примере программного обеспечения Praat, что
имеет практическое значение для дальнейшего исследования звучащей речи.
Под звучащей речью понимается «конкретное говорение, протекающее во
времени и облеченное в звуковую форму» [6]. Минимальные сегментные
единицы речи (фоны) объединяются интегральными суперсегментными
характеристиками в фонетические слова и синтагмы.
Перцептивными
характеристиками звучащей речи являются громкость, тон, темп и тембр речи.
По громкости выделяют нормальную, шепотную и внутреннюю речь
(нормальная артикуляция при нулевой громкости). Синтагма оформляется
тонально: нисходящие, восходящие и комбинированные движения тона
оформляют различные высказывания и составляют основу интонационных
конструкций. Например, Е.А. Брызгунова выделяет 8 конструкций, которые
реализуются
в
русской
речи
в
разных
типах
повествовательных,
восклицательных и вопросительных предложений [3]. Темп речи характеризует
определенные фоностили (полный, разговорный) и является причиной
фонетических редукций и ассимиляций. Тембр речи (тембральная окраска)
свидетельствует об эмоциональном состоянии говорящего и частично зависит
от особенностей строения речевого аппарата. Оформление высказывания
интонационными средствами объединяет минимальные единицы речи в
синтагматическое единство и дает дополнительную информацию о говорящем
и
ситуации
говорения.
Таким
образом,
интонация
выполняет
коммуникативную, экспрессивную и социолингвистическую функцию [5].
Изучение особенностей интонации предполагает программный анализ
акустических
характеристик
речи.
Акустическими
эквивалентами
перцептивных характеристик речи (и предметом электроакустического анализа)
являются частота, интенсивность и продолжительность. Таким образом, все
просодические
параметры
делятся
на
тональные,
динамические
и
темпоральные.
Базовой тональной величиной является частота основного тона (ЧОТ),
которая характеризует звуки, произносимые с участием голоса. ЧОТ обратно
пропорциональна длительности одного цикла работы голосовых связок [2] и
измеряется
в
герцах.
Praat
автоматически
фиксирует
среднюю
ЧОТ
анализируемой синтагмы. Для получения корректных результатов необходимо
задать правильный диапазон анализа ЧОТ с учетом средних значений (в
среднем для мужского голоса она составляет от 80 до 210 Гц, для женского —
от 150 до 320 Гц [1]) и произносительных особенностей отдельного говорящего.
Также при изучении просодии должны быть исключены модификации ЧОТ,
обусловленные сегментным составом речи [2]. Среднее значение ЧОТ
выступает в качестве нормирующего параметра при оценке изменений
частотного контура.
Естественная
человеческая
речь
отличается
от
синтезированной
голосовыми вибрациями, которые создаются разной длительностью колебания
голосовых связок и выражаются в изменении ЧОТ. Динамика ЧОТ является
важным носителем просодической информации и центральным предметом
исследования.
Изменения ЧОТ выражаются следующими значениями:
1. Частотный диапазон определяется разницей среднего максимума и
среднего минимума ЧОТ и выражается в герцах с дальнейшим переводом в
полутона
согласно
специальной
таблице
перевода.
Данная
величина
характеризует эмоциональный и экспрессивный потенциал высказывания.
Низкий диапазон указывает на произношение синтагмы «в одном тоне», резкие
изменения тональности синтагмы отражаются в широком частотном диапазоне.
Praat рассчитывает максимальное и минимальное значение анализируемого
фрагмента с помощью сочетания клавиш Shift+F5, Ctrl+F5. Однако для расчета
частотного диапазона необходимо использовать значения среднего максимума и
среднего минимума частоты на отрезке в 50-100 мсек (необходимых для
артикуляции одного звука) вокруг пиковой величины. Технически определение
среднего максимума и минимума происходит так же, как и определение средней
ЧОТ синтагмы.
2. Максимальная и минимальная частота основного тона (ЧОТмакс/ЧОТмин)
рассчитывается как отношение среднего максимума или минимума к средней
ЧОТ, выражается в герцах и для сравнения фрагментов речи разных людей
переводится в полутоны. Максимальная частота является положительной
величиной (записывается со знаком «+»), минимальная частота – отрицательной
(со знаком «–»). Разница модулей этих величин показывает распределение
фрагмента по тональным уровням.
3. Частотный интервал представляет отношение двух средних значений
ЧОТ внутри одного слога, между слогами или синтагмами (в зависимости от
целей исследования), выражается в полутонах (со знаком «+»или «–»). Значение
частотного интервала между двумя интонационными группами указывает на
движение тона внутри всего анализируемого высказывания.
4. Начальный и конечный частотный уровень анализируемого речевого
сегмента
рассчитывается
как
среднее
значение
частоты
на
отрезке
продолжительностью 50 мсек в начале или конце сегмента. Разница
начального/конечного частотного уровня речевого сегмента и его средней ЧОТ
отображает направление движения тона внутри интонационной группы.
5. Скорость изменения ЧОТ определяется на участках с однонаправленным
движением ЧОТ как отношение частотного интервала на данном участке к его
продолжительности и измеряется в полутонах/50 мсек. Cлуховой аппарат
фиксирует только те изменения, длительностью не менее 50 мсек [2], поэтому
однонаправленным следует считать движение ЧОТ, когда каждое следующее
среднее значение на отрезке в 50 мсек последовательно больше или меньше
предыдущего. Высокая скорость изменения ЧОТ характерна эмоциональным
высказываниям с большим частотным диапазоном, низкая – более ровной,
монотонной речи.
Программная визуализация движения тона в анализируемом речевом
сегменте позволяет выполнить локализацию частотного максимума и минимума
и
определить
конфигурацию ЧОТ
в
интонационной группе
(ровная,
восходящая, нисходящая, усложненная, сложная). Для презентации результатов
исследования графики движения тона можно сохранить с помощью команды
―Draw visible pitch contour…‖ меню Pitch.
Физической
характеристикой
громкости
голоса
является
его
интенсивность, пропорциональная квадрату звукового давления. За нулевой
уровень принять считать интенсивность звука, не различаемого человеческим
ухом (1*10-6 вт/м2). Для удобства измерения интенсивность выражается в белах
(десятичный логарифм отношения интенсивности измеряемого звука к
интенсивности условного нулевого уровня) и децибелах (0,1 бела). Увеличение
уровня интенсивности на 10 дб ведет к удвоению ощущения громкости [2].
Электроакустический анализ речевого сегмента позволяет исследовать
такие динамические параметры:
1. Максимум и минимум интенсивности. Пиковые значения рассчитывает
программа с помощью комбинации клавиш Shift+F8/Ctrl+F8. В исследовании
учитываются средние максимумы и минимумы интенсивности (среднее
значение вокруг на отрезке в 50 мсек, включающем пиковое значение). График
интенсивности (пункт ―Draw visible intensity contour…‖ меню Intensity)
позволяет
локализовать
данные
значения
и
подготовить
результаты
исследования к презентации. Абсолютные величины выражаются в децибелах и
могут быть нормированы для сравнения нескольких речевых сегментов
относительно средней или максимальной интенсивности всех анализируемых
сегментов.
2. Динамический диапазон определяется разностью среднего максимума и
минимума интенсивности, выражается в децибелах и показывает, во сколько раз
увеличилась интенсивность звука. Разница в 1 дб представляет минимально
различимое
изменение
интенсивности.
Значительное
увеличение
интенсивности несет дополнительную информацию о ситуации общения:
например, диапазон в 5 дб может означать переход от обычного разговора (60
дб) к громкому (65 дб).
3.
Среднеслоговая
интенсивность
показывает
средний
уровень
интенсивности речевого сегмента и рассчитывается как отношение суммарного
значения интенсивности всех слогов к количеству слогов в сегменте. Praat
рассчитывает среднюю интенсивность всего сегмента с учетом пауз. Для
получения более точного результата необходимо определить среднюю
интенсивность для каждого слога и рассчитать среднюю интенсивность
сегмента как среднее арифметическое интенсивности всех слогов. Данный
показатель
может
быть
использован
для
нормирования
остальных
динамических величин и в описании коммуникативной ситуации.
Любой просодический параметр рассматривается «как соотношение во
временной последовательности» [2], поэтому временная характеристика
является фундаментальной характеристикой речи. Каждый речевой сегмент
характеризуется определенной протяженностью во времени, необходимом для
его
артикуляции.
Физических
эквивалентом временных
просодических
характеристик является длительность (выражается в мсек). В нашем
исследовании анализируются следующие темпоральные параметры:
1. Общая длительность речевого сегмента автоматически определяется
программой и используется для классификации исследуемых сегментов.
2.
Среднезвуковая
длительность
определяется
отношением
общей
длительности речевого сигнала к сумме всех составляющих его звуков.
Характеризует общий темп произношения, изменения которого указывают на
особенности коммуникативной ситуации и лежат в основе произносительной
вариативности [4].
3.
Коэффициент
паузации
рассчитывается
как отношение
общей
длительности сегмента к длительности речевого сигнала (без учета пауз) и
характеризует речь
с
точки зрения
подготовленности/спонтанности
и
эмоционально-прагматического потенциала.
4. Длительность пауз на стыках между компонентами анализируемого
фрагмента позволяет описать организацию синтагм внутри фрагмента для
дальнейшего
сопоставления
закономерностей
с
особенностями
коммуникативной ситуации.
Приблизительные границы артикуляции речевого сегмента определяются
при его прослушивании и визуальном изучении спектрограммы. Более точные
значения
длительности
можно
получить
при
анализе
спектрограммы
(отсутствие речевого сигнала отображается равномерным, более светлым
спектром).
Исследование просодических характеристик речи требует обработки
массива статистической информации. Средний фрагмент длительностью 60 сек
состоит из 15-20 интонационных групп, при анализе каждой из которых
необходимо фиксировать около 15 различных параметров. Таким образом, при
анализе 5 часов звучащей речи необходимо рассчитать, зафиксировать и
статистически обработать около 9000 значений. Для ускорения этого
ресурсоемкого процесса необходимо использовать табличные процессоры (типа
Open
Office
Calc
или
Microsoft
Excel).
Часть
параметров,
которые
рассчитываются как функция другого параметра (например, частотный
диапазон или максимальная или минимальная ЧОТ), можно рассчитывать
автоматически, задав соответствующую формулу для столбика с данными
значениями.
Выводы:
1. Перцептивные характеристики речи (тон, темп, громкость) имеют
соответствующие
физические
эквиваленты
(частота,
длительность,
интенсивность), которые являются предметом электроакустического анализа.
Все просодические характеристики делятся на тональные, темпоральные и
динамические. Число и характер исследуемых характеристик зависит от
конкретных задач исследования.
2. Электроакустический анализ выполняется с помощью программного
обеспечения типа Praat. Абсолютные значения определяются программно или с
помощью визуального анализа графиков, некоторые величины рассчитываются
как производные от других. Для сравнения разных речевых фрагментов следует
проводить нормирование по среднему или максимальному значению для всего
анализируемого корпуса.
3. Время, необходимое для восприятия звука и изменения его тональных и
динамических характеристик, составляет около 50 мсек. Поэтому при анализе
должны учитываться средние значения на отрезках длительностью в 50 мсек,
как значимые и доступные для восприятия.
4. Учет и статистическая обработка полученных данных проводится в
табличном процессоре типа Microsoft Excel или Open Office Calc. Данные
программы позволяют автоматизировать расчет производных величин путем
задавания соответствующей формулы.
Заключение.
Электроакустический
анализ
возможен
только
при
использовании соответствующего аппаратного и программного обеспечения.
Репрезентативность
исследуемого
материала
и
корректность
фиксации
отдельных значений зависит от понимания его природы и правильного
использования программного функционала. Сотрудничество исследователей и
программистов (или совмещение этих ролей одним человеком) должно
способствовать развитию уже существующих программ и разработке новых,
соответствующих задачам конкретных исследований.
Литература:
1. Ashby M., Maidment J. Introducing Phonetic Science / M. Ashby, J.
Maidment. – Cambridge: CUP, 2005. – 230 p.
2. Блохина Л.П., Потапова Р.К. Методика анализа просодических
характеристик речи / Л.П. Блохина, Р.К. Потапова. – М.: МГПИИ, 1977. – 86 с.
3. Брызгунова Е. А. Интонация / Е.А. Брызгунова // Русская грамматика
[под ред. Н.Ю. Шведовой]. — М.: Наука, 1980. — Т. I. — С. 96—122.
4.
Петренко
А.Д. Социофонетическая вариативность современного
немецкого языка в Германии: [Монография] / А. Д. Петренко. – К.: Рідна мова,
1998. – 254 с.
5. Светозарова Н.Д. Интонационная система русского языка / Н.Д.
Светозарова. – Санкт-Петербург, 1982. – 176 с.
6. Терминологический словарь [Электронный ресурс] / Г.Е. Кедрова, В.В.
Потапов, А.М. Егоров, Е.Б. Омельянова // Русская фонетика. Учебные
материалы.
–
2002.
–
Режим
доступа
:
http://www.philol.msu.ru/~fonetica/glossar.htm.
References:
1. Ashby M., Maidment J. Introducing Phonetic Science / M. Ashby, J.
Maidment. – Cambridge: CUP, 2005. – 230 p.
2. Blohina L.P., Potapova R.K. Metodika analiza prosodicheskih harakteristik
rechi / L.P. Blohina, R.K. Potapova. – M.: MGPII, 1977. – 86 s.
3. Bryizgunova E. A. Intonatsiya / E.A. Bryizgunova // Russkaya grammatika
[pod red. N.Yu. Shvedovoy]. — M.: Nauka, 1980. — T. I. — S. 96—122.
4. Petrenko A.D. Sotsiofoneticheskaya variativnost sovremennogo nemetskogo
yazyika v Germanii: [Monografiya] / A. D. Petrenko. – K.: RIdna mova, 1998. – 254
s.
5. Svetozarova N.D. Intonatsionnaya sistema russkogo yazyika / N.D.
Svetozarova. – Sankt-Peterburg, 1982. – 176 s.
6. Terminologicheskiy slovar [Elektronnyiy resurs] / G.E. Kedrova, V.V.
Potapov, A.M. Egorov, E.B. Omelyanova // Russkaya fonetika. Uchebnyie materialyi.
– 2002. – Rezhim dostupa : http://www.philol.msu.ru/~fonetica/glossar.htm.
Download