Акустика речи - Российское акустическое общество

advertisement
Акустика речи
Сессия Научного совета по акустике РАН
УДК 612.85:534.78
Н.Г. Андреева, В.Ю.Иванова, Т.А.Смирнова, Г.А. Куликов
ЗАВИСИМОСТЬ АМПЛИТУДНЫХ ОТНОШЕНИЙ СПЕКТРАЛЬНЫХ КОМПОНЕНТОВ
ГЛАСНЫХ ОТ ЧАСТОТЫ ОСНОВНОГО ТОНА
Санкт-Петербургский государственный университет
Россия, 199034 С.-Петербург, Университетская наб., д. 7/9
Тел.: (812) 328-9706; Факс: (812) 328-2454; E-mail: andreevang@mail.ru
Проведен анализ спектральных характеристик естественных гласных, произнесенных детьми (3-5-летнего возраста) и
взрослыми – при разных частотах основного тона (F0). Выявлено, что по показателям относительной амплитуды
спектральных компонентов звуки [а], [о], [у] различаются, занимая в соответствующем пространстве координат
раздельные области. Определены граничные значения относительной амплитуды спектральных составляющих звуков,
характерные для естественной речи. Для каждой из фонетических категорий гласных выявлена зависимость
относительной амплитуды от частоты основного тона и показано ее сходство для звуков речи детей и взрослых .Исходя
из полученных результатов, осуществлен синтез модельных стимулов с относительной амплитудой гармонических
составляющих, соответствующей медианным значениям естественных гласных [а], [о], [у] в конкретном диапазоне
частот. В пилотной серии экспериментов исследовали возможность формирования негативности рассогласования (НР) у
испытуемых при прослушивании синтезированных гласных с частотой основного тона 382 Гц, отличающихся по
относительной амплитуде двух первых гармоник. Полученные результаты свидетельствуют о специфичности
отражения различий использованных гласных звуков в правом и левом полушарии.
Акустические признаки, лежащие в основе идентификации гласных фонем, несмотря на
длительную историю исследований, до сих пор неясны [1]. В силу приоритета формантного подхода [2]
фонемные области, определенные для разных гласных на материале многих языков, были выявлены
именно в пространстве формантных частот. Значительно меньше уделено внимания роли амплитудных
характеристик гласных. В появившихся в последнее время работах указывается на значимость
амплитудных отношений между формантами для распознавания гласных речевого диапазона [3–5]. Тем не
менее, хорошо известно, что роль формантного признака все более ограничивается при анализе звуков с
высокой частотой основного тона [6]. Таким образом, к настоящему времени становится все более
очевидной невозможность сведения распознавания гласных лишь к частотным значениям их первых
формант. Проведенные нами ранее исследования [7–9] позволили заключить, что существенную роль при
идентификации гласных [а], [о], [у] играет «амплитудный» признак, а именно, относительная амплитуда
спектральных компонентов звука, зависящая от частоты основного тона (F0). Однако характеристики этой
зависимости требуют дальнейших исследований.
C этой целью проводился анализ спектральных характеристик естественных гласных [a], [о], [у],
произнесенных детьми (3-5-летнего возраста) и взрослыми – при разных частотах основного тона. В
исследовании приняли участие 65 детей (45 девочек, 20 мальчиков) 3-5-летнего возраста. Каждый
ребенок повторял гласные (изолированные или в составе слога) вслед за экспериментатором. В качестве
взрослых дикторов выступали 158 женщин – студенток. Каждой из них было предложено произнести один
и тот же гласный несколько раз – в удобном (привычном) диапазоне, а также, меняя высотность звучания
– от минимальной до максимально возможной для индивидуального диапазона.
Регистрация звуков осуществлялась на магнитофон MarantzPMD 222 c микрофоном
SennheiserE855. Для анализа отбирали звуки, произнесенные при нормальном режиме фонации с
соотношением сигнал-шум не менее 20 дБ. Приведены результаты, касающиеся гласных, однозначно
отнесенных аудиторами к одной и той же фонетической категории. Оценивали частоту основного тона
(F0), частоту и амплитуду двух первых спектральных максимумов и, в случае выраженности, – формант, а
также амплитуды первых четырех гармонических составляющих (А1, А2, А3, А4) и попарно – их
отношения. С целью проверки необходимости и достаточности первых четырех гармоник для сохранения
фонетической категории гласного в ряде случаев (при относительно низких значениях F0) проводился
дополнительный аудиторский анализ звука с подавлением амплитуды его верхних спектральных
составляющих.
Анализ расположения детских гласных (n=1153) на двухформантной плоскости показывает
значительное перекрытие областей представительства, соответствующих звукам разных категорий, а не их
упорядоченное смещение в высокочастотные области, как это наблюдается у детей старшего возраста по
сравнению со взрослыми [10–11]. Это свидетельствует о том, что в исследованном возрасте не только
абсолютные частотные значения формант(или спектральных максимумов), но и их отношения не
отражают фонетической принадлежности гласных звуков.
Учитывая выявленную ранее роль «амплитудного» признака в идентификации гласных женской
речи и показанное при этом смещение областей представительства гласных одной и той же категории в
координатах относительной амплитуды [12] при изменении F0, проведен сравнительный анализ гласных,
5
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
произнесенных детьми и взрослыми при сходной частоте основного тона. В итоге сопоставление
проведено для 1063 и 691 гласной, произнесенных детьми и взрослыми соответственно в диапазоне
частот основного тона 220–368 Гц. Отметим, что предельные значения F0 ограничены материалом,
полученным на детях. Количество детских звуков с более высокими значениями F0 невелико, что,
вероятно, связано с условиями регистрации.
Выявлено, что по значениям относительной амплитуды спектральных компонентов звуки [а], [о],
[у] как детей, так и взрослых различаются, занимая в пространстве с координатами относительной
амплитуды раздельные области (рис. 1, А, Б).В обеих группах медианные значения относительной
амплитуды областей, занимаемых разными гласными, достоверно отличаются (p<0.05, критерий МаннаУитни) по всем попарным сравнениям. Вместе с тем, и относительное взаимное расположение, и позиция
одноименных гласных у детей и взрослых оказываются сходными.
А
В
Б
Г
Рис. 1. Области расположения гласных [а], [о], [у] в координатах относительных амплитуд
гармонических компонентов у детей (А, В) и взрослых (Б, Г).
По оси абсцисс – относительная амплитуда первой-третьей (А1/А3), по оси ординат – второй-четвертой (А2/А4),
по аппликате – первой-второй (А1/А2) гармоник (дБ) соответственно. Символами , ,  обозначено
положение медиан областей представительства гласных [а], [о], [у] соответственно. Размеры символов (В, Г)
соответствуют возрастанию частот основного тона в четырех диапазонах – 240–280, 280–320, 320–368 Гц.
Представлены значения медиан, их проекции на плоскость А1/А3–А2/А4, а также (мелкие значки) границы 10-го
и 90-го процентилей (А, Б) и верхних и нижних квартилей (В, Г).
Для выяснения зависимости относительной амплитуды от частоты основного тона, звуки были
раздельно проанализированы в трех диапазонах F0 (240–280, 280–320, 320–368 Гц), в каждом из которых
определялись медианные значения относительных амплитуд областей представительства разных гласных.
Оказалось, что в обеих группах с возрастанием ЧОТ происходит смещение представительства гласных.
Однако, в каждом из исследованных диапазонов фонетически разные гласные по-прежнему занимают
раздельные области, достоверно отличающиеся по значениям медиан (p<0.05, критерий Манна-Уитни).
Существенно, что у одноименных гласных детей и взрослых изменения носят однонаправленный характер
(рис. 1, В, Г). Наиболее выраженные смещения наблюдаются по оси А1/А2, для звуков [у] и по оси А2/А4,
для [о].По результатам данной части исследования осуществлен синтез модельных сигналов – гласных [а],
6
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
[о], [у]. Их частоты основного тона соответствовали средним значениям каждого из исследованных
диапазонов, а относительная амплитуда спектральных составляющих – медианным значениям,
полученным в результате анализа. Проведенный аудиторский анализ (n= 10) показал, их однозначную
идентификацию.
В целом, выявление сходства в характере зависимости относительной амплитуды спектральных
компонентов сигнала от значений F0,позволяет считать правомерной постановку вопроса о
существовании перцептивных границ гласных не только в частотных, но и в амплитудных координатах.
Это в первую очередь касается звуков, превышающих «привычный» (то есть соответствующий обычной
речи) частотный диапазон, а также гласных с невыраженной формантной структурой.
С целью установления мозговой специализации в определении амплитудных признаков при
распознавании гласных (по анализу негативности рассогласования) проведено исследование по
идентификации модельных стимулов, отличающихся по относительной амплитуде. Для этого на основе
синтезированного звука [о] (F0=382 Гц) созданы две серии тестовых стимулов с последовательным
изменением относительной амплитуды первой-второй и второй-третьей гармонических составляющих при
константности остальных параметров (изменения в тестовых сигналах осуществлялись в программе
CoolEditPro). В результате предварительного прослушивания, проведенного тремя аудиторами,
имеющими опыт работы со звуковыми сигналами, оказалось, что в каждой из серий изменение
относительной амплитуды спектральных компонентов у исходного сигнала приводит к изменению его
звучания, и при определенном уровне этих изменений гласная оценивается как принадлежащая другой
фонетической категории. Смена фонетической оценки звука происходит через ряд промежуточных.
Некоторыезвукисерии воспринимались аудиторами либо как неопределенные («[у] c призвуком [o]», «[a] c
призвуком [o]»), либо как промежуточные («среднее между [a] и [o]», или «между [у] и [о] »).
С учетом данных предварительного прослушивания, в основной серии экспериментов
использовалась схема «трехальтернативного» вынужденного выбора – аудитору предлагалось оценить
звук как соответствующий гласной [а], [о] или [у]. Предъявление звуков проводилось в случайном
порядке в программе Praat. Осуществлялась регистрация времени реакции и (в ряде экспериментов)
оценка степени подобия тестового стимула естественному гласному. В экспериментах приняли участие 42
человека. Для оценки того, насколько уровень идентификации превышает теоретическую частоту,
соответствующую вероятности случайного угадывания, использовался биномиальный критерий m. В
проведенных экспериментах по идентификации установлены области смены фонетической категории
воспринимаемого звука (Рис. 2).
100
100
80
80
60
60
40
40
20
20
[u]
[o]
0
0
-14
-9
-4
1
6
11
A1/A2 (dB)
Рис. 2. Зависимость идентификации стимулов от соотношения амплитуд первых двух гармоник.
По оси абсцисс – относительная амплитуда (дБ), по оси ординат – средний процент ответов по группе (N=21).
Два стимула из исследованного континуума были выбраны в качестве стандартного и девиантного
в пилотной серии экспериментов, где изучали возможность формирования негативности рассогласования
(НР) у испытуемых при прослушивании синтезированных гласных, отличающихся по относительной
амплитуде двух первых гармоник.Полученные результаты свидетельствуют о специфичности отражения
различий использованных гласных звуков в правом и левом полушарии.
Исследование выполняется при финансовой поддержке РФФИ (проект№ 11-06-00125-а)
ЛИТЕРАТУРА
1.
2.
3.
4.
Miller J.D. Auditory-perceptual interpretation of the vowel. // J. Acoust. Soc. Am. 1989. V. 85. № 5. P. 2114–2134.
Peterson G.E., Barney H.L. Control methods used in a study of the vowels // J. Acoust. Soc. Am. 1952. V.24. P. 175–184.
Ito M., Tsuchida J., Yano M. On the effectiveness of whole spectral shape for vowel perception // J. Acoust. Soc. Am. 2001. V.
110. № 2. P. 1141–1149
Jacewicz E. Listener sensitivity to variations in the relative amplitude of vowel formants // ARLO. 2005. V 6. № 3. P. 119–124
7
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
5.
Kiefte M., Enright T., Marshall L. The role of formant amplitude in the perception of /i/ and /u/ // J. Acoust. Soc. Am. 2010. V.
127. № 4. P. 2611–2621.
6. Maurer D., D’Heureuse Ch., Landis T. Formant pattern ambiguity of vowel sounds // Int. J. Neurosci., 2000. V. 100. № 1-4. P.
39–76.
7. Андреева Н.Г., Куликов Г.А. Характеристика певческих гласных при разной частоте основного тона // Сенсорные
системы. 2004. Т. 18. № 2. С.172–179
8. Андреева Н.Г., Куликов Г.А., Самокищук А.П. Общность амплитудно-частотных характеристик гласных разных форм
речи // Акустический журнал. 2002. Т. 48. № 5. С. 711–713.
9. Андреева Н.Г., Куликов Г.А.Перцептивная значимость частотных и амплитудных характеристик гласных звуков при
разной частоте основного тона. // Доклады Академии Наук. 2009. Т. 429. № 1. С. 132–134.
10. Zahorian S.A., Jagharghi A.J. Spectral-shape features versus formants as acoustic correlates for vowels // J. Acoust. Soc. Am.
1993. V. 94. №4. P. 1966–1982
11. Lee S., Potamianos A., Narayanan Sh.Acoustics of children’s speech: Developmental changes of temporal and spectral
parameters // J. Acoust. Soc. Am. 1999. V. 105. № 3. P. 1455–1468
12. Куликов Г.А., Андреева Н.Г. Перцептивно-значимые признаки гласных при разных формах их генерации. // Сенсорные
системы. 2009. Т. 23. № 3. С. 229–237.
УДК 616.31
Л.Н. Балацкая, Р.В. Мещеряков, Р.Ф. Нигматуллин
ЗАВИСИМОСТЬ МОДЕЛИ РЕЧЕОБРАЗОВАНИЯ ОТ ЗАБОЛЕВАНИЯ ОРГАНОВ
АРТИКУЛЯЦИИ
Томский государственный университет систем управления и радиоэлектроники»
634050 Томск, пр. Ленина, д.40
Тел.: (3822) 510-530
E-mail: office@keva.tusur.ru
Речеобразующий аппарат человека можно представить в виде генератора звуковых колебаний с системой
резонаторов и множеством фильтров, которые реализуются артикуляционным аппаратом. При болевых
ощущениях звукообразующих органов появляется, дополнительная обратная связь (болевая), которая
срабатывает по достижению определенного уровня болевого порога, и не дает полностью использовать
функциональные возможности больного органа. В результате действия этой отрицательной обратной связи
изменяется полоса пропускания частот, реализуемого этим органом, фильтра и/или интенсивность усиления
определенных частот, реализуемого этим органом резонатора.
Оперативные вмешательства при раке органов полости рта и ротоглотки различны по объему и
сопровождаются значительными повреждениями функций глотания, жевания, дыхания, органов
артикуляции и, как следствие этого, нарушением звукопроизношения и голосообразования. В результате
значительного объема операции отмечается выраженная деформация периферического речевого аппарата.
Наличие культи языка, дефекты небных дужек, отсутствие фрагмента нижней челюсти, изменение
резонаторов полости рта приводят к развитию полиморфной дислалии и изменению акустики звучной
речи. После оперативного вмешательства у больных наблюдается тяжелое речевое нарушение, при этом
страдает не только звукопроизношение, но и темп, выразительность, плавность, модуляция, голос,
дыхание. Отмечается нарушение непроизвольных движений в мускулатуре лица, языке, расстройство
жевания, глотания, слюноотделения. [1]
Речевые расстройства могут возникнуть вследствие патологических изменений губ, языка, неба.
Рубцовые изменения, возникающие после хирургического лечения данных органов по поводу
злокачественного образования, вызывают необходимость речевой реабилитации с целью восстановления
артикуляции. Значительная распространенность злокачественных опухолей области головы и шеи,
сложность и стойкость нарушенных функций, сопровождающихся длительной и нередко стойкой утратой
трудоспособности, ставят проблему реабилитации больных в ряд важнейших медико-социальных
проблем. Возможность больного вернуться к прежней профессии – это оптимальный вариант
реабилитации, которая рассматривается как система медицинского, психо-педагогического и социального
воздействия, направленного не только на сохранение или восстановление здоровья, но и личностного и
социального статуса пациента.
Раннее начало логопедических занятий обеспечивает лучший эффект реабилитации. Это
объясняется тем, что нарушение анатомии языка произошло в период уже сложившейся речи, правильные
речевые координационные установки имеются, и они должны использоваться для разработки оставшихся
мышц. Занятия с больными проводятся, опираясь на фантомные ощущения оперированного языка,
используя при этом неразрушенный стереотип звукообразования.
Исходя из этого, появляется необходимость в ранней количественной оценке качества речи. Для
логопеда очень важно узнать, какие звуки произносятся с затруднением после операции и в какой степени.
8
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
Таким образом, создание математической модели речеобразования пациентов с заболеваниями
артикуляционного аппарата человека должно быть реализовано в виде программно-алгоритмического
обеспечения. [2]
Для формирования модели был проведен ряд экспериментов. 2 диктора: мужчина и женщина
произносили слово [ТАБАК] в обычном режиме и с имитацией отсутствия кончика языка. При этом в
передней части полости рта у дикторов находилась небольшая гибкая пластина, которая закрывала именно
ту часть полости рта, что является пространством работы кончика языка. В дальнейшем записи
обрабатывались программой PRAAT, выявлялся спектр речи, ее интенсивность и уровень формант.
Результаты эксперимента на четырех опытах представлены на Рис. 1 – 4.
Рис. 1. Здоровый мужской голос
Рис. 2. Мужской голос с имитацией патологии
9
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
Рис. 3. Здоровый женский голос
Рис. 4. Женский голос с имитацией патологии
По проведенным экспериментам можно сделать вывод, что на интенсивность речи патология
практически не повлияла, наибольшее влияние имитационная патология оказала на распределение
формант, однако разборчивость оказалась весьма удовлетворительной в обоих вариантах произношения.
Разборчивость оценивалась в соответствии с ГОСТ Р 51061-97 [3].
На длительность пауз между звуками патология также не оказала значительного влияния. Данные
рисунки ставят задачу детального исследования формантного распределения при различных патологиях
полости рта.
ЛИТЕРАТУРА
1. Чойнзонов Е.Л., Балацкая Л.Н., Кицманюк З.Д., Мухамедов М.Р., Дубский С.В. Реабилитация больных
опухолями головы и шеи. – Томск: Изд-во НТЛ, 2003. – 296 с.: ил.
2. Сорокин В.Н. Теория речеобразования. – М.: Радио и связь, 1985. – 312 с., ил.
3. Мещеряков Р.В., Бондаренко В.П., Конев А.А., Шелупанов А.А. Математическое и алгоритмическое
обеспечение в задачах идентификации и распознавания речи // Вестник Сибирского государственного
аэрокосмического университета им. М.Ф.Решетнева. 2006, с 11-14
10
Содержание
XXV сессия Российского акустического общества,
Акустика речи
УДК 621.396: 534.78
Сессия Научного совета по акустике РАН
В.И.Воробьев1, А.Г.Давыдов2
ИССЛЕДОВАНИЕ СВЯЗИ МЕЖДУ КВАЗИГАРМОНИЧЕСКИМИ
СОСТАВЛЯЮЩИМИ РЕЧЕВЫХ СИГНАЛОВ НА КИТАЙСКОМ ЯЗЫКЕ
Белорусский государственный университет информатики и радиоэлектроники
Беларусь, 220013, Минск, ул. П.Бровки, 6. Тел.(017) 293-89-39; 293-89-66; факс:
(017) 293-89-39; 292-96-28; E-mail: nil53@bsuir.edu.by
2_
ООО «Речевые технологии», 220037, Беларусь, Минск, пер. Уральский, 15, офис
403. Тел.: +375 17 2669312; факс: +375 17 2275913; E-mail: agdavydov81@gmail.com
При обработке речевых сигналов широко применяется их гармоническая модель в виде совокупности колебания
на частоте основного тона и обертонов. Особенностью вокализованных звуков китайского языка является
лексически нагруженное изменение основного тона. Характер изменения частоты основного тона при
произнесении слогов с одинаковыми гласными звуками является отличительным семантическим признаком,
который используется при их распознавании. В докладе применительно к таким звукам приведены результаты
анализа фазовых соотношений между колебаниями основного тона и обертонов. Проведенные исследования
свидетельствуют, что такой анализ может быть использован для повышения надежности сегментации
вокализованных участков речи и детектирования малых изменений положения артикуляторов. Приведены
данные компьютерной обработки фонограмм речевых сигналов носителей китайского языка.
1_
Введение
Возможности выявления и использования межкомпонентных связей в гармонической модели
вокализованных звуков речи на русском языке для распознавания элементов речевых сигналов и дикторов
рассматривались нами в ряде работ (см., например, [1, 2]). Исследования в этом направлении сохраняют
актуальность и в настоящее время.
Ниже рассматриваются вопросы использования оценки таких связей применительно к звукам речи
на китайском языке.
Алгоритм обработки
На рисунке 1 приведена структурная схема алгоритма выделения колебания основного тона и
обертонов вокализованных звуков речи и оценки их фазовых соотношений.
x(t)
Оценка частоты основного тона (алгоритм RAPT)
Вычисление
нормированной
кросскорреляционной функции
Связывание
максимумов
методом
динамического
программирования
Поиск локальных
максимумов в
диапазоне
[T0min, T0max]
Определение
признака тон/не
тон и оценка
частоты основного
тона
x(t), F0(t)
Оценка фаз гармоник ОТ
x(t)
Перестраиваемый
полосовой
фильтр
hn(t)
Формирование
аналитического сигнала
φn(t)
zn(t)
Arg[zn(t)]
Φn(t)
Unwrap [φn(t)]
F0(t)·n
x(t), F0(t), hn(t), Φn(t)
Вычисление функций фаз:
фазового инварианта Зверева,
фазового квазиинварианта, ...
Ψpq,l(t)
Рис. 1. Структурная схема алгоритма
Как видно из рисунка 1, обработку сигнала можно разделить на несколько сравнительно
независимых этапов:
11
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
– вычисление кратковременных оценок частоты основного тона (ЧОТ);
– вычисление мгновенных значений фаз гармоник основного тона;
– вычисление интересующих функций фаз.
Для вычисления кратковременных оценок ЧОТ оказалось целесообразным использовать алгоритм
RAPT [3], показавший хорошие результаты, как для чистой, так и для зашумленной речи. Эскизная схема
алгоритма RAPT наглядно поясняется блоком оценки ЧОТ рисунка 1.
Вычисление мгновенных значений полных фаз Φ n (t ) гармоник включает фильтрацию каждой n -ой
гармоники hn (t ) основного тона из исходного сигнала x (t) при помощи перестраиваемого полосового
фильтра на интервале квазистационарности речевого сигнала. Предварительными экспериментами было
установлено, что интервал квазистационарности в исследованных сигналах составлял около 40 мс.
Формирование аналитического сигнала n -ой гармоники z n (t ) выполняется с использованием
преобразования Гильберта. Аргумент аналитического сигнала ϕ n (t ) является главным значением полной
фазы. Для исключения череспериодных скачков интересующих функций фаз (например, фазового
квазиинварианта) необходимо оперировать полными фазами Φ n (t ) гармоник основного тона. Полные
фазы гармоник формируются добавлением к каждому их мгновенному главному значению кратного
величине 2π неотрицательного числа. Необходимость такой добавки определяется следующими
соображениями.
Для величин частоты дискретизации Fs , кратковременной оценки частоты основного тона F0 (t ) ,
половины ширины полосы Fb пропускания фильтров, с помощью которых селектируются гармоники
основного тона, конечная разность ∆Φ n (t ) мгновенного значения полной фазы n -ой гармоники основного
тона должна находиться в пределах
2πn
.
(1)
∆Φ n (t ) = Φ n (t ) − Φ n (t − 1) ∈ [F0 (t ) − Fb , F0 (t ) + Fb ]⋅
Fs
Ориентировочная оценка полной фазы n -ой гармоники определяется выражением
t
Φ′n (t ) = n F0 (t )dt .
∫
0
В соответствии с изложенным сформирован следующий алгоритм отыскания мгновенных значений
полной фазы.
1. Первоначально для каждой n -ой гармоники значения полной фазы принимаются равными
главным значениям: Φ n (t ) = ϕ n (t ) .
2. Далее для каждой точки отсчета t = 0, T последовательно повторяются следующие действия.
– Если конечная разность ∆Φ n (t ) находится в определяемых соотношением (1) пределах,
выполняется подстройка значений оценки полной фазы
Φ ′n (t ′) = Φ ′n (t ′) − Φ ′n (t ) + Φ n (t ) для t ′ = t , T .
– В противном случае
Φ n (t ′) = Φ n (t ′) + 2π
Φ′n (t ) − Φ n (t )
, для t ′ = t , T ,
2π
где
означают округление до ближайшего целого.
Экспериментальное исследование свойств фазового квазиинварианта
Предварительными экспериментами было установлено, что фазовый квазиинвариант позволяет
достаточно точно отслеживать переходные процессы при малых изменениях артикуляции.
Первоначально, для определения возможности применения фазового анализа при сегментации речи,
выполнен анализ фразы /i y e a o u/, произнесенной русскоязычным диктором мужчиной со средним
значением ЧОТ 125 Гц. Результат анализа приведен на рисунке 2.1. Для исключения влияния
неравномерности ФЧХ тракта записи на результаты анализа фраза произнесена с приблизительно
постоянным значением ЧОТ. Последовательность фонем во фразе /i y e a o u/ выбрана для обеспечения
минимальных изменений артикуляции при переходах от звука к звуку.
Дальнейшее исследование возможностей фазового анализа для сегментации речи выполнялось на
записях речи на китайском языке.
12
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
На рисунке 2.2 приведен пример анализа слов /dai4 ya4 ye1 ya4 yu2 yue4/, представляющих
начальную часть предложения 代亚耶亚鱼跃扑救也未能阻止这个进球 /dai4 ya4 ye1 ya4 yu2 yue4 pu1 jiu4
ye3 wei4 neng2 zu3 zhi3 zhe4 ge4 jin4 qiu2/, произнесенного женщиной с ЧОТ, изменявшейся в пределах от
150 до 360 Гц.
Рис. 2.1. Анализ фразы /i y e a o u/
Рис. 2.2. Анализа фразы /dai4 ya4 ye1 ya4 yu2 yue4/
На рисунках 2.1 и 2.2 использованы следующие обозначения:
а) осциллограмма сигнала;
б) узкополосная спектрограмма, полученная в результате преобразования Фурье кадров
длительностью 40 мс с шагом 2.5 мс;
в) спектрограмма линейного предсказания, вычисленная как АЧХ фильтра предсказания 12-го
порядка на кадрах длительностью 40 мс с шагом 2.5 мс;
г) фазовый квазиинвариант Ψ12,3 (t ) = Φ 1 (t ) + Φ 3 (t ) − 2 ⋅ Φ 2 (t ) ;
д) усредненная по частоте с интервалом анализа τ = 0.040 мс производная по времени
спектрограммы линейного предсказания
Ξ (t ) =
1
2π
π
P (ω , t )
∫π ln P(ω, t − τ ) dω ,
−
где ω = 2πf Fs – нормирования частота f ; P (ω , t ) – спектральная плотность мощности спектрограммы
линейного предсказания. Эта характеристика сходна с известной оценкой [4] расстояния
log spectral distance d (P, P ′)
p
1
=
2π
π
∫ ln P(ω ) − ln P′(ω ) dω .
−π
Различие состоит лишь в том, что функция log spectral distance является неотрицательной, а Ξ(t )
принимает как положительные (для участков увеличения мощности компонентов в сигнале), так и
отрицательные (для участков ослабления компонентов в сигнале) значения.
13
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
е) логарифм отношения расстояний Итакуры-Саито между кадрами спектральной плотности
π

π
P (ω , t )
мощности: IS 2 (t ) = ln  (G (ω, t ) − ln G (ω, t ) − 1)dω
.
G −1 (ω , t ) + ln G (ω , t ) − 1 dω  , где G (ω , t ) =
P (ω , t − τ )
−π

 −π
∫
∫(
)
Функция IS 2 (t ) является вариантом COSH-функции, в которой сумма расстояний Итакуры-Саито
заменена разностью для достижения её сходства с производной спектрограммы линейного предсказания.
Приведенные рисунки отражают одну из наиболее сложных проблем сегментации речи –
разделение нескольких подряд расположенных вокализованных звуков.
Как видно из рисунка 2.1 сегментация непосредственно по осциллограмме, спектрограмме,
производной спектрограммы линейного предсказания либо COSH-функции довольно затруднительна. В
то же время в функции фазового квазиинварианта довольно четко отмечаются области
квазистационарности и переходные участки. Аудитивный анализ подтвердил, следующие границы звуков:
звук /i/ – [0.1, 0.5] c., звук /y/ – [0.7, 1.0] c., звук /e/ – [1.2, 1.45] c., звук /a/ – [1.65, 2.0] c., звук /u/ –
[2.6, 3.0] c. Границы звука /o/ точно определить не удалось ввиду значительной сглаженности перехода
между звуками /a o u/.
Из примера анализа фразы /dai4 ya4 ye1 ya4 yu2 yue4/, приведенного на рисунке 2.2, видно, что
предварительную сегментацию фразы на звуки можно успешно выполнять при помощи производной
спектрограммы линейного предсказания и функции IS 2 (t ) . Вместе с тем, краткие изменения в положении
артикуляторов эффективнее детектировать при помощи анализа фазового квазиинварианта. Например,
границы звука /j/ равные [1.1, 1.171] гораздо точнее определяются при помощи анализа фазового
квазиинварианта, чем при помощи функций Ξ(t ) и IS 2 (t ) .
Проведенные эксперименты показали, что различение тональных звуков слитной китайской речи
только по контуру изменения основного тона, предложенное в патенте [5], является весьма
затруднительным. Оно может быть эффективным только для изолированных вокализованных тональных
звуков. В слитной китайской речи наблюдаются довольно значительное взаимное влияние смежных
звуков друг на друга. В связи с этим, привлечение межкомпонентного фазового анализа гармонических
составляющих речевого сигнала при сегментации соседних вокализованных звуков следует считать
представляющим практический интерес.
Выводы
Для изучения межкомпонентных соотношений между гармониками тональных речевых сигналов на
китайском языке использован компьютерный анализ фазового квазиинварианта колебаний на основном
тоне и двух ближайших к нему обертонов. Создано диалоговое программное средство, автоматизирующее
такую обработку речевых сигналов. Разработанное средство анализа является хорошим дополнением к
известным методам контекстно-независимой сегментации речи, позволяющим повысить эффективность
отделения вокализованных участков речи и детектировать малые изменения артикуляции. К недостаткам
средства следует отнести его чувствительность к шумам и большую вычислительную сложность по
сравнению с процедурами, использующими производную спектра или COSH-функцию.
Необходимо отметить, что кроме рассмотренных функций фаз в виде фазового инварианта и
фазового квазиинварианта интерес могут представить и другие межкомпонентные характеристики
речевого сигнала. Обработка тональных речевых сигналов при применении следящих режимов оценки
частоты основного тона нуждается в дополнительном изучении.
Разработанные и исследованные способы и средства межкомпонентной обработки сигналов
применимы не только для речевых сигналов, но и, например, для акустических шумов вибраций
механизмов и машин.
Л И Т Е Р А Т УР А
1.
2.
3.
4.
5.
Воробьев В.И., Давыдов Г.В., Шамгин Ю.В. Фазовые соотношения между основным тоном и обертонами гласных
звуков //Доклады Белорусского государственного университета информатики и радиоэлектроники, № 2(14), 20 июня
2006 г. - С. 64-68.
Азаров И.С., Воробьев В.И., Давыдов А.Г., Петровский А.А. Исследование связи между квазигармоническими
составляющими речевого сигнала //Акустика речи. Медицинская и биологическая акустика. Архитектурная и
строительная акустика. Шумы и вибрации. Аэроакустика // Сборник трудов научной конференции «Сессия научного
Совета РАН по акустике и XXIV сессия Российского акустического общества». Т.3.-М.: ГЕОС, 2011. - С. 16-20.
D. Talkin, “A robust algorithm for pitch tracking (RAPT),” in Speech coding and synthesis, Eds.: Elsevier Science, 1995, pp.
495-518.
L. Rabiner and B-H Juang, "Fundamentals of Speech Recognition", Prentice-Hall 1993, ISBN 0-13-015157-2
US 6,553,342 B1, Apr. 22, 2003. Tone based speech recognition //Yaxin Zhang, Jianming Song, Anton Madievski.
14
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
УДК591.582.2
К.О. Уплисова
ОСОБЕННОСТИ СПЕКТРА ШЕПОТНЫХ ГЛАСНЫХ РУССКОГО ЯЗЫКА
Санкт-Петербургский государственный университет
Россия, 199034, Санкт-Петербург, Университетская наб., 7/9
Тел.: (812) 328-97-06
E-mail: sehmet@fromru.com
С целью выявления ключевых характеристик спектра гласных звуков, обуславливающих идентификацию
фонетической категории независимо от условий генерации была проведена модификация пяти категорий
шепотных гласных русского языка. Предшествующий анализ мощности спектральных компонентов звуков
категорий «у», «о», «а» выявил наличие выраженных спектральных компонентов в полосе 600-800 Гц для
звуков «у», 800-1100 Гц для звуков «о», 1100-1500 Гц для звуков «а». Звуки категории «и» и «э» имели две,
выраженные по мощности области спектра, в диапазоне 100-500 и 3100-5200 Гц для «и» и 800-1100 Гц и 20003000 Гц для «э». В связи с этим у звуков категории «у» уменьшалась амплитуда спектральных компонентов а)
с частотой ниже 400 Гц и б) выше 400 Гц. У звуков «о» понижалась амплитуда спектральных максимумов а) с
частотой ниже 800 Гц, б) с частотой выше 800 Гц. У звуков «а» понижалась амплитуда спектральных
максимумов а) с частотой ниже 1100 Гц, б) с частотой выше 1100 Гц (Рис. 2). У звуков «э» понижалась
амплитуда спектральных максимумов а) в диапазоне 500-1000 Гц, б) в диапазоне 1700-2500 Гц, в) с частотой
выше 2500 Гц. У звуков «и» понижалась амплитуда спектральных максимумов а) с частотой ниже 800 Гц, б) с
частотой выше 2500 Гц. Наибольший эффект оказало подавление спектральных компонентов в диапазоне:
500-1000 Гц для категории «э» и выше 2500 Гц для категории «и».Определенный эффект также оказало
подавление спектральных максимумов ниже 400 Гц для «у», выше 800 Гц для «о» и выше 1100 Гц для «а».
ВВЕДЕНИЕ Исследования шепотных звуков ведутся за рубежом с середины прошлого века [1, 2, 3,
4], но в отечественной литературе малоизвестны. Шепотная речь, то есть речь, произносимая без
колебания голосовых складок, обладает значительно меньшей амплитудой, чем звучащая, лишена
гармонической структуры и содержит значительное количество шума. Если для гласных звуков звучащей
речи основным признаком, позволяющим различать фонетические категории, являются значения частот
первых двух формант, то для шепотных гласных определение этих значений чаще всего затруднительно. В
спектрах подобных звуков более или менее выраженные по амплитуде спектральные составляющие могут
занимать области до нескольких сот герц шириной. В связи с этим определение значений «формант»
шепотных звуков является непростой задачей, которая каждым исследователем решается индивидуально.
Первое исследование шепотных гласных звуков было проведено еще Гельмгольцем [5]. С середины
прошлого века был начат ряд исследований шепотной речи на различных языках. Уделялось внимание
таким вопросам, как возможность определения пола говорящего [2, 6], характеристики «формант»
шепотных гласных [3, 7, 8, 9, 10], особенности восприятия шепотных согласных [11, 12], определение
высоты голосав шепоте[3, 13, 14], диагностика состояния эмоциональной напряженности (стресса) по
шепотной речи [15,16]. К данному моменту получены значения частот «формант» для различных
категорий шепотных гласных английского [3, 10], сербского [7] японского [9] и чешского [8] языков. Во
всех работах показано, что значения «формант» шепотных гласных не совпадают со значениями формант
гласных звуковой речи, так как они смещены в высокочастотную область. С другой стороны есть данные
о том [3, 5], что для восприятия шепотных гласных достаточно одной «форманты». По данным
Гельмгольца [3], наибольшее значение имеет первая «форманта» для гласных заднего ряда и вторая - для
гласных переднего ряда. По данным Томаса [3], слушателями воспринимается, в первую очередь, вторая
«форманта» для всех категорий гласных. Значения первых двух «формант» для шепотных гласных
различных языков в значительной степени отличаются (даже при сходном количестве фонетических
категорий), что может быть обусловлено не только языковыми особенностями, но и методами
определения значений частот формант. Таким образом, несмотря на проведенные исследования, нельзя
сказать, что акустические особенности шепотных гласных исследованы достаточно, а в русскоязычной
литературе таких работ вообще не было обнаружено. В связи с исследованиями ключевых спектральных
характеристик гласных звуков, позволяющими идентифицировать фонетическую категорию независимо
от способа генерации [17, 18] была проведена работа по анализу акустических характеристик шепотных
гласных звуков русского языка[19,20], что для гласных звуков, произносимых шепотом, характерно
наличие максимумов в частотных полосах: 630-770 Гц для «у», 770-915 Гц для «о», 915-1260 Гц для «а»,
770-915 Гц и 1990-3125Гц для «э», 3125-3675 Гц для «и». Для большинства шепотных гласных также
характерно наличие выраженных спектральных компонентов в низкочастотной (ниже 400 Гц) и
высокочастотной (выше 3000 Гц) областях спектра. В данной работе исследовалось влияние модификации
15
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
спектральных компонентов шепотных гласных категорий «у», «о», «а», «э» и «и» на восприятие их
фонетической категории.
МЕТОДИКА Для решения поставленной задачи была проведена запись шепотных гласных пяти
категорий: «а», «о», «у», «и», «э». Предварительно были отобраны слова, в которых гласный звук после
изоляции сохранял четкое фонемное звучание. Перед двумя дикторами-женщинами (возраст 25-30 лет)
ставилась задача максимально четко произнести шепотом набор из этих 153 слов. Запись осуществлялась
на компьютер с помощью звуковой карты AardvarkDirectMixUSB и микрофона SennheiserE855 с частотой
дискретизации 44100 Гц. Выделялись гласные, находившиеся в ударном положении, однородные по
звучанию на слух и по частотно-временным характеристикам спектра. Их длительность должна была быть
не меньше 90 мс. Изолированные гласные идентифицировались в перцептивном эксперименте с помощью
функции программы PraatExperimentMFC (множественный принудительный выбор). Звуки
прослушивались пятью аудиторами, которые должны были, прослушав звук, отнести его к одной из шести
категорий (а, о, у, и, э, ы) и оценить качество звука по шкале от 1 (плохой) до 3 (хороший). В результате
эксперимента были отобраны звуки, которые всеми пятью аудиторами были отнесены к одной категории
и оценены на 3 балла.
Ранее было показано [19, 20], что для шепотных звуков характерно наличие выраженных спектральных
компонентов в низко- и высокочастотных зонах спектра. Выраженность этих компонентов зависит от
диктора, но наиболее низкочастотные компоненты выражены у звуков категорий «у» и «и», а
высокочастотные у категорий «и», «э», «а». Для выявления их значения для идентификации фонетической
категории была проведена модификация спектров этих звуков, в результате которой были удалены (при
их наличии) спектральные компоненты с частотой ниже 300 Гц и выше 4000 Гц (Рис. 1).
Рис. 1. Модификация спектра шепотного гласного «э», путем понижения амплитуды низко и высокочастотных
областей спектра.
Слева – оригинальный звук, справа – модифицированный. Стрелками указаны участки изменения спектра. По
горизонтальной оси – частота, Гц, по вертикальной – амплитуда, дБ.
Для выявления значения для восприятия фонемы оставшихся выраженных по амплитуде областей спектра
каждый звук модифицировался следующим образом: у звуков категории «у» уменьшалась амплитуда
спектральных компонентов а) с частотой ниже 400 Гц и б) выше 400 Гц. У звуков «о» понижалась
амплитуда спектральных максимумов а) с частотой ниже 800 Гц, б) с частотой выше 800 Гц. У звуков «а»
понижалась амплитуда спектральных максимумов а) с частотой ниже 1100 Гц, б) с частотой выше 1100 Гц
(Рис. 2). У звуков «э» понижалась амплитуда спектральных максимумова) в диапазоне 500-1000 Гц, б) в
диапазоне 1700-2500 Гц, в) с частотой выше 2500 Гц. У звуков «и» понижалась амплитуда спектральных
максимумов а) с частотой ниже 800 Гц, б) с частотой выше 2500 Гц. Данные диапазоны были выбраны в
связи с тем, что анализ мощности спектральных компонентов звуков категорий «у», «о», «а» [20] выявил
наличие выраженных спектральных компонентов в полосе 600-800 Гц для звуков «у», 800-1100 Гц для
звуков «о», 1100-1500 Гц для звуков «а». Звуки категории «и» и «э» имели две, выраженные по мощности
области спектра, в диапазоне 100-500 и 3100-5200 Гц для «и» и 800-1100 Гц и 2000-3000 Гц для «э».
Однако, вместе с тем, присутствовали значительные отличия спектров шепотных гласных, произнесенных
разными дикторами.
Идентификация звуков осуществлялась с помощью функции программы Praat ExperimentMFC
(множественный принудительный выбор). Модифицированные гласные идентифицировались в
перцептивном эксперименте четырьмя аудиторами, постоянно участвующими в подобных экспериментах,
16
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
которые должны были, прослушав звук, отнести его к одной из шести категорий (а, о, у, и, э, не гласный)
и оценить качество звука по шкале от 1 (плохой) до 3 (хороший). Звук считался изменившим категорию,
если два из четырех аудиторов давали оценки, отличные от категории оригинального звука.
а
в
б
Рис. 2. Модификация спектра шепотного гласного «а»
а – спектр оригинального звука, б – спектр звука с
пониженным по амплитуде диапазоном 1100-2000 Гц,
в - спектр звука с пониженным по амплитуде
диапазоном 600-1100 Гц. Стрелками выделены области
модификации.
По горизонтальной оси – частота, Гц. По вертикальной
оси – амплитуда, дБ.
РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ Всего был
модифицирован37 звук «у»,33 звука «о», 31 звук
«а», 35 звуков «э», 26 звуков «и». В результате
первой модификации было определено влияние
спектральных компонентов ниже 300 Гц и выше 4000 Гц на восприятие категории гласного. По сравнению
с немодифицированными звуками изменилась идентификация 30% звуков категории «у». Они были
идентифицированы как «о». Однако ни одна из последующих модификаций не ухудшила идентификации
категории. В случае понижения амплитуды спектральных компонентов ниже 400 Гц те же 30% звуков
идентифицировались как «о». После удаления спектральных компонентов выше 400 Гц, 100% звуков
идентифицировались как «у», но с качеством 1 (плохой). При понижении амплитуды спектральных
компонентов звука «о» ниже 800 Гц идентификация звука не изменилась тремя из четырех аудиторов.
Один же из аудиторов счел звук изменившим категорию с «о» на «а» для 45% звуков. При понижении
амплитуды спектральных компонентов выше 800 Гц 40% звуков были идентифицированы по-другому.
Причем для одного из аудиторов категорию изменили 100% звуков «о», и он их идентифицировал как «у».
Понижение спектральных компонентов с частотой ниже 1100 Гц для звука «а» не повлияло на его
идентификацию, а понижение амплитуды спектральных компонентов выше 1100 Гц привело к
идентификации 30% модифицированных звуков «а» как «э».
Звук категории «э» модифицировался тремя разными способами в связи с тем, что в диапазоне 1700-4000
Гц, в спектрах присутствовало два четких максимума. Однако понижение самого высокочастотного из них
(диапазон 2500-4000 Гц) не повлияло на модификацию категории «э». При удалении максимума в области
1700-2500 Гц идентификация категории упала на 30%. При удалении первой выраженной по амплитуде
зоны спектра (500-1000 Гц) идентификация категории упала на 70%. Стоит отметить, что для одного из
четырех аудиторов более 90% звуков изменили категорию, а для другого лишь 20%.
Понижение амплитуды низкочастотной области спектра звуков категории «и» не повлияло на их
перцептивную оценку, а в случае удаления высокочастотной области 100% звуков были
идентифицированы как «у». Результаты идентификации гласных звуков представлены в таблице 1.
Представленные результаты являются предварительными и основаны на анализе восприятия категорий
модифицированных шепотных звуков, произнесенных двумя дикторами. В дальнейшем количество
17
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
анализируемых звуков и аудиторов будет увеличено. Однако уже на данном этапе можно отметить, что
помимо значительных отличий спектральных характеристик шепотных звуков, произнесенных разными
дикторами [20], также присутствует специфичность в восприятии звуков с различными искажениями
спектральных компонентов. Тем не менее, первые результаты идентификации модифицированных
шепотных гласных подтверждают значимость для восприятия фонетической категории «и» только
высокочастотного диапазона, а для звука «э» - двух максимумов. Для идентификации категории «а»
существенное значения имеют спектральные компоненты выше 1100 Гц, «о» - выше 800 Гц, «у» - ниже
400 Гц.
У
Табл. 1. Идентификация модифицированных шепотных гласных
О
А
Э
И
Модиф ниже 300 Гц и выше 4000 Гц
70%
100%
100%
100%
100%
Модифа)
70%
100%
100%
30%
100%
Модифб)
100%
60%
70%
70%
0%
Модифв)
100%
В таблице представлен процент сохранения восприятия соответствующей категории в результате трех (четырех
для звука «э») способов модификации спектра.
ВЫВОДЫ На идентификацию шепотных гласных звуков не оказывает влияния подавление спектральных
компонентов в диапазоне: ниже 1100 Гц для категории «а», ниже 800 Гц для категории «и», выше 2500 Гц
для категории «э». На идентификацию шепотных гласных звуков оказывает существенное влияние
подавление спектральных компонентов в диапазоне: 500-1000 Гц для категории «э» и выше 2500 Гц для
категории «и».
Л И Т Е РА Т У Р А
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
Meyer-EpplerW.RealizationofProsodicFeaturesinWhisperesSpeech // Journal of the Acoustical Society of America. 1957. V.
29. № 1. P. 104-106.
Schwartz M.F., Rine H.E. Identification of Speaker Sex from Isolated, Whispered Vowels // Journal of the Acoustical Society
of America. 1968. V. 44. № 6. P. 1736-1737.
Thomas I.B. Perceived Pitch of Whispered Vowels // Journal of the Acoustical Society of America. 1969. V. 46. № 2. P. 468470.
McGlone R.E., Manning W.H. Role of Second Formant in Pitch Perception of Whispered Vowels // Folia Phoniatrica. 1979.
V. 31. P. 9-14.
von Helmholtz H.L.F. On the Sensation of Tone. New York. Dover Publication, Inc. 1954. 108 p.
Lass N.J. et al. Speaker Sex Identification from Voiced, Whispered, and Filtered Isolated Vowels // Journal of the Acoustical
Society of America. 1976. V. 59. № 3. P. 675-678.
Jovicic S.T. Formant Feauture Differences between Whisperes and Voices Sustained Vowels // Acta Acustica United whih
Acustica. 1998. V. 84. P. 739-743.
Grepl M. et al. The F1-F2 Vowel Chart for Czech Whispered Vowels A, E, I, O, U // Biomedical Papers of the Medical
Faculty of the University Palacky, Olomouc, Czech Repub. 2007. V. 151. № 2. P. 353-356.
Ito T. et al. Analysis and recognition of whispered speech // Speech Communication. 2005. V. 45. P. 139-152.
Sharifzadeh H.R. at al. A Comprehensive Vowel Space for Whispered Speech // Journal of Voice. 2011.
doi:10.1016/j.jvoice.2010.12.002.
Dunnenbring G.L.PerceptualDiscrimination of Whisperes Phoneme Pairs // Perceptual and Motor Skills. 1980. V. 51. № 979985.
Jovicic S.T., Saric Z. Acoustic Analysis of Consonants in Whispered Speech // Journal of Voice. 2008. V. 22. № 3. P. 263274.
Higashikawa M., Minifie F.D. Acoustical-perceptual correlates of 'whisper pitch' in synthetically generated vowels // Journal
of Speech, Language, and Hearing Research. 1999. V. 42. № 3. P. 583-591.
Tartter V.C. What's in a whisper? // Journal of the Acoustical Society of America. 1989. V. 86. № 5. P. 1678-1683.
Heeren W.F.L. Intonation in Whispered Dutch:correlates of production and perception. Phd Thesis. Leiden, the Netherlands.
Leiden University. 2001.
Vilkman E. at al. On Stress Production in Whispered Finnish // Journal of Phonetic. 1987. V. 15. P. 157-168.
Уплисова К.О. Акустический и аудиторский анализ гласноподобных звуковcерого (Psittacuserithacus) и волнистого
(Melopsittacusundulatus) попугаев //Сенсорные системы. Т.20. №3. 2006. с. 229-237.
Уплисова К.О. Говорящие птицы: особенности модифицированных гласных звуков // XХсессияРоссийского
акустического общества.Сборниктрудов. Т. 3. - М.: ГЕОС. 2008. с. 110-113.
Уплисова
К.О.Акустическиепризнакигласныхзвуковснегармоническойструктурой
//
XХIIсессияРоссийского
акустического общества.Сборниктрудов. Т. 3. - М.: ГЕОС. 2010. с. 88-92.
Уплисова К.О. Акустические характеристики гласных звуков с негармонической структурой // Седьмой
междисциплинарный конгресс "Нейронаука для медицины и психологии". 2011, тезисы доклада
18
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
УДК 004.934
Зулкарнеев М.Ю., Сальман С. Х., Шамраев Н.Г.
СТАТИСТИЧЕСКИЙ МЕТОД ПОСТРОЕНИЯ ФОНЕТИЧЕСКИХ ТРАНСКРИПЦИЙ СЛОВ,
ИСПОЛЬЗУЮЩИЙ КОНЕЧНЫЕ АВТОМАТЫ С ВЕСАМИ
ФГНУ "НИИ "Спецвузавтоматика"
Россия, г. Ростов-на-Дону, пер. Газетный 51,
тел. (863) 201-28-15, факс (863) 201-28-17, sva@rsu.ru
При решении задачи распознавания речи часто возникает задача генерации фонетической транскрипции слов по их
графемному представлению. Для этого обычно используются правила чтения для данного языка. Однако, создание полного
набора правил чтения является весьма трудоемкой задачей. В данной работе предлагается метод построения
транскрипции, использующий статистический подход к построению фонетических транскрипций слов. В нем для
моделирования статистических закономерностей произношения используется n-граммная модель. Она используется для
моделирования последовательностей пар "графема-фонема", и фонетической транскрипцией слова считается наиболее
вероятная последовательность фонем для данной последовательности графем. Для работы с n-граммной моделью языка
используется подход, основанный на конечных автоматах с весами. Эксперименты, проведенные для английского и
арабского языка показывают состоятельность предлагаемого метода для генерации фонетических транскрипций слов на
основе их графемного представления.
ВВЕДЕНИЕ
Необходимость построения фонетических транскрипций слов возникает при решении различных
задач обработки естественного языка. Например, при решении задачи распознавания речи требуется
построение фонетической транскрипции речевого сообщения при обучении акустических моделей. Также
при синтезе речи по тексту требуется построение фонетической транскрипции текста.
Наиболее простой способ построения фонетических транскрипций - это использование словаря
фонетических транскрипций. Однако этот подход имеет недостатки, связанные с ограниченностью
словаря, а также с тем, что для его разработки требуется привлечение специалистов, что может быть
неприемлемо из-за ограниченности временных, или финансовых ресурсов.
В связи с этим возникает задача автоматического построения фонетических транскрипций слов по
их графемному виду. Для построения фонетической транскрипции могут быть использованы правила
чтения [1], которые задают способ чтения букв в различных контекстах. Недостатком этого метода
является то, что правила чтения создаются вручную и для этого требуется привлечение специалистов,
способных записать полный набор правил чтения, который бы адекватно отражал фонетические явления в
данном языке. Это также может быть связано с трудностями из-за ограниченности временных, или
финансовых ресурсов.
Поэтому встает задача создания системы автоматического построения фонетических
транскрипций слов, которую можно было бы обучить статистическими методами без привлечения
людских ресурсов. В работе [2] предлагается статистический метод построения фонетической
транскрипции слов по их графемному виду с использованием статистической модели пар
последовательностей символов (joint-sequence model). Для обучения параметров модели используется
обучающий словарь фонетических транскрипций. В этой работе на различных фонетических словарях
продемонстрирована высокая точность метода.
В данной работе предлагается аналогичный метод статистического моделирования пар
последовательностей символов, однако вместо применения новых математических моделей в ней
предлагается использовать хорошо известную n-граммная модель языка. Результатом работы
транскриптора является фонетическая транскрипция, которая является наиболее вероятной для данной
последовательности графем (букв) в соответствии с данной n-граммной моделью. Для работы с nграммной моделью языка используется подход, основанный на конечных автоматах с весами.
Использование формализма конечных автоматов позволяет избежать необходимости создавать
собственное программное средство для нахождения наиболее вероятной последовательности фонем. Для
работы с конечными автоматами с весами в статье использована библиотека OpenFST с открытым
исходным кодом [3]. Далее приводится более подробное описание метода, а также описание
экспериментов и их результаты.
ОПИСАНИЕ МЕТОДА
Построение фонетической транскрипции слова, представленного в виде последовательности букв,
можно представить как преобразование входной последовательности символов в выходную
последовательность символов, выполняемое при помощи конечного автомата. В работе предлагается
метод, основанный на этой аналогии. Суть метода состоит в том, чтобы построить конечный автомат,
который на вход получал бы последовательность букв, а на выходе выдавал соответствующую ей
последовательность фонем. В качестве такого конечного автомата в работе предлагается использовать
19
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
конечный автомат с весами, представляющий n-граммную модель языка, обученную на
последовательностях пар "Буква-фонема" (в качестве иллюстрации в таблице 1 приводится
последовательность пар "Буква-фонема" для английского слова " сalifornia").
Таблица 1- Последовательность пар "Буква-фонема", соответствующая английскому слову " California"
сalifornia
C
A
L
I
F
O
R
N
I
A
k
ae
l
ah
F
ao
r
n
y
ah
Эти последовательности получаются в результате обработки имеющегося словаря фонетических
транскрипций, который используется для обучения. Такой конечный автомат будет содержать в себе
информацию о наиболее вероятных последовательностях пар "Буква-фонема", имеющихся в словаре, и
чтобы найти при помощи этого конечного автомата фонетическую транскрипцию некоторого слова
необходимо найти наиболее вероятную последовательность пар "Буква-фонема", соответствующую
входной последовательности букв.
Практическая реализация алгоритма обучения конечного автомата была выполнена в виде
итерационного алгоритма, в котором на каждом шаге создается все более точная n-граммная модель (и
соответствующий ей конечный автомат) последовательностей пар "Буква-фонема".
Алгоритм состоит из 5 шагов:
Шаг 1. Создание начального автомата, который любой букве ставит в соответствие любую фонему
(см. рис. 1).
Рис.1 - Конечный автомат, который любой последовательности букв ставит в соответствие любую
последовательность фонем
Шаг 2. Создание последовательностей пар "Буква-фонема" для каждого слова. Для этого для
каждого слова ищется наиболее вероятная последовательность пар "Буква-фонема" (ищется оптимальный
путь в конечном автомате).
Шаг 3. Обучение n-граммной модели языка на полученных на 2 шаге последовательностях пар
"Буква-фонема".
Шаг 4. Создание конечного автомата, соответствующего полученной на шаге 3 n-граммной
модели языка.
Шаг 5. Переход к шагу 2, если точность транскрибирования с использованием полученного на
шаге 4 конечного автомата не достаточна, иначе завершение алгоритма.
РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТОВ
Для проверки предлагаемого метода были проведены эксперименты с использованием свободно
распространяемого словаря фонетических транскрипций для американского английского языка CMUdict
[4]. Словарь был случайным образом разбит на две части: 69755 слов для обучения, 815 для тестирования.
было обучено 6 моделей с размером грамматик от 1 до 6 включительно. При обучении было проведено 8
итераций. Для каждой итерации была выполнена оценка точности транскрибирования слов из
тестирующей выборки. Для оценки точности использовалась -оценка [5]. Результаты экспериментов
приведены в таблице 2.
Таблица 2 - Точность метода в зависимости от номера итерации для английского языка
№ итерации
0
1
2
3
4
5
6
7
8
n-граммность
1
1
2
3
3
4
5
6
6
Точность % 50,8 61,81 77,15 89,82 90,02 94,49 95,49 95,72 95,72
20
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
Наилучшая точность транскрибирования на тестирующей выборке, которую показали
эксперименты, составила 95,72 % для размера грамматик, равного 6. Такой высокий показатель означает,
что n-граммная модель языка способна эффективно находить фонетические закономерности в языке с
учетом окружающего контекста.
ЛИТЕРАТУРА
1. V. D. Ivanov, R. K. Potapova, M. Y. Zulkarneev, A heuristic method of grapheme-to-phoneme conversion, Proceedings of 10th
International Conference on SPEECH and COMPUTER "Specom2005", v.I, pp.263-264.
2. M. Bisani, H. Ney, Joint-sequence models for grapheme-to-phoneme conversion, Speech Communication, v. 50, issue 5, May,
2008.
3. C. Allauzen, M. Riley, J. Schalkwyk, W. Skut, M. Mohr, OpenFst: A General and Efficient Weighted Finite-State Transducer
Library, CIAA 2007: 11-23.
4. http://www.speech.cs.cmu.edu/cgi-bin/cmudict
5. J. Makhoul, F. Kubala, R. Schwartz, R. Weischedel, Performance measures for information extraction, in Proceedings of
DARPA Broadcast News Workshop, Herndon, VA, February 1999.
УДК 004.934
М.Ю. Зулкарнеев, Н.Г. Шамраев
МЕТОДЫ ПОСТРОЕНИЯ ПРАВИЛ ДЛЯ ВЕРОЯТНОСТНОЙ КОНТЕКСТНО СВОБОДНОЙ
ГРАММАТИКИ ХОМСКОГО В ЗАДАЧЕ РАСПОЗНАВАНИЯ РЕЧИ
ФГНУ "НИИ "Спецвузавтоматика"
Россия, г. Ростов-на-Дону, пер. Газетный 51
тел. (863) 201-28-15, факс (863) 201-28-17
sva@rsu.ru
В настоящее время в распознавании речи при декодировании широко используются n-граммные языковые
модели. Одним из наиболее перспективных методов улучшения их работы является использование
результатов синтаксического анализа предложения. Важнейшим вопросом при проведении синтаксического
анализа с помощью контекстно-свободных грамматик является построение правил такой грамматики.
В статье рассматриваются методы генерации правил синтаксической языковой модели для
контекстно-свободной грамматики русского языка. Первый метод создания правил основан на
статистической обработке множества подготовленных и синтаксически разобранных предложений. Второй
метод позволяет поэтапно вводить отдельные синтаксические группы, используя теорию синтаксических
структур естественного языка. В статье проводится сравнение обоих методов, а также обсуждаются
другие аспекты, связанные с построением синтаксических правил для русского языка.
ВВЕДЕНИЕ
Ранее в работах [1,2] описывалось применение синтаксического анализа с помощью
вероятностных контекстно-зависимых грамматик Хомского (PCFG, [5]) для повышения точности
распознавания речи. В частности, рассматривалось использование алгоритма Коке-Касами-Янгера
(CKY) для поиска оптимальной гипотезы в решётке слов, получаемой в результате работы СММ
декодера на основе алгоритмов Баум-Уолша и Витерби.
Важнейшую роль для правильного применения контекстно-зависимых грамматик играет
выбор элементов (классов) грамматики и вероятностных правил, фактически определяющих
возможные структуры синтаксического разбора предложения. В этой статье более подробно
рассматриваются методы построения вероятностных правил для русского языка. Правила для
английского языка разработаны и широко используются для синтаксического анализа уже с начала
1990-x годов.
ОПИСАНИЕ МЕТОДОВ
Первый рассмотренный метод построения правил основан на обработке большого текстового
корпуса, синтаксически размеченных предложений Национального корпуса русского языка [6,7].
Пример разобранного предложения приведен на Рис. 1:
В качестве элементов грамматики были выбраны все узлы дерева, входящие в предложения
корпуса размеченных предложений. Например, в приведённом предложении используются элементы
(в латинской транскрипции): A_ED_MWJ_IM, V_NESOV_IZYV_NEPROSH_3L, V_NESOV_INF,
CONJ, ADV, PART, PR и S_ED_MWJ_ROD_NEOD. Такая индексация грамматических классов с
помощью суффиксов удобна для понимания и для дальнейшей обработки получаемых правил.
21
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
Правила естественным образом получаются как ветвления в каждом дереве разобранного
предложения. Начальные вероятности для каждого правила задаются их частотой встречаемости в
текстовом корпусе обучения. Для уточнения значений этих вероятностей используется алгоритм
Бейкера (также известный как In-out algorithm, см. [4]). В процессе построения грамматика Хомского
приводится вначале к нормальному виду [3], т.е. допустимыми являются только унарные и бинарные
правила.
Рис. 1. Пример синтаксически разобранного предложения.
Преимущества метода: К преимуществам метода можно отнести наиболее полный учёт
зависимостей между словами предложения, корректность правил, основанных на ручном разбиении
лингвистами-экспертами. Получаемые на выходе разборы предложения в большинстве случае близки
к оптимальным.
Недостатки метода: Основным недостатком метода является большое количество правил, а
также большая глубина разбора (т.е. количество переходов от стартового слова к терминальным
символам). В результате требования к памяти и быстродействию при вычислениях очень
значительны.
Второй метод основан на использовании локальных синтаксических групп. Слова,
принадлежащие различным частям речи, но склоняющиеся или спрягающиеся по одному типу
(падежу, роду, лицу), будут образовывать синтаксическую группу, соответствующую типу спряжения
(склонения). Идея использования таких типов групп пришла из правил для синтаксической группы
NP (Noun phrase) в английском языке.
В качестве примера рассмотрим синтаксическую группу существительного. Она может
состоять из самого существительного и зависимых слов: предлогов и прилагательных (определений).
Тогда в качестве базовых правил например, для группы существительного единственного числа,
мужского рода и родительного падежа можно выбрать следующие:
GROUP_ED_MWJ_ROD --> S_ED_MWJ_ROD
GROUP_ED_MWJ_ROD --> OPRED_ED_MWJ_ROD S_ED_MWJ_ROD
GROUP_ED_MWJ_ROD --> PR_ROD S_ED_MWJ_ROD
GROUP_ED_MWJ_ROD --> S_ED_MWJ_ROD I_S_ED_MWJ_ROD,
здесь S_ED_MWJ_ROD – обозначает категорию существительного единственного числа
мужского рода родительного падежа,
OPRED_ED_MWJ_ROD – обозначает категорию определения (в частности прилагательное)
для сущ. единственного числа мужского рода родительного падежа,
PR_ROD – обозначает категорию предлогов, употребляемых с родительным падежом,
I_S_ED_MWJ_ROD - обозначает категорию союз «и» вместе с существительным
единственного числа мужского рода родительного падежа.
Для остальных возможных грамматических классов, оставляем единственное правило вида
h → c , где h - вспомогательный класс-заменитель, с - любой класс, не входящий в правила для
группы существительного. При обработке решётки слов, все слова получают класс- заменитель с
одинаково низкой вероятностью, и за счёт этого, вероятность выделения синтаксической группы
становится очень большой.
При задании начальных значений вероятностей используется статистическая информация о
встречаемости правил, затем для уточнения значений производится ряд итераций алгоритма Бэйкера.
22
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
Остановка итераций производится при достаточно малом изменении их значений (ниже заданного
порога).
Описание выбора оптимальной гипотезы в решётке слов подробно описан в статье [2].
Данный метод позволяет выбирать совпадающие по падежи, роду, числу слова, таким
образом уточнять грамматические категории слов группы существительного (падеж, род, число), и
повышать точность распознавания речи.
Преимущества: по результатам экспериментов, достигаемое улучшение точности
распознавания речи не уступает первому методу. Глубина разбора (т.е. количество переходов от
стартового слова к терминальным символам), сравнительно небольшая (3-4). Поэтому скорость
обработки значительно повышается (приблизительно в 8 раз), требования к памяти также
значительно снижаются.
Недостатки: метод учитывает синтаксическую зависимость между близкими словами
(локально), не может учитывать зависимые, но отстоящие друг от друга слова. Синтаксические
группы необходимо задавать в явном виде, с помощью правил. При этом возможно учитываются не
все возможные допустимые классы.
Тем не менее, для применения на практике второй метод гораздо более удобен. Во-первых,
можно управлять синтаксическими группами, то есть дополнять или убирать множество правил,
выделяющее группу. Если точность распознавания речи не улучшается при дополнении правил
синтаксической группы, можно удалить их. Для совершенствования метода необходим поиск
статистически наиболее значимых последовательностей частей речи.
ОПИСАНИЕ ЭКСПЕРИМЕНТОВ
Для проведения экспериментов использовалась микрофонная речевая база, с количеством
дикторов – 131. Речь материал базы представляет собой чтение художественной литературы
непрофессиональными дикторами, то есть база обладает богатым лексическим содержанием.
В качестве базовой системы использовалась система, основанная на трифонах и
трехграммной модели языка с объемом словаря 2857 слов. При распознавании использовался декодер
со свернутой сетью распознавания. После этапа декодирования и получения решёток слов
производилось их дополнительное сжатие. Для тестирования использовались решётки слов размера
до 300 кб.
В результате экспериментов для русского языка применение второго метода синтаксического
разбора позволило повысить точность с 79.8% до 81.4%, что по величине относительной ошибки не
хуже результатов, полученных на основе первого метода [2]. В основном повышение достигается за
счёт использования синтаксической группы существительного.
ЛИТЕРАТУРА
1. Батальщиков А.А., Зулкарнеев М.Ю., Шамраев Н.Г., Оценка гипотез с использованием синтаксического
анализа // Сборник трудов XXII сессии Российского акустического общества и Сессии Научного совета РАН по
акустике. Т. 3. – М.: ГЕОС, 2010. – С. 22-25.
2. Зулкарнеев М.Ю., Шамраев Н.Г., Сальман С.Х., Использование синтаксической информации для
повышения точности распознавания речи. SPECOM’2011.
3. S.C. Levenson, Mathematical models for speech technology. John Wiley & Sons Ltd, NJ, USA, 2005.
4. J. Baker, Trainable grammars for speech recognition. In J.J. Wolf and D.H. Klatt, editors, Speech communications
papers presented at the 97th meeting of the Acoustical Society of America, pages 547-550, Cambridge, MA, June 1979.
MIT.
5. Н. Хомский, Дж. Миллер, Введение в формальный анализ естественных языков. Кибернетический сборник,
Вып. 1, стр. 229-292, Мир, 1965.
6. Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. – СПб.: НесторИстория, 2009. – 502 с
7. http://www.ruscorpora.ru/index.html.
23
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
УДК 004.522
И.С. Кипяткова, В.О. Верходанова, А.Л. Ронжин
АНАЛИЗ ПАРАЛИНГВИСТИЧЕСКИХ ФОНАЦИОННЫХ ЯВЛЕНИЙ В АУДИОЗАПИСЯХ
НАУЧНЫХ ДОКЛАДОВ
Санкт-Петербургский государственный университет
Россия, 199034, Санкт-Петербург, Университетская наб., д. 11.
Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт
информатики и автоматизации Российской академии наук
Россия, 199178 Санкт-Петербург, 14 линия, д.39
Тел.: (812) 328-7081; Факс: (812) 328-7081
E-mail: kipyatkova@iias.spb.su, interiora@gmail.com, ronzhin@iias.spb.su
В статье представлены результаты анализа паралингвистических фонационных явлений, которые были
выявлены в ходе сегментации корпуса русской речи, содержащего выступления шести докладчиков (трех
мужчин и трех женщин) на небольшом научном семинаре. Общий объем корпуса составляет 70 минут.
Сегментация артефактов и заполненных пауз позволила оценить частоту появления и длительность этих
элементов в речи докладчиков, а также среднюю частоту основного тона для каждого типа внеязыкового
элемента. Для внеязыковых элементов, которые встретились в корпусе более двух раз, были созданы
акустические модели. В результате были построены модели для трех типов артефактов (вдох, прочищение
горла/кашель и причмокивание) и восьми типов заполненных пауз. Были проведены эксперименты по
распознаванию выявленных внеязыковых элементов. Точность распознавания внеязыковых элементов в
собранном корпусе составила в среднем 87 %.
При распознавании речи на вход системы распознавания, кроме полезного речевого сигнала,
может поступать фоновый шум, а также паралингвистические фонационные явления, что существенно
снижает точность распознавания речи. Для отделения шумов от речевого сигнала была разработана
система идентификации акустических событий, таких как шаги, шелест бумаги, звон ключей и т.п. [1].
Паралингвистические средства не входят в систему языка и не являются речевыми единицами,
однако в той или иной степени представлены в каждой речевой единице, сопровождая речь. К
фонационным паралигвистическим средствам относятся темп, тембр, громкость речи, заполнители пауз (к
примеру, «э-э», «м-м»), мелодика речи, диалектные, социальные или идиолектные особенности
артикуляции звуков [2]. Присутствие паралингвистических фонационных явлений в разговорной речи
существенно усложняет ее автоматическое распознавание [3, 4].
Вокализованные (озвученные) паузы могут быть вызваны различными причинами: сомнения,
размышления и др. Чтобы не допустить разрыва во фразе и диалоге с собеседником, образовавшаяся пауза
заполняется разного рода звуками. Это могут быть как растянутые звуки, напоминающие фонемы («а-а»,
«э-э», «м-м»), так и звуки явно нефонемной природы (кряхтение, хриплые «а», «о», «м») или даже
комбинации звуков («хм», «гм», «ма»). При диалоге между людьми озвученные паузы помимо того, что не
позволяют разорвать разговор, давая собеседнику понять, что оратор не закончил свое высказывание,
также могут служить неким сигналом о помощи, обращенным к собеседнику. Артефакты – это
преимущественно короткие неречевые элементы, например, причмокивание, цоканье языком, звуки,
связанные с громким дыханием. Для системы автоматического распознавания речи вокализованные паузы
и артефакты не несут информативной нагрузки и поэтому должны быть устранены на ранних уровнях
обработки сигнала [5]. Устранение таких неинформативных элементов речевого сигнала на начальных
стадиях обработки позволит избежать многих ошибок при распознавании речи, передавая на
последующие уровни обработки только полезную для диалоговой системы информацию.
Наиболее подробно типы речевых сбоев и способы их аннотирования в корпусах устной речи
рассмотрены в работе [6]. Выделяются две основные категории речевых сбоев: хезитации и
самоисправления. В свою очередь самоисправления разделяются на два основных режима – онлайн
коррекцию и ретроспективную коррекцию, или редактирование. В первом случае при обнаружении
проблемы говорящий останавливает поток речи, в половине случаев даже не заканчивая слов, и далее
формирует грамматически приемлемый и ситуационно уместный, с его точки зрения, фрагмент речи. При
ретроспективной коррекции говорящий завершает проблемный отрезок и затем уточняет или исправляет
предыдущий фрагмент речи.
При распознавании разговорной речи необходимо отделить паралингвистические явления от
ключевых слов. В работе [7] для учета таких типов речевых сбоев как озвученная пауза, повтор слов,
модификация предложения с самого начала было предложено два варианта стратегий. Во-первых, каждый
тип сбоя может быть явно учтен в статистической модели языка декодера речи, и в случае его
24
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
обнаружения во фразе срабатывает альтернативный вариант модели, исключающий озвученную паузу,
повторяющееся слово или неудачное начало фразы. Вторая стратегия основана на использовании
внешнего модуля, производящего независимую параметрическую обработку сигнала и распознавание
заданного набора озвученных пауз. Сегменты звукового сигнала, содержащие такие паузы, исключаются
из последующей обработки и не подаются на вход основного декодера речи. Совместное применение
стратегий для указанных корпусов позволило снизить уровень ошибок распознавания слов с 45 % до 36 %.
В работе [8] описывается метод обнаружения озвученных пауз и удлиненных слов на основе
малого изменения частоты основного тона и незначительного изменения формы огибающей спектра при
условии, что диктор не меняет артикуляторных параметров в течение заполненной паузы. Точность
распознавания заполненных пауз при применении этого метода составила 84,9 %.
Для того чтобы отделить паралингвистические явления от ключевых слов и исключить их из
дальнейшей обработки, нужно создать акустические модели таких явлений. Для обучения акустических
моделей внеязыковых элементов в данном исследовании был собран корпус русской речи, который
содержит доклады на семинаре шести человек (трех мужчин и трех женщин). Общий объем корпуса
составляет 70 мин. В ходе сегментации корпуса были выделены артефакты и заполненные паузы
хезитации – черты, свойственные любой спонтанной речи. Для обучения и тестирования использовались
внеязыковые элементы, которые встретились в корпусе более двух раз, они приведены в таблице 1.
Класс внеязыковых элементов
Артефакты
Заполненные паузы
Таблица 1. Обозначение моделируемых элементов спонтанной речи
Обозначение
ar.brth
ar.clth
ar.smck
h.a
h.au
h.e
h.em
h.eu
h.m
h.me
h.mne
Внеязыковой элемент
Вздох
Прочищение горла/кашель
Причмокивание
/а/
/ау/
/э/
/эм/
/эу/
/м/
/мэ/
/мнэ/
В результате были построены модели для трех типов артефактов (вдох, прочищение горла/кашель
и причмокивание) и восьми типов заполненных пауз. Каждая модель внеязыкового элемента строилась на
основе лево-правой скрытой марковской модели, содержащей три основных состояния. В таблице 2
показано распределение частоты употребления различных внеязыковых элементов разными дикторами и
их средняя длительность в собранном корпусе. Всего было просегментировано в корпусе 1052
внеязыковых элемента, их суммарная длительность составила 7 мин, что равняется примерно 10 % от
длительности всех записей выступлений докладчиков на семинаре.
Таблица 2. Описание собранного корпуса внеязыковых элементов
ДлительКоличество появлений внеязыковых элементов
Диктор
ность
выступления, ar.brth ar.clth ar.smck h.a h.au
h.e h.em h.eu h.m h.me h.mne Всего
мин.
1
18
94
15
7
1
0
147
12
1
25
0
0
302
2
15
9
1
1
10
0
141
4
0
20
4
0
190
3
8
49
22
0
5
1
64
23
3
11
1
2
181
4
2
9
0
0
0
0
26
0
0
0
0
0
35
5
13
149
4
0
0
4
61
2
12
16
6
1
255
6
14
26
8
0
0
0
47
1
0
7
0
0
89
Общее количество
336
50
8
16
5
486
42
16
79
11
3
1052
появлений элементов
Относительное
31,94 4,75
0,76 1,52 0,48 46,20 3,99 1,52 7,51 1,05 0,29 100,0
количество, %
Средняя длительность
392 345
194 454 833 423 679 834
504 465 892
–
(мс)
25
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
Из таблицы видно, что большую часть внеязыковых элементов составляет заполненная пауза h.e
(46,15 % общего числа внеязыковых элементов) и вздох (31,91 %), эти элементы присутствовали в речи
всех шести дикторов. Также в речи большинства дикторов присутствовали элементы ar.clth, h.em, h.m.
С помощью программы PRAAT [9] была определена длительность вокализованных и
невокализованных участков в каждом внеязыковом элементе, и проведено сравнение частоты основного
тона выявленных внеязыковых элементов с частотой основного тона всей речи для каждого диктора. В
таблице 3 показана средняя длительность вокализованных и невокализованных участков для всех
внеязыковых элементов. У артефактов длительность невокализованных участков превышала длительность
вокализованных. Доля невокализованного участка велика для озвученных пауз, состоящих из двух
гласных звуков: /ау/ (h.au), /эу/ (h.eu). Длительность вокализованного участка превышала длительность
невокализованного более чем в два раза у элементов h.a, h.em и h.me. Наибольшее отношение
длительности вокализованного участка к общей длительности элемента оказалось у заполненной паузы
h.mne (80 %), однако этот элемент встретился в корпусе только три раза, поэтому сложно утверждать, что
данный элемент в большинстве случаев будет иметь длительный вокализованный участок.
Таблица 3. Длительность вокализованных и невокализованных участков для внеязыковых элементов
Характеристика элемента
Средняя длительность
вокализованных участков
Средняя длительность
невокализованных участков
мс
%
мс
%
Внеязыковые элементы речи
ar.brth ar.clth ar.smck h.a h.au h.e h.em h.eu
85
163
54
308 450 248 447 441
22
47
28
68 54
62
69
53
307 182
140
145 383 151 199 393
78
53
72
32 46
38
31
47
h.m
262
56
205
44
h.me h.mne
324 715
70
80
141 177
30
20
Результаты вычисления частоты основного тона по собранным в корпусе внеязыковым элементам
представлены в таблице 4. Была определена минимальная, максимальная и средняя частота основного
тона для каждого типа внеязыковых элементов, а также средняя частота основного тона речевых участков
для каждого диктора. В таблице символ «-» обозначает, что в речи диктора данный элемент не встретился.
Таблица 4. Сравнение частоты основного тона
Вся
речь
2
3
4
5
6
Усредненные
значения
201
Средняя частота основного тона, Гц
1
ar.brth ar.clth ar.smck h.a
136
241
139
173
206
183
Частота основного тона, Гц
Диктор
Внеязыковые элементы речи
мин.
макс.
средняя
мин.
макс.
средняя
мин.
макс.
средняя
мин.
макс.
средняя
мин.
макс.
средняя
мин.
макс.
средняя
мин.
макс.
средняя
75
596
125
90
239
123
76
567
183
76
289
148
75
581
146
78
595
212
75
596
156
83
249
152
112
112
112
116
362
291
85
167
122
150
259
219
83
362
179
90
576
228
112
112
112
90
576
170
211
211
211
82
112
102
193
324
231
82
324
181
h.au
h.e
h.em h.eu
h.m h.me h.mne
199
199
199
161
277
213
161
277
206
82
414
168
81
483
116
94
501
217
80
284
122
77
576
241
77
569
241
77
576
184
100
205
162
98
111
103
99
245
187
120
166
143
147
147
147
98
245
148
91
221
155
93
175
117
101
283
196
79
254
134
78
225
145
78
283
149
160
160
160
182
233
211
78
539
219
78
539
197
105
122
112
205
205
205
107
254
167
105
254
161
213
236
225
145
145
145
145
236
185
Возможно, что объем собранного корпуса еще недостаточно велик, чтобы выявить определенные
закономерности по распределению частоты основного тона, тем не менее, несколько предварительных
выводов уже можно сделать. Во-первых, среднее значение частоты основного тона для большинства
внеязыковых элементов оказалось ниже средней частоты основного тона у соответствующего диктора.
Однако в речи каждого диктора встретились внеязыковые элементы с частотой основного тона
26
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
превышающей среднее значение. Во-вторых, за исключением элемента h.e у всех хезитаций наблюдается
довольно стабильное значение частотой основного тона. Поскольку вокализованные участки
нехарактерны для артефактов речи, то и значение частоты основного тона в них крайне нестабильное.
Также были проведены эксперименты по распознаванию выявленных внеязыковых элементов.
Точность распознавания всех элементов составила 86,98 %. В таблице 5 показаны результаты
распознавания каждого внеязыкового элемента.
Распознаваемый
элемент
ar.brth
ar.clth
ar.smck
h.a
h.au
h.e
h.em
h.eu
h.m
h.me
h.mne
Таблица 5. Анализ результатов распознавания внеязыковых элементов
ar.brth
ar.clth ar.smck
Результат распознавания, %
h.au
h.e
h.em
h.eu
1.
2.
3.
4.
5.
6.
7.
8.
9.
0,00
0,00
0,00
0,00
0,00
0,00
0,00
100,00 0,00
0,00 100,00 0,00
0,00
0,00 100,00
0,00
3,29
0,00
0,00
2,38
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,60
0,00
0,00
0,00
0,00
79,22
4,76
6,25
3,80
0,00
0,00
0,30
0,00
0,00
0,00
0,00
3,91
85,71
0,00
2,53
0,00
0,00
0,00
0,00
0,00
0,00
0,00
5,56
0,00
93,75
0,00
0,00
0,00
h.m
h.me
h.mne
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,00
0,62
0,00
0,00
0,00
0,00
0,00
0,00
0,00
100,00 0,00
0,00 100,00
Из таблицы видно, что точность распознавания пяти элементов (ar.smck, h.a, h.au, h.me, h.mne)
составила 100 %. Хуже всего распознавалась заполненная пауза h.e, точность распознавания которой
оказалась равной 79,22 %. Как было видно из таблицы 4 элемент h.e имел сильную вариативность
значений частоты основного тона, что в конечном итоге привело в ухудшению точности его
распознавания. Этот элемент путался с элементами: ar.brth, ar.clth, h.a, h.em, h.eu, h.m, h.me. В
дальнейшем, вероятно, следует проверить точность сегментации элемента h.e в корпусе и при
необходимости ввести дополнительные варианты произнесения этого типа хезитаций. Также точность
распознавания ниже 90 % оказалась у элементов h.em, h.m, при распознавании эти элементы путались
между собой.
Проведенные эксперименты показали достаточно высокий процент распознавания внеязыковых
элементов. В дальнейшей работе планируется увеличить количество моделируемых внеязыковых
элементов и провести эксперименты по проверке правильности отделения внеязыковых элементов от
ключевых слов. Работа выполнена в рамках НИР СПбГУ № 31.37.103.2011 и федеральной целевой
программы «Исследования и разработки по приоритетным направлениям развития научнотехнологического комплекса России на 2007-2013 годы» (ГК № 11.519.11.4025).
96,73
2,00
0,00
0,00
0,00
1,23
0,00
0,00
7,59
0,00
0,00
0,60
94,00
0,00
0,00
0,00
0,82
0,00
0,00
5,06
0,00
0,00
h.a
1,79
4,00
0,00
0,00
0,00
5,35
7,14
0,00
81,01
0,00
0,00
ЛИТЕРАТУРА
Кипяткова И.С. Система идентификации акустических событий в интеллектуальном пространстве //
"Информационно-измерительные и управляющие системы". 2011. №11. Т.9. С. 27-30.
Лингвистический энциклопедический словарь / под ред. В. Н. Ярцевой. М.: Советская энциклопедия. 1990.
685 с.
Пилипенко В.В., Ладошко О.Н. Аннотация и учет речевых сбоев в задаче автоматического распознавания
спонтанной украинской речи // Искусственный интеллект. 2010. №3. C. 238-248.
Karpov A., Kipyatkova I., Ronzhin A. Very Large Vocabulary ASR for Spoken Russian with Syntactic and
Morphemic Analysis // In Proc. INTERSPEECH-2011 International Conference, ISCA Association, Florence,
Italy. 2011. pp. 3161-3164.
Ронжин А.Л., Евграфова К.В. Анализ вариативности спонтанной речи и способов устранения речевых
сбоев // Известия высших учебных заведений. Гуманитарные науки. 2011. Т. 2. Вып. 3. С. 227-231.
Подлесская В.И., Кибрик А.А. Самоисправления говорящего и другие типы речевых сбоев как объект
аннотирования в корпусах устной речи // Научно-техническая информация. Серия 2. 2007. № 2. С. 2-23.
Stouten F., Duchateau J., Martens J.-P., Wambacq P. Coping with disfluencies in spontaneous speech recognition:
acoustic detection and linguistic context manipulation // Speech Communication. 2006. Vol. 48. pp. 1590-1606.
Masataka G., Katsunobu I., Satoru H. A Real-Time System Detecting Filled Pauses for Spontaneous Speech //
IEICE Transactions on Information and Systems. 2000. Pt.2. Vol. J83-D-2. No.11. pp. 2330-2340.
Boersma P., Weenink D. 2006. Praat: doing phonetics by computer (Ver. 5.3.13).
27
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
УДК 534:612.014.45
И.И. Кириченко
МОДЕЛИРОВАНИЕ ТЕСТОВЫХ СИГНАЛОВ ТОНАЛЬНОЙ И РЕЧЕВОЙ АУДИОМЕТРИИ
Технологический институт Южного Федерального университета
Россия, 347928, г. Таганрог, ГСП-17а, пер. Некрасовский, 44
Тел.: (8634) 37-17-95
E-mail: igork@fep.tti.sfedu.ru
В работе рассмотрены вопросы моделирования тестовых сигналов для тональной аудиометрии и анализа
речевых сигналов на основе вейвлет-преобразования. Показана возможность применения разработанных
тестовых сигналов для исследования методами тональной и речевой аудиометрии. В работе представлены
результаты моделирования и формирования тональных тестовых сигналов и анализа речевых сигналов с
использованием вейвлет-преобразования.
Анализ методов аудиометрии и результатов компьютерного анализа тональных аудиограмм
показали, что для создания условий ранней диагностики заболеваний слухового анализатора, необходимо
совершенствовать методы, алгоритмы и программные средства биотехнических систем диагностики и
интерпретации данных компьютерного анализа, полученных в ходе исследования [1, 2, 3]. База тестовых
сигналов содержит оцифрованные тональные сигналы заданного динамического диапазона и диапазона
частот в виде двумерного массива с адресацией по индексам i, j. Установка исходных параметров
определяет инициализацию всей системы компьютерного анализа – установку переменных работы
программы, зоны временных интервалов воздействия, начальный уровень амплитуды, определяющий
верхний и нижний порог работы, параметры обратной связи «пациент-врач», интерфейс тестирования и
общую информацию. Циклы переключения частоты и амплитуды формируют диагностический сигнал,
воздействующий на пациента. Реакция пациента в виде обратной связи (односторонней или
двухсторонней, в зависимости от методики исследования) поступает в биотехническую систему
компьютерного анализа, и по окончании теста – в электронную карту пациента [4].
Обобщенный алгоритм теста тональной аудиометрии рассмотрен в [3]. В каждом интервале
динамического диапазона (в рассматриваемом примере их 10: от 0дБ до –45дБ) тональный сигнал
воспроизводится в течение не менее 1 сек, чтобы пациент успел оценить и отреагировать на акустическое
воздействие. Таким образом определяется чувствительность пациента на данной частоте. Для остальных
частот используется аналогичный алгоритм тестирования, после чего строится аудиограмма воздушной
или костной проводимости, которая заносится в базу данных для компьютерного анализа аудиограмм.
Количество зон определяется динамическим диапазоном и составляет до 20 – 25 (при шаге 5дБ, что в
целом соответствует от 95дБ до 120дБ). Следует отметить, что использование компьютерного
формирования тестового сигнала обеспечивает более высокую точность установки по амплитуде (90 дБ) и
частоте (менее 0,01%).
На рис. 1 показана структура тестового сигнала для тональной аудиометрии со следующими
характеристиками: частота 1 кГц, время теста 10 сек, шаг изменения динамического диапазона 5дБ/сек,
динамический диапазон 45 дБ, отношение сигнал/шум 96 дБ. Большее влияние на качество тонального
сигнала определяет не частота дискретизации, а разрядность. При этом на восприятие звукового сигнала
человеком оказывает влияние вид сигнала. Так, разницы между восприятием тонального синусоидального
сигнала с разной частотой дискретизации и разрядностью практически не наблюдается.
Количественная оценка слуховой функции начинается с определения расстояния между
произносящим звуки, слова или цифры исследователем и ухом испытуемого, при котором он слышит речь
– шепотную, разговорную, громкую или крик. При этом второе ухо закрывается. Применяются также
различные способы маскировки в случаях несимметричной потери слуха и изучения хуже слышащего уха
(способы Венгера, Кайзера, Барани и др.). Подобная диагностика речью широко применяется при
массовых обследованиях в случаях отсутствия специальной аппаратуры для оценки степени сохранения
слуха. Основная проблема таких исследований – отсутствие стандартизации интенсивности
предъявляемых речевых сигналов [1, 2]. Для речевого сигнала из-за его широкого спектра при
уменьшении как частоты, так и разрядности, ухудшается его восприятие. Особую роль в данном случае
играет величина шумовой составляющей по всему спектру. Главной математической основой
спектрального анализа является преобразование Фурье, которое связывает пространственный или
временной сигнал (либо некоторую модель этого сигнала) с его представлением в частотной области. Но
преобразование Фурье дает информацию только о частоте, которая присутствует в сигнале и не дает
никакой информации о том, в какой промежуток времени эта частота присутствует в сигнале.
28
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
Рис. 1. Структура тестового сигнала для тональной аудиометрии
Оконное преобразования Фурье, в отличии от обычного преобразования Фурье, уже является
функцией от времени, частоты и амплитуды. То есть она позволяет получать характеристику
распределения частоты сигнала (с амплитудой) во времени. Но главной проблемой в использовании
оконного преобразования Фурье для получения частотно-временной характеристики сигнала является так
называемый принцип неопределенности Гейзенберга, который возникает для параметров времени и
частоты сигнала [5, 6]. В связи с этим возникает проблема разрешающей способности. Вейвлетпреобразование было создано как инструмент, который решает проблему неопределенности Гейзенберга
для построение частотно-временных характеристик сигнала.
Рис. 2. Исходный сигнал
В данной работе представлены результаты вейвлет-преобразования одного сигнала с помощью
различных материнских вейвлетов. В качестве исходного сигнал взят звук «Т», записанный с помощью
программы AdobeAudition (рис. 2, 3). Основная идея вейвлет-преобразования заключается в том, чтобы
29
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
для поиска локальной особенности использовать разложение по функциям, похожим на искомую
особенность.
Был проведен анализ исходного сигнала на основе вейвлет-преобразований: вейвлет Гаусса 1-го
порядка; вейвлет Мейера; вейвлет Морле; вейвлет Хаара 1-го порядка; вейвлет Добеши 1-го порядка.
Результаты анализа исходного сигнала с использованием наиболее часто встречающиеся вейвлетпреобразований показаны на рис. 4 – 6.
Рис. 3. Спектр исходного сигнала
Рис. 4. Результат вейвлет преобразования сигнала (вейвлет Гаусса 1-го порядка)
30
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
Рис. 5. Результат вейвлет преобразования сигнала (вейвлет Мейера)
Рис. 6. Результат вейвлет преобразования сигнала(вейвлет Морле)
ЛИТЕРАТУРА
1. Джафек Б.У., Старк Э.К. Секреты оториноларингологии. Пер. с англ. М. – СПб.: БИНОМ – Невский
диалект. – 2001. – 624 с.
2. Палчун В.Т., Крюков А.И. Отоларингология: Руководство для врачей. – М.: Медицина, 2001. – 616 с.
3. Бондаренко Р.П., Кириченко И.А. Биотехническая система для аудиометрии с нелинейным преобразованием
речевого сигнала / Известия ТРТУ.- Таганрог: Изд-во ТРТУ, 2006. №11, С.160-161.
4. Бондаренко Р.П., Кириченко И.И., Рябец М.Н. Разработка базы тестовых сигналов для аудиометрии //
Известия ЮФУ. Технические науки. – 2009. – №7(96). – С. 241-243.
5. Фант Г. Акустическая теория речеобразования. М.: Наука.- 1964. – 264с.
6. Рабинер Л., Шафер Р. Цифровая обработка речевых сигналов. М: Радио и связь. – 1981 – 496 с.
31
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
УДК: 612.85
Ляксо Е.Е, Григорьев А.С., Куражова А.В., Гайкова Ю.С., Бедная Е.Д., Чеклярова Я.В.
АКУСТИКА ДЕТСКОЙ РЕЧИ:
ДИНАМИКА СПЕКТРАЛЬНЫХ ХАРАКТЕРИСТИК ГЛАСНЫХ
Санкт-Петербургский государственный университет, Биолого-почвенный факультет
199034, Санкт-Петербург, Университетская наб., 7-9
Тел. (812)3213361; Факс (812)3232454
e-mail: lyakso@gmail.com
Проанализированы акустические характеристики гласноподобных в вокализациях и гласных в слоговых
конструкциях и в словах 100 детей в возрасте от 3 месяцев до 7 лет. Анализируемый материал составил 85000
гласноподобных и гласных. Выявлены изменения в значениях и вариабельности длительности, частоты
основного тона (ЧОТ) и формантных частот гласных в зависимости от возраста детей. Полученные на
материале русского языка данные подтверждают имеющиеся сведения на разных языках, о том, что
уменьшение длительности стационарных участков и частотных характеристик гласных с возрастом
является одной из основных тенденций развития акустической стороны речи у нормально развивающихся
детей.
Серия наших исследований посвящена изучению становления акустического аспекта речи в
онтогенезе. Цель настоящей работы заключалась в изучении динамики акустических характеристик
гласноподобных из вокализаций и гласных из слов детей первых семи лет жизни.
При анализе гласноподобных звуков детей первого года жизни, показано, что выделенные в
вокализациях детей, на основе перцептивного анализа и описанные посредством символов
международного фонетического алфавита (МФА) и САМПА, гласноподобные звуки характеризуются
высокими значениями частоты основного тона (ЧОТ, F0) и частот двух первых формант (F1 и F2). Их
значения занимают обширные области расположения на двухформантной плоскости, захватывающие
области различных гласных. Значения ЧОТ младенческих гласноподобных соответствуют значениям F1
гласных [o], [u], [i] взрослой речи. Тенденция к снижению ЧОТ наблюдается со второго полугодия жизни
детей преимущественно для гласноподобных звуков, продуцируемых в спокойном состоянии. Значения F1
и F2 гласноподобных звуков детей первого месяца жизни занимают на двухформантной плоскости
высокочастотные области. Для пар звуков [o], [u] и [e], [ы] – области их расположения практически
сливаются; для гласноподобных [I], [a] - перекрываются по F1, и частично по F2 [1]. С шестимесячного
возраста выявляются различия (р< 0,01 в значениях второй форманты звуков [a] и [e], к девятому месяцу
– в значениях первых формант (р<0,05) [o] и [u] –гласноподобных звуков [2].
При анализе речепродукции детей второго года жизни критерием правильности распознавания
слова аудиторами явилось значение, определяемое матерью ребенка. Простые слова легко распознаются в
возрасте 1 год 3 месяца и 1 год 6 месяцев. Слова, состоящие из трех разных слогов или содержащие два
последовательно следующих друг за другом согласных звука, распознаются хуже. Преобладающим в
совокупности распознанных аудиторами гласных из слов детей оставался, как и на первом году жизни,
гласный [а]. Не выявлено четкой динамики улучшения распознавания гласных звуков с увеличением
возраста детей, при тенденции к улучшению распознавания гласных [e] и [o] ко второй половине второго
года жизни детей. На двухформантной плоскости гласные [a], [e], [ы], [o] занимают соответствующие
области. Значения F1 для гласного [I] смещены в область гласного [e]. Это обусловлено тем, что значения
F0 остаются высокими. Следует отметить совпадение значений формант гласных [o] и [u] на
двухформантной плоскости и расположение их в области гласного [o]. Значимых различий по значениям
формантных частот гласных не выявлено, что возможно связано с особенностями из произнесения в
словах.
Подобная тенденция сохраняется и для значений двух первых формант гласных из слов детей
третьего года жизни. К концу третьего года жизни дети четко произносят слова, состоящие из 3-х и 4-х
слогов, комбинируя их во фразы из 3-5 слов. На третьем году жизни формируется ударность гласного.
Длительность ударного гласного больше чем безударного для всех гласных на уровне тенденции.
Характерной особенностью гласных из слов трехлетних детей является уменьшение разброса значений,
преимущественно по второй форманте. Это может свидетельствовать о формировании у ребенка
определенного произносительного эталона ударного и безударного гласного. Сохраняющиеся высокие
значения ЧОТ приводят к тому, что гласные [I], [u], [ы], при их четкой идентификации в словах
(независимо от ударного или безударного положения), не могут быть описаны только на основе
абсолютных значений двух первых формант [1]. Начинается формирование оппозиции твердостимягкости согласных фонем, которое проявляется в характеристиках гласных, следующих за ними. Для
32
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
слов, произнесенных детьми в три года, обнаружена тенденция к появлению значимых различий
(0,05<p<0,1) между относительными значениями F2 в неназализованном переднеязычном контексте для
мягких и твердых согласных. В заднеязычном и назализованном переднеязычном контексте между этими
значениями обнаружены значимые различия (p<0,05) [3]. Прослеживается тенденция (0,05<p<0,1) к
появлению различий между абсолютными значениями F2 на участке перехода от согласного, оцененного
аудиторами как твердый, к гласному [a], и перехода от мягкого согласного к гласному [и], что
свидетельствует о начале формирования артикуляционной модели твердых согласных. При сравнении
значений F2 на переходном и стационарном участках в переднеязычном неназализованном контексте
выявлены значимые различия между гласным [a] после твердого (по оценке аудиторов) согласного и
гласным [i]. (Различия в словах детей первого полугодия третьего года жизни – 0,02<p<0,03; в словах,
произносимых детьми во втором полугодие третьего года жизни - 0,04<p<0,05). Аналогичных различий
между гласным [a] после мягкого согласного и гласным [u], между гласными [a] после согласных, поразному оцененных аудиторами, не обнаружено [3].
В возрасте 4 лет в речи всех детей длительность ударного гласного и его стационарного участка, а
также их разность, выше, чем для безударного гласного. В 5 лет у всех детей разница между
длительностью ударного гласного и его стационарного участка выше, чем для безударного гласного. К
четырем годам сформировано словесное ударение, ударный гласный выделяется на основе длительности и
ЧОТ. Отличие ударных гласных по ЧОТ у некоторых детей в 4 года более выражено, чем в 5 лет, что
позволяет предположить, что в речи этих детей наблюдаются те признаки, с помощью которых обычно
оформлено ударение в русском языке. Более высокие значения ЧОТ ударного гласного по сравнению с
безударным гласным также воздействуют на расположение безударных гласных на двухформантной
плоскости. На акустические характеристики безударного гласного большое воздействие имеет контекст,
что коррелирует с его редукцией по длительности. К пятилетнему возрасту расположение значений F1 и
F2 на двухформантной плоскости остается неинформативным [4].
Значения ЧОТ ударных гласных в словах детей 6 и 7 лет значимо не различаются при тенденции к
уменьшению в 7 летнем возрасте детей. Длительность ударных гласных значимо выше, чем безударных в
словах 6 и 7 летних детей. К 7 годам ударный гласный в словах выделяется по значениям длительности,
признака, релевантного для русского языка. Эффекты коартикуляции, исследуемые с учетом и без учета
контекста, выражены в 6 и 7 лет [5].
Таким образом, в каждом из описанных исследований проводилось сравнение характеристик
гласных только в пределах анализируемых возрастных периодов. В этой связи целью настоящей работы
явилось выявление динамики спектральных характеристик гласных.
Осуществлен анализ вокализаций детей первого года жизни, слоговых конструкций и слов детей
второго года жизни и слов из речи детей 3-7 летнего возраста. Запись вокализаций и речевого материала
детей проведена в период с 2000 – 2012 гг. Записывающая аппаратура менялась на протяжении этого
периода: 2000 – 2001 гг. - магнитофон -«Pioneer» CT-W704RS, микрофон-MD-59; 2002-2005гг – “Marantz
PMD222”, с 2007 г - цифровой магнитофон “Marantz PMD660” с выносным микрофоном “SENNHEIZER
e835S”.
Анализируемый материал составили лонгитюдные записи 5 детей с 3х до 84 месяцев; для каждого
ребенка по 10 вокализаций в 3 и 12 месяцев, по 10 слов и речеподобных конструкций – в 24 месяца; по 10
фраз, содержащих одно – трех слоговые слова - в 36 месяцев; по 100 слов – в 48- 84 месяца. Записи
вокализаций 30 детей первого года жизни – по 50 вокализаций в 3,6,9, 12 месяцев; по 40 слов для 10
детей 2 , 3 и 4 летнего возраста, по 100 слов 15 детей 5 лет, 10 детей 6 и 7 лет. Общее количество
проанализированных гласноподобных и гласных детей составило 85000 звуков, материал взрослой речи
– 50 звуков.
Перцептивный анализ звуков и слов детей осуществлялся взрослыми – носителями русского
языка: 3 -12 мес. – 137 аудитора, 24 мес. – 103 аудитора, 36 мес. – 137 аудиторов, 48-60 мес. – 165
аудиторов; 72-84 мес. – 100 аудиторов. Если более 75% аудиторов распознавали гласные (в вокализациях
и в словах), то эти гласные анализировали.
В звуковом редакторе «Cool Edit» определяли длительность гласного и его стационарного
участка, на котором считали значения частоты основного тона (ЧОТ, F0), двух первых формант (F1, F2).
По этим же параметрам по критерию Манна-Уитни сравнивали гласные /a/, /i/ и /u/, взятые после
согласных: /k/ и /d/ для /a/, /b/ и /g/ для /u/ и /t’/ для /i/.
Статистическую обработку проводили с использованием непараметрического критерия МаннаУитни.
Длительность гласноподобных звуков детей снижается на уровне тенденции к 12 месячному
возрасту, длительность гласных в словах детей 2 – 4 лет имеет максимальные значения и значимо
33
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
снижается к 5 годам, достигая минимальных значений к 7 годам (рис. 1.А). К трехлетнему возрасту
ударный и безударный гласный в словах различаются по длительности. Начиная с этого возраста и до 7
лет, длительность ударного гласного и его стационарного участка статистически значимо выше
длительности безударного гласного (рис.1 Б). Исключение составляют гласные из слов детей пятилетнего
возраста, в которых длительность стационарного участка ударного гласного ниже длительности
стационарного участка безударного.
220
*
б/уд
200
180
160
***
***
140
120
100
гл_стац
Б
240
уд
*
длительность гласного, мс
длительность гласного, мс
гласный
А
240
уд_стац
б/уд_стац
180
120
*
*
72
84
60
0
3
12
24
36
48
60
72
84
3
12
24
возраст детей, мес
36
48
60
возраст детей,мес
Рис.1 Длительность гласноподобных и гласных из слов детей с 3 месяцев до 7 лет.
А – длительность гласных, Б – длительность стационарных участков гласных.
По горизонтали - возраст, мес.; по вертикали – длительность, мс. Толстая линия – данные для гласного (А) и его
стационарного участка (Б), пунктир – тоже для ударного гласного, тонкая линия – тоже для безударного
гласного.
Выявлена тенденция к снижению значений ЧОТ с возрастом ребенка, при значимом понижении к
7 годам (рис.2). При сравнении значений ЧОТ между ударными и безударными гласными без учета
контекста и качества гласного показано, что различия между ними более выражены в 3, 4 и 6 лет, чем в 5
лет. Значения ударных и безударных гласных значимо не различаются в словах детей 7 летнего возраста.
600
гласный
стац
А
уд
б/уд
Б
450
400
500
350
300
**
F0, Гц
F0, Гц
400
**
300
**
*
250
200
150
200
100
100
50
0
0
3
12
24
36
48
60
72
36
84
48
60
72
84
возраст детей, мес
возраст детей, мес
Рис.2. Значение ЧОТ гласноподобных и гласных из слов детей с 3 месяцев до 7 лет.
А – значение ЧОТ для гласных (на всем протяжении) и их стационарных участков, Б – тоже для ударных и
безударных гласных (на стационарном участке). Светлые столбики – данные для гласного, белые – для
стационарного участка, черные – ударный гласный, наклонная штриховка – безударный гласный. * - p< .05, **
p< .001
Попарное сравнение гласных по значениям двух первых формант показало, что первые различия
отмечаются при формировании системы гласных звуков уже на первом году жизни, однако включение
гласных в слова, вновь приводит к их нечеткой артикуляции. По частотным характеристикам гласные
семилетних детей отличаются от соответствующих характеристик гласных взрослой речи, при
наименьшем отличии при сравнении гласных [a/u], [a/o], [u/e], [o/e] и наибольшем - гласных [i/e], [u/o]
(табл. 1).
34
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
Таблица 1. Сравнение гласноподобных из вокализаций детей первого года жизни и гласных из слов
детей 2-7 лет и взрослых по значениям первой и второй формант.
Возраст/значения
F1, F2, Гц
3 мес.
6 мес.
9 мес.
12 мес.
24 мес.
36 мес.
48 мес.
60 мес.
72 мес.
84 мес.
Взросл.
Гласные
[i]/[a]
[i]/[u]
[i]/[o]
[i]/[e]
[a]/[u]
[a]/[o]
[a]/[e]
[u]/[o]
[u]/[e]
[o]/[e]
F1
-
-
-
-
-
-
-
-
-
-
F2
-
-
-
-
-
-
-
-
-
-
F1
-
-
-
-
-
-
-
-
-
-
F2
-
-
-
-
-
-
+
-
-
-
F1
-
-
-
-
-
-
-
+
-
-
F2
-
-
-
-
-
-
+
-
-
-
F1
-
-
-
-
-
-
-
-
-
-
F2
-
+
-
-
-
-
+
-
-
-
F1
-
-
-
-
-
-
-
-
-
-
F2
-
++
-
-
-
-
-
-
-
-
F1
-
-
-
++
-
-
-
-
-
F2
++
+++
-
+
-
-
-
-
-
F1
++
-
-
-
-
-
-
-
-
F2
+++
+++
-
+
-
-
-
-
-
F1
+++
+
-
-
+
+++
+++
-
-
-
F2
+++
+++
+
-
+
++
+++
-
+
++
F1
+
+
-
-
-
_
-
-
-
-
F2
+++
+++
+++
-
-
+
+++
-
-
+++
F1
-
-
-
-
+++
+++
+
-
+
-
F2
++
++
+++
-
+
+++
+++
-
++
+++
F1
+++
+++
+++
+++
+++
++
+++
+++
+++
-
F2
+++
+++
+++
-
+++
++
+++
+++
+++
+++
Примечание: - - различия не значимы; + - различия значимы (0,05>p>0,01); ++ - различия очень
значимы (0,01>p>0,001); +++ - различия экстремально значимы (p<0,001); p - непараметрический критерий
Манна-Уитни.
Таким образом, в ходе лонгитюдного исследования показано, что к семи годам формируется
признак длительности ударного гласного, релевантный для русского языка, но артикуляционная модель
гласных не сформирована.
В этой связи перспективным является продолжение исследования возрастной динамики
спектральных характеристик гласных и сравнение характеристик ударных и безударных гласных с учетом
контекста и без него.
Работа выполнена при частичной финансовой поддержке РГНФ (проект 11-06-12019в) и
тематического плана СПБГУ (1.0.133.2010).
1.
2.
3.
4.
5.
ЛИТЕРАТУРА
Ляксо Е.Е., Челибанова О.В., Громова А.Д., Новикова И.В., Галунов В.И. Формирование
помехоустойчивости речи в раннем онтогенезе // Сборник трудов XIV сессии РАО, Акустика речи,
медицинская и биологическая акустика. М.: ГЕОС., 2003. Т.3. С. 101-106
Галунов В.И., Ляксо Е.Е. Формирование акустического образа звуковых сигналов на ранних этапах развития
// Сборник трудов XI сессия РАО, Акустика речи и биологическая акустика. М.: ГЕОС., 2001. Т.3. С.20-24.
Ляксо Е.Е., Громова А.Д., Фролова О.Е., Романова О.Д. Акустический аспект формирования речи ребенка
на третьем году жизни //Физиологический журнал. 2004. Т.90., №1 C.83-96
Lyakso E., Gromova A. The acoustic characteristics of Russian vowels in children of 4 and 5 years of age //
Psychology of Language and Communication, 2005. Vol. 9 № 2. P5 - 14.
Lyakso E., Frolova O., Grigoriev A. Acoustic Characteristics of Vowels in 6 and 7 Years Old Russian Children//
Interspeech, 2009 . P. 349-357.
35
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
УДК 53.072.11
С.Д. Тиунов, Р.В. Мещеряков
КЛАССИФИКАЦИЯ ЗВУКОВ РЕЧИ ДЛЯ ЗАДАЧИ ОБУЧЕНИЯ ИНОСТРАННОМУ
ЯЗЫКУ
Томский государственный университет систем управления и радиоэлектроники
634050 г. Томск, пр. Ленина, 40
тел. (факс) (3822) 413-426; E-mail: office@keva.tusur.ru
В докладе предлагается подход к классификации звуков речи, основанный на математическом моделировании,
который позволяет получать оценки близости двух аллофонов (произнесенного и эталонного) по различным
информативным признакам. При данном подходе общая модель классификации конкретизируется путем
задания некоторых признаков аллофонов, а также некоторой классификационной шкалы. Для оценки
информативности признаков и применимости конкретизированной модели предлагается использовать
статистический эксперимент. Приводится пример конкретной модели, а также планирования и результатов
статистического эксперимента, выводы о возможности ее использования.
Математическое моделирование находит широкое применение в речевых технологиях. Одной из
распространенных задач является оценка качества речи. В качестве примера рассмотрим систему
обучения иностранному произношению. Обычный процесс работы студента с такой системой выглядит
следующим образом: система предлагает ему произнести определенный звук (слово, фразу) из звукового
строя иностранного языка, студент пытается произнести его, и система должна оценить качество
произнесенного звука (слова, фразы) [2].
Исторически использование распознавателей речи в режиму усиленного выравнивания стало
первым и основным методом обнаружения сегментных ошибок и было применено в первых работах по
тренировке произношения [2, 5, 7]. Структура первых систем тренировки произношения показана на
рисунке 1.
Рисунок 1. Структура первых систем тренировки произношения
Выбор такого решения был вполне обоснованным, поскольку первые два блока (выделение
параметров распознавание с усиленным выравниванием) к тому времени (середина 1990-х гг.) были
реализованы в виде автоматических распознавателей речи. Такие системы работали следующим образом:
1. студент читает заданную фразу;
2. распознаватель речи в режиме усиленного выравнивания возвращает оценки уверенности;
3. оценки качества произношения звуков могут быть приняты равными оценкам уверенности,
возвращенными распознавателем речи [2, 6], либо каким-либо образом получены из них [7];
4. обнаружение ошибок производится путем сравнения оценок качества произношения звуков с
некоторым порогом: если оценка выше (ниже) порога, то звук считается правильным, иначе -неправильным. Порог может быть задан как единым для всех звуков [7], так и отдельно для каждого звука
[2], а также вычислен из других параметров (например, длины фразы) [3].
Современные системы обучения иностранной речи используют аналогичный подход к оценке
качества входной речи. Такой подход имеет существенный недостаток. Оценка «уверенности»
распознавателя является одномерной величиной и не содержит объяснения значения оценки (в частности,
причины низкой оценки). Поэтому невозможно организовать корректирующую обратную связь
обучающей системы и студента, а она имеет решающее значение в системах тренировки произношения
[1].
Рассмотрим множество возможных объектов предметной области (например, звуков речи) X = {x} .
Предположим, что существует классификация g : X → Y , которая сопоставляет каждому объекту
x ∈ X единственную метку класса y ∈ Y , где множество Y состоит из конечного числа меток:
36
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
Y = { y1 , , yi ,  , ym } . Также предположим, что непосредственное осуществление классификации
объектов является достаточно сложной задачей и может быть выполнено только человеком-экспертом.
Для того чтобы решить проблему автоматической классификации, вводится набор признаков -вычислимых функций f 1 ,  , f j ,  , f n :
∀j = 1 n f j : X → Z j
Признак f j сопоставляет каждому объекту x ∈ X некоторое значение z j ∈ Z j . В отличие от
функционала классификации g признаки f j являются вычислимыми функциями, и поэтому могут быть
вычислены с помощью ЭВМ. Кортеж значений признаков объекта x является его признаковым
описанием z :
z = f ( x) = ( f 1 ( x), , f j ( x), , f n ( x))
Множеством допустимых значений таких признаковых описаний z является следующее множество Z ,
которое также называется пространством признаков:
Z = Z 1 × × Z j × × Z n
Рассмотрим подмножество X i = {x ∈ X : g ( x) = yi } -- класс объектов x , который имеет метку yi , где
i = 1 m . Ему соответствует подмножество признакового пространства Z i = {z : z = f ( x), x ∈ X i } .
Очевидно, что подмножества X i не пересекаются (т.к. yi ≠ y j , если i ≠ j ), в то время как множества Z i
могут пересекаться.
1
1
2
2
Для иллюстрации предположим, что n = 2, Z 1 = [ Z min
, Z max
] ⊂ R, Z 2 = [ Z min
, Z max
] ⊂ R . Тогда
признаковое пространство Z можно изобразить на плоскости (см. рисунок 2).
Задача классификации объекта может быть решена с помощью предложенной модели следующим
образом. Пусть задан некоторый объект x ∈ X и необходимо произвести классификацию, то есть
получить метку класса y = g ( x) . Сперва вычислим признаковое описание объекта z = f ( x) . Проверим,
какие из множеств Z1 ,  , Z m содержат z . Рассмотрим несколько случаев. Пусть в первом случае z
содержится в единственном множестве Z i . Тогда заключаем, что объект x принадлежит классу X i ,
поэтому возвращаем метку yi . Пусть во втором случае z содержится в нескольких множествах
Z i1 ,  , Z ir . Тогда имеем несколько вариантов классов: X i1 ,  , X ir , однако необходимо выбрать один -наиболее подходящий. Для этого можно использовать, например, вычисление некоторой метрики от точки
z до каждого из множеств Z i или аппарат нечетких функций.
Рисунок 2. Пример применения модели для классификации объектов
Аналогичным образом с помощью предложенной модели может быть решена задача оценки
качества объекта. Пусть задан некоторый объект x ∈ X и некоторая метка целевого класса yi , и
37
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
необходимо дать оценку, насколько объект x близок к классу X i . Сперва вычисляется признаковое
описание объекта z = f ( x) . Тогда оценкой качества объекта станет значение некоторой метрики от точки
z до множества Z i или значение функции принадлежности точки z нечеткому множеству Z i .
Для применения предложенной модели для классификации объектов необходимо:
1. определить множество возможных меток классов yi ;
2. определить набор признаков f ;
j
3. получить набор множеств Z i .
Множество меток классов, как правило, является наиболее очевидным: это набор меток (названий)
возможных классов в рассматриваемой классификации. Набор признаков должен быть задан в виде
вычислимых функций. Разумеется, что для успешной работы необходимо, чтобы набор признаков был
достаточно информативен по отношению к классам объектов. Набор множеств Z i предлагается получить
с помощью статистического эксперимента. Для этого необходима репрезентативная выборка объектов из
множества X = X 1 × × X m . Каждому объекту x из выборки должны быть сопоставлены метка yi
класса (проставляется экспертом) и признаковое описание z (вычисляется с помощью ЭВМ). Таким
образом, множества Z i = {z : z = f ( x), x ∈ X i } получаются статистически.
Приведем пример приложения предложенной модели для задачи оценки качества произношения
русских гласных. Определим метки классов гласных звуков: «А», «О», «Э», «У», «И». Как уже
упоминалось, наиболее важным моментом является выбор набора информативных признаков. Гласные
звуки характеризуются наиболее развитым описанием признаков: в частности, широко известны описания
формант гласных [8, 4]. В статье [9] предложены признаки ударных гласных звуков: частоты двух
наиболее интенсивных гармоник в области до 800 Гц и в области 800-2400 Гц. Данные признаки просто
вычисляются, и по-видимому, являются информативными для описания ударных гласных звуков.
Для статистического эксперимента была сделана выборка следующей размерности: 18 дикторов (9
мужчин, 9 женщин), по 7 фраз на диктора, и около 300 (в общей сложности) реализаций каждого звука. На
рисунках 3, 4, 5 показаны графики рассеяния в координатах выбранных признаков. Из приведенных
графиков можно сделать вывод, что в большинстве случаев гласные звуки можно различить по
гармоникам максимальной интенсивности (рисунок 3), а в спорных ситуациях – по гармоникам, вторым
по интенсивности (рисунки 4, 5).
Основное преимущество данного подхода от применяемых в существующих системах тренировки
произношения – это возможность непосредственной организации корректирующей обратной связи и
создание на этой основе интерактивных обучающих программ. В частности, благодаря сильной связи
используемых признаков с подъемом и рядом гласного система тренировки может давать детальные (а не
только общие) инструкции по изменению артикуляции прямо в процессе произношения. Создание таких
инструментов – это основное направление дальнейшей работы.
Рисунок 3. График рассеяния в координатах наиболее интенсивной гармоники в области до 800 Гц и наиболее
интенсивной гармоники в области 800-2400 Гц
38
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
Рисунок 4. График рассеяния в координатах двух наиболее интенсивных гармоник в области до 800 Гц
Рисунок 5. График рассеяния в координатах двух наиболее интенсивных гармоник в области 800-2400 Гц
ЛИТЕРАТУРА
1. Maxine Eskenazi. An Overview of Spoken Language Technology for Education. Speech Communication,
51(10):832-844, 2009.
2. Maxine Eskenazi. Detection of Foreign Speakers' Pronunciation Errors for Second Language Training Preliminary Results. In ICSLP '96, pages 1465-1468, 1996.
3. Horacio Franco, Leonardo Neumeyer, Yoon Kim, Orith Ronen. Automatic pronunciation scoring for language
instruction. In Proceedings of ICASSP-97, pages 1471-1474, 1997.
4. Jonathan Harrington. Сhapter Acoustic Phonetics. 2006.
5. Leonardo Neumeyer, Horacio Franco, Mitchel Weintraub, Patti Price. Automatic Text-Independent
Pronunciation Scoring of Foreign Language Student Speech. Proc. of ICSLP 96, pages 1457-1460, 1996.
6. Bob Sevenster, Guus de Krom, Gerrit Bloothooft. Evaluation and Training of Second-Language Learners'
Pronunciation Using Phoneme-Based HMMs. In proc. STiLL - Speech Technology in Language Learning,
Marholmen, Sweden, 1998.
7. Silke Witt. Use of Speech Recognition in Computer-assisted Language Learning. PhD thesis, University of
Cambridge, 1999.
8. Бондарко Л.В. Звуковой строй современного русского языка. Просвещение, М., 1977.
9. Конев А.А., Мещеряков Р.В., Тиунов С.Д., Черных Д.В., Чижевская С.Ю Параметрическое описание
ударных гласных звуков. Сборник трудов XXII сессии Российского акустического общества, М.:
ГЕОС. 2010. с.41-45.
39
Содержание
XXV сессия Российского акустического общества,
Акустика речи
УДК 616.31
Сессия Научного совета по акустике РАН
А.Г. Понизов, Р.В. Мещеряков
УСТРОЙСТВО УПРАВЛЕНИЯ ПРОЦЕССОМ ИССЛЕДОВАНИЯ СЛУХА
Томский государственный университет систем управления и радиоэлектроники
634050 г. Томск, пр. Ленина, 40
тел. (факс) (3822) 413-426; E-mail: office@keva.tusur.ru
Исследование слуха представляют особый интерес в связи с важностью оценки состояния здоровья человека.
Предлагается устройство портативный аудиометр с расширенным функционалом. Важной составляющей
исследования является оценка точно воспроизведения тестовых акустических сигналов. Приводятся
экспериментальные исследования.
Актуальность темы исследования обусловлена отсутствием средств или методик позволяющих
провести исследование слухового анализатора человека в бытовых условиях. Вместе с тем существует
серьёзная проблема понижения слуха у населения, по данным ВОЗ на сегодняшний день нарушением
слуха страдают 6% населения земли, [1] по оценкам специалистов через 10 лет это число возрастёт на 30%
и составит 8% общего населения земли [2]. Отчасти эта проблема связана с тем, что с развитием аудио –
акустических систем нагрузка на слух человека существенно увеличилась. Стоит отметить тот факт, что
на данный момент оценить состояние своего слуха возможно лишь в специализированных медицинских
центрах. Понижение слуха происходит постепенно, в силу своего психофизиологического строения
человек способен заметить снижение слуха только тогда, когда это начинает доставлять ему дискомфорт,
что происходит уже когда, функции слухового анализатора существенно понижены. Таким образом для
практического здравоохранения задача по создание не дорогого, портативного устройства для управления
процессом исследования слуха является крайне важно.
Все современные решения в области аудиометрии используют для своей работы генерацию звуков
определенной частоты и интенсивности. Для этого подбирается отдельный генератор звука (либо
несколько генераторов) под каждый конкретный вид исследования. Например, для реализации аудиометра
3-го класса (в соответствии с ГОСТ 27072-86) требуется четыре генератора: один для исследования
воздушной проводимости, два для исследования костной проводимости и ещё один для обеспечения
маскировки. Недостатки такого подхода следующие:
1. Трудно создать автономное устройство из-за большого количества генераторов и большого
потребления энергии.
2. Трудно создать портативное устройство, удовлетворяющее широкому спектру медицинских
запросов. Отсутствие портативности не позволяет проводить исследование слуха вне стен медицинского
учреждения.
3. Функциональность прибора сильно привязана к конкретной реализации аппаратной части.
4. Невозможно провести модернизацию имеющихся устройств для поддержки новых для этих
устройств видов исследования.
5. Привязка к реализации повышает стоимость устройства как мелкосерийного. В зависимости от
места использования устройства, производятся разные, непохожие друг на друга устройства, что
объясняет мелкосерийность производства.
6. Сильная зависимость между функциональностью и реализацией аппаратной части не позволяет
проводить модернизацию прибора, проводить опыты отличные по своим входным параметрам от
заводских предустановок.
Использование методов исследования слуха требует высокий уровень квалификации испытателя,
что затрудняет проведение корректного, частого и воспроизводимого эксперимента. Ярким примером
этого является камертональный опыт исследования слуха. Испытатель должен уметь возбудить камертон
несколько раз с одинаковой интенсивностью и правильно его фиксировать на пациенте, прежде чем
колебания камертона затухнут.
Выходом из сложившейся ситуации может стать отказ от генерации звуков в пользу
воспроизведения заранее подготовленных и сохраненных звуковых файлов. Такое решение позволит
использовать одну и ту же аппаратную платформу с отличающимся, в зависимости от назначения
прибора, программным обеспечением. Такой подход позволит сократить стоимость прибора из – за
перехода на массовое (по сравнения с современными решениями) производство, основанное на выпуске
одной и той же аппаратной части. Такой прибор не имеет сильной связи между его функциональностью и
реализацией аппаратной части, т.к. все изменения в функциональности обусловлены изменениями
программного обеспечения. Это делает процесс аудиометрических исследований более гибким. У
40
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
медицинских работников появляется возможность модифицировать приборы, меняя только программное
обеспечение, что технически проще и дешевле чем менять весь прибор.
В рамках работы был сконструирован портативный прибор для оценки качества слуха. Этот
прибор был разработан для проведения аудиологических тестов основанных на костной проводимости.
Принята патентная заявка на изобретение и метод использования разработанного прибора. Прибор
прошёл предклинические испытания. При использовании сконструированного аудиометра проведение
аудиологических исследований существенно упрощаются, в частности проведение основных
камертональных опытов. Отпадает необходимость специфического возбуждения инструмента для
проведения камертональных опытов, упрощается процесс фиксации инструмента, а также существенно
сокращается время проведения камертональных опытов (до 50%).
Калибровка разработанного устройства происходила в соответствии с разработанной методикой.
Исходя из ГОСТ 27072-86 «Генераторы сигналов диагностические звуковые. Аудиометры. Общие
технические требования и методы испытаний», откуда следует, что сила нажима костного вибратора
должна составлять (5,4 ± 0,5) Н., была смоделирована установка для проведения экспериментально –
исследовательских работ, данная установка представлена на рис. 1.
1 – штифт; 2 – костный вибратор; 3 - вибропреобразователь общего назначения со встроенной электроникой
«АР98-100 – 01»; 4 – защитная трубка; 5 – придерживающие кольца; 6 – груз массой 540 грамм; 7 –
портативный аудиометр; 8 – четырехканальный шумомер, виброметр, анализатор спектра «SVAN-959».
Рисунок 1. Экспериментальная установка
Методика измерений заключалась в том, что на костный вибратор по очереди подавался за ранее
сгенерированный синусоидальный сигнал частотой 500 Гц, 1000 Гц, 2000 Гц, 4000 Гц, 8000 Гц. На каждой
частоте изменялась амплитуда напряжения сигнала, таким образом, чтобы костный вибратор производил
вибрацию 5 дБ, 10 дБ, 15 дБ, 20 дБ, 25 дБ, 30 дБ, 35 дБ и 40 дБ регистрировавшуюся при помощи
виброметра «SVAN-959». Таким образом, в процессе измерений, возможно, получить зависимость
вибрации от напряжения на каждой заявленной частоте.
Было произведено три измерения результаты, которых приведены в таблицах 1, 2 и 3, в таблице 4
приведены усреднённые значения всех измерений. Все значения напряжений приведены в милливольтах.
Инте
нсивн
ость,
дБ
Значение
поданного
напряжения на
500 Гц, мВ
Значение
поданного
напряжения на
1000 Гц, мВ
Значение
поданного
напряжения на
2000 Гц, мВ
5
10
15
20
25
30
35
40
2
3
5
9
16
28
49
88
2
4
7
12
21
37
65
117
11
19
32
57
100
177
312
550
41
Таблица 1. Результаты первого измерения
Значение
Значение
поданного
поданного
напряжения на
напряжения на
4000 Гц, мВ
8000 Гц, мВ
35
63
111
197
348
614
1084
1894
102
181
321
566
988
1728
2978
3921
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
Инте
нсивн
ость,
дБ
5
10
15
20
25
30
35
40
Значение
поданного
напряжения на
500 Гц, мВ
2
3
5
9
13
23
40
67
Значение
поданного
напряжения на
1000 Гц, мВ
2
3
4
8
13
25
44
79
Значение
поданного
напряжения на
2000 Гц, мВ
11
19
34
63
110
194
342
598
Таблица 2. Результаты второго измерения
Значение
Значение
поданного
поданного
напряжения на
напряжения на
4000 Гц, мВ
8000 Гц, мВ
38
94
68
166
121
293
213
513
377
970
661
1710
1170
2970
2011
4000
Инте
нсивн
ость,
дБ
5
10
15
20
25
30
35
40
Значение
поданного
напряжения на
500 Гц, мВ
1,6
2,9
4,9
8,2
14,8
28
48
97
Значение
поданного
напряжения на
1000 Гц, мВ
3,5
6,2
11,3
19,5
36
61,7
109,5
200
Значение
поданного
напряжения на
2000 Гц, мВ
11
19,6
35
62
109
193
339
596
Таблица 3. Результаты третьего измерения
Значение
Значение
поданного
поданного
напряжения на
напряжения на
4000 Гц, мВ
8000 Гц, мВ
53
135
94
239
166
419
294
729
519
1269
906
2199
1586
3789
2796
4200
Инте
нсивн
ость,
дБ
5
10
15
20
25
30
35
40
Значение
поданного
напряжения на
500 Гц, мВ
1,9
3,0
5,0
8,7
14,6
26,3
45,7
84,0
Значение
поданного
напряжения на
1000 Гц, мВ
2,5
4,4
7,4
13,2
23,3
41,2
72,8
132,0
Таблица 4. Усреднённые значения всех измерений
Значение
Значение
Значение
поданного
поданного
поданного
напряжения на
напряжения на
напряжения на
2000 Гц, мВ
4000 Гц, мВ
8000 Гц, мВ
11,0
42,0
110,3
19,2
75,0
195,3
33,7
132,7
344,3
60,7
234,7
602,7
106,3
414,7
1075,7
188,0
727,0
1879,0
331,0
1280,0
3245,7
581,3
2233,7
4100
По полученным данным были построены графические зависимости, представленные на рис. 2.
частота 500 Гц
частота 1000 Гц
42
Содержание
XXV сессия Российского акустического общества,
Акустика речи
частота 2000 Гц
Сессия Научного совета по акустике РАН
частота 4000 Гц
частота 8000 Гц
Рисунок 2. График зависимости вибрации от напряжения для частот
Таким образом, было разработано устройство для формирования тестовых акустических сигналов.
Разработанное устройство позволяет проводить исследования костного звукопроведения, на частотах 500,
1000, 2000, 4000 и 8000 Гц с интенсивностью от 5 до 40 дБ, с шагом 5 дБ. Излучатель костной вибрации
крепится непосредственно на корпусе устройства позволяя тем самым проводить не только тональные
пороговые исследования костной звукопроводимости, но и также позволяет проводить основные
камертональные опыты (опыт Вебера, Ринне, Желле и Федеричи.) Разработанное устройство является
портативным (вес - 0.3 кг; габаритные размеры - 170х80х40, в дальнейшем, возможно, уменьшить размеры
устройства и ориентировочно добиться размеров 110х50х30), так же устройство является автономным (не
зависит от сети). Фотографии готового устройства приведены на рис. 3.
Рисунок 3. Фотография готового устройства
ЛИТЕРАТУРА
10. World Health Organization. (2009). Deafness and hearing impairment. Retrieved April 2, 2010, from
http://www.who.int/mediacentre/factsheets/fs300/en/index.html.
11. Wilson, R. H., & Oyler, A. L. (1997). Psychometric functions for the CID W-22 and NU Auditory Test No. 6 Materials
spoken by the same speaker. Ear and Hearing, 18, 430-433.
43
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
УДК 534.784, 534.785.
М.А. Ондар, А.С. Сарыглар
О СИНХРОНИЗАЦИИ КОЛЕБАНИЙ В ЗВУКАХ ГОРЛОВОГО ПЕНИЯ
Тувинский государственный университет,
Россия, Республика Тыва, 667000 Кызыл, ул.Ленина, д.36
Тел.: (394) 22-38368; E-mail: tgu@tuva.ru
Наблюдение за динамикой формирования звука в голосовом аппарате методами прямого наблюдения, т.е., рентгеном или
методом назофарингологической эндоскопии,
обусловили нас использовать в исследованиях комбинированный
корреляционно-спектральный метод. Он основан на знании исследователем соответствий между интонациями в
произношении звуков и артикуляционными конфигурациями речевых органов. Такой подход полагает владение
исследователем методами изучения речи, особенно, горловым пением. При исследовании горлового пения этим методом
удалось установить, что вестибулярные складки активно участвуют в формировании звуков всех стилей. По кратности
частот гармоник спектров всех стилей установлено, что колебания двух источников звука: голосового аппарата и
вестибулярных складок, синхронизированы. Это обстоятельство определяет спектральный состав опорного звука в
сольномдвухголосии, из которого формируются мелодии данного стиля. А сами мелодии стилей, как и речь, формируются в
голосовом тракте в соответствии с артикуляционной конфигурацией речевых органов.
В ходе эволюции дыхательная система человека приобрела дополнительную −
функцию
производство членораздельной речи в голосовом аппарате за счет колебаний голосовых связок. Участие
вестибулярных складок, называемых также ложными голосовыми связками, расположенных чуть выше
голосовых связок, считается незначительным в формировании речи [1].
Рентгеновский снимок глоточной области певца при горловом пении в стиле «сыгыт» [2] показал,
что в напряженно сжатых вестибулярных складках возникает «аэродинамический свист». В монографии
[3] отмечается, что при исследовании гортани певца методом назофарингологической эндоскопии мышцы
глоточной области расслаблены. Казалось бы, что авторы сделали взаимоисключающие выводы [4].
Однако, возможность нахождения вестибулярных складок в напряженном и расслабленном состояниях и
показывают их подвижность и участие в формировании исходного звука горлового пения наряду с
голосовыми связками.
Трудности наблюдения за динамикой формирования исходного звука в голосовом аппарате
методами прямого наблюдения обусловили нас использовать в своих исследованиях корреляционноспектральный подход. Он основан на использовании соответствий между интонациями в произношении и
артикуляционными конфигурациями речевых органов. Последние, как известно, определяют формантную
структуру спектра, характеризующую степень участия резонансных полостей в формировании вокальных
звуков, и скорость воздушного потока в различных областях голосового тракта. Корреляционно –
спектральный метод полагает владение горловым пением самим исследователем и методами исследования
речи. В этом плане один из авторов обучался горловому пению и предложен им метод «звучащих»
спектров [5].Это обстоятельство позволило нам еще раз критически рассмотреть результаты выполненных
ранее работ и проанализировать новые записи звуков «сыгыт» шестерых певцов.
При просушивании звуков «сыгыт» установлены области осциллограмм звуков с характерным для
этого стиля тембром. Воспроизводство подобного звука позволил нам установить артикуляционную
конфигурацию речевых органов, как соответствующую произношению согласного звука «ль». В работе
[4] мы показали, что при такой артикуляции голосовой тракт перекрывается языком и частично зубами.
Такая конфигурация голосового тракта в данной статье для краткости названа закрытым трактом.
В новых записях звуков «сыгыт» двухголосие регистрируется спектрах в виде опорного звука со
сложным составом (постоянно звучащий фоновый звук) и мелодии. В работе [4] мы показали, что
опорный звук состоит из десяти гармоник с частотами от 150 Гц до 600 Гц с постоянной интенсивностью
при пении. В спектрах этих же звуков при квантовании с шагом 8 кГц проявляются еще две
неинтенсивные гармоники с частотами 50 Гц и 100 Гц. Таким образом, опорный звук стиля «сыгыт»
состоит из 12 гармоник с частотами кратными 50 Гц. В свою очередь, четыре интенсивные гармоники
опорного звука, расположенные в порядке возрастания частоты, кратны 150 Гц. А резонансная частота
мелодии «сыгыт» закрытой конфигурации изменяется между второй и третьей речевой формантами в
диапазоне 1400 Гц до 2200 Гц. В некоторых записях мелодий «сыгыт» в том же диапазоне изменений
мелодии прослушивается звук в открытом тракте. Тембр этого звука близок к тембру звука в закрытом
тракте. Его опорный звук также состоит из 12 гармоник с постоянной интенсивностью. Все это означает,
что этот звук формируются в открытом тракте по такому же механизму, что и «сыгыт» в закрытом
тракте. Таким образом, можно однозначно утверждать, что источником звука при пении в стиле «сыгыт»
являются вестибулярные складки и голосовые связки, колеблющиеся одновременно и синхронно. А его
44
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
мелодия формируется в верхней части голосового тракта из опорных звуков, вырабатываемых
голосовыми связками и вестибулярными складками.
О возможности синхронизации колебаний вестибулярных складок и голосовых связок при
горловом пении была высказана нами в работе [5]. Они, по сути, являются генераторами, работающими
на общую нагрузку, на речевой тракт. В теории синхронизации колебаний указывается, что два или
несколько генераторов могут работать эффективно при совпадении или кратности их частот. Ещё,
согласование частот колебаний вестибулярных складок и голосовых связок важно для экономичного
расхода энергии воздуха, запасенного в легких.
На синхронность колебаний вестибулярных складок и голосовых связок при горловом пении
указывает кратность частот гармоник в спектрах всех стилей горлового пения. Так в спектре «сыгыт»
основная частота колебаний вестибулярных складок в напряженном состоянии не должна быть высокой,
поэтому она равна частоте первой гармоники в 50 Гц. К основной частоте колебаний голосовых связок в
этом стиле относится более интенсивная линия в спектре опорных звуков с частотой 150 Гц. Из
сравнения интенсивностей этих гармоник можно заключить, что при пении «сыгыт» происходит
синхронизация слабых по интенсивности колебаний вестибулярных складок под частоту более
интенсивных колебаний голосовых связок. Влияние вестибулярных складок на качество звука при
синхронизации колебаний источников проявляется в возрастании числа гармоник спектре «сыгыт» и
кратных 50 Гц. Поэтому тембр высокочастотных мелодий в «сыгыт» более благозвучен, чем звук
аэродинамического свиста.
Особенности спектров горлового пения в стилях «каргыраа» и «хоомей» интерпретируются также
как спектр «сыгыт» с учетом синхронизации колебаний тех же двух источников звука в голосовом
аппарате.
В работе [6] из спектра речи певца мы определили диапазон изменений основного тона голоса его
речи в пределах 120-150 Гц. При пении основной тон его голоса повышается от 190 Гц до 280 Гц. В
работе [7]мы показали, что двухголосие в мелодии «каргыраа» обеспечивается согласованным звучанием
пяти низких тонов с частотами 70 Гц, 140 Гц, 210 Гц, 280 Гц, 350 Гц, воспринимаемым на слух как
постоянно звучащий низкочастотный фон и высокочастотных гармоник (мелодий), сгруппированных в
областях трех речевых формант. Приняв основную частоту колебаний вестибулярных складок принять
равным 70 Гц, а голосовых связок − 210 Гц, учитывая интенсивность первой гармоники и кратность
гармоник всего спектра 70 Гц, можно утверждать, что при исполнении «каргыраа» происходит
синхронизация колебаний голосовых связок под частоту вестибулярных складок. Понижение частоты
гармоник в спектре «каргыраа» до 70 Гц и увеличение объема резонаторной полости при снижении
подъёма в задней части языка обусловило присутствие в его мелодии низких тонов.
В отличие от стилей «сыгыт» и «каргыраа» спектр звуков горлового пения в стиле «хоомей»
начинается с гармоники с частотой 130 Гц. Основная частота голосовых связок в речи певца изменяется в
пределах от 120 Гц до 150 Гц [6]. В «звучащем» спектре «хоомея» тоже отмечается два звука. Один из них
воспринимается как низкочастотный звук (постоянно звучащий фоновый звук), второй – как мелодия
«хоомея». Фоновый звук «хоомея» состоит из трех гармоник с частотами 130 Гц, 260 Гц, 390 Гц. Они
кратны самой низкой частоте спектра. Кратны частоте 130 Гц также все гармоники спектра. В этом стиле
возрастает вклад увеличившейся по объёму полости в передней части голосового тракта при артикуляции
губами, соответствующем произношению тувинского звука О.
Учитывая равенство основных частот вестибулярных складок и голосовых связок, интенсивностей
их колебаний можно допустить, что при пении «хоомей» имеет место взаимная синхронизация колебаний
указанных источников.
Таким образом, корреляционно-спектральный подход в анализе звуков горлового пения показал,
что сольное двухголосие в горловом пении возникает с участием двух вестибулярных складок и
голосовых связок. Эффективность их работы определяется синхронизацией колебаний этих источников и
спектром частот опорного звука. Особенности мелодии стилей горлового пения определяется спектром
опорного звука и окончательно формируется в мелодию в голосовом тракте при определенной
артикуляционной конфигурации органов речи.
Л И Т Е Р А Т У Р А:
1. Физический энциклопедический словарь. М.: Советская энциклопедия, 1983. - С.687.
2. Чернов Б.П. и Маслов В.Т., Дмитриев Л.Б. Тайна тувинского «дуэта» или свойство гортани человека
формировать механизм аэродинамического свиста. - Новосибирск, 1992.
3. Кыргыс З.К. Тувинское горловое пение. - Новосибирск: «Наука», 2002.
45
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
4. Ондар М.А., Сарыглар А.С.О двухступенчатом механизме формирования звуков «сыгыта» //Научные труды
ТывГУ, Вып. 6. Том.2. - Кызыл, РИО ТывГУ. -2008. -С. 69-73
5. Ондар М.А., Сарыглар А.С. О физической природе звуков тувинского горлового пения // В материалах
Международной научно-практической конференции «Вопросы изучения истории и культуры народов
Центральной Азии и сопредельных регионов» - Кызыл, 2006. - С.371-381
6. Ондар М.А., Сарыглар А.С.Различия в спектрах речи, пения и сольного двухголосия // Научные труды
ТывГУ, Вып.8. Том.2. РТ. - Кызыл, РИО ТывГУ, 2010. - С. 110-112
7. Ондар М.А.,.Сарыглар А.С. Частотный диапазон звуков горлового пения // В сборнике материалов V-го
Международного этномузыкологического симпозиума «Хоомей (горловое пение) – феномен культуры
народов Центральной Азии» - Кызыл, 2008.–С.143-158.
УДК 534.12, 534.14, 534.08
М.А.-Х. Ондар, Т.О. Доржу
УСТАНОВКА ДЛЯ ИССЛЕДОВАНИЯ ВИБРАЦИЙ ХОМУСА
ФГБОУ ВПО «Тувинский государственный университет»
Россия, 667000 Республика Тыва, г. Кызыл, ул. Ленина д.36
Тел: 8(394-22) 3-23-68; Факс 8(394-22) 3-19-69; E-mail: fizkaf.tuvsu@yandex.ru
Хомус является одним из основных музыкальных инструментов народов Сибири и Центрально-азиатского
региона. Звук хомуса возникает по многоступенчатому механизму: колебания язычка – вибрации корпуса
хомуса и костной системы челюсти – колебания воздушного столба голосового тракта. Управляя
резонансными явлениями в голосовом тракте, при помощи артикуляции органов речи формируется
благозвучная мелодия хомуса. В таком многоступенчатом механизме возникновения звука и мелодии важно
согласованное взаимодействие отдельных органов речевого тракта между собой и их взаимодействие с
хомусом. Ключевым звеном в такой системе формирования мелодии является проблема согласованности
колебаний корпуса хомуса и его язычка. Для экспериментального изучения взаимодействия язычок-корпус
хомуса нами разработана установка по исследованию колебательных свойств хомуса. Она представляет
собой небольшую стальную платформу, на которой установлены микрометр, служащий в качестве
вертикально установленного тиска, между губками которого зажимается хомус и два микроштатива.
Установка комплектуется генератором низкой частоты, микрофоном с усилителем, стробоскопом,
осциллографом, компьютером. Из результатов опыта на этой установке можно сделать вывод о кратности
колебаний язычка и корпуса хомуса. «Размытость» некоторых резонансных частот указывает либо на
необходимость более точной подгонки размеров язычка и корпуса при изготовлении хомусов, либо является
характерным свойством звуков хомуса, обогащающим звуковой спектр инструмента. При исследовании
язычка хомуса на этой установке обнаружены также и нелинейные эффекты в его колебаниях.
Хомус (варган, маультромель) является одним из основных музыкальных инструментов народов
Сибири и Центрально-азиатского региона. Человек, впервые взявший в руки этот инструмент, после
первых же упражнений может создавать на нем несложные мелодии. Кажущаяся простота игры на
хомусесоздает неправильное представление о примитивности инструмента и отвлекает внимание от
детального исследования механизма формирования звука хомуса.
Попытка составить системные представления по механическим и акустическим хомусе впервые
были предпринята на Всесоюзной конференции по варгану в 80-х годах в Якутии [1]. Более детальное
описание музыковедческих аспектов хомуса выполнено в работе В.Ю. Сузукей [2].Методологические
основы различий в организации звука в классических и тувинских музыкальных инструментов
рассмотрены в работе [3].Нелинейные эффекты и возможность возбуждения параметрических колебаний в
язычке хомуса рассмотрены в работе [4]. В этой работе отмечается, что эти эффекты связаны с
переменной шириной (клинообразностью) язычка.
Механизм возникновения звука в хомусе во многом схож с классическими музыкальными
инструментами. Во время игры одна из развилок корпуса хомуса прижата к верхним зубам играющего.
Колебания язычка вызываются периодическими легкими ударами пальца по нему, которые возбуждают
вибрациюразвилок корпуса хомуса. В свою очередь, колебания развилоквызывают вибрации костной
системы челюстей, возбуждающих колебания в воздушном столбе в голосовом тракте. Далее, управляя
резонансными явлениями в голосовом тракте и артикуляцией органов речи, формируют благозвучную
мелодию из звуков хомуса. В таком многоступенчатом механизме возникновения мелодии важно
согласованное взаимодействие отдельных органов речевого тракта между собой и их взаимодействие с
хомусом. Ключевым звеном в такой системе формирования мелодии является проблема согласованности
колебаний корпуса хомуса и его язычка.
46
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
Для экспериментального изучения взаимодействия язычок - корпус хомуса нами разработана установка по
исследованию вибраций корпуса хомуса (рис.1).
4
Она представляет собой небольшую стальную платформу
1, на которой установлены микрометр 2 и два микроштатива 3, 4.
9 9 6
Микрометр служит в качестве тисска, между губками которого
5
зажимается хомус 9. микроштативы установлены на магнитных
держателях, которые позволяют при необходимости регулировать
7
расстояния между отдельными деталями установки. К штативу 5
закреплена штанга с пьезодатчиком 6. На верхней платформе 7
8
закреплена катушка индуктивности с магнитопроводом с
3 заостренным концом 8. Хомус 9 является частью магнитопровода
катушки, так как магнитное поле катушки замыкается
2
заостренный конец и язычок хомуса.
Установка комплектуется генератором низкой частоты,
1
микрофоном с усилителем, стробоскопом, осциллографом, через
компьютером (они на рисунках 1 и2 не показаны).
Рис. 1. Установка для исследования хомуса
Принцип работы установки показан на рисунке 2. Колебание язычка хомуса возбуждается
небольшой катушкой индуктивности, создающей переменное
магнитное поле. Катушка питается генератором переменного
тока 1, поэтому частота магнитного поля равна частоте
генератора. Поскольку магнитное поле замыкается через язычок
хомуса, последний совершает вынужденные колебания с
частотой магнитного поля. Таким способом установка позволяет
изменять частоту колебаний язычка в пределах от 20 Гц и выше.
Однако с повышением частоты переменного поля проявляется
инерционность язычка и возрастают магнитные потери. Поэтому
в экспериментах катушку питали токами с частотами в пределах
20-2000 Гц.
Рис. 2.Схема взаимодействия
элементов установки
Вибрацию корпуса хомуса регистрировали при помощи пьезодатчика 2. Преобразованные им
вибрации наблюдаются на осциллографе и записываются на компьютер с использованием линейного
входа звуковой карты.
Частота вынужденных колебаний язычка, несколько, отличается от частоты генератора. Поэтому
для контроля использовался и стробоскопический эффект. Для этого использован стробоскоп ССЭШ- 2.
При испытании установки выяснилось, что при возбуждении колебаний с частотами от 200Гц и
выше становятся слышимыми звуки на некоторых частотах. Поэтому установка укомплектована
микрофоном, сигнал с которого усиливается предусилителем и тоже записывается на компьютер.
На такой установке проведено исследование собственных колебаний хомуса. Колебания язычка
хомуса, закрепленного между губками микрометра, возбуждались вручную, отклонением язычка от
положения равновесия, или при помощи магнитного поля создаваемого катушкой питаемого генератором
переменного тока. Измерение частоты колебания язычка определенная с помощью стробоскопа
сопоставляется с частотой генератора.
Подача переменного тока в катушку и вариация его частоты в пределах от 20 Гц до 2000 Гц
позволяют визуально и на слух определять несколько резонансов в колебаниях язычка и корпуса. Первый
визуально наблюдаемый резонанс возникает при частоте генератора в 36 Гц. Второй более сильный
резонанс наблюдается вблизи 76 Гц. Третий резонанс несколько «размыт» и проявляется в диапазоне
частот от 94 Гц до 105 Гц.
Стробирование колебаний язычка (без корпуса) при ручном возбуждении позволило установить,
что его собственная частота определяется в пределах 65-70 Герц. Этот же язычок установленный в
корпус хомуса колеблется уже с повышенной частотой в пределах 70-75 Гц. Результаты этого опыта
указывают на то, что первый и третий резонансы возникают при частотах переменного тока кратных
собственной частоте колебания язычка хомуса. Так переменный ток частотой 35-38 Гц, т.е., в 2 раза ниже
собственной частоты язычка может возбудить в системе резонанс.
«Размытость» третьего резонанса в диапазоне от 94 Гц до 105 Гц объясняется рядом
обстоятельств. Из опыта видно, чторезонанс может наблюдаться и при полуторной кратности частот. При
47
Содержание
XXV сессия Российского акустического общества,
Акустика речи
Сессия Научного совета по акустике РАН
этом нестабильность этого явления, вероятнее всего, связана с уменьшением амплитуды колебаний язычка
при повышении частоты переменного тока питающего катушку. Поэтому с частот выше 105 Гц
резонансные явления проявляются в возникновении звука на определенных частотах переменного тока. А
«размытость» резонанса можно объяснить возникновением биений между колебаниями язычка и корпусас
повышением частоты.
Первый усиленное звучание прослушивается в узком интервале частот переменного тока 140-145
Гц, почти равной частоте второй гармоники колебаний язычка. Наблюдается и второй «размытый»
звуковой резонанс в колебаниях щечек корпуса, прослушивающийся в интервале частот 200-220 Гц. Эти
колебания близки к третьей гармонике колебания язычка хомуса.
Последующие звуковые резонансы более слабые по громкости прослушиваются на частотах 560620 Гц, 850 - 930 Гц и даже в области 1920-2000 Гц. Эти частоты также кратны собственной частоте
язычка в 75 Гц и составляют 8, 12, 26 гармоники колебаний язычка хомуса. Примечательно, что эти
резонансы тоже «размыты» в узком интервале частот.
Рис.3. Спектр колебания язычка
Исследовано свободное колебание язычка хомуса при помощи пьезодатчика. Спектр свободного
колебания язычка (рис.3) состоит из 56 гармоник: в диапазоне от 48 Гц до 4000 Гц (таблицу). Обращает на
себя то, что есть частоты гармоник кратные 74-76 Гц.
№
гармоники
1
2
3
4
5
6
7
8
9
10
11
12
Частота,
Гц
48
74
97
148
193
226
244
279
300
375
453
527
№
гармоники
13
14
15
16
17
18
19
20
21
22
23
24
Диапазон частот гармоник звуков хомуса
Частота,
Гц
600
670
750
828
900
978
1052
1120
1203
1287
1378
1525
№
гармоники
25
26
27
28
29
30
31
32
33
34
35
36
Частота,
Гц
1599
1675
1738
1824
1902
1980
2041
2105
2191
1177
2341
2414
№
гармоники
37
38
39
40
41
42
43
44
45
46
47
48
Таблица.
Частота,
Гц
2490
2576
2640
2726
2794
2876
2943
3019
3093
3169
3253
3308
№
гармоники
49
50
51
52
53
54
55
56
Частота,
Гц
3384
3468
3626
3685
3761
3837
3912
3998
Из результатов этого опыта покаможно сделать вывод о кратности колебаний язычка и корпуса
хомуса. Обнаруженная «размытость» резонансных частот указывает либо на необходимость более точной
подгонки размеров язычка и корпуса при изготовлении хомусов, либо является характерным свойством
звуков хомуса, обогащающим звуковой спектр инструмента. Это обстоятельство указывает на
необходимость ведения системных исследований звука хомуса, в которых основное место должно быть
отведено экспериментальным методам.В этой связи установка для исследования вибраций хомуса станет
необходимым инструментом, как для исследователя,так и для мастера по изготовлению хомуса.
1.
2.
3.
4.
ЛИТЕРАТУРА
Варган (хомус) и его музыка. //Материалы I-й Всесоюзной конференции / Якутск, 1989.
Сузукей В.Ю.«Бурдонно-обертоновая основа традиционного инструментального музицирования тувинцев»,
Кызыл: ТНИИЯЛИ, 1993.
Ондар М.А.-Х., Сузукей В.Ю.Сходства и различия в звукообразованиях некоторых музыкальных
инструментов и хомуса.//Ученые записки ТИГИ. Кемерово – 2007. –Вып.21. – С.296-301.
Ондар М.А.-Х., Доржу Т.О. Нелинейные эффекты в колебаниях язычка хомуса. //Научные труды ТывГУ.
Вып. 6. Том 2. – Кызыл: РИО ТывГУ, 2008. – С.73-76.
48
Содержание
XXV сессия Российского акустического общества,
Download