АЛГОРИТМ БЕЗУДАРНОГО ОЗВУЧИВАНИЯ ТАДЖИКСКОГО ТЕКСТА

advertisement
ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН
2007, том 50, №4
ИНФОРМАТИКА
УДК 410:51+491.550
Академик АН Республики Таджикистан З.Д.Усманов, Х.А.Худойбердиев*
АЛГОРИТМ БЕЗУДАРНОГО ОЗВУЧИВАНИЯ ТАДЖИКСКОГО ТЕКСТА
Работы [1-3], выполненные авторами в соответствии с программой, сформулированной в [3], и посвященные исследованию статистических закономерностей слогового многообразия таджикского языка, являлись необходимой предпосылкой на пути достижения главной цели – решения задачи автоматического преобразования таджикского текста в озвученную человеческую речь с безударным произношением каждого слова. В настоящей статье на
уровне блок-схемы описывается алгоритм, реализация которого в виде компьютерной программы позволила осуществить процесс озвучивания текстовой информации.
Напомним, что текст, согласно [4], - это “…последовательность предложений, слов,
построенная согласно правилам данного языка, данной знаковой системы и образующее сообщение”. Для целей настоящей статьи нам достаточно будет того, что текст – конечная совокупность слов, разделенных пробелами или же знаками препинания и пробелами.
1. Принципиальная схема озвучивания текста представлена на рисунке. Начало – это
запуск программы озвучивания.
В блоке 1 осуществляется проверка наличия текста. Если такового нет, то – конец.
Иначе следовать в блок 2, в котором из текста извлекается очередное слово W для
последующего анализа.
В блоке 3 слово W подвергается разделению на слоги с помощью алгоритма, описанного в работе [3].
В блоке 4 из слова W извлекается очередной слог.
В блоке 5 определяется, является ли извлеченный слог последним в слове или нет. И в
том и другом случае происходит обращение к базе “слог-звук”. В ней содержится список
3259 слогов, выявленных путем статистической обработки случайной выборки объемом в
3800 страниц, см. [2]. Каждому слогу сопоставлено его звучание.
Отметим, что при создании реальной базы “слог-звук” формирование множества звуков производилось голосом профессионального диктора, озвучившего через микрофон все
многообразие различных слогов. В дальнейшем необходимость оперирования со “стандартизованным” (единообразным) звучанием слогов потребовало проведения работ по редактированию звуков с помощью компьютерной программы Cool Edit Pro. Редактирование проводилось по 3 признакам – по тону, определяемому частотой колебания голосовых связок, громкости, зависящей от интенсивности звука и его частоты, и длительности звучания. Отредактированные слоги в звуковом варианте сохранены в файлах формата WAV [5].
316
Информатика
З.Д.Усманов, Х.А.Худойбердиев
Начало
нет
1. Наличие
текста
да
2. Ввод слова W
3. Разбиение W на слоги
4. Ввод слога из W
нет
5. Последний
слог в W
да
6. База “слог-звук”
6. База “слог-звук”
7. Звучание слога
7. Звучание слога
8. S -пауза
9. W - пауза
Конец
Рисунок
С учетом сказанного, в блоке 6, то есть в базе “слог-звук”, по заданному слогу выявляется соответствующий ему звук, который и воспроизводится в блоке 7.
317
Доклады Академии наук Республики Таджикистан
2007, том 50, №4
Далее в зависимости от того, являлся ли озвученный слог последним в слове W или
нет, следует пауза – межслоговая (S- пауза), см. блок 8, или же межсловная ( W - пауза), см.
блок 9. В первом случае интервал времени между моментом окончания звучания предыдущего слога и началом звучания следующего слога оказывается меньше, чем интервал времени
между моментом окончания звучания предыдущего слова и началом звучания следующего
слова.
Отметим, что экспериментально установленные значения S-pause = 20 мсек и
W-pause = 200 мсек оказались приемлемыми для восприятия на слух компьютерного озвучивания текстовой информации.
После завершения межслоговой паузы осуществляется возврат к блоку 4, а по завершению межсловной паузы – к блоку 1. Алгоритмические процедуры повторяются до тех пор,
пока не завершится обработка всего текста.
2. По данному алгоритму разработана программа для персонального компьютера. Еѐ
пригодность к практическому использованию оценивалась по результатам вычислительных
экспериментов со случайно выбранными текстами. Эти эксперименты показали, что
множество, составленное из 3259 выявленных слогов, является статистически полным, то
есть с вероятностью, близкой к 1, других слогов в таджикском языке нет;
указанные ранее временные значения S-паузы и W - паузы, хотя и приемлемы для восприятия текста, озвучиваемого компьютером, все же нуждаются в дальнейших уточнениях с целью уменьшения до минимума дефекта звучания, происходящего из-за безударного
произношения слогов.
Институт математики
Поступило 04.09.2007
АН Республики Таджикистан,
*
Технологический университет Таджикистана, Худжандский филиал
Л И Т Е РАТ У РА
1. З.Д. Усманов, Х.А. Худойбердиев - ДАН РТ, 2006, т.49, № 6, с.489-492.
2. Х.А. Худойбердиев - Известия АН РТ, 2007, № 2(127) с. 31-34.
3. З.Д. Усманов. Программно-технический комплекс для автоматического безударного озвучивания
текстов на таджикском языке. Патент (интеллектуальный продукт) зарегистрирован 007 TJ 14 октября 2005 г. Национальным патентно-информационным центром Министерства экономики и торговли РТ.
4. Советский энциклопедический словарь. М., 1980, 1600 с.
5. Тим Кинтцель. Программирование звука на ПК: Пер с англ. М., ДМК Пресс, 2005, 432 с.
318
Информатика
З.Д.Усманов, Х.А.Худойбердиев
З.Љ.Усманов, Х.А.Худойбердиев
АЛГОРИТМИ ТАЛАФФУЗИ БЕЗАДАИ МАТНИ ТОЉИКЇ
Дар маќола алгоритми талаффузи автоматикии матни тољикї шарњ дода шудааст. Њангоми талаффуз овози безадаи инсон истифода шудааст.
Z.D.Usmanov, Kh.A.Khudoiberdiev
ALGORITHM TO AN UNACCENTED SOUNDING OF TAJIK TEXTS
In the article the algorithm to an automatic transformation of Tajik texts into a sounding human speech without the accented articulation of words is described.
319
Download