УДК 004.432.4 РАСПОЗНАВАНИЯ РЕЧИ Жантолин Досбол

advertisement
УДК 004.432.4
РАСПОЗНАВАНИЯ РЕЧИ
Жантолин Досбол Бокенулы
Магистрант ЕНУ им. Л.Н. Гумилева, Астана
Научный руководитель – Бекманова Г.Т.
Речевые технологии - технологии ХХI ВЕКА благодаря которым появилась
возможность управлять компьютером с помощью голоса, диктовать текст, слушать, а не
читать книги, а в перспективе общаться с компьютером на интеллектуальном уровне.
Основными направлениями исследований в этой области являются: распознавание речи,
синтез речи, средства речевого управления, идентификация по образцу речи.
Распознавание речи - технология, позволяющая использовать естественный для
человека речевой интерфейс для взаимодействия с электронной техникой.
Технология распознавания речи предоставляет возможность распознавания отдельных
слов или слитной человеческой речи, с последующим ее преобразованием в текст либо
последовательность команд.
Распознавание речи – это проблема, над которой ученые всего Мира работают на
протяжении последних 50 лет. На сегодняшний день нельзя сказать, что существуют
эффективные системы распознавания речи. Однако в данной области достигнуты большие
успехи для английского, испанского, японского, китайского, французского и русского
языков. Эти успехи достигнуты в основном для наиболее распространенных языков и для
языков развитых стран, в том числе технологически. Для казахского языка такие работы то
же ведутся и достигнуты определенные результаты, хотя можно сказать, что для Казахстана
– это относительно новое научное направление.
Ниже представлен анализ существующих систем распознавания речи.
1.Программное обеспечение систем распознавания речи:
ПО
Плюсы
Минусы
Разработчик
1. Dragon. Единственная программа,
самая высокая
Неудобный ввод Systems,
приблизившаяся к тому, чтобы
безошибочность чисел,
800/437-2466,
выполнить рекламные обещания, распознавания,
посредственное
www.dragonsys
160-долларовая Dragon
простота
управление
.com
NaturallySpeaking Preferred - хорошо
использования.
экраном. Нет
вводила текст и позволяла легко
Поддержка
распознавания
переключаться между диктовкой,
разработчиком.
Русского языка.
правкой и форматированием. В целом
он очень близко подошел к
достижению заявленной
безошибочности распознавания 95%.
2. Горыныч. Программный комплекс Распознавание
Нет поддержки
VoiceLock
"Горыныч" - первая русскоязычная
речи около 70%. разработчика,
Соразработчик
136
система автоматического
распознавания речи. Программа для
диктовки и голосового управления
компьютером по-русски. Скорость
голосового набора текстов зависит от
производительности Вашего
компьютера и может достигать 500700 печатных знаков в минуту, что
значительно превышает скорость
"слепого" метода печатания. При
этом система "Горыныч"
осуществляет автоматический
контроль правописания: в текстах,
введенных с ее помощью, исключены
орфографические ошибки, что
практически недостижимо при
использовании клавиатурного ввода.
Во время работы Вы по-прежнему
можете пользоваться клавиатурой и
мышкой. Чем чаще Вы диктуете, тем
больше система "привыкает" к
Вашему голосу.
3. Sakrament ASR Engine. Программа
рассчитана на применение в
различных аппаратных системах и
программных приложениях,
использующих технологии
распознавания речи, таких как: IVRсистемы, мобильные электронные
устройства, бытовая техника и т.д.
Sakrament ASR Engine может быть
легко перенесена на любую
существующую программную или
аппаратную платформу, а также
настроена под конфигурацию любого
приложения.
4. КОМБАТ. Система "Комбат"
является универсальным средством и
помощником в обработке большого
количества текстовой информации.
Она облегчает работу с компьютером
слабовидящим людям и инвалидам с
травмами рук. Скорость вводимого
текста составляет от 350 до 600
знаков в минуту, в зависимости от
производительности компьютера.
Значительно возрастает скорость
работы внутри приложения. Однако
Точность
распознавания
достигает 95-98
процентов.
Распознавание
Русской речи.
137
для
приемлемого
качества
распознавания
речи
необходимо
длительное
обучение
(наговаривание
речевой базы).
: российская
фирма White
Computers,
В настоящее
время
программа не
поддерживаетс
я. Создатели
программы
занимаются
другим
проектом.
Качество
распознавания
зависит от
размера
используемых
словарей,
качества
транскрипции,
показателя
связанности
распознаваемых
слов, от уровня
фонового шума,
от параметров
используемых
каналов связи и
характеристик
микрофонов.
посредственное
качество
распознавания
при диктовке 30% (если
говорить
идеально, с
расстановкой)...
http://www.sakr
ament.com
при этом у вас остается возможность
пользоваться как мышкой, так и
клавиатурой. Систему "Комбат"
можно назвать виртуальной
клавиатурой.
5. Philips. Несмотря на очень низкую
цену, пакет FreeSpeech 98
функционально полон. Он
поддерживает и стандартное окно
диктовки типа WordPad, и
возможность диктовать в любой
программе для Windows, где есть
ввод текста, и управление
перемещениями по меню и окнам на
Рабочем столе. В отличие от других
пакетов, FreeSpeech требует ручного
переключения между диктовкой,
управлением, диктовкой по буквам и
режимом "сна".
6. iVoice. Компания Autonomy
выпустила на рынок свою разработку
- систему распознавания голоса iVoice. Концепция компании такова,
что ПО поможет пользователю
управлять своим компьютером с
помощью голоса так же легко, как он
это делает с помощью клавиатуры и
мыши. Другими словами, голосовые
данные ничем не должны отличаться
от текстовых, или любых других,
воспринимаемых компьютером. Сама
iVoice была разработана на базе
технологии распознавания голоса
фирмы SoftSound, купленной
Autonomy. ПО уже купили такие
компании как германский банк
Dresdner Kleinwort и General Motors.
наличие
бесплатной
пробной версии,
дешевизна.
Поддержка
разработчиком.
Нет
распознавания
Русского языка.
Philips,
800/851-8885,
www.freespeec
h98.com
Хорошее
качество
распознавания.
Поддержка
разработчиком.
Нет Русского
языка.
http://www.auto
nomy.com/
Вывод по таблице 1. По представленному анализу можно сделать вывод, что для
русского языка существуют достаточно эффективные коммерческие программные
продукты, такие как Горыныч, Комбат.
Для казахского достигнуты следующие результаты
- распознавание отдельных слов;
- пофонемное дикторозависимое распознавание слов;
- синтез слов.
Автором данной работы ведутся работы по аппаратной реализации алгоритма
распознавания отдельных слов.
Download