7К - iai.donetsk.ua

advertisement
7К
УДК 004.93
А.А. Карпов, А.Л. Ронжин
Санкт-Петербургский институт информатики и автоматизации РАН,
г. Санкт-Петербург, Россия
{karpov; ronzhin}@iias.spb.su
Система бесконтактного управления
компьютером на основе распознавания
речи и движений головы*
Статья описывает многомодальную систему ICanDo, разработанную для помощи людям без рук или с
проблемами двигательных функций рук при работе с персональным компьютером. В этой системе объединяются
модули автоматического распознавания русской речи и отслеживания движений головы пользователя.
Представлены результаты применения системы для бесконтактного (без использования рук) управления
графическим пользовательским интерфейсом для задач интернет-коммуникации и работы с текстовыми
документами.
Введение
Многомодальные интерфейсы и системы являются новым направлением в
информатике и концептуально изменяют традиционные интерфейсы и способы управления,
вплоть до отказа от клавиатуры и различных устройств-манипуляторов. Многомодальные
интерфейсы способны обрабатывать несколько естественных для человека способов ввода
информации: речь, письменный ввод, жесты руками, направление взгляда, движения головы
и тела человека совместно с мультимедийной системой вывода информации [1].
Группой речевой информатики СПИИРАН разработана одна из первых российских
многомодальных систем ICanDo (Intellectual Computer AssistaNt for Disabled Operators),
предназначенная для бесконтактного управления персональным компьютером (полностью
без использования клавиатуры и мыши). Такая система необходима в основном для помощи
людям, имеющим проблемы с двигательными функциями рук или же вообще без рук.
Система помогает инвалидам в социально-экономической интеграции с информационным
обществом и делает таких людей более независимыми от помощи со стороны других лиц.
Система бесконтактного управления компьютером также может успешно
применяться для игровых приложений, в системах виртуальной реальности и
робототехнических системах. Вместо клавиатуры и мыши для управления графическим
интерфейсом здесь используются голосовые команды и движения головой. В принципе,
происходит отслеживание не всей головы, а только нескольких естественных точек на
лице пользователя, изменение координат которых управляет перемещением курсора
мыши. Система автоматического распознавания русской речи позволяет подавать
голосовые команды, которые обрабатываются соответствующим образом в зависимости
от контекста и текущего положения курсора.
1. Обработка аудиоинформации
В системе ICanDo используются голосовые команды на русском языке. Для распознавания русской речи применяется оригинальная система автоматического дикторонезависимого распознавания речи SIRIUS (SPIIRAS Interface for Recognition and Integral
Understanding of Speech), разработанная в группе речевой информатики СПИИРАН [2].
*
Работа выполняется при поддержке гранта ЕС SIMILAR Network of Excellence FP6-IST-2002-507609.
«Штучний інтелект» 3’2006
521
Карпов А.А., Ронжин А.Л.
7К
Функциональная схема системы SIRIUS представлена на рис. 1. Особенностью
данной системы является использование морфемного уровня представления языка и речи,
что позволяет повысить точность и скорость распознавания русской речи. В отличие от
английского языка русский язык обладает гораздо большей вариативностью на уровне
словоформ. В связи с чем резко возрастает размер распознаваемого словаря и падает
точность. Для устранения указанных проблем введен дополнительный уровень
представления русского языка и речи – морфемный, который отсутствует в других
общепризнанных системах распознавания речи. За счет разделения словоформ на
морфемы словарь распознаваемых лексических единиц значительно сокращается, так как
в процессе словообразования часто используются одни и те же морфемы. При этом
скорость, точность распознавания и робастность увеличиваются, что позволяет строить
приложения, использующие распознавание русской речи в реальном времени.
Разработанная методика распознавания слитной русской речи SIRIUS уже была
ранее успешно использована для создания систем речевого управления техническими
объектами: эмулятором самолета и домашним роботом, а также в нескольких
многомодальных приложениях [3]. Кроме того, данная система распознавания речи
применяется для создания речевых диалоговых систем и голосового доступа к
справочной информации [4].
Словарь
транскрибиро
ванных морфем
-
Рисунок 1 – Структура системы распознавания русской речи SIRIUS
В системе автоматического распознавания речи для параметризации звука
используются мел-частотные кепстральные коэффициенты с их первой и второй
производными. Акустическое моделирование основано на методах скрытых марковских
моделей (СММ) с применением гауссовской плотности распределения векторов в
состояниях. Каждая фонема представлена лево-правой СММ с тремя состояниями и
двумя «пустыми» состояниями, предназначенными для объединения моделей фонем в
модели морфем и слов. Всего в системе используются 48 фонем русского языка: 12 – для
гласных звуков (включая ударные и безударные варианты) и 36 фонем для согласных
звуков (включая мягкие и твердые варианты звуков).
В табл. 1 представлен перечень голосовых команд, используемых для управления
компьютером.
Перечень содержит 40 голосовых команд, которые являются наиболее часто
используемыми командами при работе с графическим пользовательским интерфейсом
ОС Windows. Теоретически, возможно работать с компьютером, используя лишь левую и
правую кнопки мыши (команды «Левая» и «Правая» соответственно), однако введение
дополнительных голосовых команд позволяет значительно ускорить процесс человекомашинного взаимодействия.
522
«Искусственный интеллект» 3’2006
Система бесконтактного управления компьютером…
7К
Таблица 1 – Перечень голосовых команд системы ICanDo
Класс команд
Текст команды
Действие
Ти
п
«Левая»
кликнуть левой кнопкой мыши
М
«Правая»
кликнуть правой кнопкой мыши
М
«Нажать Левую»
зажать левую кнопку мыши
М
«Отпустить Левую»
отпустить левую кнопку мыши
М
команды
«Нажать Правую»
зажать правую кнопку мыши
М
замещения мыши
«Отпустить Правую» отпустить правую кнопку мыши
М
«Двойной Клик»
дважды кликнуть левой кнопкой мыши М
«Вниз»
прокрутка окна вниз (колесико мыши)
О
«Вверх»
прокрутка окна вверх (колесико мыши) О
«Ввод»
нажать кнопку «Enter»
О
«0-9»
нажать цифровую кнопку клавиатуры
О
команды
«Выйти»
нажать кнопку «Escape»
О
замещения
«Удалить»
нажать кнопку «Delete»
О
клавиатуры
«Регистр»
нажать кнопку «Caps Lock»
О
«Выключить»
нажать кнопку «Power» клавиатуры
О
«Новый»
создать пустой документ
О
«Открыть»
открыть файл
О
«Сохранить»
сохранить файл
О
«Закрыть»
закрыть активное окно
О
«Копировать»
копировать выделенный фрагмент
О
«Вырезать»
вырезать выделенный фрагмент
О
команды для
«Вставить»
вставить фрагмент из буфера
О
графического
«Печать»
вывод файла на печать
О
пользовательского
«Найти»
диалоговое окно «Найти»
О
интерфейса
«Отменить»
отменить действие
О
«Вперед»
показать следующее окно
О
«Назад»
показать предыдущее окно
О
«Выделить Все»
выделить всю страницу
О
«Пуск»
открыть меню «Пуск»
О
«Помощь»
открыть меню «Помощь»
О
специальные
«Калибровка»
запуск процесса настройки системы
О
команды
Все голосовые команды можно разделить на четыре класса по их функциональному
назначению: команды замещения мышки, команды замещения клавиатуры, команды для
графического пользовательского интерфейса, а также специальный класс, который пока
содержит лишь одну команду «Калибровка», предназначенную для запуска процесса
настройки системы отслеживания движений головы. Нужно отметить, что лишь команды
замещения мышки являются многомодальными (тип М), так как они используют
информацию о положении курсора в текущий момент времени. Все остальные команды
являются чисто речевыми одномодальными командами (тип О), и при их выполнении
положение курсора не учитывается.
Необходимо отметить, что для задачи голосового управления (управление компьютером относится к этой категории), где размер распознаваемого словаря не достигает
сотен и тысяч слов, словарь может быть составлен просто как список используемых в
«Штучний інтелект» 3’2006
523
Карпов А.А., Ронжин А.Л.
7К
приложении словоформ. Однако для более сложной задачи распознавания со средним
или большим словарем морфемный уровень обработки может улучшить скорость
обработки речи. Так, в ходе дальнейших исследований голосовая система управления
компьютером будет совмещаться с системой диктовки, разрабатываемой на основе
системы SIRIUS. Это решит проблему ввода текста в компьютер без использования
клавиатуры. В настоящий момент в системе ICanDo эта проблема решается путем
использования стандартной программы Windows On-Screen Keyboard, которая
представляет собой виртуальную клавиатуру, изображаемую на экране монитора (как это
делается в наладонных мини-компьютерах).
2. Обработка видеоинформации
Помимо традиционных органов управления курсором на экране монитора, таких, как
мышь или трекбол можно использовать положение головы или некоторых точек на лице
пользователя. Для отслеживания движений головы оператора могут применяться как
аппаратные, так и программные средства. С точки зрения программной реализации более
простой способ, когда пользователь надевает на голову специальное устройство (шлем, очки
виртуальной реальности или специальную конструкцию с отражающими метками).
Некоторые из таких устройств, называемых «трекеры», уже сейчас можно
приобрести в компьютерных магазинах. Компания NaturalPoint выпускает устройства,
реализующие функции бесконтактной мышки (рис. 2, слева). Эта система состоит из
инфракрасного приемопередатчика и нескольких отражающих меток, которые должны
быть прикреплены к лицу пользователя или к специальной кепке. Компания InterSence
производит профессиональные трекеры InterTrax (рис. 2, справа) для шлемов виртуальной
реальности. Внутри такого устройства находится микроминиатюрный гироскоп, который
позволяет отслеживать положение и ориентацию головы в трехмерном пространстве.
Кроме того, для этой задачи могут также применяться специальные устройства со
светодиодами, которые одеваются на голову, и используя видеокамеру, система может
отслеживать положение устройства, а соответственно и головы пользователя [5].
Однако такие устройства очень дороги, требуют предварительной настройки и
вносят дополнительный дискомфорт при работе. Поэтому разрабатываются автоматические способы обнаружения лица, его характерных черт и отслеживания перемещения
лица в видеопотоке без использования искусственных маркеров. В этих методах
изображение, получаемое с видеокамеры, обрабатывается программно и выделяется
голова человека (или только некоторые объекты на лице). Такой подход более сложен в
программной реализации, но не накладывает дополнительных ограничений на
пользователя и обеспечивает максимальное удобство при работе с компьютером.
Рисунок 2 – Примеры устройств для отслеживания положения головы оператора
Для многомодальной системы ICanDo был разработан модуль отслеживания
движений головы пользователя на основе метода Лукас-Канаде для оптического потока
видео [6]. Определение первоначального положения лица пользователя на изображении с
524
«Искусственный интеллект» 3’2006
Система бесконтактного управления компьютером…
7К
видеокамеры реализуется программным путем с помощью детектора объектов Хаара,
который определяет прямоугольные графические области, которые с высокой степенью
вероятности содержат изображение лица человека [7]. Размер этой области должен быть
не менее 250х250 точек (пикселей) для того, чтобы захватывать только одно лицо,
достаточно близко расположенное по отношению к камере, кроме того, это также
ускоряет процесс обработки видеопотока.
Для управления курсором мыши в реальном времени был разработан специальный
алгоритм, включающий в себя 2 режима: калибровка (или настройка) и отслеживание.
При калибровке производится привязка координат курсора к положению кончика носа,
поскольку кончик носа человека является центром лица, и когда пользователь двигает
головой (поворачивает влево, вправо, наклоняет или поднимает голову) кончик носа
синхронно двигается в эту сторону, что позволяет использовать его для управления
курсором мышки на экране монитора [8]. Однако для более робастного слежения за
перемещением головы оператора используется система из 5 естественных точек на лице:
центр верхней губы, кончик носа, точка между глаз, зрачок правого глаза и зрачок левого
глаза (рис. 3). В случае потери системой слежения одной из этих точек она автоматически
будет установлена в правильное положение, основываясь на текущих координатах
остальных 4 точек [9].
В ходе процесса калибровки в окне, расположенном по центру дисплея,
отображается изображение, поступающее с видеокамеры. Учитывая стандартные
пропорции лица, положение отслеживаемых точек автоматически отмечается цветными
точками на экране, и в течение нескольких секунд настройки пользователь должен
совместить реальное изображение своего лица с этими точками. При этом используемые
программой пропорции лица могут быть настроены под конкретного пользователя. По
истечении времени калибровки курсор мыши выставляется по центру рабочего стола и
«привязывается» к положению точки кончика носа. В режиме отслеживания алгоритм
иногда может «терять» несколько точек одновременно по причине недостатка света,
очень быстрых перемещений головы или выхода из зоны видеозахвата. Для решения этой
проблемы введена специальная голосовая команда «Калибровка», которая запускает
процесс калибровки снова.
Рисунок 3 – Точки для программного отслеживания перемещения головы оператора
«Штучний інтелект» 3’2006
525
Карпов А.А., Ронжин А.Л.
7К
3. Объединение и синхронизация информации
В системе ICanDo используются две естественные входные модальности: речь и
движения головы оператора. Так как обе модальности являются активными, то они
должны непрерывно отслеживаться компьютером. Каждая из модальностей передает
свою семантическую информацию: положение головы (носа) определяет положение
курсора мыши в данный момент времени, а речевой сигнал передает информацию о
действии, которое должно быть выполнено с некоторым объектом рабочего стола
компьютера. На рис. 4, слева представлена общая архитектура разработанной многомодальной системы [10].
Движения
головы
Речь
Распознавание
речи
Речевая
команда
Отслеживание
головы
Синхронизация
Объединение
информации
Координаты
курсора
Смысл многомодальной команды
Рисунок 4 – Архитектура многомодальной системы ICanDo и работа с программой
Положение курсора мыши зависит только от положения отслеживаемых точек и
вычисляется непрерывно по мере обработки видеопотока. В том случае, когда система
распознавания речи зафиксировала и распознала некоторую голосовую команду, ее
необходимо выполнить с учетом информации о положении курсора на экране. Рис. 5 иллюстрирует процесс синхронизации потоков и объединения многомодальной информации.
Левая
Речевой
сигнал
Вниз
Левая
Нажать Отпустить Копиро- Пуск
левую левую
вать
Левая
Вставить
время
Распознавание речи
Сохранение
координат
Объединение
информации
Рисунок 5 – Пример синхронизации потоков и объединение информации в системе
На рисунке показан фрагмент выполнения сценария по бесконтактной работе с
программой MS Internet Explorer для нахождения некоторой информации на интернет-сайте
(последовательность голосовых команд «Левая», «Вниз» и «Левая»), копирования фрагмента
этой страницы в буфер (команды «Нажать левую», выделение головой, «Отпустить левую» и
«Копировать»), открытие редактора MS Word (команды «Пуск» и «Левая»), а также вставка
информации из буфера в окно текстового редактора (команда «Вставить»).
526
«Искусственный интеллект» 3’2006
Система бесконтактного управления компьютером…
7К
Звуковой сигнал, непрерывно записываемый микрофоном, обрабатывается в
модуле распознавания речи. Процесс распознавания речи запускается детектором границ
речи, который обнаруживает наличие некого речевого сигнала в звуковом потоке,
отличного от тишины или постоянного фонового шума. Процесс распознавания
заканчивается после получения наилучшей гипотезы распознавания голосовой команды.
На рис. 5 черный кружок означает, что распознанная команда (например, «Нажать
левую») является многомодальной, а белый кружок обозначает одномодальную речевую
команду (например, «Копировать» или «Вставить»). Модуль распознавания речи
позволяет распознавать команды практически без задержек (менее ста миллисекунд), так
как распознаваемый словарь не велик, поэтому эти задержки можно не учитывать.
Синхронизация модальностей производится следующим образом: текущее
положение курсора сохраняется в буфере системы в момент определения наличия речи
оператора (срабатывания алгоритма поиска границ речи). Это связано с той проблемой,
что во время произнесения фразы пользователь может непреднамеренно перемещать
голову и тем самым менять положение курсора, в результате чего он будет указывать на
другой графический объект. Кроме того, речевое намерение формируется в сознании в
соответствии с целью и ситуацией до того, как произносится голосовая команда. После
окончания процесса распознавания введенной пользователем команды модуль
распознавания речи дает сигнал на объединение информации и выполнение
многомодальной команды. Таким образом, именно модуль распознавания речи
осуществляет синхронизацию модальностей в системе.
Для объединения информации, поступающей от двух модальностей, используется
фреймовый метод позднего объединения, когда поля определенной структуры (фрейма)
заполняются данными по мере их поступления, а по окончании процесса распознавания
выполняется многомодальная команда. Поля фрейма в системе следующие: текст
голосовой команды, Х координата курсора мыши, Y координата курсора мыши и тип
речевой команды (многомодальная или одномодальная). В том случае, если распознанная
команда является многомодальной (табл. 1), то она объединяется в одну команду с
сохраненными координатами курсора и автоматически посылается сообщение Windows
соответствующему виртуальному устройству мыши о выполнении нужного действия.
Если же голосовая команда является одномодальной, то координаты курсора не
учитываются и посылается соответствующее сообщение виртуальному устройству
клавиатуры. Движения головы сами по себе не могут подавать команд управления
графическим пользовательским интерфейсом, однако они могут использоваться,
например, для создания изображений в графических редакторах.
4. Результаты тестирования системы
В качестве аппаратного обеспечения используется миниатюрная USB веб-камера
Logitech QuickCam for Notebooks Pro, обеспечивающая разрешение 640x480 точек при 25
кадрах в секунду. Также камера записывает аудиосигнал с частотой 16 КГц при помощи
встроенного в камеру микрофона. Использование профессиональной цифровой видеокамеры
(например, Sony DCR-PC1000E) позволило достичь большей точности распознавания
графических объектов и речи, но, учитывая, что система должна быть доступна для
большинства пользователей, мы применяем камеру стоимостью менее 50 евро.
Тестирование системы было произведено 5 пользователями, которые имели незначительный опыт работы с персональным компьютером, а также одним пользователем с ограниченными возможностями (без рук). В ходе экспериментов пользователи работали с
приложениями операционной системы MS Windows 2000 английской версии. Задача включала
в себя управление текстовым редактором MS Word, а также доступ в Интернет посредством
MS Internet Explorer. Пользователю нужно было найти информацию о программе передач канала MTV на сайте Рамблер, скопировать фрагмент этой страницы, открыть текстовый редактор
«Штучний інтелект» 3’2006
527
Карпов А.А., Ронжин А.Л.
7К
MS Word, вставить в пустой документ информацию из буфера, сохранить файл на рабочем
столе компьютера и распечатать файл. Эту задачу можно разбить на цепочку элементарных
действий, которые тестеры-пользователи выполняли при помощи разработанной многомодальной системы (речь + движения головы), а также традиционным способом (мышь + клавиатура).
В табл. 2 представлена последовательность действий, которую пользователи должны были
выполнить каждым из указанных способов человеко-машинного взаимодействия.
Таблица 2 – Выполнение сценария многомодальным и стандартным способом
Способ взаимодействия
№
Описание действия
1
2
3
4
5
6
7
8
9
10
11
12
выделение ссылки ТВ
нажатие ссылки ТВ
прокрутка окна вниз
прокрутка окна вниз
выделение ссылки MTV
нажатие ссылки MTV
установка курсора
зажать левую кнопку
установка курсора
отпустить левую кнопку
копировать выделенное
открыт ление ь меню Start
голова + речь
движение головой
команда «Левая»
команда «Вниз»
команда «Вниз»
движение головой
команда «Левая»
движение головой
ком. «Нажать левую»
движение головой
ком. «Отпустить левую»
команда «Копировать»
команда «Пуск»
13
14
15
16
17
18
19
20
21
22
23
24
25
26
выдеярлыка Word
запустить Word
вставка из буфера
сохранение файла
выделение пункта Folder
открытие дерева каталогов
выделение пункта Desktop
выбрать элемент Desktop
выделение кнопки Save
нажатие кнопки Save
открытие меню печати
выделение кнопки Print
нажатие кнопки Print
закрытие MS Word
движение головой
команда «Левая»
команда «Вставить»
команда «Сохранить»
движение головой
команда «Левая»
движение головой
команда «Левая»
движение головой
команда «Левая»
команда «Печать»
движение головой
команда «Левая»
команда «Закрыть»
27 закрытие
MS Internet Explorer
команда «Закрыть»
мышь + клавиатура
движение мышкой
клик левой кнопкой
колесико на себя
колесико на себя
движение мышкой
клик левой кнопкой
движение мышкой
зажать левую кнопку
движение мышкой
отпустить левую кнопку
нажать “Ctrl+C”
движение мышкой
клик левой кнопкой
движение мышкой
клик левой кнопкой
нажать “Ctrl+V”
нажать “Ctrl+S”
движение мышкой
клик левой кнопкой
движение мышкой
клик левой кнопкой
движение мышкой
клик левой кнопкой
нажать “Ctrl+P”
движение мышкой
клик левой кнопкой
движение мышкой
клик левой кнопкой
движение мышкой
клик левой кнопкой
Табл. 3 показывает количественные результаты экспериментов и сравнение двух
способов взаимодействия (время, требуемое для выполнения тестового сценария каждым
из пользователей, и точность распознавания речи). Время выполнения сценария
стандартным способом для пользователя 6 отсутствует, так как он является инвалидом и
не может работать с мышкой и клавиатурой.
528
«Искусственный интеллект» 3’2006
Система бесконтактного управления компьютером…
7К
Таблица 3 – Сравнение многомодального и стандартного способов управления
Тестер
Точность распознавания
фраз, %
голова + речь
мышь + клавиатура
98,5
97,5
97,5
97,0
96,5
98,0
97,5
84
73
91
88
77
80
82
43
36
44
50
42
–
43
1
2
3
4
5
6
Средн.
Время выполнения сценария, с
Экспериментально было установлено, что многомодальный способ ввода оказался в
1,9 раз медленнее, чем стандартный клавиатурно-ориентированный способ. Однако такое
замедление вполне приемлемо, так как система разрабатывается для помощи людям со
специфическими потребностями, в частности без рук или с парализованными руками.
Точность распознавания голосовых команд составила свыше 96,5 % для каждого из
пользователей.
Результаты проведенных экспериментов позволяют заключить, что разработанная
многомодальная система может успешно применяться для бесконтактного управления
компьютером пользователями-инвалидами.
Выводы
В статье представлена многомодальная система ICanDo для бесконтактной работы с
персональным компьютером. Описана общая архитектура системы, процесс обработки
аудио- и видеопотоков, а также механизм синхронизации и объединения модальностей.
В ноябре 2005 года работа системы демонстрировалась в программе новостей
«Время» на «Первом канале» Российского телевидения, и реальный пользователь без рук
успешно работал с персональным компьютером посредством разработанного многомодального интерфейса [11]. Дополнительная информация о системе и видеофрагменты
ее использования доступны на соответствующей странице сайта группы речевой
информатики СПИИРАН [12].
Результаты тестирования системы позволяют заключить, что разработанная
многомодальная система может успешно применяться для бесконтактного управления
компьютером пользователями-инвалидами. Однако возможно такое, что болезнь может
парализовать помимо рук также и шею человека, в этом случае он не сможет
использовать движения головы для управления курсором. Чтобы решить эту проблему
возможно применение системы отслеживания взгляда пользователя [13]. При работе с
данным интерфейсом пользователь может с помощью взгляда указывать на объекты
воздействия или выбирать элементы меню. В этом случае моргание (двойное) левым и
правым глазом может также использоваться в качестве команды для нажатия левой или
правой кнопки мыши соответственно. Использование направления взгляда для
управления положением курсора мыши, а речи для подачи команд управления
графическим интерфейсом компьютера является перспективным направлением в области
специализированных систем управления. В настоящее время несколькими лабораториями
в мире ведутся разработки систем отслеживания направления взгляда (например, системы
«Штучний інтелект» 3’2006
529
Карпов А.А., Ронжин А.Л.
7К
Eyegaze System [14] или Visual Mouse [15]). Их разработка и внедрение осложняется тем,
что необходимо использовать дорогие профессиональные цифровые видеокамеры с
большим разрешением, так как область глаза незначительна по размеру и сложна в
распознавании.
Структура системы, совместно распознающей речь и направление взгляда пользователя, представлена на рис. 6. В этой системе объединение информации происходит
таким же образом, как и в представленной системе ICanDo, так как направление взгляда
управляет координатами положения курсора, а речевое сообщение передает команду.
Рисунок 6 – Структура системы, объединяющей речь и направление взгляда
Однако, как показывают исследования [16], использование отслеживания направления взгляда для управления курсором хуже, чем отслеживание движений головы в таких
показателях, как: производительность, эмоциональная нагрузка на пользователя, удобство
использования. Однако в некоторых задачах для определенных категорий пользователейинвалидов применение такой системы возможно. Голосовые же команды являются
единственной приемлемой альтернативой стандартным органам управления для
пользователей без рук или с проблемами двигательных функций рук.
Литература
1. Oviatt S.L. Multimodal interfaces. Chapter in Human-Computer Interaction Handbook: Fundamentals, Evolving
Technologies and Emerging Applications. Lawrence Erlbaum Assoc. Mahwah, NJ. – 2003. –
Chap. 14. – P. 286-304.
2. Ронжин А.Л., Карпов А.А., Ли И.В. Система автоматического распознавания русской речи SIRIUS //
Искусственный интеллект. – 2005. – № 3. – С. 590-601
530
«Искусственный интеллект» 3’2006
Система бесконтактного управления компьютером…
7К
3. Ronzhin A.L., Karpov A.A., Timofeev A.V., Litvinov M.V. Multimodal human-computer interface for assisting
neurosurgical system // Proc. 11-th International Conf. on Human-Computer Interaction HCII’2005. – Las Vegas
(USA). – 2005.
4. Karpov A.A., Ronzhin A.L. Speech Interface for Internet Service Yellow Pages. Intelligent Information
Processing and Web Mining: Advances in Soft Computing. – Springer-Verlag. – 2005. – P. 219-228.
5. Karpov A., Ronzhin A., Nechaev A., Chernakova S. Assistive multimodal system based on speech
recognition and head tracking // Proc. 9-th International Conf. SPECOM’2004. – St. Petersburg:
Anatoliya. – 2004. – P. 521-530.
6. Bouguet J.-Y. Pyramidal implementation of the lucas kanade feature tracker. Technical Report, Intel Corporation,
Microprocessor Research Labs. – 2000.
7. Lienhart R., Maydt J. An Extended Set of Haar-like Features for Rapid Object Detection // Proc. IEEE
International Conf. on Image Processing ICIP’2002. – P. 900-903.
8. Gorodnichy D., Roth G. Nouse 'Use your nose as a mouse' perceptual vision technology for hands-free games and
interfaces // Image and Vision Computing. – 2004. – Vol. 22, Issue 12. – P. 931-942.
9. Karpov A., Cadiou A. Hands-free mouse control system for handicapped operators // Proc. 11-th International
Conf. SPECOM’2006. – St. Petersburg: Anatoliya, 2006. – P. 525-529.
10. Karpov A., Ronzhin A., Cadiou A. A multi-modal system ICANDO: Intellectual Computer AssistaNt for
Disabled Operators // Proc. of 9-th International Conf. on Spoken Language Processing INTERSPEECH’2006ICSLP. – Pittsburgh (USA). – 2006.
11. www.1tv.ru/owa/win/ort6_main.main?p_news_title_id=82825&p_news_razdel_id=4
12. www.spiiras.nw.ru/speech/demo/assistive.html
13. Карпов А.А., Ронжин А.Л. Многомодальные интерфейсы в автоматизированных системах управления //
Известия вузов. Приборостроение. – 2005. – Т. 48, № 7. – С. 9-14.
14. LC TECHNOLOGIES, INC. Eyegaze Systems. // http://www.eyegaze.com
15. Tinto Garcia-Moreno F., Eye Gaze Tracking System Visual Mouse Application Development // Technical Report,
Ecole Nationale Supériere de Physique de Strasbourg (ENSPS) and School of Computer Science. – Queen’s
University Belfast. – 2001. – 77 p.
16. Bates R., Istance H.O. Why are eye mice unpopular? A detailed comparison of head and eye controlled assistive
technology pointing devices // Proc. 1-st Cambridge Workshop on Universal Access and Assistive Technology
(USA). – 2002.
О.А. Карпов, А.Л. Ронжин
Система безконтактного керування комп’ютером на основі розпізнавання мовлення і рухів голови
Стаття описує багатомодальну систему IСanDо, розроблену для допомоги людям без рук або з проблемами
рухових функцій рук при роботі з персональним комп’ютером. У цій системі поєднуються модулі
автоматичного розпізнавання російської мови й відслідковування рухів голови користувача. Запропановані
результати застосування системи для безконтактного (без використання рук) керування графічним
користувацьким інтерфейсом для задач інтернет-комунікацій і роботи з текстовими документами.
A.A. Karpov, A.L. Ronzhyn
The System for Hands-free Computer Control Based on Recognition of Speech and Head Motions
The paper describes a multimodal system ICanDo developed for assistance to persons without hands or with
disabilities of their hands or arms. This system combines the modules for Russian speech recognition and user’s head
tracking in one multimodal system. The results of system’s application for hands-free (without hands) control for
Graphical User Interface for the tasks of Internet communication and work with text documents are presented.
Статья поступила в редакцию 23.06.2006.
«Штучний інтелект» 3’2006
531
Download