Москва 2015

advertisement
ПОЯСНИТЕЛЬНАЯ ЗАПИСКА
к дипломному проекту
«ПОДСИСТЕМА РАСПОЗНОВАНИЯ ПОЛОЖЕНИЯ
ДИНАМИЧЕСКИХ ОБЪКТОВ ДЛЯ УПРАВЛЕНИЯ СРЕДОЙ ОС
WINDOWS»
Студент
Константинов Юрий Алексеевич
к.т.н., доц. С.Ю. Иванов
Научный руководитель
Москва 2015
8
СОДЕРЖАНИЕ
Введение
1. Специальная часть
1.1.Обзор средств, реализующих распознавание жестов руки в
системах человеко-машинного взаимодействия
1.1.1.Обзор программных средств использующих стандартную
WEB-камеру
1.1.2. Обзор устройств, реализующих распознавание жестов в
системах человеко-машинного взаимодействия
1.2. Разработка методов распознавания жестов руки в системах
человеко-машинного взаимодействия
1.2.1. Основы распознавания образов
1.2.2. Основы распознавания жестов
1.2.3. Рассмотрение теоретического материала для разработки
методов распознавания жестов
1.2.4. Разработка методов распознавания жестов руки в системах
человеко-машинного взаимодействия.
1.3. Разработка методов бесконтактного управления компьютером
1.4. Определение необходимого множества команд для реализации
взаимодействия пользователя с системой
1.5. Оценка качества распознавания предложенных методов
2. Конструкторско-технологическая часть
2.1. Выбор среды разработки
2.2. Проведение испытаний
3. Экология и охрана труда
9
13
13
13
22
25
26
29
36
50
55
58
58
61
61
61
63
3.1.Требования к рабочему месту
64
3.2.Требования к освещенности
66
3.3.Положительное влияние разработки на здоровье человека
Заключение
68
Список использованной литературы
72
70
9
ВВЕДЕНИЕ
Актуальность исследования
Взаимодействие человек – компьютер должно быть максимально
упрощено,люди и машины должныкоммуницировать на уровне естественных
для людей средств общения. Природа человека устроена так, что для
получения информации ему не нужно использовать промежуточные
приспособления.
Вся
информация
поступает
в
мозг
напрямую,
обрабатывается там и выдается результат. Получит такое же взаимодействие
с машиной, научит ее распознавать образы, реагировать на них и получать
необходимый результат – вот цель, которая в настоящее время, является
востребованной задачей для научных изысканий. Множество исследований
проводится в настоящее время по созданию методов распознавания образов,
в будущем они смогут обеспечить возможностьлегко и
естественно,
бесконтактно взаимодействовать с компьютером посредством распознавания
динамических образов. На текущий период времени созданы некоторые
практические приложения по такому управлению, некоторые из них можно
отметить:
1) программные библиотеки Kinect SDK (Microsoft), OpenNI/NITE
(PrimeSense), PMD SDK и SoftKinetic IISU для распознавания ключевых
точек тела человека посредством применения трехмерных сенсоров;
2) сенсоры компаний LeapMotion, SoftKinetic
для распознавания
ключевых точек руки человека;
3) компьютерные приложения Flutter, PointGrab HGRS, XTR3D,
EyeSight PC для управления компьютером посредством простых жестов рук.
К сожалению, по настоящее время существует много подводных
камней, мешающих полноценно заработать на практике системе человекомашинного взаимодействия: необходимость обеспечения определенных
условий освещенности при съёмке, адаптации
системы под каждого
оператора, низкое качество и малая скорость распознавания жестов. Есть
промежуточные
успехи,
но
качество
разработанных
алгоритмов
10
распознавания жестов рук и пальцев, как динамических, так и статических, с
использованием видеокамер (цветных) и их усложненных аналогов, в виде
трехмерных сенсоров все еще остается достаточным низким.
Сейчас основнуюзадачу можно определить следующим образом:
создания новых простых и надежныхметодов, моделей и алгоритмов
распознавания динамических образов, которые могут в дальнейшем быть
использованы для создания систем бесконтактного взаимодействия человека
и машины. Сделать пользовательский интерфейс абсолютно естественным
для человека.
Цель работы
Целью работы является разработка подсистемы распознавания
динамических объектов для управления средой ОС Windows. Средством
достижения цели служит решение следующих основных задач:
 Анализ наработанных и применяемых методов отслеживания и
распознавания образов (жестов руки), а также дистанционного
человеко-машинного взаимодействия;
 Исследование и разработка методов описания, извлечения и
распознавания конфигураций руки и головы;
 Разработка методов распознавания позиций кончиков пальцев
на
основе
анализа
изображения
руки
для
управления
компьютерными системами;
 Разработка методов распознавания позиций головы на основе
анализа изображения головы для управления компьютерными
системами.
Научная новизна
Система распознавания образов должна стать столь же эффективной,
как и у живых организмов.
Для реализации такой задумки в данной дипломной работе были
разработаны
альтернативные
методы
изменения
пространственного
11
расположения курсора мыши с помощью распознавания динамических
объектов при использовании среднестатистической WEB-камеры.
Разработаны нетрудоемкие алгоритмы считывания динамических
объектов в пространстве.
Теоретическая значимость
Теоретическая значимость работы состоит в разработке методов
классификации и идентификации объектов, обладающих абсолютным
набором необходимых свойств и признаков для применения их в разработке
методов
и
алгоритмов
извлечения
и
распознавания
жестов
руки,
обеспечивающих высокоекачество взаимодействия человека и компьютера.
Практическая значимость
На основе разработанных методов созданы программные приложения,
позволяющие изменять пространственное расположение курсора мыши
посредством жестов. В настоящий момент, это очень актуально как для
обычных пользователей, так и для людей,не имеющих возможности
пользоваться обычным компьютером (инвалиды).Сейчас для работы с
компьютером
разрабатываются
различные
устройства,
позволяющие
пользоваться данной техникой всем категориям людей, но концепты для
людей с ограниченными возможностями в большей степени так и остаются
на стадии презентации. В массовое производство данные разработки не
внедряются. Это просто не выгодно, порог окупаемости наступает только
при массовом производстве. Именно снижение применения промежуточных
устройств в управлении
компьютером может стать решением при
расширении доступной среды людям с физическими ограничениями. Крайне
важно обеспечить возможность вести независимый образ жизни инвалидам,
дать им возможности быть социально активными, в том числе через
использование
информационно-комуникационных
технологий.
Данная
работа направлена на устранение барьеров, которые сейчас мешают и
создают препятствия для полноценного вливания людей с ограниченными
возможностями в реальную жизнь. Доступность информации, возможности
12
общения, дистанционного обучения, возможность работы на дому при
помощи компьютера – вот одно из важнейших составляющих на пути к
инклюзии.
13
1. СПЕЦИАЛЬНАЯ ЧАСТЬ
В истории человечества было уже немало открытий, без которых мы
сейчас уже не можем представить свою обыденную жизнь. Эти открытия, как
правило,были направлены на улучшение качества жизни человека. Для
улучшения коммуникации человечества была изобретена письменность. Для
возможности перемещения человека на дальние разные расстояния – колесо.
Настоящий прорыв в развитии прогресса – изобретение электричества. 20 век
стал веком огромного количества открытий. Самое интересное, что сейчас
человечество воспринимает это как должное. Казалось бы, что еще можно
придумать, но человеческой мозг пытлив и совершенно не намерен
останавливаться на достигнутом результате.
Рассмотрим подробно вопрос взаимодействия компьютера и человека.
Сейчас ввод информации и управление курсором происходитпосредством
клавиатуры и компьютерной мыши. Если подумать – это достаточно удобно
и практично с одной стороны. С другой стороны, мы можем придумать
альтернативный способ общения с машиной на уровне распознавания
жестов, появится возможность понимать друг друга без применения
промежуточных приспособлений. Такой способ общение является для
человека еще более естественным, а для инвалидов - единственно
возможным.
1.1. Обзор средств, реализующих распознавание жестов руки в
системах человеко-машинного взаимодействия
1.1.1. Обзор программных средств использующих стандартную
WEB-камеру
TheCameraMouse
Работа этой программыопределена захватомопределенной области
изображения, записанной с помощью камеры. Для улучшения качества
восприятия
образа
можно
также
воспользоваться
вспомогательным
ориентиром, например яркой меткой. Такой ориентир может располагаться в
14
любом месте, в том числе и на руке, пальце, голове. Этой меткой может стать
головной убор, аксессуар, например очки и т.п.
Данная
программа
неприхотлива
к
вспомогательным
устройствам(WEB-камере), может распознавать практически любой сигнал,
но это конечно в идеале. На практике далеко не всегда хватает качества той
картинки, которую мы получаем с WEB-камеры необходимого для
удовлетворительной обработки данных. Именно поэтому курсор на экране
совершает колебательные движения, даже если в текущий момент времени
пользователь находится в состоянии покоя. Основная проблема такой
ситуации заключается в решении сложной задачи опознавания определенной
метки на экране, крайне велика погрешность.
Для нормальной работы программы необходимо:качественнаяоптика
камеры и наличие качественного освещения лица пользователя. Учитывая,
что работа программы идет
в режиме реального времени, недопустимы
резкие движения пользователя во избежание потери точки слежения.
В CameraMouse естьопределенный ряд настроек, предназначенных
для сведения погрешности при работе программы к минимуму. От точности
работы системы зависитмобильность указателя мыши. Также предусмотрена
возможность разнонаправленного управления, можно выставить значения
как для горизонтальной так и для вертикальной скорости (рис.1.1.).
Довести дрожание курсора до минимума, можно посредством
сглаженного движения, поработав над
усреднением координат курсора.
Этим можно добиться эффекта увеличения длины торможения курсора, он
как бы станет инерционным.
15
Рис. 1.1. Панель настроек программы Camera Mouse.
Также можно установить пределы области перемещения курсорав
настройках CameraMouse, тем самым мы можем решить задачу излишней
активности курсора при работе с программами, не требующими лишней
суеты.
Передвижения курсора по экрану монитора – это решение только
половины задачи в рамках управления компьютером. Для полной картины
мира мы должны еще как то добиться выполнения существующего понятия –
щелчок мышью. Это необходимо для выполнения различных задач при
работе с компьютером. Данное действие должно быть таким же простым, как
и дыхание, учитывая, что данным виртуальным манипулятором по нашей
задумке должны пользоваться люди с ограниченными возможностями.
Учитывая, что курсор не стоит на месте и при любом нашем движении
норовит куда-то переместиться, нужно сделать автоматический клик.
Пользователь
должен
удерживать
примерно
два
вздоха
курсор
в
определенной точке, чтобы машина поняла и сделала щелчок по ссылке или
т.п. Конечно и тут свои подводные камни, например пользователь, открыл
нужный документ, спокойно его изучает, курсор тем временем застыл на
другой солке. Программа воспринимает это как команду к действию, и мы
16
начинаем свое путешествие по абсолютно не интересующим нас ссылкам и
т.п.
EnableViacam (eViacam)
Настройка EnableViacam выполнена в виде пошагового мастера. В
отличие от ранее рассмотренной программыEnableViacam «ищет» на
картинке лицо человека. Красная рамка, которая двигается вместе с
отслеживаемым лицом заданного пользователя, дает точно понять здесь и
сейчас, как хорошо программа видит необходимый объект.
В настройках EnableViacam предусмотрена возможность менять
активность мониторинга. В случае потери контакта машины с человеком
через определенное время автоматически прекращается дистанционное
управление курсором. Данная опция необходима для избеганиявыполнения
случайных действий на компьютере.
В программе EnableViacam, процедура перемещения мыши более
плавная, в отличие от работы с CameraMouse.
Также в программеEnableViacam есть очень существенное отличие по
совершению кликов мыши. Разработана специальная панель, с помощью
которой
можно
выбрать
последовательность
действий
или
одно
определенной, например клик идентичный правой или левой кнопки
компьютерной мыши, технически реализована возможность перетаскивания
активных окон.
Сам же механизм срабатывания клика такой же, как в CameraMouse,
установлен определенный временной период по статической задержке
курсора на определенной точке, после которого происходит нажатие, также
этот процесс сопровождается звуковым сигналом для окончательного
понимания свершившегося действия (рис.1.2.).
17
Рис. 1.2. Панель настроек программыEnableViacam
После свершившегося факта нажатия виртуальную мышь уходит в
стандартный режим ожидания дальнейшего взаимодействия с пользователем.
Для полноценной работы с компьютером просто курсора мыши не
достаточно.В связи с этим в программе EnableViacam предусмотрена такая
функция, как наличие быстрого вызова экранной клавиатуры, с различными
вариациями: виртуальная клавиатура или альтернативная. Пользователь
может прописать самостоятельнокоманду для ее запуска в параметрах
программы (рис.1.3.).
Рис. 1.3. Панель настроек программыEnableViacam
18
В программе предусмотрен автозапуск с системой, а также
поддерживает сохранение профилей за пользователями, что значительно
упрощает предварительный этап настройки, так как сохраняются параметры
настроек для пользователя. EnableViacam поддерживают установку как на
Windows, так и на Linux.
HeadMouse 4.0
Разработка
программыHead
Mouse
произведенов
4.0было
Университете Лериды (Испания). Несмотря на то, что разобраться в данной
программе определенно сложнее, чем в ранее рассмотренных программах, в
ней есть несколько интересных реализованных задумок. При более
пристальном рассмотрении можно прийти к выводу, что утилита не
настолько точна в вопросе позиционирования указателя мыши, как
EnableViacam.Данный
автоматической
недостаток
калибровки,
компенсируется
срабатывающей
при
с
помощью
любой
удобной
возможности, в частности при каждой паузе или же можно для этой опции
задать определенный временной интервал (рис.1.4.).
Настройки можно отладить таким образом, что скорость движения
курсора может варьироваться: быть быстрее или медленнее, также работать в
режиме «зеркало». Сам зависимый курсор может работать в разных режимах
в части взаимосвязи с пользователем. Жесткая сцепка с движением
пользователя, либо же наличие относительной свободы, что обеспечивает
возможность совершать больше движений для управления курсором.
Для контроля правильности расположения лица относительно WEBкамеры в углу монитора расположено визуальное окно (рис.1.5.).
19
Рис. 1.4. Панель, демонстрирующая автоматическую калибровку программы Head
Mouse 4.0
Рис. 1.5. Панель, демонстрирующая визуальное окно программы Head Mouse 4.0
20
Интересный
рассмотренных
момент,
программах
не
–
имеющий
это
отображения
возможность
в
ранее
распознавать
командыпользователя, произведенный глазами или губами. Это очень
уместно для людей с ограниченными возможностями, вплоть до тех, кто
абсолютно парализован. При помощи Head Mouse 4.0можновыполнять все
то, что сейчас мы осуществляет с помощью обычной компьютерной мыши
(рис.1.6.).
Рис. 1.6. Панель, демонстрирующая распределение команд программы Head
Mouse 4.0
При желании в настройках HeadMouse 4.0 можно создать библиотеку
шаблонов. Например, часто повторяемые сочетания клавиш, или какие-то
заготовки текстовых ответов или вопросов, необходимых для повседневного
общения, работы, переписки и т.п. (рис.1.7.). На практике это работает так:
пользователь выполняет определенное действие – закрывает глаз, в ответ на
данную команду машина выдает меню с ранее прописанными заготовками.
Теперь остается только переместить курсор и выбрать необходимую
21
информацию на текущий момент времени или необходимый порядок
действий, команд прописанных ранее.
Рис. 1.7. Панель, демонстрирующая создание макросов программы Head Mouse
4.0
К
серьезной
возможности
проблемев
выключить
этой
функцию
программе
слежения
при
можно
помощи
отсутствие
обычной
стационарной мыши, для отключения ранее обозначенной функции
абсолютно необходимо оригинальное лицо пользователя.
Flutter
Данная программа приобрела наибольшую популярность в нише
связанной с
управлением жестами.Для ее реализации использует Web
камеру. В ней мало функций, но они работают качественно (рис.1.8.).
Работает программа в PowerPoint, VLC, Winamp, iTunes, YouTube и
нескольких других сервисов, которые у нас мало актуальны. Чтобы сервис
работал в корректном режиме, необходимо находиться в правильном
диапазоне от WEB-камеры.
22
Рис. 1.8. Панель, демонстрирующая функции программыFlutter
1.1.2. Обзор устройств, реализующих распознавание жестовв
системах человеко-машинного взаимодействия
LeapMotion
Ранее мы рассматривали возможность управления курсором при
использовании обычной камеры. Наряду с эти компания OcuSpecнашла
другое интересное решение, которым является LeapMotion (рис.1.9.). Данное
решение реализуется с помощьюдвух инфракрасныхкамер и светодиодов.
Руки оператора должны находиться в определенном участке пространства, их
движение
сканируется и
обеспечением,
после
чего
обрабатывается специальным программным
действия
проецируются
на
экран.Данная
программа дает возможность с легкостью управлять происходящим на
мониторе, запускать программы, открывать окна просто переместив палец
вперед.
Также LeapMotion
распознает различные предметы: палочки,
карандаши, кисти. Как на планшетах есть функция - степень нажатия,
успешно поддерживающаяся устройством.
23
Рис. 1.9. ИзображениеLeapMotion
Компания НР сейчас внедряетLeapMotion на некоторых линейках
ноутбуков. Но в таком виде, как она сейчас разработана вряд ли станет
достойной альтернативой клавиатуре и мыши. Во-первых, эргономически
крайне трудно держать руки в подвешенном состоянии долгий период
времени. Для человека такое положение нельзя назвать естественным и не
затруднительным. Во-вторых, качество интерпретации жестов тоже не на
высоте, очень серьезно программа уступает планшетным персональным
компьютерам. Ну и самое главное, финансовая составляющая, за все
программное обеспечение нужно платить, к тому же его крайне мало, и еще
не факт, что оплаченное программное обеспечение поразит Вас своей
безупречной работой и не вызовет никаких нареканий. Так что массовое
тиражирование данной программы в том варианте, в котором она сейчас
существует, имеет весьма туманные перспективы, хотя сама идея очень
привлекательна. Сейчас это всего лишь интересноедополнение, имеющее
чисто развлекательную нагрузку, не более того.
Myo
24
Разработан браслет, который позиционно размещается на предплечье,
в результате считывания электрических импульсов в мышцах двигающейся
руки
формируется
команда,
которая
в
дальнейшем
передается
подключенному устройству (рис.1.10.).
Рис. 1.10. ИзображениеMyo
Передача данных происходит с помощью технологии Bluetooth 4.0.
Дальность работы устройства от считывающего устройства может достигать
10 метров. Это серьезно расширяет возможности данной разработки.
Непосредственно
браслет
состоит
из:ARM-процессора,
Li-on
аккумулятора, сенсоров и инерционного измерительного устройства с
шестью осями, которое и позиционируетв пространстве движение руки.
Браслет
способен
отслеживать
движения
пальцев
и
руки.
Запрограммирован специальный, не имеющий аналогов жест, необходимый
для
включения
и
выключения
устройства,
продуманы
алгоритмы,отсекающиенепроизводительныежесты, а также предусмотрена
обратная связь в случае успешного распознаваниятого или иного жеста.
В действительности это устройство уникально. Оно достаточно легко
в части освоения. Все выстроено более чем логично. Никаких инструкций,
все на уровне интуиции. Может работать в операционных системах Windows
25
и Mac OS. Уже сейчас данное устройство может делать много интересного, и
его потенциал огромен.
26
1.2. Разработка методов распознавания жестов руки в системах
человеко-машинного взаимодействия
В
современном
обществе
информацииотводитсяогромная
роль.
Потребность в информации достигла высокого уровня, люди участвуют в
непрерывном процессе - обмен информации. И поэтому возникает
потребность в высокой скорости ее получения, обработки, систематизации
информации.
Существует
проблема
-
информационная
доступность,
возникающая в процессе передачи информации, всегда есть угроза ее потери.
Термин
"информационная
доступность"
-
возможность
несанкционированного доступа к информации без учетаперсональных
потребностей пользователя. В качестве персональных потребностей могут
выступать: особенности используемых аппаратных средств, программных
средств или персональное восприятие пользователя. Среда размещения
информации
не
всегда
удовлетворяет
персональные
потребности
пользователя в осуществлениисвободного получения информации.
С развитием технических средств обработки речи, изображений и
видео, взаимодействие человека с персональным компьютером выходит на
другой уровень. В последнее время взаимодействие человека и компьютера
было расширено.Финальной целью является создание связи, между ними,
похожей на коммуникацию человека с человеком. Пользовательские
интерфейсы включают в себя: звук, прикосновения, жесты, тактильные
взаимодействия. Все изменения и усовершенствования направлены на
достижение
эффективного
использования
человеческих
чувств
при
коммуникации с машинами.
Для людей нормальное взаимодействие не может быть одинаковым. В
таких случаяхиспользуются инструменты на основе воспринимающего
компьютинга,
которые
становятся
коммуникативным
звеном,
обеспечивающим понятное и логичное общение для всех участников.
Примером
коммуникативного
звенаявляется
система
идентификации жестовдля людей с инвалидностью по слуху.
на
основе
27
Ниже будут приведены существующие на сегодняшний день
технологии, работающие с жестами, подробно будут разобраны методы и
алгоритмы,
и
уже
реальные
возможности,
предлагаемые
Intel
PerceptualComputingSDK, применяемые для снятия границ взаимодействия
людей, с ограниченными возможностями, с внешним миром -систем
автоматического сурдоперевода.
1.2.1.
Основы распознавания образов
Вся наша жизнь построена на распознавании образов. Без решения это
задачи наше существование будет достаточно затруднительным. Наш мозг с
числом нейронных процессов, равным1010 ежесекундно работает над
проработкой всей окружающей нас информации начиная от простого –
объекты, сигналы, заканчивая явлениями, процессами и ситуациями,
возникающими вокру нас.
Вся эта работа мозга направлена на единственный результат – принять
решение и выполнить необходимое действие. В реализации данного
мыслительного процесса задействованы все органы чувств, с их помощью в
мозг
поступает
первичная
информация
из
окружающей
нас
действительности. Далее подключается центральная нервная система для
переработки потока, с целью принятия решения и на окончательной стадии
подключается физическая оболочка человека, с целью реализации принятого
решения. Толчком для включения всего этого механизма является
полученный и идентифицированный образ.
Наш мозг – чудесное творение. Он с непостижимой
контролирует
множество
параллельных
процессов.
При
скоростью
вождении
автомобиля в плотном потоке как попутных, так и встречных автомобилей
водитель в сотые доли секунды принимает множество решений, воплощает
их в жизнь, совершая необходимые движения в данной сложившейся
ситуации.
28
Развитие вычислительной техники на текущем этапе уже вполне
может предполагать, что машина может быть научена решению задач
распознавания
образов.
Уже
достигнуты
определенные
успехи
в
классификации электрокардиограмм, созданы базы данных с отпечатками
пальцев и на основе сравнения исходного образца и имеющегося образчика
машина может идентифицировать человека. То же можно сказать и про
фотографии, речь, машинописный и рукописный текст. По заданным
параметрам программа может производить диагностики сложных устройств
и систем, с целью выявления неисправностей.
Идентификация объекта путем распознавания его свойств, через
изображение, аудиозапись, иные характеристикам, присущие объекту – вот
смысловая нагрузка распознавания образов.
В основе всего лежит
классификация объектов по определяющим и объединяющим признакам в
структурные группы. Формирование заданных
выборок
характерных
свойств, включающих в себя перечень всевозможных явлений, сжатых до
предельного минимума, дает возможность вычленять суть у любого
количества образов.
Наиболее интересны для рассмотрения три метода распознавания
образов: метод перебора, анализ характеристик образа, использование
искусственных нейронных сетей.
Метод перебора.Есть определенный массив данных. Например,
изображение
объекта
с
разной
пространственной
ориентацией
и
целостностью, либо же наборка шрифтов, варианты произношения слов. С
помощью программы происходит сопоставление с имеющейся информацией
и как следствие распознание полученного образа.
При
втором
методе
производится
более
глубокий
анализ
характеристик образа.В основе данного метода (оптическое распознавание)
–лежит привязка к геометрическим характеристикам объекта.
При распознании звуков необходимо прибегнуть к анализу частот и
амплитуд.
29
Описанный метод теряет свою актуальность в случае невозможности
обеспечения высокого качества получаемой картинки или существующей
вероятности изменения объекта.
Использование искусственных нейронных сетей (ИНС).Если
описывать
нейронную
сеть
общими
словами,
то
это
машина,
обрабатывающая информацию по аналогии работы мозга в момент решения
конкретной задачи.Главная идея, которая лежит в основе данного метода –
это пластичность головного мозга, играющая важную роль в обработке
поступающей информации. Также как и в человеческом головном мозге
образуется бесчисленное количество нейронов, и они связаны между собой, в
искусственных нейронных сетях необходимо создать множество ячеек,
производящих вычисления и организовать связь между ними. Искусственные
нейронные сети, также как и реальный мозг человека – это множество
элементарных единиц, являющихся в первую очередь накопителями
полученной информации, далее предоставляющие ее для обработки. Для
реализации
задуманного
процесса
разработчиками
прописывается
обучающий алгоритм. Он предназначен для налаживания процедуры
упорядочивания
синоптических
весов
нейронной
сети
с
целью
структурирования взаимосвязей нейронов.
Для обеспечения работы метода искусственных нейронных сетей
необходима огромная база примеров задачи распознавания при обучении,
либо конкретно структурированная нейронная сеть под выполнение
определенной задачи.
Не
смотря
на
необходимость
выполнения
внушительной
подготовительной работы, с целью запуска описанного метода в работу, он
является
на
текущий
период
времени
наиболее
эффективным
и
производительным.
Пример структурированной системы распознавания с описанием
процессных этапов в ее разработки продемонстрированы в следующей схеме
(рис.1.11.).
30
Рис. 1.11.Общая схема системы распознавания образов
Перечислим наиболее характерные черты задач распознавания. Это
информационные задачи, состоящие из двух этапов:
1) преобразование
исходных
данных
к
виду,
удобному
для
распознавания;
2) собственно распознавание (указание принадлежности объекта
определенному классу).
Распознавание решает следующие типы задач:
1) распознавание - отнесение предъявленного объекта по его
описанию к одному из заданных классов;
2) автоматическая классификация - разбиение множества объектов,
ситуаций, явлений по их описаниям на систему непересекающихся классов
(таксономия, кластерный анализ, самообучение);
3) выбор информативного набора признаков при распознавании;
4) прогнозирование.
1.2.2.
Основы распознавания жестов
Люди общаются друг с другом с помощью речи, а также применяют
жесты. Если проанализировать, столь ли необходим жест в нашей обыденной
жизни. С одной стороны люди с помощью жестов придают своей речи
выразительность и эмоциональность. С другой стороны, существует
категория людей, имеющих нарушение речи, для которых жест вынужденная необходимость.
31
Есть разные телодвижения, которые можно классифицировать как
жест. Всецелое изучение языка жестов, являющегося очень разнообразным
по форме и семантике крайне трудоемкое занятие даже для человеческого
мозга. Поэтому в настоящее время задача автоматического распознавания
сводиться к идентификации заранее прописанных жестов в сформированной
базе данных.
Есть много описанных методов и подходов распознавания разных
классов жестов.
Классификацию
используемых
методов и подходовможно провести по типу
входных
данных
и
сенсоров
для
восприятия
руки.
Классификация методов и подходов к распознаванию:
1) захват движения на основе маркеров;
2) отслеживание рук с помощью оборудованной перчатки;
3) визуальные методы распознавания жестов:
3.1) восстановление полной модели кисти с 27 степенями свободы
по входному изображению;
3.2) построение признакового описания входного изображения
руки;
3.3) метрические методы распознавания жестов.
Захват движения на основе маркеров
Для использования маркерной системы необходимо специальное
оборудование: датчики, камеры.
Датчики фиксируются на руке человека, любые перемещения руки в
пространстве фиксируется с помощью камер. Поток собранной информации
поступает в компьютер. После обработки и анализа переданной информации
рождается целостная трёхмерная модель, точно передающая жесты человека,
на основе которой сразу или позже прописывается окончательная анимация
жестов человека.
Рассмотрим несколько примеров реализации захвата движения с
использованием маркеров.
32
Ученые Института информатики общества Макса Планка решали
задачу отслеживания руки бейсбольного питчера с помощью закрепления
цветных маркеров, размещенных на обратной стороне перчатки. Для
считывания информации были использованы четыре камеры и стробоскоп
(рис.1.12.). Сотрудники университета имени Саймона Фрейзера (Канада)
применили перчатки с разноцветными кольцами для распознавания жестовой
азбуки. Была проведена параллель между суставом каждого пальца и
кольцом. В основу распознавания была положена обратная кинематика. Поза
руки вычислялась через определение совместных позиций датчиков.
Сотрудники Масачусецкого Технологического Института в своих
тестах использовали разноцветные перчатки. Задача стала значительно
проще, на ее решение не требовалось затрачивать много времени, что
позволяло небольшой задержкой выстраивать модели руки на основании
изображения (рис.1.13.).
Рис. 1.12.Отслеживание руки по цветным маркерам
Рис. 1.13.Демонстрирование работы системы, которая реконструирует руку на
основе руки одетой в маркированную перчатку
Вышеописанные системы имеют достоинства, заложенные в простоте
использования, к недостаткам можно отнести дороговизну многокамерных
установок.
33
Отслеживание рук с помощью оборудованной перчатки
Во главе угла данного метода лежит использование оборудованной
перчатки, разработанной на экзоскелетах и оснащенной множеством
разнообразных
датчиков
(температуры,
вибрации,
давления
и
др.),
позволяющих повторять биомеханику человеческой руки. Информация о
движении рук считывается с датчиков и передается на обработку в ПК.
Полученная информация затем анализируется и преобразовывается в
символы. Данные о характеристиках отдельных жестов используется
системой в качестве шаблонов.
Примеры систем с оборудованными перчатками - Data Glove
(рис.1.14.) и Immersion Cyberglove (рис.1.15.) демонстрируют точный захват
3-D ввода для управления в режиме реального времени. Комплекс Fingual
(рис.1.16.) японских исследователей из Университета Осаки и Университета
Шиншу представляет собой специализированную систему, направленную на
непосредственное преобразование жестов языка глухонемых в символы.
К достоинствам можно отнести высокую точность отслеживания рук
и как следствие идентификацию жестов. Наряду с этим есть ряд
существенных недостатков. Первый – дороговизна. Второй –громоздкость
самой перчатки и как результат ограничение движения.
Рис. 1.14. P5 Data GloveРис. 1.15. Immersion Cyberglove
34
Рис. 1.16. Комплекс Fingual
Визуальные методы распознавания жестов
Область исследования визуальные методы распознавания жестов на
текущий момент наиболее динамически развиваются. В принципе данный
метод заключается в отслеживание голых рук и не требует наличия
дополнительного
оборудования.
Для
идентификации
позы
руки
используются такие характеристики, как силуэт, образ, контур.
Пока эти сигналы являются общими и устойчивы к различным
условиям освещения,а значит, требуют наличие сложных определяющих
алгоритмов, которые ищут многомерные пространственные расположения
руки.
Визуальные методы идентификации жестов разделяются на три
категории.
Первый метод - основан на восстановлении полной модели кисти с 27
степенями свободы по входному изображению. В этом случае рука
разложена на составляющие части имеющие взаимосвязь. Позиция и
ориентация изучаемого объекта - это степени свободы. Крайне сложной
является задача моделирования руки с учетом всех ее степеней свободы.
35
Поэтому разработан и принят стандарт упрощенной модели руки с 27
степенями свободы(рис.1.17.). Были созданы базы данных, содержащие
известные
конфигурации
руки
и
их
визуализации,
содержащие
всевозможные углы наклона, возникающие при движении суставов и
параметры позы руки для описания состояния руки для возможности
сопоставления с ними полученных образов.
Рис. 1.17.Модель руки с 27 степенями свободы
Учитывая, что методы, основанные на модели руки с 27 степенями
свободы преследуют полное оценивание позы и динамики руки, они могут в
принципе считаться наиболее перспективными. Недостатками, тормозящими
развитие и внедрения на практике этих методов являются: большая
вычислительная сложность и ограниченная точность восстановления модели
руки из-за наличия окклюзий.
Второй метод основан на построение признакового описания
входного изображения и дальнейшую классификацию жестов, по этому
описанию.
Основная роль в методах подобного рода отводиться выбору
подходящих характеристик (характерных признаков). Так для статических
поз руки, можно использовать геометрические признаки, такие как кончики
пальцев, направление пальцев, контур руки, а также негеометрические
36
признаки (цвет кожи, форма, текстура и др.). Но эти признаки не всегда
доступны или адекватны для распознавания из-за взаимного перекрытия
элементов руки и/или из-за условий освещения.
Важным моментом в этих подходах является классификатор, который
предоставляет возможность разделить (по категориям) различные признаки
или информацию, выделенные из "грубых данных", например, изображения
или видеопотока.
Третий метод основан на построение некоторой метрики на
множестве входных изображений и выполнение классификации за счет
сравнения входного изображения с набором эталонов. Так, например,
предлагается метрика, характеризующая степень сходства скелетов силуэтов
ладони,
и
выполняется
классификация
жестов
с
помощью
источниках
с
разной
метода
ближайшего соседа.
В
различных
погружения
литературных
степенью
описаны различные алгоритмы и методы распознавания
жестов.Несмотря на то, что данная технология находится в зачаточном
состоянии, она имеет серьезный потенциал к развитию. Разнообразие мест,
где технология распознавания жестов,возможно, будет внедрена:
1) управление развлекательными приложениями и системами;
2) управление медицинским оборудованием извне;
3) визуализация и моделирование в трехмерном пространстве;
4) общение с глухонемыми при помощи компьютера.
Уже сейчас в реальной жизни мы можем управлять телевизором с
помощью своей руки. Он нас вполне понимает, настроить громкость,
переключить канал, просто включить или выключить без использования
пульта управления не фантастическое будущее, просто реальность.Для
общения
с
нами
в
телевизор
встраивают
инфракрасные
датчики,
направленные к нам. С их помощью происходит фиксация движения рук с
дальнейшим преобразованием их в понятный для телевизора сигнал.
37
1.2.3. Рассмотрение теоретического материала для разработки
методов распознавания жестов
Рассмотрение алгоритмов для удаления шума
В данном разделе мы рассмотрим 4 алгоритма:
1)
Уменьшениеразрешения изображения.
В
большинстве
случаев,
для
определения
и
распознавания
динамического объекта оптимально разрешение 640 x 480. Это разрешение
может варьироваться в зависимости от того, какое соотношение сторон при
съемке у встроенной или внешней Web камеры.
Алгоритм:
На вход подается изображение
ДРУГОЕ
РАЗРЕШЕНИЕ
Расчет размеров блока
для усреднения
значения пикселей в
каждом блоке
НУЖНОЕ
Конец обработки
Цикл по всей картинке с
подсчитанным шагом и
запись в новую ячейку,
заранее созданной картинки
Результаты преобразования изменения разрешения продемонстрированы на рис. 1.18.
Рис.1.18.Результат преобразования изменения разрешения
38
2) Медианный фильтр.
Медианный фильтр – один из видов фильтров, широко используется
для уменьшения уровня шума.
Алгоритм:
В цикле
формируется, с
учетом размера
блока, массив
из элементов
блока
На вход
подается
изображение
Сортировка массива
по возрастанию
Берем
центральный
элемент
массива и
присваиваем его
в ячейку
Результаты преобразования медианного фильтра продемонстрированы на рис. 1.19.
Рис.1.19. Результаты преобразования медиального фильтра.
3) Быстрое размытие по Гауссу.
Размытие
по
Гауссу
—
популярный
фильтр
для
размытия
изображения. Использует нормальное распределение для вычисления
преобразования, применяемого к каждому пикселю изображения.
Алгоритм:
На вход подается
изображение
Выбираем процентное
соотношение, между
накладываемым изображением
и тем, что подлежит
размытию.
При выборе коэффициентов
нужно придерживаться
условия: сумма
коэффициентов соотношения
равна единице
Производим
наложение по
горизонтали со
смещением в один
пиксель
Производим
наложение по
вертикали со
смещением в один
пиксель
39
Результаты преобразования
продемонстрированы на рис. 1.20.
быстрого
размытия
по
Гауссу
Рис.1.20.Результаты преобразования быстрого размытия по гауссу.
4) Удаление шума при помощи масок.
Данный метод очень прост в реализации.
Алгоритм:
На вход
подается
изображение
Формируется маска
размерностью NxN,
где Nнечетная и
меньше или равна
размерности
исходного
изображения
В цикле маска накладывается
на изображение и формирует
новое значение пикселя на
базе исходного изображения
и окрестности с различными
весовыми коэффициентами
Для размытия были использованы следующие маски:
Пример размытия для маски 3x3 приведен на рис. 1.21.
40
Рис.1.21. Пример размытия для маски 3x3.
Наложение маленьких масок, может привести к геометрическим
искажениям, так как расстояние между центральным элементом и его
соседями не изотропно. Для того чтобы избавиться от этого недостатка,
нужно увеличить размерность маски. Эффект для маски 5x5 показанна
рис. 1.22.
Рис.1.22.Пример размытия для маски 5x5
Эффект размытия получился сильнее, так как в формирование
центрального пикселя размытого изображения были задействованы пиксели,
находящиеся на большем расстоянии, нежели чем в маске 3x3.
Результаты алгоритмов для удаления шума.
Проводиться испытания будут на последовательности из 2 кадров
размером 640x480, показанных на рис. 1.23, а результаты скорости
выполнения занесены в таблицу.
41
Рис.1.23. Последовательность из 2 кадров для испытаний.
Результаты удаления шума отображены на рис. 1.24; 1.25; 1.26.
Рис.1.24. Результат сравнения 2-х кадров без размытия и с уменьшенным
разрешением.
Рис.1.25. Результат медианного фильтра и удаления шума при помощи масок.
Рис.1.26.Результат Быстрого размытия по Гауссу.
Скорости выполнения методов удаления шума приведены в табл.1.1.
Таблица 1.1.
Алгоритмы для удаления шума
Скорость выполнения, мс
Уменьшение разрешения изображения
221
Медианный фильтр
Удаление шума при помощи масок
2334
465
42
Быстрое размытие по Гауссу
102
Рассмотрение цветовых моделей для задачи распознавания
динамических объектов.
В
данном
разделе,
при
выборе
цветовых
моделей,
будем
ориентироваться на работу Хомякова М.Ю., в которой он рассматривает
классификацию
цвета
кожи
человека
на
цветных
изображениях[19].Исследования в данной работе были направлены на такие
модели как:
1) RGB
Стандартная модель кодировки цвета. Построена на 3 цветовых
каналах: красный (R), зеленый (G) и синий (B). Каждый из них находится в
диапазоне от 0 до 255, означающие уровни интенсивности для каждого
канала.
Цветовая модель RGB продемонстрирована на рис.1.27.
Рис.1.27. Цветовая модель RGB.
Если интенсивность трех каналов одинаковая, то получаются
градации серого. При максимальной интенсивности яркости – белый, при ее
отсутствии – черный. Хорошо подходит для вывода информации на экран
компьютера, так как поддерживает 16 миллионов цветов, но не подходит для
вывода на печать, по тойже причине.
2) HSV
Данная модель состоит из 3 каналов:
а) H- цветовой тон. Диапазон изменения от 0 до 3600 ;
43
б) S - насыщенность – интенсивность определенного цветового тона.
Диапазон изменения от 0 до 100%;
в) V – яркость. Диапазон изменения от 0 до 100%.
Так как в системе обеспечивается непосредственный контроль тона,
насыщенности и яркости, дизайнеры активно используют данную модель.
Цветовая модель HSV продемонстрирована на рис.1.28.
Рис.1.28.Цветовая модель HSV
Формулы конвертации из RGBв HSV:
Где maxи min – это максимальное и минимальное значение для
компонентов цветовой модели RGB в рассматриваемой точке.
3)
YCbCr
Данную модель можно разделить на две компоненты:
44
а)
Яркостную составляющую (Y), которая варьируется в диапазоне
от 0 -100%;
б)
Составляющие цветности (Cb - синяя и Cr - красная).
Глаза
человека
наиболее
восприимчивы
к
высокочастотным
полутоновым компонентам яркости (Y), а к составляющим цветности (Cr и
Cb) в меньшей степени.Данная модель применяется в видео стандартах PAL,
NTSC и SECAM.
Цветовая модель YCbCrпродемонстрированана рис.1.29.
Рис.1.29.Цветовая модель YCbCr
Формулы конвертации из RGBв YCbCr:
4)
CIE lab
Цветовая модель, которая объединяет RGB и CMYK, а так же
заполняет пробелы между ними. Цветовой охват максимально близок к
восприятию человека с нормальным зрением.Состоит из 3 каналов:
а)
L – яркость;
б)
a – цветовой спектр от темно-зеленого до ярко-розового;
в)
b–цветовой спектр от светло-синего до ярко желтого.
45
Данная модель создавалась для решения проблемы множественности
подходов к восстановлению оригинала изображения на устройствах разного
типа. Это и является главным ее преимуществом.
Цветовая модель CIElabпродемонстрированана рис.1.30.
Рис.1.30. Цветовая модель CIElab
Формулы конвертации из RGBв CIElab:
Перевод происходит в два этапа:
1.
Из RGBв CIEXYZ
где N - это компоненты RGB.
2.
ИзCIEXYZв CIElab
46
где N - это компоненты CIEXYZ.
Результаты сегментации по цвета кожискорости конвертации из
RGB
Сегментацию будем производить на предыдущей выборке, а
результаты представим на рис. 1.31; 1.32.
Рис.1.31.Результат сегментации по цвету кожи для моделей RGBи YCbCr
Рис.1.32.Результаты сегментации по цвету кожи для моделей HSVи CIElab
Скорость конвертации из RGB приведена в табл. 1.2.
Таблица 1.2.
Модели для конвертации
Скорость выполнения, мс
YCbCr
327
HSV
CIE lab
295
180
47
Алгоритмы выделения контуров изображений.
В данной работе рассмотрим несколько самых популярных и часто
используемых методов для выделения контуров на изображениях:
1)
метод Робертса
2)
метод Превитта
3)
метод Собеля
Методы базируются на таком свойстве сигнала яркости как
разрывность. Для детектирования разрывов используются скользящие маски.
Под скользящей маской понимается квадратная матрица, элементы которой
принято
называть
коэффициентами.
пространственнаяфильтрация.
С
помощью
нее
производится
.
Схема пространственной фильтрации продемонстрирована на рис. 1.33.
Рис.1.33.Схема пространственной фильтрации.
Алгоритм основан на перемещении маски от точки к точке. Во всех
точках, на основе предварительно заданных связей, высчитывается отклик и
записывается в данную ячейку (x,y).В данном случае отклик(R) на рис. 1.33
рассчитывается по формуле:
R= F1*k1 + F2*k2 + F3*k3 + F4*k4 + F5*k5 + F6*k6+ F7*k7+ F8*k8+
F9*k9
Чтобы определить перепады яркости используют дискетные аналоги
производных 1-го и 2-го рода.
48
Для функции F(x) первая производная определяется разностью
значений соседних элементов:
Для определения второй производной используется разность соседних
значений первой производной:
По определению, градиент изображения F(x,y) в точке (x,y) — это вектор
[10]:
Направление вектора градиента совпадает с направлением максимальной
скорости изменения функции F в точке (x,y) [10].
Для обнаружения контуров на изображении нужно подсчитать модуль
этого вектора:
Оператор Робертса
На рис. 1.35 показан элемент изображения размером 3x3, который
показывает значения яркости в этой области.
Рис.1.35.Окрестность 3х3 внутри изображения
Для нахождения первой частной производной в точке 𝑏5 применяя
перекрестный оператор Робертса используют формулы:
Так же можно производить вычисления производных, путем
обработки всего изображения операторами описанными масками на рис. 1.36.
49
Рис.1.36.Маски оператора Робертса.
Так как маски имеют размерность 2x2, это не очень удобно из-за не
четко выраженного центрального элемента, а также значительно отражается
на результате фильтрации. Но метод имеет высокую скорость обработки.
Оператор Превитта
Данный оператор работает с область 3x3 и для вычислений
производных используются выражения:
Данные
выражения
можно
записать
с
помощью
операторов,
описываемых масками на рис. 1.37.
Рис.1.37.Маски оператора Превитта
Оператор Собеля.
Похож на оператор Превитта, но для вычисления производных
использует немного другие выражения:
За счет увеличения значения коэффициентов для центральных
элементов достигается уменьшение эффекта сглаживания. На рис. 1.38
отображены операторы Собеля, описанные масками.
Рис.1.38.Маски оператора Собеля.
50
Результаты выделения контуров искорости выполнения
Проводиться испытания будут на полутоновых изображениях
размером 640x480, показанных нарис.1.39, а результаты скорости
выполнения занесены в таблицу.
Рис.1.39. Полутоновые изображения.
Результаты выделения контуров отображены на рис.1.40; 1.41; 1.42:
Рис.1.40. Выделение контуров методом Робертса.
Рис.1.41.Выделение контуров методом Превитта.
51
Рис.1.42. Выделение контуров методом Собеля.
Скорости выполнения приведены в табл. 1.3.
Таблица 1.3.
Методы выделения контуров
Скорость выполнения, мс
метод Робертса
321
метод Превитта
352
метод Собеля
350
1.2.4. Разработка методов распознавания жестов руки в системах
человеко-машинного взаимодействия.
Используя теоретический материал, рассмотренный в прошлом разделе,
разработаем:
1. Метод определения динамических объектов.
2. Метод распознавания кисти руки для однородного фона.
3. Метод распознавания головы человека.
4. Метод распознавания руки человека в пространстве.
Метод определения динамических объектов
Для определения динамических объектов был разработан алгоритм.
Для тестирования будем использовать выборку из 2 последовательных
кадров, представленных на рис.1.43.
52
Рис.1.43. Выборка из 2-х последовательных кадров.
Алгоритм:
Получаем два статических кадра из
видео потока (K1,K2)
Разрешение кадров
640X480
Да
Применяем быстрое размытие по
Гауссу (𝐾 𝐼 1, 𝐾 𝐼 2)
Сравниваем кадры (𝐾 𝐼 1, 𝐾 𝐼 2) и
сохраняем полученную разницу
цветов в матрицу S
Фильтруем полученную матрицуS от
шума при помощи порогового
значения
Вычисляем матрицу F по формуле:
F = 𝐾 𝐼 1 ∗ 𝐾2 − 𝐾 𝐼 2 ∗ 𝐾1
Скрещиваем матрицы Sи Fрезультат
записываем в R
Оставляем только те блоки, которые
положительны в обеих матрицах
Нет
Изменяем разрешение изображения
для уменьшения количества операций
53
Результат работы алгоритма отображен на рис.1.44.
Рис.1.44.Результат работы алгоритма определения динамических объектов.
Метод распознавания кисти руки на однородном фоне:
1. Моделькисти руки.
Для распознавания жестов будем выделять кончики пальцев и
расстояние между ними. Демонстрация модели руки представлена на
рис.1.45.
Рис.1.45.Модель кисти руки.
2. Разработка метода, осуществляющего преобразование входного
изображения к данной модели:
1) Для обнаружения объекта на кадре применим разработанный
алгоритм определения динамических объектов.
2) Получив область поиска, применяем метод соболя для выделения
контуров заданной области изображения.
3) Применяем для получившегося контура алгоритм сканирования
слева направо, справа налево и сверху вниз. При сканировании создаем
массивы и записываем последовательности детектирования контуров.
4) Для каждого из полученных массивов выделяем места резкого
изменения в каком-либо из направлений и записываем их в массив.
54
5) Массив с зафиксированными точками обрабатываем по принципу:
точки, которые лежат в пределах порогового значения, которое выбирается исходя из масштаба области поиска, объединяются.
6) Получившиеся значения закрашиваем маркерами, рассчитываем
расстояние между ними и проводим прямые, соединяющие кончики пальцев.
Метод распознавания головы человека
1. Модель головы и структурное описаниена рис.146.
Рис.1.46. Модель головы и структурное описание
Человеческое лицо условно состоит из 3 частей: FD- от подбородка до
носа, DB –от носа до бровей,BA- от линии волос до бровей.Отрезки
FD,DB,BA имеют примерно одинаковый размер.Если условно провести через
центр лица по горизонтали прямую линию, то лицо поделится примерно
пополам.
2.
Разработка
метода
детектирования
глаз
на
паре
последовательных статических кадров.
На основе предложенной модели и ее структурного описания
разработан метод обнаружения лица.
55
Алгоритм:
Получение потока с
WEB-камеры
Берем два последовательных кадра
нет
Проверяем при помощи
сохраненных
параметров области на
процент совпадения
Первый
поиск
головы
да
Применяем алгоритм
определения
динамических объектов
да
Менее
70 %
Усредняем все точки в
каждой строчке по
горизонтали в области
обнаружения объектов
Применяем преобразование в Y
компоненту цветового пространства
YCbCrкадров К1, К2 в области
обнаружения объектов
Применяем метод Собеля для
выделения контуров
Учитывая модель лица,
при поиске глаз, берем
центр линии
да
нет
да
Накладываем выделенные
контуры и получившуюся
линию
Нашли
глаза
нет
Продолжаем поиск,
перемещаясь вверх и вниз с
шагом h
Выход за
границы
области
нет
56
Метод распознавания руки человека в пространстве.
1. Модель системы описана на рис.1.47.
Рис.1.47. Модель распознавания руки человека в пространстве.
2. Разработка метода, осуществляющего распознавание руки человека
в пространстве на основе предложенной модели.
Алгоритм:
1.3. Разработка
методов
бесконтактного
управления
компьютером
В данном разделе, на основе рассмотренного теоретического
материала и разработанных методов по распознаванию динамических
объектов, будут предложены и разработаны варианты человеко-машинного
взаимодействия. Интерфейс программы продемонстрирован на рис.1.48.
57
Рис.1.48. Интерфейс программы
1)
Разработка
на
основе
цветовых
моделей
и
метода
определения динамических объектов.
Модель для распознавания динамических объектов представлена на
рис.1.49.
Рис.1.49. Модель для распознавания.
Алгоритм:
1.
Применяем метод определения динамических объектов.
2.
Отсеиваем лишние объекты, используя пересечениецветовой
моделиRGBи области определенной в первом пункте.
3.
Фиксируем границы объекта.
4.
Сравниваем получившиеся значения с заранее записанными
командами по параметрам L1 и L2 (длин по вертикали и горизонтали).
Метод поддерживает запись таких команд как: нажатие левой и
правой кнопки мыши, двойное нажатие, захват, скроллинг, а также
58
изменение координат курсора. Причем записать команды можно на разные
предметы.
2)
Разработка на основе метода распознавания головы человека
Метод управления основан на отслеживании зрачка и радужки глаза.
На основе распознавания поддерживается управление курсором мыши. Так
же можно выставить таймер для нажатия кнопки мыши.
3)
Разработка на основе метода распознавания кисти руки для
однородного фона
Данная разработка является аналог LeapMotion. При классификации
команд идеториентация на расстояние между пальцами и количество
маркеров, детектирующих их кончики. Управление курсором по осиX
осуществляется посредством удаления или приближения к сенсору, т.е. в
плоскости перпендикулярной, а по оси Y – изменение положения руки в
плоскости параллельной WEB-камере(рис.1.50.). Такой способ естественен
при работе с уже привычными планшетными ПК. Назначения кнопок мыши
можно произвести в начале работы, для более удобного использования.
Рис.1.50. Модель распознавания кисти руки на однородном фоне.
4)
Разработка на основе метода распознавания руки человека в
пространстве
Команды задаются в специально обозначенной области справа или
слева от головы. Модель классификации жестов руки такая же, как и у
предыдущей разработки.
59
1.4. Определение
необходимого
множества
команд
для
реализации взаимодействия пользователя с системой
На
основе
разработанных
интерфейсов
человеко-машинного
взаимодействия было показано, что для управления средой Windows
необходимым и достаточным условием является доступ к функциям
компьютерной мыши. К таким командам, в общем случае, можно отнести:
нажатие левой и правой кнопки мыши, двойное нажатие, захват, скроллинг, а
также изменение координат курсора. Клавиатура не была рассмотрена, так
как существует виртуальная аналог, вызов которой осуществляется при
помощи обычного щелчка мыши. Набрать не длинный запрос не составит
большого труда и не отнимет много времени.
1.5. Оценка качества распознавания предложенных методов
На основе тестирования разработанных методов были выявлены
следующие достоинства и недостатки.
Рассмотрим все методы по порядку:
 Разработка на основе цветовых моделей и метода определения
динамических объектов.
Универсальная программа для управления операционной системой,
буквально
подручными
средствами
и
необязательно
находиться
в
непосредственной близости.
К плюсам данного метода можно отнести поддержку всех основных
команд компьютерной мыши, а также возможность записи только
необходимых. Простая и надежная модель для распознавания.
К минусам можно отнести не очень хорошую устойчивость к
перепадам света из-за чего часто необходимо калибровать параметры для
другого помещения.
 Разработка на основе метода распознавания головы человека.
Предназначен
для
персональным компьютером.
работы
в
непосредственной
близости
с
60
К плюсам можно отнести, что данный метод подойдет людям с
ограниченными возможностями, которые по каким-либо причинам не могут
пользоваться компьютерной мышью. Не плохая устойчивость к изменению
освещенности по причине использования модели и структурного описания
лица.
К минусам можно отнести ухудшение качества распознавания с
увеличением расстояния до WEB-камеры.
 Разработка на основе метода распознавания кисти руки для
однородного фона.
К
плюсам
можно
отнести
возможность
настроить
кнопки
компьютерной мыши интуитивно понятно для самого пользователя,
благодаря гибкой модели руки. Хорошая точность распознавания и скорость
работы с персональным компьютером.
К минусам можно отнести существующую погрешность при
распознавании жестов руки.
 Разработка на основе метода распознавания руки человека в
пространстве
Данная версия человеко-машинного интерфейса объединяет в себе две
предыдущие разработки, но в отличие от них, может работать как в
непосредственной близости, так и некотором расстоянии от компьютера с
хорошей точностью. Минус данного решения в том, что нет такой свободы в
выборе жестов, так как они должны быть хорошо различимы.
Вывод
Все рассмотренные в первом разделе программные обеспечения и
устройства имеют свои достоинства и недостатки. В большей степени это
концептуальные
технологии
на
текущий
период
времени,
однако
определенно имеющие высокий потенциал к развитию. Их ценность
неоспорима, но для привлечения инвесторов и дальнейшего внедрения их в
жизнь, данные разработки еще не являются достаточно зрелыми. Каждая
новинка
вполне
жизнеспособна,
но
понадобится
еще
определенное
61
количество времени на устранение недостатков, доработку и оптимизацию
процессов с учетом перспектив внедрения данных разработок в массовый
коммерческий продукт.
Вопросами разработки технологий распознавания динамических
объектов занимается множество компаний и вполне определенно можно
сказать, что в обозримом будущем использование мыши и клавиатуры
отойдет на задний план. Сделать пользовательский интерфейс более
естественным – вот задача, над решением которой необходимо работать.
62
2. КОНСТРУКТОРСКО-ТЕХНОЛОГИЧЕСКАЯ ЧАСТЬ
2.1. Выбор среды разработки
MicrosoftVisualStudio —
это
комплекс
средств
для
разработки
производительных приложений. Данная среда была выбрана по следующим
причинам:
а)
редактор текста программы имеет большое количество полезных
функций;
б)
поддерживается разработка как консольных, так и графических
приложений;
в)
для разработки предлагаются такие дизайнеры как Windows
Presentation Foundation и Silverlight;
г)
имеет встроенную возможность разработки многопоточных
приложений;
д)
имеет функциональный отладчик для модульного тестирования;
е)
имеет хороший справочный материал;
ж) большое количество примеров программ на разных языках
программирования.
2.2. Проведение испытаний
На базе созданных подсистем для управления ОС Windows были
проведены измерения времени скорости работы методов в разных
условиях.Результаты испытанийбыли отражены в сравнительной таблице 2.1.
Показатель
Скорость работы
Зависимость от
освещенности
Чувствительность
к фону
Расстояние до
сенсора
1 сек.
Метод
распознавания
кисти руки для
однородного
фона
1 сек.
Таблица 2.1.
Метод
распознавания
руки человека
в
пространстве
2 сек.
высокая
низкая
низкая
низкая
средняя
низкая
средняя
низкая
до 3-х м
до 0,5 м
до 0,5 м
до 3-х м
Метод на основе
цветовых моделей
и определения
динамических
объектов
0,5 сек.
Метод
распознавания
головы
человека
63
Вывод
В данном разделе был обоснован выбор среды разработки и
проведенные испытания подтвердили жизнеспособность разработанных
методов распознавания динамических объектов.
64
3. ЭКОЛОГИЯ И ОХРАНА ТРУДА
Задача любого работодателя создать безопасные условия труда для
своих работников. С целью стандартизации требований и норм для рабочего
места работника были разработаны соответствующие документы в виде
ГОСТ, СанПиН, СНиП и другие, рекомендованные к исполнению.
Основные
вредные
факторы,
места
их
возникновения
и
воздействия[ГОСТ 12.1.003-74/80] (табл.3.1.).
Таблица 3.1.
65
3.1.
Требования к рабочему месту
Размер рабочей зоны, приходящейся на одного человека должен
составлять не менее 4,5 м2 (норма, указанная в СанПиН 2.2.2/2.4.1340-03).
Размер и форма рабочего стола должна позволять поместить все
необходимое рабочее оборудование, а также располагать свободным местом
для размещения документов и ведения рабочих записей.
Рекомендуемый рабочий стол, отвечающий основным параметрам
(рис.3.1.).
Рис. 3.1. Конструкция стола
Рабочее кресло должно состоять из следующих элементов: сиденье,
спинка и подлокотники. Также могут быть предусмотрены подголовник и
подставка для ног.
Рекомендуемый рабочий стул, отвечающий основным параметрам
(рис.3.2.).
66
Рис. 3.2. Конструкция стула
Рабочее место также может быть оборудовано подставкой для ног со
следующими параметрами: ширина не менее 300 мм, глубина не менее 400
мм, регулировка по высоте в пределах до 150 мм и угол наклона опорной
поверхности подставки до 20°. Требования к поверхности подставки:
рифленая и оснащенная бортиком высотой 10 мм.
Расположение клавиатуры:располагается на расстоянии 100 - 300 мм
от края, со стороны пользователя на специальной рабочей поверхности,
регулируемой
по
высоте
подставке,
не
находящейся
на
основной
столешнице.
Расположение монитора и позиционирование пользователя (рис.3.3.).
Рис. 3.3. Величина угла зрения
67
В
помещении,
где
работает
инженер-программист,
должны
выдерживаться параметры микроклимата, регламентированные санитарными
правилами (табл.3.2.).
Таблица 3.2.
Важной составляющей в вопросе поддержания макроклимата на
рабочем месте инженера-программиста является наличие систем отопления и
кондиционирования воздуха. Разность температуры воздуха в районе пола и
головы не должна колебаться более чем на 50С. Основным показателем
правильности работы системы кондиционирования воздуха, является сколько раз в час происходит полная смена воздуха в помещении.
Также
на
рабочем
месте
инженера-программиста
необходимо
выдерживать уровней шума в пределах допустимых значений. Определен
предельный спектр нормативных уровней звукового давления, находящийся
в диапазоне: 71, 61, 54, 49, 45, 42, 40, 38 дБсоответственно.
При соблюдении всех вышеуказанных условий и требований,на
рабочем месте будутсозданы благоприятные условия для выполнения работы
с высокой производительностью труда, сохранения работоспособности в
течение рабочего дня.
3.2. Требования к освещенности
Помещение должно быть освещено с помощью естественного и
искусственного света. Нельзя допускать: недостаточную или чрезмерную
освещенность; неправильное направление света.
68
Расчет освещенности рабочего места инженера-программиста состоит
из:
1) выбора системы освещения;
2) определения необходимого числа светильников;
3) подбора их по типу;
4) определения системы их размещения.
Естественное и искусственное освещение [СНиП 23-05-95](табл.3.3.)
Таблица 3.3.
Также для местного освещения с целью подсветки документов
допускается
установка
индивидуальных
настольных
светильников.
Размещенные на рабочей поверхности индивидуальные светильники не
должны создавать помех в работе в результате создания бликов на рабочей
поверхности монитора.
69
3.3. Положительное влияние разработки на здоровье человека
Длительная работа за компьютером может оказать существенное
влияние на здоровье человека. В наше время использование компьютеров во
всех сферах жизни становится все шире и потому все больше людей
вынуждены проводить целые дни у мониторов компьютеров.
Часто неправильный подход к вопросу
эксплуатации ПК, вполне
может причинить вред здоровью инженера-программиста. Если принять во
внимание, что разработка и внедрение метода бесконтактного управления
компьютером состоится, то такое заболевание, как запястно-локтевой
синдром, вполне может отойти на второй план. Также может быть решен
вопрос гиподинамии, работник не будет вынужден выполнять работу строго
в статическом положении – «сидя», появится больше возможности для
совершения активных действий из положения – «стоя» и т.п. Станет
возможнымво время чтения с монитора изменять расстояние от текста до
глаз, что в свою очередь поможет снять постоянное напряжение. Нарушения
зрения из-за постоянного статичного чтения информации с монитора
останутся в прошлом.
Экологи всего мира уже давно бьют тревогу. Масштабы загрязнения
окружающей
среды
перешли
все
мыслимые
пределы.
На
стадии
производства компьютерной техники затрачивается множество природных
ресурсов
и
формируется
огромное
количество
выбросов,
которые
неблагоприятно сказываются на окружающей среде. Загрязняются вода,
воздух и многое другое. Также и при утилизации компьютерной техники
мало кто заботится о природе. Большинство из нас просто выбрасывают
устаревшую
технику
в
мусорный
контейнер,
понятие
правильной
переработки нам не знакомо. Учитывая, что с 1991 года в Россию, по разным
источникам, было завезено более 10000000 единиц техники абсолютно
разных производителей, можно себе представить, сколько вредных металлов,
таких как свинец, сурьма, ртуть, кадмий, мышьяк, также различного рода
полимеры теперь оказалось на свалке, и отравляет нашу экологию.
70
Совершенно понятно, что в нашей жизни, как на работе, так и дома
мы уже не мыслим свое существование без компьютера. Он наш помощник
во всем и везде. Поэтому если благодаря повсеместному внедрению
управления компьютером
с помощью жестов и как следствие отказа от
использования, хотя бы компьютерной мыши, можно, хоть и незначительно,
но все же, снизить нагрузку на экологию, как на стадии производства, так и
на стадии утилизации.
Вывод
В данной части дипломной работы изложены основные требования к
рабочему месту инженера-программиста. Они должны создавать условия для
комфортной работы. В соответствии с разработанными регламентами были
предложены оптимальные размеры рабочего стола и кресла, рабочей
поверхности,
предложена
система
освещения
рабочего
помещения.
Выполнение условий, необходимых для оптимальной организации рабочего
места инженера-программиста, позволяет в течение всего рабочего дня
сохранять высокую работоспособность, повышать производительность труда
работника.
В части экологии производителям и потребителям компьютерной
техники необходимо серьезно задуматься о снижении вредного воздействия
на
окружающую
среду
посредством
разработки
регламентирующих
документов по утилизации данного оборудования, отправки его в
переработку, для возможного дальнейшего вторичного использования.
71
ЗАКЛЮЧЕНИЕ
В
данном
дипломном
проекте
были
разработаны
методы
распознавания динамического объекта и методы бесконтактного управления
компьютером. На основании данных методов было разработано программное
обеспечение, предназначенное для бесконтактного управления человека
компьютером.
На текущий период времени данные технологии имеют высокий
потенциал к развитию, так как они являются решением существующей
проблемы интеграции людей с ограниченными возможностями в мир
информации и повышения уровня их социализации.
При внедрении на практике бесконтактного управления операционной
системой
на
преимуществ:
периферийных
передний
уходит
план
выходят
необходимость
устройств
типа
сразу
несколько
использования
«компьютерная
очевидных
дополнительных
мышь»,
возможность
одновременной коллективной работы пользователей, отсутствие жесткой
привязки к рабочему месту, т.е. увеличение степени свободы пользователя.
В дипломном проекте была проведена следующая работа:
1) Произведен
использующих
анализ
обычную
существующих
и
WEB-камеру
программных
устройств,
средств,
реализующих
распознавание жестов в системах человеко-машинного взаимодействия.
Выявлены достоинства и недостатки данных систем.
2) Произведен сравнительный анализ наиболее интересных методов
распознавания образов, рассмотрена существующая классификация методов
распознавания жестов руки.
3) На
основе
проведенных
исследований
была
выявлена
теоретическая база для создания собственных методов распознавания
динамических объектов – рука и голова. Определена система их
классификации.
Созданные
методы
и
алгоритмы,
не
дополнительных маркеров и обладающие хорошей надежностью.
требуют
72
4) На основании разработанных методов распознавания были
предложены способы бесконтактного управления компьютером.
5) Проанализировано и выявлено множество команд, необходимых
для реализации взаимодействия пользователя с системой.
6) Произведена
оценка
качества
распознавания
предложенных
методов на основе проведенных испытаний.
В результате выполнения дипломного проекта была в полной мере
решена задача распознавания динамических объектов и создания на ее
основе человеко-машинных интерфейсов.
73
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
1. Абдуллин Ю.Э.Цветовая сегментация при обнаружении
движения в цифровом видеопотоке //Томский государственный университет
2008. – 248 с.
2. Абдуллин Ю.Э. Формирование кадра фона в задаче обнаружения
движения системами технического зрения // Электронный журнал
"Исследовано
в
России",
№124,
2007,
1289
с.,
http://zhurnal.ape.relarn.ru/articles/2007/124.pdf.
3. Алфимцев А.Н. Разработка и исследование методов захвата,
отслеживания и распознавания динамических жестов// МГТУ им. Н.Э.
Баумана.- Москва, 2008.
4. Анисимов Б.В. Распознавание и цифровая обработка
изображений – М.: Высш. школа, 1983 – 295 с.
5. Баженов А. Морфологическая обработка изображений [Текст] /
Софтлайн – Москва, 2012. – 20 с.
6. Визильтер Ю. В., Желтов С. Ю., Князь В. А., Ходарев А. Н.,
Моржин А. В. Обработка и анализ цифровых изображений с примерами на
LabVIEW IMAQ Vision. - Москва: ДМК, 2008. – 233 с.
7. Гонсалес Р., Вудс Р. Цифровая обработка изображений. Издание
3-е, исправленное и дополненное. - Москва: Техносфера, 2012. – 1104 с.
8. Ковалева И.Л. Методические указания к лабораторной работе
«Преобразование цветовых моделей» // БНТУ.- Минск, 2008. – 31 с.
9. Колдаев В.Д. Теоретические основы развития систем
автоматизации технологических процессов контурной сегментации
изображений [Текст]: автореф. дис. на соиск. учен. степ. д.т.н. (05.13.06) /
Колдаев Виктор Дмитриевич; МИЭТ. – Москва, 2014. – 354 с.
10. Кудрявцев Л.В. Краткий курс математического анализа – M.:
Наука, 1989 – 736 с.
11. Куракин А.В. Распознавание динамических жестов на основе
медиального представления формы изображений// МГУ им. Ломоносова.Москва, 2014. – 26 с.
12. Малашин Р. О., аспирант; Луцив В. Р., доктор техн. наук,
Восстановление силуэта руки в задаче распознавания жестов с помощью
адаптивной морфологической фильтрации бинарного изображения. //ОАО
«Государственный оптический институт им. С. И. Вавилова», СанктПетербург, 2013. – 8 c.
13. Нагапетян В.Э. Методы распознавания жестов руки на основе
анализа дальностных изображений [Текст]: автореф. дис. на соиск. учен.
степ. канд. физ.-мат. наук (05.13.17) / Нагапетян Ваагн Эдвардович; РУДН. –
Москва, 2013. – 108 с.
74
14. Нагапетян В.Э. Методы распознавания жестов руки на основе
анализа дальностных изображений [Текст]: автореф. дис. на соиск. учен.
степ. канд. физ.-мат. наук (05.13.17) / Нагапетян Ваагн Эдвардович; РУДН. –
Москва, 2013. – 108 с.
15. Сирота, А.А. Обработка изображений, распознавание образов.Москва:Компьютерная оптика, 2010. Т. 34.- № 1 – 260 с.
16. СиротаА.А. Нейросетевой алгоритм моделирования изображений
объектов с деформирующими искажениями / А.А. Сирота Е.В. Воронова //
Информатика: проблемы, методология, технологии: материалы девятой
международной научно-методической конференции. -Т. 2 – Воронеж: Изд-во
Воронеж. гос . ун -та , 2009. – 345 с.
17. Технологии Microsoft в теории и практике программирования:
сборник трудов XI Всероссийской научно-практической конференции
студентов, аспирантов и молодых ученых. г.Томск, 23-24 апреля 2014 г. –
Томск: Изд-во Томского политехнического университета, 2014. – 270 c.
18. Фаворская М.Н., Методы распознавания изображений и
видеопоследовательностей, Сибирский Государственный Аэрокосмический
Университет им. Академика Н.Ф. Решетнева, 2010, 175 с.
19. Хомяков М.Ю. Классификация цвета кожи человека на цветных
изображениях//Санкт -Петербургский государственный электротехнический
университет « ЛЭТИ » им. В.И. Ульянова (Ленина). - Москва, 2011. – 379 с.
20. Чудновский М. М. Алгоритм распознавания жестов руки
человека на видеопоследовательности в режиме реального времени для
реализации интерфейсов человеко-машинного взаимодействия. - Вестник
СибГАУ, 2014. № 3(55). - 167 с.
21. ГОСТ 12.0.003-74* ССБТ "Опасные и вредные производственные
факторы. Классификация". – Москва: Изд-во стандартов, 2004. – 4 с.
22. Гигиенические требования к персональным электронновычислительным машинам и организация работы /СанПиН 2.2.2/2.4.1340-03.
– Москва: Госкомэпиднадзор, 2003. – 64 с.
23. Строительные нормы и правила: СНиП 23-05-95. Естественное и
искусственное освещение: нормативно-технический материал. – Москва:
[б.и.], 1995. – 35 с.
24. Электронный ресурс - http://lightroom.ru Сайт lightroom.
Download