АРМ_Технич_Зрение_Шмакова_РПЗ_Шмакова

advertisement
АННОТАЦИЯ
В
дипломном
проекте
на
основе
проведенного
обзора
методов
компьютерного зрения для анализа 3D сцен и протестированных возможностей
сенсора
Kinect, разработано
специализированное АРМ для
анализа сцен.
Предложена модификация алгоритма восстановления карты глубины и разработан
алгоритм поиска и оценки повреждений на поверхности металла.
1
ОГЛАВЛЕНИЕ
Введение ....................................................................................................... 6
1. Конструкторская часть......................................................................... 7
1.1
Локализация 3D объектов на основе сопоставления краев для
скоростных
и
высокоточных
производственных
приложений
машинного зрения. .................................................................................... 7
1.2
Локализация 3D объектов на основе окклюзии контуров с
использованием STL CAD моделей. ....................................................... 9
1.3
3D локализация в рамках определенного класса объектов с
использованием графов частей сцены. ................................................ 14
1.3.1
1.4
Формализация задачи локализации ...................................... 14
Эффективный поиск 3D объектов на основе множественных
классификаторов, зависящих от ориентации. ...................................... 18
1.5
Трекинг на основе 2,5D данных. ................................................ 23
1.6
Выбор способа обработки 3D сцен. ........................................... 25
1.7
Использование периферийного устройства Kinect................... 26
1.8
Восстановление карты глубины. ................................................ 28
1.8.1
Эффективная
стратегия
заполнения
пространственно-
временных отверстий в карте глубины сенсора Kinect................... 29
1.8.2
1.9
Альтернативные методы. ....................................................... 37
Актуальные подзадачи компьютерного зрения. ....................... 40
1.9.1
Задача сопоставления изображений...................................... 40
1.9.2
Задача выделения особых точек на изображении. .............. 46
1.9.3
Задача сопоставления особых точек. .................................... 56
1.9.4
Задача отслеживания объектов. ............................................. 61
1.9.5
Задача поиска дефектов материала. ...................................... 62
2
2. Технологическая часть ....................................................................... 64
2.1
Характеристики сенсора Kinect. ................................................. 64
2.1.1
2.2
Среда разработки Kinect SDK для Windows. ....................... 66
Анализ библиотек компьютерного зрения. ............................... 67
2.2.1
Библиотека AForge.NET и Accord.NET. ............................... 67
2.2.2
Библиотеки OpenCV и Opencvsharp. ..................................... 67
3. Исследовательская часть ................................................................... 69
3.1
Общая схема АРМ........................................................................ 69
3.2
Восстановление карты глубины. ................................................ 70
3.2.1
Реализация алгоритма............................................................. 74
3.2.2
Оптимизация вычислительных затрат. ................................. 77
3.3
Динамическое измерение расстояния. ....................................... 78
3.4
Отслеживание положения объектов........................................... 79
3.5
Ночное видение. ........................................................................... 80
3.6
Сопоставление изображений. ..................................................... 81
3.7
Детектор дефектов. ...................................................................... 84
4. Технико-экономическое обоснование эффективности НИОКР .... 93
4.1
Введение........................................................................................ 93
4.2
Определение этапов выполнения НИОКР................................. 93
4.2.1
4.3
Календарный график выполнения НИОКР .......................... 97
Расчет стоимости выполнения НИОКР ..................................... 97
4.3.1
Материальные затраты. .......................................................... 98
4.3.2
Расчет основной заработной платы. ..................................... 98
4.3.3
Расчет дополнительной заработной платы. ......................... 99
4.3.4
Отчисления на социальные нужды. ...................................... 99
3
4.3.5
Расчет амортизационных отчислений. ................................. 99
4.3.6
Прочие затраты. .................................................................... 100
4.4
Результаты. ................................................................................. 101
4.5
Выводы. ....................................................................................... 102
5. Промышленная экология и безопасность ...................................... 104
5.1
Введение...................................................................................... 104
5.2
Основные факторы воздействия среды на оператора ПК. ..... 104
5.2.1
Параметры микроклимата. ................................................... 104
5.2.2
Требования к уровням шума и вибрации. .......................... 106
5.2.3
Освещенность. ....................................................................... 107
5.2.4
Требования к уровням электромагнитных полей. ............. 109
5.2.5
Опасность поражения электрическим током. .................... 110
5.2.6
Требования к организации рабочего места пользователей
разработанного АРМ. ....................................................................... 112
5.2.7
Рабочая поза и рабочее место. ............................................. 113
5.2.8
Эргономические требования к дисплею. ............................ 115
5.2.9
Требования к организации медицинского обслуживания
пользователей ПК.............................................................................. 117
5.2.10 Пожаробезопасность............................................................. 118
5.3
Использование сенсора Kinect. ................................................. 119
5.3.1
Обеспечение безопасности использования. ....................... 119
5.3.2
Нормирование инфракрасного излучения.......................... 121
5.3.3
Утилизация. ........................................................................... 122
5.4
Расчет системы искусственного освещения............................ 123
4
5.4.1
Расчет
искусственного
освещения
рабочего
места
оператора............................................................................................ 123
5.4.2
5.5
Утилизация люминесцентных ламп. ................................... 126
Выводы. ....................................................................................... 126
Заключение .............................................................................................. 128
Список использованных источников .................................................... 129
5
ВВЕДЕНИЕ
Компьютерное зрение позволяет решать широкий круг задач в картографии и
геодезии, навигации, управлении, медицине и других сферах деятельности человека.
Зачастую они сводятся к работе с 2D изображениями при помощи контроля
освещенности. В этой области существует множество хорошо изученных методов.
Однако иногда 2D информации недостаточно, например, для управления
манипуляторами, решения задач дистанционного управления жестами и многих
других приложений. В каждом из вышеуказанных случаев решается подзадача
локализации определенного типа объектов в трехмерном пространстве.
Существует множество современных подходов к анализу 3D сцен. Они
различаются по сложности реализации, области применения и точности результатов.
Не так давно обработка изображений с использованием 2,5D карты глубины начала
привлекать
внимание
ученых
удобством
анализа,
а
выпуск
потребитель-
ориентированных сенсоров глубины (таких как Microsoft Kinect) усилил интерес.
Обычно задачи компьютерного зрения требуют детального анализа и
подбора алгоритма решения. Разработчикам приходится проводить много времени,
исследуя и обрабатывая тестовые примеры различными способами. При подготовке
тестов приходится проделывать рутинную работу по кодированию стандартных
методов технического зрения, а начальные замеры для оценки 3D сцены проводятся
вручную. Целью данной дипломной работы было упростить вышеописанный
подготовительный этап с помощью создания специализированного АРМ. В состав
АРМ включен сенсор Kinect для быстрой обработки глубины сцены.
Параллельно с выполнением дипломной работы решалась задача анализа
дефектов на поверхности металла методами компьютерного зрения. Современное
повышение требований к качеству поверхности материалов на производстве делает
эту задачу чрезвычайно актуальной. Поэтому было принято решение включить
дополнительный модуль для исследования материалов на предмет обнаружения
повреждений в АРМ, разрабатываемый в рамках дипломного проекта.
6
1.
Конструкторская часть
В данной главе рассмотрены пять различных подходов к локализации
объектов в трехмерном пространстве: на основе сопоставления краев, графов частей
объектов, по CAD STL модели, на основе классификаторов, зависящих от
положения объекта, а также на основе 2,5D карты глубины. Выбран наиболее
предпочтительный подход для использования в специализированном АРМ – на
основе 2,5D карты глубины. Выявлены проблемы, связанные с применением
вышеуказанного подхода и исследованы пути их решения. Также описаны
актуальные и часто встречающиеся задачи компьютерного зрения, для решения
которых в разработанное АРМ были включены специальные модули.
1.1 Локализация 3D объектов на основе сопоставления краев для
скоростных и высокоточных производственных приложений машинного
зрения.
Авторы статьи [1] предлагают быстрый, точный и устойчивый метод 3D
локализации, основанный на выделении границ объекта. Процесс происходит
полностью автоматически. Объекты находятся на конвейере, где они распределены
случайным образом, а специальная стереоскопическая система, позволяет сочетать
скорость и точность вычислений. Для устойчивой работы предложенной системы
требуется контроль глобальной освещенности.
Один из основных компонентов системы машинного зрения – это система
подсветки
(см.
рис. 1.1(а)),
состоящая
из
светодиодов,
помещенных
за
рассеивающий материал. Камеры по другую сторону конвейера (см. рис. 1.1(в))
точно регистрируют границы перемещающихся по нему объектов (например,
бутылок на рисунке 1.1).
7
Рис. 1.1. Схема полной конструкции системы [1]: а) – подсветка, б) – бутылки из
темного стекла, в) – стереоскопическая камера, г) – лента конвейера
Процесс начинается с фиксирования изображения начального состояния и
ожидания, пока первый объект на конвейере не перекроет подсветку.
Затем
происходит сохранение снимков объекта и их сегментация. Фон удаляется простым
вычитанием первоначальных снимков из текущих. Далее изображение бинаризуется
по порогу, возможно адаптивному. Выделение контуров при помощи фильтра
Канни сопровождается их дилатацией в соответствии с рис. 1.2. Полученные
изображения масштабируются, а их точки сопоставляются для формирования
стереоскопического скелета исследуемой формы. Положение скелета в трехмерном
пространстве позволяет вычислить локализацию объектов на конвейере.
8
Рис. 1.2. Обработка изображений объекта в задаче 3D локализации: а) и б) –
выделение контуров на изображениях, полученных стереосистемой посредством
фильтра Канни; в) и г) – дилатация бинаризованных изображений [1]
Авторы статьи [1] оценивали точность поиска на экспериментах, в которых
вычислялось расстояние между фактическим центром масс локализуемого объекта и
результатами работы предложенной системы. Средняя погрешность вычисления на
50 примерах не превысила 20 мм при расположении объекта на расстоянии 1 м от
камеры.
Метод
является
робастным
и
подходит
преимущественно
для
промышленного применения из-за сложной системы подсветки.
1.2 Локализация 3D объектов на основе окклюзии контуров с
использованием STL CAD моделей.
Для металлических и пластиковых производственных деталей довольно
сложно предложить стабильно плотные трехмерные данные, используя стандартное
стереосопоставление, так как такие объекты часто страдают от недостатка текстуры
(отличительных особенностей). Поэтому 3D-3D
сопоставление напрямую не
применяется. В статье [2] проведено исследование по расширению сегментных
9
методов распознавания объектов с использованием STL (Standard Triangulated
Language) CAD моделей.
Шаблон
для
сопоставления
представляет
собой
набор
особых
2D
изображений искомого объекта с разных точек обзора. Он автоматически
генерируется из CAD модели и состоит из геометрических особенностей, а также из
точек в трехмерном пространстве. К геометрическим особенностям относятся углы
и дуги, которые восстанавливаются по точкам STL модели.
Для создания проекций используется OpenGL (Open Graphics Library).
Библиотека достаточно быстро работает, удаляет скрытые линии, а также дает
возможность сохранения значения глубины для каждого пикселя. 3D контуры,
полученные таким образом эквивалентны тем, которые получаются при обработке
данных со стереокамеры. Для гладкости результатов желательно, чтобы STL модель
имела как можно меньший размер фасетов. На начальном этапе при генерации
проекций
дискретизация
множества
точек
обзора
дает
ошибку,
которая
исправляется на этапе подгонки (fine adjustment [2]).
Ниже приведена схема получения геометрических особенностей для
шаблона.
1) Выбор точки обзора.
2) Проецирование STL модели на 2D изображение, используя разные цвета
фасетов в зависимости от направления нормали к поверхности в этом
месте.
3) Получение
контуров
спроецированного
объекта
по
изображению
интенсивности освещения.
4) Вычисление пространственного положения для каждой точки контура на
основе информации, сохраненной OpenGL. Нормали к поверхности в этих
точках определяются цветом соответствующих фасетов.
5) Подбор линии или окружности для каждого пространственного сегмента,
генерация дуг и углов шаблона.
6) Повторить 1 – 5 шаги для всех точек обзора.
10
Точки шаблона характеризуют пространственную структуру объекта. Для
того чтобы упростить сопоставление принимается допущение, что плотность точек
STL модели и реального объекта приблизительно одинаковая.
3D границы объектов реальной сцены аппроксимируются сравнением с
прямыми и окружностями по результатам стереосопоставления, так выделяются их
характерные
особенности.
Положение
и
ориентация
искомого
объекта
в
пространстве задается матрицей трансформации T . Набор ее первых приближений
(гипотез)
выбирается
из
результатов
начального
грубого
сопоставления
геометрических особенностей шаблона и особенностей данных сцены.
Ниже приведена схема сопоставления объектов сцены с шаблоном и
подгонки (fine adjustment).
1) STL шаблон проецируется на двумерное изображение в соответствии с
матрицей T и схемой получения геометрических особенностей шаблона,
описанной выше.
2) Проводится поиск точек реального объекта, соответствующих точкам
шаблона, на основе информации о нормалях и глубине. Затем матрица T
обновляется посредством метода наименьших квадратов исходя из набора
соответствий. Число соответствий – n.
3) Шаги 1 – 2 повторяются до тех пор, пока не будет получена достаточная
точность. Если погрешность не уменьшается на большом числе итераций
– значит, гипотезу можно считать неверной.
4) После того, как все гипотезы проверены, из них выбирается та, которая
имеет
большее
число
n.
Матрица
T,
соответствующая
этому
предположению, является результатом распознавания (локализации).
Для оценки эффективности авторами статьи [2] был проведен ряд
экспериментов с реальными и синтетическими сценами на изображениях 640х480
пикселей с 256 градациями серого (например, рис. 1.3).
11
Рис. 1.3. Синтетические стереоизображения (слева) и результат распознавания
(справа) [2]
Схема экспериментов представлена на рис. 1.5(а). Согласно ей, 3D сцена
находится на вращающейся платформе и состоит из трех элементов (см. рис. 1.4): Lблока, коромысла и головы Иджеа.
Рис. 1.4. Элементы сцены для экспериментов [2]
Задача локализации решается для каждого элемента на дискретном
множестве положений платформы.
12
а)
б)
в)
г)
Рис. 1.5. Эксперимент по 3D локализации объектов [2]: а) – схема эксперимента, б) –
результаты при распознавании L-блока, в) – результаты при распознавании
коромысла, г) – результаты при распознавании головы Иджеа
Время вычислений на машине с процессором Intel Core2Duo E6850 и
графической картой GeForce 8800 Ultra при количестве направлений съемки, равном
320 и наличии 123527 гипотез составляет 416,72 секунд, что довольно долго для
промышленного применения. Однако, из результатов экспериментов, описанных
выше, видно, что метод обладает высокой робастностью.
Уменьшить затраты времени на локализацию можно с помощью отсева части
гипотез на этапе начального сравнения, но это возможно только при условии того,
что метод отсева будет менее вычислительно затратным, чем проверка гипотез.
13
1.3 3D локализация в рамках определенного класса объектов с
использованием графов частей сцены.
Развитие огромных баз данных 3D образов, таких как «Google warehouse»
[3], а также систем 3D реконструкции, например, Kinect [4], увеличило потребность
в эффективном распознавании трехмерных сцен, оценки ориентации и т.п.
3D модели часто получаются либо слишком гладкие (при создании в
специальных программах), либо слишком зашумленные (при 3D сканировании).
Подход, связанный со сравнением по частям страдает из-за потери информации в
присутствии
отверстий,
шума,
различия
масштабов,
пересечения
классов
информации о разных объектах и малодетализированном (гладком) фоне. В таком
контексте авторы статьи [5] обращаются к изучению структуры объектов.
Например, имея изображения головы и трех лап кошки в качестве эталона, гораздо
проще понять, что не хватает еще одной лапы и предположить где она может
находиться в пространстве. То есть поиск осуществляется более осмысленно, а
многие методы локализации работают эффективнее.
1.3.1 Формализация задачи локализации
Предполагается, что задано множество 3D экземпляров формы {Sm|m ϵ
{1…M}}, состоящих из набора вершин {Vmv|v ϵ {1…Vm}} и граней {εme|e ϵ {1…Em},
εmjk ϵ {1…Vm}}. Принадлежность вершины v поверхности описывается дискриптором
smv. В данной работе [5] используется инвариантный к ориентации дескриптор HKS
(Heat Kernel Signature).
Задано P частей, расположенных в пространстве Lmp, для каждого тестового
объекта Sm. В рамках данного метода поставлена цель - изучить графическую
модель. Части объекта, регулируемые набором параметров α = {αp| p ϵ {1…P}},
определяют узлы графа G ϲ F, (F - это полносвязный граф над узлами P), чьи ребра
описываются как γ = {γij|Gij ϵ G}. Параметры, характеризующие модель в целом ϴ =
{G,α,γ} должны быть получены
в результате обучения
на примерах
и
конфигурациях. После обучения модель используется для объединенной оценки
оптимального расположения частей объекта L* в запрашиваемой сцене S*
максимизацией вероятности как показано в формуле
14
𝐿∗ = argmax 𝑝 (𝐿|𝑆 ∗ , 𝜃) = argmax 𝑝 (𝑆 ∗ |𝐿, 𝜃)𝑝(𝐿|𝜃) ≈ argmax 𝑝 (𝑆 ∗ |𝐿, 𝛼)𝑝(𝐿|𝛾, 𝐺),
𝐿
В
𝐿
идеале
𝐿
𝑝
𝑝(𝑆 ∗ |𝐿, 𝛼) = ∏𝑝=1 𝑝(𝑆𝐿𝑝 |𝛼𝑝 ),
(2)
𝑝(𝐿|𝛾, 𝐺) ∝ ∏{𝑖,𝑗}∈𝐺 𝜓(𝐿𝑖 , 𝐿𝑗 ; 𝛾𝑖𝑗 ).
(3)
обучение
параметров
происходит
посредством
метода
максимального правдоподобия на обучающей выборке. Предполагая, что параметры
α и (G,γ) независимо влияют на вероятность появления частей объекта и на
вероятность их попарной конфигурации, можно считать вероятность соединения для
M примеров в целях обучения ϴ так, как указано в формуле
𝑀
𝜃 = argmax ∏𝑀
𝑚=1 𝑝(𝑆𝑚 , 𝐿𝑚 |𝜃) = argmax ∏𝑚=1 𝑝(𝑆𝑚 |𝐿𝑚 , 𝛼) ∏𝑚 𝑝(𝐿𝑚 |𝛾, 𝐺).
𝜃
(4)
𝜃
Для древовидного графа G, параметры могут быть разделены и эффективно
обучены с помощью формул
𝛼𝑝 = argmax ∏𝑚 𝑝(𝑆𝑚𝐿𝑚𝑝 |𝛼𝑝 ),
(5)
𝐺 = argmax ∏𝑚,{𝑖,𝑗}∈𝐺 𝜓(𝐿𝑚𝑖 , 𝐿𝑚𝑗 ; 𝛾𝑖𝑗 ),
(6)
𝛾𝑖𝑗 = argmax ∏𝑚 𝜓(𝐿𝑚𝑖 , 𝐿𝑚𝑗 ; 𝛾𝑖𝑗 ),
(7)
𝛼𝑝
𝐺ϲ𝐹
𝛾𝑖𝑗
где 𝜓 – «энергия» конфигурации графа.
Оптимизация (5) и (7) проходит посредством подбора нормальных
распределений для обучающей выборки, который может проходить независимо для
узлов и ребер графа [6]. Для упрощения задачи граф G сводится к минимальному
покрывающему дереву по стоимости граней, определенной на F, косвенным
образом помогая определить какие грани наиболее информативны.
Рассмотрим применение данного метода к решению задачи локализации в
3D. Параметры распределения αp могут быть обучены по результатам оптимизации
(5). Здесь используется нормальное распределение 𝑁(𝛼𝜇𝑝 , 𝛼∑.𝑝 ) (в отсутствии
достаточного числа обучающих примеров, 𝛼∑.𝑝 часто далее сокращается к
диагональному виду). Аналогично, вероятность нахождения пар узлов в двух
определенных
точках
пространства
является
15
функцией
от
их
взаимного
(1
расположения.
Чтобы
обеспечить
инвариантность
относительно
линейных
преобразований (масштабирование, вращение, перемещение), расстояние между
узлами i и j вычисляется нормализованно относительно глобального масштаба
объекта. Абсолютное эвклидово расстояние обычно используется в 2D задачах.
Сравнивая эвклидовы и геодезические (графовые) меры для расстояния в формуле
(9), можно сказать, что последние показывают существенную инвариантность к
деформациям объекта и стабильность к внутриклассовым изменениям. Параметр γ
обучается аналогично α, после получения минимального покрывающего дерева G.
Унарные и попарные условия
(5) и (7) могут быть определены как стоимости
(«энергии») для каждой заданной формы Sm по формулам
𝑝 (𝑆𝑚𝐿𝑝 |𝛼𝑝 ) ∝ exp (−𝜑 (𝑆𝑚𝐿𝑝 ; 𝛼𝑝 )) ∝
𝑇
exp (−0.5 (𝑆𝑚𝐿𝑝 − 𝛼𝜇𝑝 ) 𝛼∑−1𝑝 (𝑆𝑚𝐿𝑝 − 𝛼𝜇𝑝 )),
(8)
𝜓(𝐿𝑚𝑖 , 𝐿𝑚𝑗 ; 𝛾𝑖𝑗 , {𝑖𝑗} ∈ 𝐺) ∝ exp (−0.5 (dist(𝐿𝑚𝑖 , 𝐿𝑚𝑗 ) −
𝑇
𝛾𝜇𝑖𝑗 ) 𝛾∑−1
(dist(𝐿𝑚𝑖 , 𝐿𝑚𝑗 ) − 𝛾𝜇𝑖𝑗 )).
𝑝
(9)
«Энергия» пар отличается от стандартного шаблона, использованного в [6].
Положение p-части объекта на его поверхности – Lmp дискретизированно по набору
возможных вершин v = {1…Vm}. Вероятность заданного положения на поверхности
Lmp = v, определяющего конкретную часть объекта, вычисляется посредством (8).
Геодезическая стоимость (длина кратчайшего пути между вершинами графа)
взаимного расположения частей 𝐿𝑖 , 𝐿𝑗 в вершинах i и j в (9) аппроксимируется
стоимостью кратчайшего пути по алгоритму Дейкстры.
Оценка конфигурации частей объекта для запрашиваемой формы при
задании «энергии» для унарных и парных условий
может быть получена
существующими инструментами для минимизации «энергии». Можно получать
апостериорное
распределение, чтобы посмотреть вероятность различных
конфигураций, либо сразу найти оценку апостериорного максимума (MAP). В статье
16
[5] предлагается сделать последнее. Для древовидного графа G решение
принимается быстро и точно.
Некоторые
узлы,
в
особенности
листья,
определенные
на
точном
древовидном графе, которые не соединены напрямую, теряют отталкивание друг от
друга. То есть, например, при попытке сопоставить голову и лапы кошки с
запрашиваемой моделью, возможна ситуация сопоставления двух лап одной на
модели.
Следовательно,
необходимы
более
сложные
графы,
например,
полносвязные (ПС). Выбирая между оптимальным древовидным графом и
субоптимальным полносвязным, авторы статьи [6] предпочли второй, с учетом
наличия инструментов [7], способных оценить как близко решение от глобального
оптимума для циклических графов в 3D. При этом практически все формулы
сохраняются, а вычисление приближенного оптимума на более сложном ПС графе
дает большую производительность, чем точный расчет на древесном.
Авторами [4] было проведено сравнение методов локализации на основе
древовидных и полносвязных графов. Задача заключалась в поиске оптимальной
конфигурации узлов модели или сцены, что эквивалентно решению проблемы
разметки, где каждый узел графа (часть объекта) может принять одну из N
возможных меток (приблизительно 7000 позиций вершин). В свою очередь, каждое
ребро графа может иметь NxN комбинаций меток вершин на его концах.
Оптимизация включала в себя перебор унарных и попарных условий для всех
вариантов разметки.
Как видно из результатов теста на рис. 1.6, трудности, связанные с потерей
отталкивания между частями объектов, не были преувеличены. Несмотря на
высокую
производительность
метода,
основанного
на
древесных
графах,
происходит серьезная потеря качества. Поэтому рекомендуется использовать
полносвязные графы с гораздо более сложными моделями, которые не гарантируют
оптимального решения, но, зато, позволяют оценить близость к нему [4].
17
а)
б)
в)
м
Рис. 1.6. Локализация 3D объектов [4]: а) – эталонная разметка, б) – результат
работы метода на основе деревьев, в) – результат работы метода на основе
полносвязных графов
1.4 Эффективный поиск 3D объектов на основе множественных
классификаторов, зависящих от ориентации.
При решении задачи обнаружения нескольких категорий объектов или
конкретных объектов с разных точек обзора возникает проблема эффективного
тестирования множественных классификаторов. В таких задачах каждый объект
класса или каждый вид распознается отдельным классификатором. Это ведет к
18
вычислению огромного числа исключающих и уточняющих классификаторов. Они
могут быть эффективно обучены, но тестирование влечет очень большие
вычислительные затраты.
Авторы статьи [8] предлагают эффективный метод обнаружения 3D
объектов, основанный на быстром вычислении случайных папоротников (Random
Ferns) [9] над местными гистограммами ориентированных градиентов. Папоротники
представляют
собой
независимые
наборы
«случайных»
условий,
которые
проверяются на классифицируемой части изображения. Гистограммы особенностей
получаются простым сравнением бинарных выходов, означающих наличие того или
иного объекта. Случайные папоротники разделены между классами объектов и
используются
для
локализации,
основанной
на
двухступенчатом
подходе.
Подразумевается наличие оценщика положения и множества классификаторов для
каждой конкретной ориентации, которые могут быть обучены менее чем за минуту,
в то время как обнаружение объекта займет около 1 секунды. Данная работа [8]
использует подход на основе преобразования Хафа и случайных папоротников для
эффективной и робастной оценки положения объекта в 3D.
Основные
части
предложенного
подхода
[8]
–
это
представления
разделяемых особенностей и оценщик положения, который ограничивает область
поиска для классификаторов на конкретных расположениях.
Так
как
особенности
распределяются
между
классификаторами,
их
вычисление выполняется на начальном шаге независимо от положения. Это
позволяет эффективно вычислять оценку положения и классифицировать. На этапе
оценки положения каждая особенность оценивается по всему изображению, и
назначаются вероятные «голоса» за объект. Это дает множество предположений
(кластеры
в
пространстве
голосования),
которые
затем
проверяются
классификаторами, зависящими от позы. В конце множественные соответствия
удаляются с помощью подавления не-максимумов (non-maxima suppression).
19
Рис. 1.7. Схема метода [8]
Первый ключевой элемент метода – случайные папоротники (СП).
Они
состоят из множества бинарных особенностей как результатов простого сравнения
интенсивности
областей.
СП
вычисляются
над
местными
гистограммами
ориентированных градиентов (HOG), то есть бинарные особенности являются
результатом сравнения двух столбиков HOG. Одновременное наличие всех выходов
бинарной особенности кодирует различные изображения, которые используются для
построения оценщиков и каждого из классификаторов. Более формально, каждый
СП F покрывает появление
r бинарных особенностей, кодировка которых
определяет охват папоротника z. Таким образом, каждый папоротник отображает
вхождение изображения на K=2r –мерное пространство, а 𝐹: 𝑥 → 𝑧, где x – это
пример изображения, а z=1,2,…K.
В целях повышения эффективности одни и те же СП разделяются между
несколькими классами.
На основе реакции СП на входное изображение, оценщик дает довольно
точный прогноз нахождения объекта в определенной области. Для этого
необходимо отобразить многомерное пространство особенностей СП на 2D
пространство изображения, что достигается при помощи так называемых Хаф-СП.
20
a)
б)
Рис. 1.8. Хаф-СП оценка [8]: а) – обучение, б) – тестирование
Хаф-папоротники кодируют локальное изображение, захваченное СП и
назначают вероятностные голоса за
возможное местоположение объекта.
В
частности, для каждого папоротника Fi каждый выход (zi = k) означает появление
определенного
изображения,
характеризующих
изображениях.
уже
обычное
связанное
положение
со
данной
списком
локальной
смещений
картинки
{𝑑𝑖𝑘 },
на
Такие смещения откладываются от центра изображения и
вычисляются во время фазы обучения с высокой точностью.
В процессе обучения, расчет Хаф-СП проводится посредством оценки
фиксированного множества из m папоротников для каждой позиции локального
изображения. Затем выбираются наиболее отличающихся позиций и их смещения.
Такая процедура осуществляется для каждого вида наблюдения объекта Wj и
дополнительно для фонового класса B (чтобы обеспечить выбор наиболее
характерных особенностей).
Предполагая вероятностную независимость СП [9],
оценщик 𝐸(𝑥) определяется как
𝐸(𝑥) = ∑𝑚
𝑖=1 log
𝑘
𝑃({𝑑𝑖,𝑞
},𝑧𝑖 (𝑞)=𝑘|𝑊∗𝑖 ,𝐹𝑖 )
𝑘
𝑃({𝑑𝑖,𝑞
},𝑧𝑖 (𝑞)=𝑘|𝐵,𝐹𝑖 )
где q – это каждое местоположение на изображении.
21
,
(10)
Для того чтобы сократить
число возможных местоположений, где
классификаторы будут потреблять время, проводится поиск наиболее выдающихся
гипотез. Реализация поиска основана на фильтрации выхода оценщика по параметру
чувствительности 𝐸(𝑥) > 𝛽𝑒 . Выбор этого параметра связан с компромиссом между
скоростью
и
ростом
числа
ошибок
второго
рода
(ложноотрицательными
срабатываниями).
Каждый классификатор, зависящий от положения, строится независимо
благодаря комбинации случайных папоротников. В данном случае классификатор
является набором слабых классификаторов, каждый из которых основан на
папоротнике, выбранном из общего множества (пула) СП. Пул сконструирован
случайным образом и разделяется между всеми классификаторами для уменьшения
вычислительных затрат.
Отдельно взятый классификатор 𝐻𝑊𝑗 (𝑥) строится для того, чтобы найти
папоротники Fi и положения gi, которые лучше отделяют положительный класс от
фона. К положительному классу относят определенный вид объекта Wj, в то время
как фон B служит для получения примеров негативного класса. Классификатор
обучается
с
помощью
алгоритма,
который
итеративно
собирает
слабые
классификаторы и адаптирует их весовые коэффициенты с целью сосредоточить
усилия на примерах, отброшенных предыдущими слабыми классификаторами.
Итоговый сильный классификатор определяется как
(𝑡)
𝐻𝑊𝑗 (𝑥) = ∑𝑇𝑡=1 ℎ𝑊𝑗 (𝑥) > 𝛽𝑊𝑗 ,
(11)
где слабые классификаторы вычисляются по формуле
(𝑡)
𝑃(𝐹𝑡 |𝑊𝑗 , 𝑔𝑡 , 𝑧𝑡
ℎ𝑊𝑗 (𝑥) = 0.5 log (
= 𝑘)+𝜀
) , 𝑘 = 1, … , 𝐾.
𝑃(𝐹𝑡 |𝐵, 𝑔𝑡 , 𝑧𝑡 = 𝑘 )+𝜀
(12)
Здесь Ft – это выбранный папоротник, который оценивается в фиксированном
местоположении gt от центра изображения, а параметр ε используется для
сглаживания. На каждой усиливающей итерации t, вероятности 𝑃(𝐹𝑡 |𝑊𝑗 , 𝑔𝑡 , 𝑧𝑡 ) и
𝑃(𝐹𝑡 |𝐵, 𝑔𝑡 , 𝑧𝑡 ) вычисляются с использованием распределения весов D над
обучающей выборкой по формулам
22
𝑃(𝐹𝑡 |𝑊𝑗 , 𝑔𝑡 , 𝑧𝑡 = 𝑘) = ∑𝑖:𝑧𝑡(𝑥𝑖 )=𝑘 𝐷𝑡 (𝑥𝑖 ),
(13)
𝑦𝑖 =+1
𝑃(𝐹𝑡 |𝐵, 𝑔𝑡 , 𝑧𝑡 = 𝑘) = ∑𝑖:𝑧𝑡(𝑥𝑖 )=𝑘 𝐷𝑡 (𝑥𝑖 ).
(14)
𝑦𝑖 =−1
Лучший слабый классификатор на каждой итерации выбирается из
соображений минимизации «расстояния Баттачария» (Bhattacharyya distance).
В данной работе [8] все классификаторы, зависящие от положения,
обучались с использованием одинаковых параметров.
Представленный метод обеспечивает высокую скорость обнаружения и
эффективность для локализации объектов, снятых с различных точек обзора.
Основное достоинство метода заключается в том, что локальные особенности,
сгруппированные в случайные папоротники, вычисляются единожды и независимо.
Первое условие сокращает время вычислений, а второе позволяет довольно легко
распараллеливать процесс вычислений.
1.5 Трекинг на основе 2,5D данных.
Не так давно появились семейства сенсоров, представляющих собой
компромисс между 2D и 3D подходами. Например, новая модель мультикамеры
Kinect [4] открыла широкое поле для исследований за счет большого разрешения
обрабатываемых изображений, высокой скорости (около 30 fps), качественной и
стабильной оценки глубины (ошибка не более 10 мм). Фактически информация,
получаемая с камер – это глубина каждого пикселя, заданная для конкретной точки
обзора. Условно, такие данные называются 2,5D [10]. Это упрощенная 3D
поверхность, чье представление включает в себя одно измерение глубины (Z) для
каждой точки на плоскости (X, Y). Основное преимущество таких камер простота в
установке и работе с ними.
В статье [10] предлагается метод трекинга головы и рук человека. Положение
головы оценивается в зависимости от
расстояния между объектом и камерой.
Подобная оценка устойчива к частичным окклюзиям и быстрому движению, а также
помогает определить регион, где потенциально могут находиться руки.
23
Трекинг требует проведения двух подготовительных шагов, таких как
извлечение фона и обнаружения объектов. Которые представляют наибольший
интерес в контексте данной работы.
Маска переднего плана F просто и быстро извлекается из 2,5D оценки
глубины изображения по постоянному порогу. Для того чтобы подавить шумы,
обрабатывается несколько последовательных кадров сцены,
а затем результаты
усредняются.
Первый человек считается обнаруженным на изображении в тот момент,
когда общее количество пикселей F больше, чем установлено специальным
порогом. На этапе фильтрации
небольшие шумные зоны удаляются из маски
переднего плана, а центроид, включающий в себя оставшиеся пиксели, используется
для трекинга.
Основные проблемы при решении данной задачи связаны с тем, что
несколько человек, находящихся на разных расстояниях от камеры могут
перекрывать друг друга в одной и той же сцене. Чтобы этого избежать предлагается
сначала оценить размеры головы на изображении, а затем ее положение [10].
Вводится предположение о том, что глубина всего тела на изображении 𝑑𝐶𝑖
приблизительно равна глубине локализации головы 𝑑𝐻𝑖 ≈ 𝑑𝐶𝑖 . Эллиптическая маска,
равная по размеру голове среднестатистического взрослого человека, помещается на
вычисляемую глубину
𝑑𝐻𝑖 . Уровень и проекция изображения сцены позволяют
получить эллипс с размерами видимой части головы (Hx, Hy) в пикселях. Такой
эллипс ε называется шаблоном и используется для дальнейшей локализации головы.
В целях поиска наилучших соответствий между шаблоном эллипса и частью
изображения, поиск проводится для каждого пикселя изображения с размерами mхn
по методу плавающего окна (скользящего окна). Соответствие оценивается по
формуле
1
2
3
𝑀𝑚,𝑛 = ∑∀(𝑢,𝑣)∈𝜀(𝐶𝑢,𝑣
+ 𝐶𝑢,𝑣
+ 𝐶𝑢,𝑣
),
(15)
1
𝐶𝑢,𝑣
: (𝜀𝑢,𝑣 = 𝑏𝑔) ∩ (𝐹𝑢,𝑣 = 𝑏𝑔),
(16)
2
𝐶𝑢,𝑣
: (𝜀𝑢,𝑣 = 𝑓𝑔) ∩ (𝐹𝑢,𝑣 = 𝑓𝑔) ∩ (|𝑑𝑢,𝑣 − 𝑑𝐻𝑖 | < 𝑑𝑚𝑎𝑥 ),
(17)
24
3
𝐶𝑢,𝑣
: (𝜀𝑢,𝑣 = 𝑏𝑔) ∩ (𝐹𝑢,𝑣 = 𝑓𝑔) ∩ (|𝑑𝑢,𝑣 − 𝑑𝐻𝑖 | > 𝑑𝑚𝑎𝑥 ).
(18)
Здесь bg означат задний план, а fg – передний, условия проверяются в каждом
положении пикселя шаблона (u,v) ϵ ε, который сам центрирован в точке (m,n). В том
случае, если условие удовлетворяется 𝐶 𝑘 = 1, иначе – 𝐶 𝑘 = 0.
Пиксель (m,n) с максимальной оценкой 𝑀𝐻 = max{𝑀𝑚,𝑛 } принимается за
наиболее вероятный центр расположения головы в сцене. Условия C2 и С3
обеспечивают устойчивость оценки к частичным перекрытиям.
Пример работы метода представлен на рис. 1.9.
Рис. 1.9. Локализация объектов в сцене на основе 2,5D данных [10]
Рассмотренный метод локализации [10], основан на предварительно
полученных
2,5D
данных
об
исследуемой
сцене,
на
точность
которых
накладываются определенные ограничения. С его помощью можно решать только те
задачи, в которых глубина объекта интереса в сцене значительно отличается от
глубины фона. Вместе с тем, при выполнении вышеуказанных условий, метод
показывает высокую скорость вычислений и устойчивость к зашумлениям.
1.6 Выбор способа обработки 3D сцен.
Как было показано в предыдущих разделах, существует множество
технических средств, упрощающих те или иные этапы локализации объектов в 3D.
Все они сильно ориентированы на решение конкретных задач и имеют серьезные
ограничения для универсального применения. Одним наиболее удобных и наименее
25
специализированных в использовании средств является сенсор Kinect, который
позволяет в режиме реального времени получать 2,5D карту глубины сцены, не
вдаваясь в детали реализации.
По вышеуказанным причинам было решено включить сенсор Kinect в состав
разрабатываемого АРМ как основное средство получения пространственной
информации о 3D сценах.
В разделе 1.7 рассмотрен пример применения устройства и выявлены
проблемы, которые при этом могут возникать.
1.7 Использование периферийного устройства Kinect.
Огромный успех сенсора Kinect от Microsoft обусловлен его низкой ценой
при возможности получать видеоинформацию и 2,5D карту глубины с хорошим
разрешением
(480х640
пикселей).
Популярность
сенсора,
кроме
прочего,
обоснована простотой получения карты глубины, не вдаваясь в детали реализации,
наличием удобных инструментов разработчика, скоростью работы устройства,
независимостью от
освещения.
Kinect
помогает
решать
множество
задач
компьютерного зрения, в которых требуется информация о пространственной
структуре сцены.
Для анализа потоковых данных сенсора было создано тестовое оконное
приложение на базе графической подсистемы WPF платформы .NET Framework.
Пользователь может подключаться к видеопотоку или динамической карте глубины,
делать снимки и обрабатывать их простым детектором.
В примерах на рис. 1.10 и 1.11 показаны результат работы детектора уголков
SUSAN (Smallest Univalue Segment Assimilating Nucleus, с англ. – наименьший
однородный сегмент, ассимилируемый ядром). В качестве альтернативы можно
использовать детектор уголков Харриса.
26
Рис. 1.10. Работа детектора уголков SUSAN из библиотеки Accord.NET на цветном
изображении
Рис. 1.11. Работа детектора уголков SUSAN из библиотеки Accord.NET на карте
глубины
27
Как можно заметить на рис. 1.11, большинство детектированных уголков на
карте глубины находятся на границе белых областей, в которых глубина не
определена. Это наглядно показывает, что в таком виде карта глубины не подходит
для решения задач, требующих применения дескрипторов, таких как распознавание
образов. Проблема и варианты ее решения подробно рассмотрены в разделе 1.8.
1.8 Восстановление карты глубины.
Нарушение целостности карты глубины - это одна из наиболее заметных
проблем для современных устройств, осуществляющих 3D оценку сцен методами
сопоставления. К ним можно отнести и сенсор Kinect. Такая неполнота
пространственных данных не влияет на качество игровых приложений, так как в них
не требуется высокая точность, но чистые измерения необходимы в более сложных
задачах, таких как восстановление 3D сцены, навигация зрячих роботов и пр.
Поэтому ошибки карты важно исключить перед ее применением и анализом. Сенсор
глубины Kinect представляет собой 3D сканер со структурированной подсветкой.
Измеренная глубина содержит включения
многократного
отражения
света,
неопределенных значений из-за
прозрачных
объектов
или
рассеяния
на
определенных поверхностях (таких как ткани, люди, волосы и т.п.). Появление
самых больших неопределенных регионов обычно связано с наличием областей, для
которых камера просто не в состоянии определить глубину. В основном такая
проблема порождается перекрытием объектов или их вогнутостью, но она также
может возникнуть на слишком однородных участках.
Современные варианты улучшения 2,5D карты можно условно разделить по
следующим признакам:
(1) работающие в режиме реального времени
- основанные на двунаправленной кросс-фильтрации,
- основанные на стандартной фильтрации.
(2) работающие долго
- учитывающие изменение карты глубины за определенное время на
видео и компенсирующие таким образом часть спеклов.
28
Выбор конкретного метода заполнения «дыр» зависит от целей и задач,
стоящих перед разработчиками, пока не предложено встроенного решения для
сенсора Kinect. Алгоритм двунаправленной кросс-фильтрации с учетом временных
изменений карты дает высокую точность, но требует временных и вычислительных
затрат и не может обрабатывать динамические сцены. Напротив, методы медианной
и быстрой маршевой фильтрации можно использовать в режиме реального времени,
однако точность восстановления карты будет ниже, чем в предыдущем алгоритме.
1.8.1 Эффективная стратегия заполнения пространственно-временных
отверстий в карте глубины сенсора Kinect.
В работе [11] рассматривается эффективная стратегия заполнения «дыр»,
которая позволяет улучшить качество карты глубины, полученной при помощи
устройства Kinect от Microsoft. Предложенный подход основан на совместной
двунаправленной
пространственной
фильтрации
и
(joint-bilateral
временной
filtering),
информацией.
которая
работает
Двунаправленные
с
фильтры
используются в тех задачах сглаживания, где нежелательно размытие границ и
углов, при этом они основываются на гауссовом ядре. Двунаправленный кроссфильтр (совместный двунаправленный фильтр) позволяет сглаживать одно
изображение по другому (например, имеется карта глубины и цветное изображение,
фильтр будет размывать на цветном изображении только те области, которые
принадлежат одной и той же глубине).
Потерянные значения глубины, полученной с сенсора, восстанавливаются
итеративным применением фильтра к соседним пикселям. Веса выбираются с
учетом трех факторов: визуальной информации, глубины и карты временного
постоянства
(temporal-consistency
map).
Видео
и
глубинная
информация
комбинируются для улучшения качества карты глубины в местах границ и
однородностях. Также карта «временного постоянства» генерируется для того,
чтобы отслеживать точность измеренной глубины в окрестностях «дыр».
Полученные значения глубины итеративно включаются в процесс фильтрации
последовательных кадров, и точность заполнения в карте глубины возрастает по
мере поступления новых снимков [11].
29
Двунаправленный фильтр является широко применимым фильтром, в
котором веса определяются как функция от фотометрического подобия соседних
пикселей: в таком приближении несхожие соседние пиксели не участвуют в
процессе фильтрации, и эффект размытия вблизи границ уменьшается. Свойства
двунаправленной фильтрации расширены в двунаправленном кросс-фильтре
(объединенном двунаправленном фильтре), где веса выбираются как функция от
особенностей отдельного ведущего изображения. Такой подход используется для
удаления шума на карте глубины по визуальной информации.
Заполнение «дыр» является сложной задачей, особенно для карт глубины,
порожденных стереосистемами, где проблема пересечения всегда создает области,
содержащие неопределенные значения глубины.
Пример поврежденной карты глубины можно наблюдать на рис. 1.12(б).
Видно, что наиболее весомые ошибки – это отсутствие данных в некоторых
областях (помечены красным цветом). Такие неизмеримые пиксели глубины (nomeasured pixels, далее по тексту – nmd) соответствуют вогнутостям элементов сцены
(например, пустые места между книгами на стеллаже), они также случайным
образом расположены на однородных поверхностях (например, на двери). Более
того, nmd пиксели присутствуют около границ объектов и соответствуют разрывам
карты глубины (например, вокруг коробки). Таким образом, можно говорить о
необходимости эффективной стратегия заполнения «дыр» (hole-filling)[11].
Кроме прочего карта нестабильна во времени, и nmd пиксели могут исчезать
и появляться в разных местах.
30
Рис. 1.12. Видеоданные (а) и соответствующая им карта глубины (б) [11]
Цель работы [11] – построить бесшумную стабильную карту глубины,
используя пространственную и временную информацию. Сначала появившиеся
кадры фильтруются для удаления пространственного шума при уточнении границ
объекта, а затем уже отфильтрованные изображения используются при итеративном
построении модели глубины сцены, что уменьшает временные флуктуации.
Наиболее подходящие значения глубины из модели используются для nmd
пикселей.
Веса в ядре двунаправленного фильтра рассчитываются как функция
фотометрического подобия между пикселями, где большие веса получают пиксели,
принадлежащие
схожим
регионам,
уменьшая
размывание
на
границах,
характеризуемых фотометрическими разрывами. Пусть Ip – интенсивность пикселя в
позиции p, а Ωp его окрестность. Значение интенсивности Jp после фильтрации
двунаправленным фильтром рассчитывается по формуле
𝐽𝑝 = 1⁄𝑘 𝑝 ∑𝑞∈Ω𝑝 𝐼 𝑝 𝑓(𝑝, 𝑞)𝑔(‖𝐼 𝑝 − 𝐼 𝑞 ‖)
(19)
где 𝑓(𝑝, 𝑞) – двумерное сглаживающее ядро, также называемое пространственным
членом (domain term), который учитывает геометрическую близость пикселей, а
𝑔(‖𝐼 𝑝 − 𝐼 𝑞 ‖) – это спектральный член (range term), который учитывает похожесть
интенсивности (или цвет, в случае RGB каналов), 𝑘 𝑝 – нормализующий
коэффициент.
Обычно
в обоих
членах
используются
Гауссовы
фильтры.
Модификация двунаправленного фильтра подразумевает применение члена g к
31
другому, ведущему, изображению. Такой подход называется объединенный
двунаправленный фильтр (двунаправленный кросс-фильтр).
Блок-схема предложенного [11] алгоритма представлена на рис. 1.13. Основа
фильтрации – анализ трех разных типов информации: карты глубины (D) и видео (I)
с устройства Kinect, а также информации, содержащейся в расчетной модели глубин
(Dm). В данном случае, модель глубин – это плотная карта глубины сцены, которая
циклически используется в процессе фильтрации. Модель связана с картой
согласованности Cmap, которая определяет надежность измерения глубины в модели:
чем больше значение, тем больше надежность.
В статье [11] предложена Cmap,
которая содержит оценки частоты измерений по отношению к числу обработанных
кадров. Карта согласованности и модель глубины гарантируют стабильность и
надежность окрестностей для оценки значений nmd пикселей, увеличивая точность
стратегии заполнения отверстий.
32
Kinect
Замещение
Обновление
nmd пикселей
модели
Фильтрация
Заполнение
данных
«дыр»
Рис. 1.13. Блок-схема алгоритма заполнения «дыр» на карте глубины [11]
Первый шаг предложенной стратегии – замена nmd пикселей. В D они
заменяются соответствующими значениями глубины из модели Dm. Замещение
происходит только в том случае, если значение Dm надежное (определяется по
значению в Cmap, которое должно быть больше определенного порога cth). Если Dm
содержит nmd пиксели, они замещаются пикселями из D. Карты глубины,
̂и𝐷
̂𝑚 .
полученные замещением nmd пикселей, обозначаются 𝐷
Второй шаг
нацелен на повышение точности карты глубины во всех
̂ . Объединенный двунаправленный фильтр используется
вычисленных пикселях 𝐷
для получения целостных значений глубины в окрестностях и уменьшения ошибки
̂ 𝑝 – это значение глубины в пикселе p , а Ωp – его
на границах объектов. Пусть 𝐷
33
𝑝
̂𝑓 определяется по
окрестность. После двунаправленной кросс-фильтрации пиксель 𝐷
формуле
𝑝
𝑞
̂𝑓𝑝 = 1⁄𝑘 𝑝 ∑𝑞∈Ω𝑝 𝐷
̂ 𝑝 𝑓(𝑝, 𝑞)𝑔(‖𝐷
̂𝑚
̂𝑚
𝐷
−𝐷
‖)ℎ(‖𝐼 𝑝 − 𝐼 𝑞 ‖)
(20)
𝑝
𝑞
̂𝑚
̂𝑚
где 𝑓(𝑝, 𝑞) – это пространственный член, 𝑔(‖𝐷
−𝐷
‖) – это спектральный член,
который определяет похожесть пикселей модели глубины, а ℎ(‖𝐼 𝑝 − 𝐼 𝑞 ‖) – это
другой спектральный член, который определяет похожесть пикселей карты
интенсивностей (или цветного изображения). Применение спектрального члена g к
модельной карте глубины улучшает результаты фильтрации, так как веса фильтра
̂𝑚 , а не текущей – 𝐷
̂ .
рассчитываются с учетом более точной карты глубины 𝐷
Кроме того, более эффективная фильтрация у границ объектов гарантируется
вторым спектральным членом h, который учитывает визуальную информацию:
неоднородности в визуальной области по соседству с неоднородностями глубины
помогают использовать в фильтре только те пиксели, которые, вероятно,
принадлежат одному и тому же объекту.
̂𝑓
Отфильтрованная карта глубины 𝐷
далее снова обрабатывается для
удаления nmd пикселей (если они все еще присутствуют) и замены их на
совместимые значения. Главная идея этого блока в том, чтобы получить глубину в
nmd пикселях путем применения объединенного двунаправленного фильтра, в
котором присутствует один спектральный член (вычисленный с учетом визуальной
информации I), так как подобие глубин, очевидно, не может быть вычислено. Такой
процесс фильтрации применяется ко всем nmd точкам, которые имеют в своей
окрестности достаточное число пикселей с надежным значением глубины. Для nmd
̂𝑓 их отфильтрованные значения получаются как
пикселей 𝐷
𝑝
𝐷𝑓
=
𝐻(𝐶𝑚𝑎𝑝 ,Ω𝑝 )
𝑘𝑝
̂ 𝑞 𝑓(𝑝, 𝑞)ℎ(‖𝐼 𝑝 − 𝐼 𝑞 ‖)
∑𝑞∈Ω𝑝 𝐷
(21)
где 𝐻(𝐶𝑚𝑎𝑝 , Ω𝑝 ) – это функция оценки надежности значений глубины в окрестности
Ω𝑝 , 𝑓(𝑝, 𝑞) и ℎ(‖𝐼 𝑝 − 𝐼 𝑞 ‖) – те же функции фильтра, что были рассмотрены ранее.
Преимущество такого подхода заключается в том, что nmd точки получают
значения, путем фильтрации окрестности, где веса фильтра вычисляются из
34
визуальной информации, исключая влияние пикселей, принадлежащих другим
объектам. В частности, авторы статьи [11] предполагают, что каждый объект
характеризуется пикселями одного и того же цвета и одинаковой глубины.
Следовательно, вычисление веса как показано в формуле (20), учитывает только те
пиксели Ω𝑝 , которые визуально коррелируют с nmd в точке p. Более того, только те
пиксели, которые гарантируют надежное значение глубины, будут участвовать в
фильтрации. Выражение для бинарной функции оценки необходимости фильтрации
пикселей
𝐻(𝐶𝑚𝑎𝑝 , Ω𝑝 ) = {
1 , если
𝑐𝑜𝑢𝑛𝑡[𝐶𝑚𝑎𝑝 (Ω𝑝 )>𝑐𝑡ℎ ]
𝐴𝑟𝑒𝑎(Ω𝑝 )
> 𝑡ℎ%
.
(22)
0 , в другом случае
Таким образом, только те nmd пиксели, которые имеют окрестность Ω𝑝 с
𝑝
достаточным числом надежных глубин, могут получить новое значение глубины 𝐷𝑓 .
Для заданной окрестности Ω𝑝 все q пиксели в 𝐶𝑚𝑎𝑝 , которые имеют значение
больше заданного порога 𝑐𝑡ℎ , включаются в процесс фильтрации. Затем оценивается
доля пикселей, отвечающих предыдущему условию, и если ее значение больше
порога 𝑡ℎ% , то mnd пиксель в позиции p фильтруется как показано в формуле (20) с
𝐻(𝐶𝑚𝑎𝑝 , Ω𝑝 ) = 1.
В завершении, Df используется для обновления модели Dm и матрицы 𝐶𝑚𝑎𝑝 .
Как
было
показано
ранее,
Dm
уменьшает
временные
флуктуации
измеренных/отфильтрованных значений глубины. Авторы [11] используют модель
текущего гауссова усреднения (Running Gaussian Average). В таком приближении,
каждый пиксель моделируется независимо как отельное распределение Гаусса с
учетом прошлых n значений пикселя. Накопленное усреднение вычисляется
итеративно для оценки среднего значения Гауссиана. В данном методе, для каждого
𝑝
нового отфильтрованного пикселя 𝐷𝑓 в позиции p, советующий пиксель в модели
глубин обновляется по формуле:
𝑝
𝑝
𝑝
𝐷𝑚 = 𝛼𝐷𝑓 + (1 − 𝛼)𝐷𝑚𝑂𝐿𝐷 ,
35
(23)
𝑝
где 𝐷𝑚𝑂𝐿𝐷 – это значение глубины модели на предыдущей итерации, 𝛼 – скорость
обновления, которая эмпирически подбирается для того, чтобы добиться хорошего
компромисса между стабильностью и быстрым обновлением.
Можно резюмировать, что предложенная стратегия имеет три фазы, что
гарантирует итеративное улучшение карты глубины и эффективно решает проблемы
nmd пикселей: улучшение точности карты глубины, заполнение дыр на основе
последовательного отбора окрестности и обновления модели. На первом шаге,
текущая карта глубины фильтруется, в соответствии с визуальными данными и
моделью Dm. Затем nmd пиксели, которые имеют надежную окрестность, могут быть
обработаны также по визуальной информации. Важно помнить о приближении
алгоритма, утверждающем, что
каждый объект характеризуется пикселями
одинакового цвета и одинаковой глубины. В последней фазе генерируется более
точная модель для применения на новой итерации.
Сравнительный анализ использования различных фильтров представлен на
рис. 1.14.
д)
в)
б)
Рис. 1.14. Улучшение карты глубины а) разными методами: б) – медианная
а)
фильтрация, в) – FMM алгоритм, г) – предложенный алгоритм заполнения
неоднородностей [11]
Здесь а) – медианный фильтр сопоставим по качеству фильтрации с
предложенной стратегией заполнения дыр, однако он все равно проигрывает из-за
36
потери информации (можно видеть, что козырек у объекта справа сохранился
только на последнем изображении).
1.8.2 Альтернативные методы.
У рассмотренного алгоритма есть один существенный недостаток – он не
подходит для применения в режиме реального времени, и для корректной работы
сцена должна быть статичной, что часто невозможно обеспечить. В таких случаях
приходится применять менее точные, но быстрые методы, такие как быстрый
маршевый метод (Fast Marching Method, FMM).
Алгоритм FMM задает маску на изображении, где пиксели, глубина которых
известна, помечаются нулями, а nmd включения получают метку ∞. Затем узкие
ленты пикселей между нулевыми и nmd
областями помещаются в кучу,
организованную по функции 𝐻(𝑝) = 𝑑(𝑝), где H – это упорядочивающая функция, а
d – это расстояние от пикселя до границы «дыры». На каждой итерации алгоритм
выбирает наименьшие неизвестные пиксели с вершины кучи, закрашивает их при
помощи аппроксимации градиента первого порядка и обновляет окрестность, по
возможности включая ее в кучу. Результирующая 𝐻(𝑝) функция показана на рис.
1.15(а).
Однако такой алгоритм назначает одинаковый приоритет для удаленных
пикселей фона и для пикселей переднего плана. Для исключения этой особенности
авторы работы [12] модифицировали упорядочивающую функцию
𝐻(𝑝) = 𝛼𝑑(𝑝) − (1 − 𝛼)𝑧(𝑝𝑛 ).
(24)
Здесь 𝑑(𝑝) – это расстояние до границы «дыры», 𝑧(𝑝𝑛 ) – глубина соседнего пикселя
(возможно неизвестная), 𝛼 – коэффициент в интервале [0, 1], который задается
пользователем и обозначает силу связи 𝑑(𝑝) и 𝑧(𝑝𝑛 ). В результате такой
модификации, пиксели, находящиеся дальше на изображении (с большими
значениями глубины), будут иметь меньший приоритет в куче. Это иллюстрирует
рис. 1.15(б)[12].
37
б)
а)
Рис. 1.15. Модель работы функции H: а) – стандартный FMM метод, б) –
улучшенный FMM [12]
Также
авторы
работы
[12]
предлагают
для
решения
проблемы
неопределенных глубин быстрый метод, основанный на медианной фильтрации.
Медианная фильтрация присваивает каждому пикселю среднее значение его
окрестности. В своем простейшем варианте такой метод сглаживает мерцание и
шум вокруг краев объектов на карте глубины, однако он слишком сильно смазывает
границы, что можно видеть на рис. 1.16(г). Поэтому была предложена [12]
модификация. Сначала из окрестности были исключены пиксели, находящиеся в
другой цветовой области и только затем взята медиана (рис. 1.16(д)). В данном
случае цветовая информация используется с учетом приближения, что пиксели,
находящиеся на одинаковой глубине имеют схожие цвета.
38
б)
а)
в)
г)
д)
Рис. 1.16. Альтернативные методы фильтрации карты глубины: а) – исходная карта,
б) – улучшенный FMM метод, в) – исходный FMM, г) – стандартная медианная
фильтрация, д) – улучшенная медианная фильтрация [12]
39
1.9 Актуальные подзадачи компьютерного зрения.
Разработанное АРМ служит для упрощения труда инженеров-разработчиков
и включает модули, решающие наиболее распространенные подзадачи анализа
образов и 3D сцен.
В данном разделе рассмотрены часто встречающиеся и актуальные подзадачи
компьютерного зрения, которые обычно входят в состав более сложных и
узкоспециализированных задач.
1.9.1 Задача сопоставления изображений.
Поиск соответствия между изображениями в двумерном пространстве
является широко распространенной задачей компьютерного зрения для приложений
картографии, панорамной съемки и медицины. Например, для «сшивания»
нескольких снимков рельефа необходимо совместить одинаковые части заданных
изображений, то есть найти такое геометрическое преобразование, которое
сопоставит пересекающиеся области изображений. В медицине часто требуется
сравнивать снимки человека, сделанные в разное время. Здесь для автоматического
выявления произошедших изменений требуется сначала исключить области,
оставшиеся
неизменными,
что
возможно
только
после
геометрического
совмещения исходных снимков.
Совмещением изображений называется такой процесс геометрического
преобразования точек двух изображений, в результате которого соответствующие
признаковые точки двух изображений получают одинаковые координаты. При этом
предполагается, что на двух изображения представлена одна и та же сцена, видимая
с близких точек наблюдения.
Одним
из
наиболее
часто
применяемых
преобразований
является
масштабирование. Однородное масштабирование одинаковым образом меняет
значения всех координат, т.е. одинаково изменяются размеры всех объектов.
Масштабирование является линейным преобразованием, поэтому его можно
представить в виде суммы слагаемых, описывающих применение масштабного
коэффициента к двум базисным векторам двумерного евклидова пространства.
Преобразование масштабирования общего вида описывается уравнением
40
𝑐𝑥
𝑥′
[ ] = [0
𝑦′
𝑐𝑥 𝑥
0 𝑥
[
]
=
[
]
𝑐𝑦 𝑦] ,
𝑐𝑦 𝑦
(25)
где 𝑐𝑥 и 𝑐𝑦 – масштабные коэффициенты по направлениям x и y.
Поворот является преобразованием на плоскости относительно точки.
Преобразование поворота двумерной точки относительно начала координат
записывается как
𝑥′
cos 𝜃
[ ]= [
𝑦′
sin 𝜃
𝑥 cos 𝜃 − 𝑦 sin 𝜃
− sin 𝜃 𝑥
] [𝑦] = [
].
𝑥 sin 𝜃 + 𝑦 cos 𝜃
cos 𝜃
(26)
Преобразование любого другого вектора можно представить в виде линейной
комбинации базисных векторов, при этом сохраняется длина и ортогональность
базисных векторов.
Перенос – это преобразование, эквивалентное замене начала координат. Он
не является линейным преобразованием, так как не отображает начало координат на
себя. Для матричного представления переноса и некоторых других операций можно
перейти к матрицам размерности 3 х 3. Соответственно, к двумерным координатам
точки требуется добавить еще одну координату, которая обычно выбирается равной
1,0.
Преобразование переноса можно представить в виде произведения матрицы
переноса и вектора-столбца с однородными координатами точки
𝑥 + 𝑥0
1 0 𝑥0 𝑥
𝑥′
[𝑦′] = [0 1 𝑦0 ] [𝑦] = [𝑦 + 𝑦0 ].
1
0 0 1 1
1
(27)
В результате преобразования точки [x, y] с использованием матрицы переноса D
получается точка [x', y'] = D(|x, y|) = [𝑥 + 𝑥0 , 𝑦 + 𝑦0 ].
Типичный пример использования вышеописанных преобразований показан
на рис. 1.17. Изображение I[r, c] получено с помощью камеры с квадратными
пикселями.
Оптическая ось камеры направлена перпендикулярно плоскости
рабочего пространства W[x, y]. Требуется получить формулу преобразования
пиксельных координат [r, c] в координаты [x, y], измеряемые, например, в
миллиметрах. Это преобразование может быть выражено с помощью комбинации
41
матриц поворота R, масштабирования S и переноса D. Искомое преобразование в
матричной форме
𝑥𝜔
1 0
𝑦
[ 𝜔 ] = [0 1
1
0 0
𝑥0 𝑠 0 0 cos 𝜃
𝑦0 ] [0 𝑠 0] [ sin 𝜃
0
1 0 0 1
− sin 𝜃
cos 𝜃
0
0 𝑥i
0] [𝑦i ].
1 1
(28)
Формула преобразования координат также может быть записана в виде
𝜔
𝑃𝑗 = 𝐷𝑥0,𝑦0 𝑆𝑠 𝑅𝜃 𝑖𝑃𝑗 .
(29)
Отображение пиксельных координат [x, y] на плоскости в рабочем
пространстве определяется четырьмя параметрами. Это угол поворота
𝜃,
масштабный коэффициент s для перехода от пиксельных единиц измерения к
миллиметрам,
и два параметра переноса
𝑥0 и 𝑦0 . Значения этих четырех
параметров можно вычислить по координатам двух управляющих точек 𝑃1 и 𝑃2 .
Управляющие
точки
соответствуют
некоторым
явно
заметным
и
легко
обнаружимым характерным признакам в рабочем пространстве. Например, при
обработке фотографий земной поверхности в качестве управляющих точек часто
выбираются пересечения дорог, углы зданий, резкие изгибы рек и т.п. Одна и та же
признаковая точка может быть представлена двумя (и более) различными
векторами.
Управляющими (особыми) точками называются явно различимые и легко
обнаружимые точки, используемые для установления известных соответствий
между различными координатными пространствами. Задача выделения особых
точек описана в разделе 1.9.2.
Если известны координаты точки 𝑃1 в обеих системах координат, то с
помощью матричного уравнения (28) можно записать два уравнения с четырьмя
неизвестными
𝑥𝜔 = 𝑥𝑖 𝑠 cos 𝜃 − 𝑦𝑖 𝑠 sin 𝜃 + 𝑥0 ,
(30)
𝑦𝜔 = 𝑥𝑖 𝑠 sin 𝜃 − 𝑦𝑖 𝑠 cos 𝜃 + 𝑦0 .
(31)
Точка 𝑃2 позволяет получить еще два уравнения. Для определения значений
четырех параметров формулы преобразования координат необходимо решить
полученную систему четырех уравнений.
42
Рис. 1.17. Изображение, полученное с помощью камеры с квадратными пикселями,
оптическая ось которой направлена перпендикулярно наблюдаемой плоскости в
рабочем пространстве [14]
Для извлечения из цифрового изображения фрагмента, имеющего форму
параллелограмма, достаточно указать три точки. Первая точка определяет начало
выходного изображения и одну из вершин параллелограмма, а вторая и третья точки
задают две вершины параллелограмма, смежные первой. Выходное изображение
выглядит
как
прямоугольный
пиксельный
массив
произвольного
размера,
заполненный выборочными значениями исходного изображения. Он содержит n x m
пикселей с координатами [r, c], для каждого из которых производится выборка
пикселя исходного изображения с координатами [x, y]. Координаты выборочного
пикселя вычисляются с помощью преобразования, которое в наглядном виде на
основе базисных векторов можно записать как
𝑥
𝑥0
𝑥1
𝑥0
𝑥2
𝑥0
𝑟
𝑐
[𝑦] = [𝑦 ] + ([𝑦 ] − [𝑦 ]) + ([𝑦 ] − [𝑦 ]),
𝑛
𝑚
0
1
0
2
0
или в общем виде
43
(32)
𝑥
(𝑥1 − 𝑥0 )/𝑛
[𝑦] = [(𝑦1 − 𝑦0 )/𝑛
1
0
(𝑥2 − 𝑥0 )/𝑚
(𝑦2 − 𝑦0 )/𝑚
0
𝑥0 𝑟
𝑦0 ] [𝑐 ].
1 1
(33)
Рассмотрим пример вычисления преобразования для сопоставления модели
объекта, показанной на рис. 1.18 (слева), и объекта на рис. 1.18 (справа).
Рис. 1.18. Модель объекта (слева) и три отверстия, обнаруженные на изображении
(справа) [14]
Будем полагать, что в результате выделения характерных признаков были
обнаружены
только
центры
трех
отверстий
объекта.
Пространственное
преобразование должно отображать модельные точки [x, y] на точки изображения
[u, v]. Допустим, что изображения формируются в контролируемой среде и нам
известен масштабный коэффициент. Также будем считать, что к пиксельным
координатам уже было применено преобразование масштабирования и в результате
были получены координаты u-v.
Для получения параметров поворота и переноса, совмещающих все
модельные точки с соответствующими точками изображения, достаточно знать две
точки изображения. Для вычисления параметров преобразования принимается
гипотеза о соответствии пар точек (A, H2) и (B, H3). Эта гипотеза согласуется с
известными расстояниями между точками.
При
вычислении
параметров
преобразования
по
различным
соответствующих точек будут получаться немного отличающиеся значения.
44
парам
После определения параметров пространственного преобразования можно
вычислять координаты любых модельных точек на плоскости изображения.
Распознаванием посредством совмещения называется метод распознавания
объекта, в котором с помощью преобразований поворота, масштабирования и
переноса выполняется сопоставление преобразованных характеристик признаков
модели с признаками изображения.
Преобразование плоскости называется аффинным, если оно взаимно
однозначно и образом любой прямой является прямая. Преобразование называется
взаимно однозначным, если оно переводит разные точки в разные, и в каждую точку
переходит какая-либо точка [13].
Выше
были
рассмотрены
частные
виды
двумерных
аффинных
преобразований – поворот, масштабирование и перенос. В общем виде любое
аффинное преобразование можно представить в виде композиции преобразований
пяти видов – поворотов, масштабирований, переносов, сдвигов и симметрий.
Каждое из этих преобразований имеет обратное преобразование того же типа.
Очевидно, что матрица аффинного преобразования общего вида, которую можно
записать в виде композиции перечисленных преобразований, содержит 6
параметров. Аффинное преобразование общего вида записывается как
𝑎11 𝑎12 𝑎13 𝑢
𝑥
[𝑦] = [𝑎21 𝑎22 𝑎23 ] [𝑣 ].
1
0
0
1 1
(34)
Шесть параметров преобразования могут быть определены по трем параметрам
соответствующих неколлинеарных точек. Для этого надо решить систему из шести
линейных уравнений, которая получается путем записи матричного уравнения (34)
для каждой пары точек.
Ошибка при определении координат любой из этих трех точек приводит к
существенным ошибкам в значениях параметров преобразования. Более надежный
подход состоит в вычислении значений шести параметров преобразования методом
наименьших квадратов с использованием большого количества пар сопоставленных
управляющих точек. Функция ошибки определяется как
45
2
𝜀(𝑎11 , 𝑎12 , 𝑎13 , 𝑎21 , 𝑎22 , 𝑎23 ) = ∑𝑛𝑗=1 ((𝑎11 𝑥𝑗 + 𝑎12 𝑦j + 𝑎13 − 𝑢j ) + (𝑎21 𝑥j +
2
𝑎22 𝑦j + 𝑎23 − 𝑣j ) ).
(35)
Обычно при определении соответствия между изображением и картой или
между двумя изображениями используется большое количество управляющих
точек. Они соответствуют углам объектов, которые уникальным образом
обнаруживаются на обоих изображениях [14]. Более подробно задача сопоставления
особых точек рассмотрена в разделе 1.9.3.
1.9.2 Задача выделения особых точек на изображении.
На данный момент нет универсального алгоритма решающего задачу
выделения особых точек на изображении, пригодных для задач сопоставления. Это
связано с тем, что при съемке сцены изображения ее точек подвергаются различным
искажениям, таким как проективные преобразования, связанные с перемещением
камеры либо объектов сцены, изменения освещенности сцены и т.д. Ниже будут
описаны некоторые принципы построения алгоритмов выделения точечных
особенностей, инвариантных к изменению масштаба, повороту и изменению
освещенности сцены.
Особой точкой m называется такая точка изображения, окрестность которой
O(m) можно отличить от окрестности любой другой точки изображения O(n) в
некоторой другой окрестности особой точки O2(m) [15].
1.9.2.1 Детектор Харриса.
Детектор Харриса направлен на поиск особых точек в виде уголков. Уголки
выбраны не случайно. Они представляют собой пересечение двух граней, которые
меняют направление, на стыке. Таким образом, направление градиента в области
особой точки тоже серьезно меняется, что может быть использовано для ее
обнаружения.
Основную идею детектора Харриса можно показать на примере рис. 1.19.
При перемещении по изображению некоторого окна в случаях а) и б) можно найти
хотя бы одно направление, при движении по которому, градиент внутри окна не
46
будет меняться. И только в случае размещения окна на уголке в),
любое его
смещение повлечет серьезное изменение градиентов внутри [16].
а)
в)
б)
Рис. 1.19. Принцип работы детектора Харриса: а) перемещение окна вне уголка в
любом направлении не влечет изменений интенсивности, б) перемещение окна
вдоль грани не дает изменение интенсивности, в) перемещение окна в любом
направлении влечет изменение интенсивности [16]
Формально поиск изменений градиента осуществляется на изображении I в
градациях серого. Для оценки изменения интенсивности (формула (36)) по
изображению I последовательно перемещается окно w(x, y) (с шагом u и v в
направлениях x и y соответственно).
𝐸(𝑢, 𝑣) = ∑𝑥,𝑦 𝑤(𝑥, 𝑦)[𝐼(𝑥 + 𝑢, 𝑦 + 𝑣) − 𝐼(𝑥, 𝑦)]2 ,
(36)
где 𝑤(𝑥, 𝑦) – функция окна (распределение Гаусса или единичный импульс для
вычисления взвешенной суммы) в позиции (x, y), 𝐼(𝑥, 𝑦) – интенсивность в позиции
(x, y), 𝐼(𝑥 + 𝑢, 𝑦 + 𝑣) – интенсивность в смещенном окне (𝑥 + 𝑢, 𝑦 + 𝑣).
Окна,
содержащие
уголки,
характеризуются
сильным
изменением
интенсивности при смещении в любую сторону. Таким образом, для их поиска
требуется максимизировать функцию (36), а именно ее часть
∑𝑥,𝑦[𝐼(𝑥 + 𝑢, 𝑦 + 𝑣) − 𝐼(𝑥, 𝑦)]2 .
(37)
Применив разложение Тейлора к члену 𝐼(𝑥 + 𝑢, 𝑦 + 𝑣) можно получить
𝐸(𝑢, 𝑣) ≈ ∑𝑥,𝑦[𝐼(𝑥, 𝑦) + 𝑢𝐼𝑥 + 𝑣𝐼𝑦 − 𝐼(𝑥, 𝑦)]2 = ∑𝑥,𝑦 𝑢2 𝐼𝑥2 + 2𝑢𝑣𝐼𝑥 𝐼𝑦 + 𝑣 2 𝐼𝑦2 . (38)
Выражение (38) можно также записать в матричном виде
47
𝐼𝑥2
𝑣] (∑𝑥,𝑦 𝑤(𝑢, 𝑣) [
𝐼𝑥 𝐼𝑦
𝐸(𝑢, 𝑣) ≈ [𝑢
𝐼𝑥 𝐼𝑦
𝑢
2 ]) [𝑣 ].
𝐼𝑦
(39)
Обозначим часть выражения как
𝐼𝑥2
𝑀 = ∑𝑥,𝑦 𝑤(𝑢, 𝑣) [
𝐼𝑥 𝐼𝑦
𝐼𝑥 𝐼𝑦
],
𝐼𝑦2
(40)
тогда
𝐸(𝑢, 𝑣) ≈ [𝑢
𝑢
𝑣]𝑀 [ ].
𝑣
(41)
Для каждого окна вычисляется оценка вероятности нахождения в нем уголка
𝑅 = det(𝑀) − 𝑘(trace(𝑀))2 ,
(42)
где det(𝑀) = 𝜆1 ∙ 𝜆2 – определитель матрицы M, а trace(𝑀) = 𝜆1 + 𝜆2 – ранг
матрицы M. Окно с оценкой R выше установленного порога полагается содержащим
уголок [17].
Данный дескриптор крайне неустойчив к любым видам искажения
изображения особых точек. Например, при повороте камеры изображения
окрестностей
особых
точек
изменяются
настолько
сильно,
что
алгоритм
сопоставления практически не дает верных соответствий. Аналогичная ситуация
наблюдается и с изменением масштаба изображения. Единственный вид искажений,
который не влияет на выделенные особенности - изменения освещенности (для
этого надо проводить нормировку окрестностей особенностей).
Указанные причины делают практически невозможным применение данного
алгоритма на практике при наличии таких искажений как изменение масштаба и
поворот.
Для того чтобы решить проблему изменения масштаба применяются т.н.
scale-space детекторы особенностей. Такие детекторы помимо пространственного
положения оценивают также локальный масштаб особенностей, который отражает
"размер" особенности на изображении. Одним из самых популярных детекторов
является SURF детектор.
48
1.9.2.2 SURF детектор особенностей.
SURF (Speeded-Up Robust Features – с англ. ускоренные устойчивые
особенности) – это устойчивый детектор локальных особенностей, впервые
представленный Гербертом Бэйем и соавторами в 2006 году. SURF был частично
вдохновлен SIFT (Scale-Invariant Feature Transform) дескриптором. Стандартная
версия SURF в несколько раз быстрее, чем SIFT и, по словам авторов, более
устойчива.
SURF решает две задачи – поиск особых точек изображения и создание их
дескрипторов, инвариантных к масштабу и повороту. Кроме того, сам поиск
ключевых точек тоже обладает инвариантностью. Так, что повернутый объект
сцены имеет тот же набор ключевых точек, что и образец.
Поиск особых точек проводится с использованием матрицы Гессе.
Детерминант матрицы Гессе (т.н. гессиан) достигает экстремума в точках
максимального изменения градиента яркости. Он хорошо детектирует пятна, углы и
края линий.
Гессиан инвариантен относительно вращения, но не инвариантен масштабу,
поэтому SURF использует разномасштабные фильтры для нахождения гессианов.
Для каждой предположительно ключевой точки вычисляется направление
градиента яркости с помощью фильтра Хаара и масштаб, взятый из масштабного
коэффициента матрицы Гессе. После нахождения ключевых точек, SURF формирует
их дескрипторы. Дескриптор представляет собой набор из 64(либо 128) чисел для
каждой ключевой точки. Эти числа отображают флуктуации градиента. Поскольку
ключевая точка представляет собой максимум гессиана, то это гарантирует, что в
окрестности точки должны быть участки с разными градиентами. Таким образом,
обеспечивается дисперсия (различие) дескрипторов для разных ключевых точек.
Флуктуации градиента рассчитываются по всем направлениям в окрестности
ключевой точки. Таким образом, достигается инвариантность дескриптора
относительно вращения. Размер же области, на которой вычисляется дескриптор,
определяется масштабом матрицы Гессе, что обеспечивает инвариантность
относительно масштаба.
49
Для эффективного вычисления фильтров Гессе и Хаара – используется
интегральное представление изображений. Его можно записать в виде матрицы,
размерность которой совпадает с размерностью исходного изображения, а элементы
рассчитываются по формуле
𝑖≤𝑥,𝑗≤𝑦
𝐼𝐼(𝑥, 𝑦) = ∑𝑖=0,𝑗=0 𝐼(𝑖, 𝑗),
(43)
где 𝐼(𝑖, 𝑗) – яркость пикселей исходного изображения. Расчет матрицы занимает
линейное время, пропорциональное числу пикселей в изображении.
Имея интегральную матрицу можно очень быстро вычислять сумму яркостей
пикселей произвольных прямоугольных областей изображения, по формуле
𝑆𝑢𝑚𝑂𝑓𝑅𝑒𝑐𝑡(𝐴𝐵𝐶𝐷) = 𝐼𝐼(𝐴) + 𝐼𝐼(𝐶) − 𝐼𝐼(𝐵) − 𝐼𝐼(𝐷),
(44)
где АВСВ – прямоугольник интереса.
Обнаружение особых точек в SURF основано на вычислении детерминанта
матрицы Гессе (гессиана). Для двумерной функции матрица и ее детерминант
определяется следующим образом
𝜕2 𝑓
𝜕2 𝑓
𝜕𝑥 2
𝜕𝑥𝜕𝑦
𝜕𝑥𝜕𝑦
𝜕2 𝑓
𝜕𝑦2
𝐻(𝑓(𝑥, 𝑦)) = [ 𝜕2𝑓
𝑑𝑒𝑡(𝐻) =
𝜕2 𝑓 𝜕2 𝑓
𝜕𝑥 2 𝜕𝑦 2
𝜕2 𝑓
],
(45)
2
− (
) .
𝜕𝑥𝜕𝑦
(46)
Значение гессиана используется для нахождения локального минимума или
максимума яркости изображения. В этих точках значение гессиана достигает
экстремума.
Теоретически,
вычисление
матрицы
Гессе
сводится
к
нахождению
Лапласиана Гауссиана. Элементы матрицы Гессе вычисляются как свертка (сумма
произведений) пикселов изображения на фильтры, изображенные на рис. 1.20.
50
Рис. 1.20. Дискретизированные фильтры для нахождения четырех элементов
матрицы Гессе (четвертый совпадает с третьим, поскольку матрица Гессе
симметрична) [18]
Однако SURF не использует Лапласиан Гауссиана в таком виде. Во-первых,
по утверждению авторов алгоритма, дискретизированный Лапласиан Гауссиана
имеет довольно большой разброс значения детерминанта, при вращении образца,
особенно при повороте на 45° . Во-вторых, и это главное, фильтр для Лапласиана
Гауссиана имеет непрерывный характер. Почти все пиксели фильтра имеют разные
величины яркости, что не позволяет эффективно использовать такой мощный
механизм расчёта, как интегральную матрицу изображения. Поэтому SURF
использует бинаризированную аппроксимацию Лапласиана Гауссиана (FastHessian), представленную на рис. 1.21.
Рис. 1.21. Фильтры, используемые для нахождения матрицы Гессе в SURF [18]
Этот фильтр более устойчив к вращению, и его можно эффективно вычислить с
помощью интегральной матрицы. Таким образом, в SURF, гессиан вычисляется как
2
𝑑𝑒𝑡(𝐻𝑎𝑝𝑝𝑟𝑜𝑥 ) = 𝐷𝑥𝑥 𝐷𝑦𝑦 − (0,9𝐷𝑥𝑦 ) ,
где 𝐷𝑥𝑥 , 𝐷𝑦𝑦 , 𝐷𝑥𝑦 – свертки по фильтрам, изображенным на рисунке унок 1.21.
51
(47)
Так как гессиан является производной, и зависит только от перепада яркости,
то он инвариантен по отношению к сдвигу яркости изображения. Таким образом,
изменение уровня освещения образца не влияет на обнаружение ключевых точек.
Как уже отмечалось, гессиан не инвариантен относительно масштаба. Эта
проблема решается перебором масштабов фильтров и поочередным их применением
к заданному пикселю.
SURF разбивает все множество масштабов на так называемые октавы. Они
значительно перекрываются друг с другом, что увеличивает надежность нахождения
локальных максимумов. При этом каждая октава содержит четыре фильтра, которые
покрывают характерный масштаб октавы.
В реальных изображениях основная масса масштабов сосредоточена в
интервале от 1 до 10 (по данным авторов метода). Для покрытия такого диапазона
достаточно четырех октав, но при необходимости можно ввести дополнительные.
Для
нахождения
локального
максимума
гессиана, используется
так
называемый метод соседних точек 3x3x3. Его суть можно понять по рис. 1.22:
пиксель, помеченный крестиком, считается локальным максимумом, если его
гессиан больше чем у любого из соседних пикселей в его масштабе, а также больше
масштаб
любого из соседей масштабом меньше и масштабом больше (всего 26 соседей).
Рис. 1.22. Нахождение локального максимума гессиана: пиксель, помеченный
крестиком, считается локальным максимумом, так как его гессиан больше, чем у
всех пикселей, помеченных кругами [18]
52
Фильтры октавы считаются не для каждого пикселя изображения. Первая
октава считается для каждого второго пикселя, вторая – для каждого четвертого,
третья – для каждого восьмого и т.д. Причина такой избирательности в том, что две
точки, расположенные на расстоянии n, не могут содержать более одного
максимума масштаба больше или равного n, поэтому нет смысла перебирать все
точки изображения.
Удвоение шага пикселей для октав позволяет снизить время расчёта
фильтров. Кроме того, размеры фильтров в октавах повторяются из-за перекрытия,
но рассчитываются все фильтры единожды. Результаты расчета предыдущих октав
используются в последующих.
Так как октава перебирает не все точки изображения, то истинный максимум
может не совпадать с найденным пикселем, а лежать где-то в его окрестности. Для
нахождения
точки
истинного
максимума
используется
интерполирование
найденных гессианов куба 3x3x3 квадратичной функцией. Далее в точке
вычисляется производная (методом конечных разностей) и если она близка к нулю –
истинный максимум найден, в ином случае поиск сдвигается в сторону ее
уменьшения. Итерации повторяются до тех пор, пока производная не станет меньше
заданного порога. Если в процессе итераций поиск смещается от начальной точки
слишком далеко, то точка принимается ложным максимумом и больше не считается
особой.
Для инвариантности вычисления дескриптора особой точки требуется
определить в ней преобладающую ориентацию. Это понятие близко к понятию
градиента, но SURF использует немного другой алгоритм нахождения вектора
ориентации.
Сначала, вычисляются точечные градиенты в пикселях окрестности особой
точкой. Окрестность представляет собой окружность радиуса r = 6s вокруг особой
точки, где s – это масштаб особой точки (для первой октавы r = 6s = 12). Для
вычисления градиента, используется фильтр Хаара, размер фильтра полагается
равным 4s. Вид фильтров Хаара показан на рисунке унок 1.23. Здесь черные области
имеют значения -1, а белые +1.
53
Рис. 1.23. Фильтры Хаара [18]
Значения вейвлета Хаара dX и dY для каждой точки умножаются на вес и
запоминаются в массиве. Вес определяется как значение Гауссиана с центром в
особой точке и 𝜎 = 2𝑠. Гауссиан используется для отсечения случайных помех на
далеких от особой точки расстояниях.
Далее, все найденные значения dX и dY, условно наносятся в виде точек на
плоскость, как показано на рис. 1.24, и угловое окно (показано серым на рисунке)
размером π/3 вращается вокруг центра координат. Выбирается такое положение
окна, при котором длина суммарного вектора для попавших в окно точек –
максимальна. Вычисленный таким образом вектор нормируется и принимается как
приоритетное направление в области особой точки.
Рис. 1.24. Расположение найденных градиентов в виде
точек в пространстве dXdY [18]
Однако не всегда требуется инвариантность дескрипторов относительно
вращения. Метод SURF имеет модификацию, в которой ориентация особых точек не
54
рассчитывается. Такая модификация позволяет надежно идентифицировать точки,
повернутые не более чем на ±15 градусов.
Дескриптор представляют собой массив из 64 (в расширенной версии 128)
чисел, позволяющих идентифицировать особую точку. Дескрипторы одной и той же
особой точки на образце и на сцене должны примерно совпадать. Метод расчета
дескриптора таков, что он не зависит от вращения и масштаба.
Для вычисления дескриптора вокруг особой точки формируется квадратная
область, имеющая размер 20s, где s – масштаб в котором была найдена особая точка.
Для первой октавы, область имеет размер 40x40 пикселей. Квадрат ориентируется
вдоль
приоритетного
направления,
вычисленного
для
особой
точки.
Дескриптор представляет собой описание градиента для 16 квадрантов вокруг
особой точки.
Рис. 1.25. Подобласть SURF дескриптора особой точки [18]
Далее, квадрат разбивается на 16 более мелких квадрантов, как показано на
рис. 1.25. В каждом квадранте берется регулярная сетка 5x5 и для точки сетки
ищется градиент, с помощью фильтра Хаара. Размер фильтра Хаара берется равным
2s, и для первой октавы составляет 4x4.
Следует отметить, что при расчёте фильтра Хаара, изображение не
поворачивается, фильтр считается в обычных координатах изображения. А вот
55
полученные
координаты
градиента
(dX,dY)
поворачиваются
на
угол,
соответствующий ориентации квадрата.
После нахождения 25 точечных градиентов квадранта, вычисляются четыре
величины, которые собственно и являются компонентами дескриптора: ∑dX, ∑dY,
∑|dX|, ∑|dY| – это суммарный градиент по квадранту и сумма модулей точечных
градиентов соответственно.
Рис. 1.26. Поведение SURF дескриптора для разных изображений [18]
Четыре компонента на каждый квадрант и 16 квадрантов дают 64 компонента
дескриптора для всей области особой точки. При занесении в массив, значения
дескрипторов взвешиваются гауссианом с центром в особой точке и 𝜎 = 3,3𝑠. Это
обеспечивает большую устойчивость дескриптора к шумам в удаленных от особой
точки областях. В дополнение к дескриптору обычно используется знак следа
матрицы Гессе, то есть величина sign(Dxx + Dyy). Для светлых точек на темном фоне
след отрицателен, а для темных точек на светлом фоне – положителен. Так SURF
различает светлые и темные пятна [18].
1.9.3 Задача сопоставления особых точек.
Очень часто при решении различных задач обработки данных приходится
сталкиваться с необходимостью оценивать параметры модели, которой должны
удовлетворять имеющиеся исходные данные. В реальной жизни исходные данные
56
часто зашумлены и среди них могут встречаться ложные, совершенно случайные
значения. В таком случае определение параметров модели является нетривиальной
задачей.
Для
задачи
преобразование,
сопоставления
которое
изображений
необходимо
модель
применить
к
–
это
первому
аффинное
заданному
изображению, чтобы получить второе заданное, а исходные данные – это особые
точки входных изображений.
Основная проблема заключается в самом принципе работы стандартных
алгоритмов по вычислению параметров модели. В них зашумленность исходных
данных обязательно сказывается на точности выходной модели. Даже если все
данные изначально были верными (т.е. все должны были удовлетворять одной и той
же модели – по англ. inliers), то из-за ошибок в определении модели часть исходных
данных может вообще перестать удовлетворять модели, и данные будут признаны
ложными (станут выбросами – outliers). Суть проблемы заключается в том, что
невозможно заранее определить, каким исходным данным можно доверять, а какие
являются
случайными
выбросами.
Также
невозможно
отделить
сильно
зашумленные данные от слабо зашумленных.
Решением проблемы может быть использование схемы определения модели,
которая была бы более-менее устойчива к зашумленности исходных данных и к
наличию среди правильных значительного количества ложных данных. Такие схемы
называются методами устойчивой оценки параметров модели (robust estimators) или
"устойчивыми оценщиками". Самым известным подходом к созданию устойчивых
оценщиков является использование случайных выборок подмножеств данных из
всего набора исходных данных.
1.9.3.1 Постановка задачи выбора лучших параметров модели.
Пусть имеется набор T исходных данных, состоящий из N элементов.
Известно, что большинство его элементов должно удовлетворять некоторой
параметрической модели Model(P) с параметрами P, причем количество параметров
|P| = p. Имеется алгоритм, позволяющий вычислить параметры модели P по набору
данных из k элементов. Необходимо вычислить значения параметров 𝑃̂ такие,
57
чтобы набор исходных данных T удовлетворял модели Model(𝑃̂) наилучшим
образом.
Понятия
«удовлетворять
модели»
и
«наилучшим
образом»
могут
определяться по-разному, что приводит к различиям в постановках задачи, а значит
и в алгоритмах оценки.
Элемент, удовлетворяющий данной модели M(P) называется inlier для
данной модели. Элемент, который не удовлетворяет данной модели M(P) называется
outlier(выброс) для данной модели.
Поскольку нам известно, что исходные данные удовлетворяют некоторой
искомой модели, разделим все элементы исходных данных на inlier и outlier. Если
отдельно не указано, относительно какой модели определяется inlier/outlier, то
подразумевается, что относительно искомой.
Важно учитывать общее ограничение на исходные данные: если количество
outlier слишком велико, то даже искомая модель будет плохо соответствовать
исходным данным. Результатом устойчивой оценки в этом случае может быть
признана модель, которая наилучшим образом удовлетворяет всем элементам, и
inlier и outlier, а значит, которая может быть далека от искомой [19].
1.9.3.2 Случайный перебор подмножеств исходных данных.
Количество исходных данных всегда ограничено. Поэтому получить решение
можно и простым (dumb) перебором всех подмножеств из k элементов для T,
вычислением на каждом из них модели, и последующей проверкой всех полученных
моделей на всем T. Но количество вариантов подмножеств оказывается
астрономически большим, поэтому результата придется ждать очень долго.
Менее затратным будет не полный, а случайный перебор исходных данных.
Если отделить inlier от outlier невозможно, то все элементы с точки зрения
алгоритма одинаковы – они могут быть с некоторой вероятностью как inlier, так и
outlier. А значит, при выборе случайным образом k элементов из исходных, и
вычислении на них модели, с некоторой вероятностью она может быть близка к
исходной, а значит, может быть решением задачи. Если задавать такие случайные
58
наборы не один, а несколько раз, то есть вероятность, что среди построенных
моделей попадется близкая исходной. Если известно примерное содержание outlier
во входных данных, то можно вычислить вероятность, с которой один из случайных
наборов M даст искомую модель.
Первым и самым широко известным алгоритмом устойчивой оценки, в
котором была реализована эта идея, стал RANSAC (Random Sample Consensus),
предложенный в 1981 году Фишлером и Боллесом.
RANSAC широко применяется в задачах обработки данных, в том числе в
компьютерном зрении.
В последние несколько лет были созданы его модификаций, которые, как
утверждается, в значительной степени устраняют недостатки RANSAC и позволяют
решать задачу поиска устойчивой оценки быстрее и эффективнее.
В методе RANSAC реализована самая общая схема устойчивой оценки с
помощью выбора случайных подмножеств данных. Она очень проста и элегантна.
Выбирается подмножество K из k элементов для T. На нем вычисляется модель
M(P(K)). Далее осуществляется проверка всех элементов T на соответствие модели
M(P(K)). Определяется количество inlier в T для данной модели. Весь процесс
повторяется заданное количество раз. Та модель, которой соответствует наибольшее
число inlier и будет результатом работы алгоритма.
Каждый
элемент
очередного
подмножества
выбирается
с
равной
вероятностью. Количество подмножеств, которые необходимо попробовать, можно
вычислить следующим по формуле
Г = 1 − (1 − (1 − 𝜀)𝑘 )𝑚 ,
(48)
где Г – требуемая вероятность выбора хорошего подмножества за время работы; k –
количество элементов в наборе, необходимое для вычисления модели; 𝜀 – процент
выбросов в наборе Т; m – количество проверяемых подмножеств.
При увеличении количества выбросов в наборе T выше 50% необходимое
число подмножеств резко возрастает. Если для k = 7, 𝜀 = 50%, Г = 95% необходимо
выбрать 382 подмножеств, но для 𝜀 = 60% уже 1827, а для 𝜀 = 70% больше 13500.
59
Оценка, является или нет данный элемент исходных данных inlier,
производится следующим образом. Если ошибка соответствия элемента модели
превышает некоторый порог, то этот элемент признается outlier. Метод, по
которому вычисляется ошибка соответствия элемента модели, выбирается отдельно
для каждой конкретной задачи.
Алгоритм RANSAC записывается в следующем виде:
Шаг 1: Для заданных k, 𝜀, Г повторить m раз
Шаг 1.1: Выбрать подмножество из k элементов, каждый элемент с
одинаковой вероятностью
Шаг 1.2: Вычислить параметры модели для текущего подмножества
Шаг 1.3: Определить количество inlier
Шаг 2: Выбрать решение с максимальным количеством inlier
Результат работы схемы RANSAC признается приближением исходной
модели, и все inlier, удовлетворяющие ей, признаются inlier исходной модели.
Параметры модели - решения, выданные RANSAC, теперь могут быть уточнены с
использованием всех определенных inlier.
Общую схему производных от RANSAC алгоритмов можно представить,
если сформулировать работу RANSAC в более общем виде:
Шаг 1: Повторить m раз
Шаг 1.1: Выбрать подмножество из k элементов
Шаг 1.2: Вычислить параметры модели для текущего подмножества
Шаг 1.3: Определить соответствие T модели
Шаг 2: Выбрать лучшую модель из вычисленных
В схеме выделяются два отдельных алгоритма, в которые в основном и
вносятся модификации при создании усовершенствованных, RANSAC-подобных
методов:
- выбор подмножества,
60
- определение соответствия модели исходным данным.
В стандартном RANSAC k элементов подмножеств выбираются с одинаковой
вероятностью из всего множества. Степень соответствия модели и данных
определяется по количеству inlier [19].
1.9.4 Задача отслеживания объектов.
Отслеживание перемещения (трекинг) различных частей тела является
ключевой задачей для многих систем распознавания. Пользователи таких систем
получают визуальный отклик в ответ на определенные жесты. Трекинг тела
предоставляет пространственно-временную информацию, такую как траектории
движения точек интереса или углы соединения на модели тела. Эти данные могут
быть
использованы
на
этапе
классификации
жестов,
расширяя
входную
информацию для классификатора, что ведет к более устойчивой его работе.
Классически,
использованием
решения
одной
задачи
камеры
и
с
трекинга
делятся
использованием
на
два
нескольких.
вида:
с
Методы
распознавания в первом случае хорошо развиты и обобщены для фиксации
различных видов движения, сцен и точек обзора. Системы, основанные на
нескольких камерах (мультикамерах), часто дают гораздо более точные результаты,
но плохо портируются и требуют существенных вычислительных затрат [10].
В обоих случаях необходимы технологии, которые позволили бы извлекать
из видеопоследовательностей некоторую, пускай неполную, но осмысленную и
достаточно просто структурированную информацию об объектах сцены и их
динамике.
Одной из таких технологий является слежение за точечными особенностями
в потоке изображений [20]. Этот подход обычно применяется с одной камерой,
когда отсутствует информация о глубине сцены или ее сложно получить. Точка
может рассматриваться как элемент дискретного представления некоторой функции.
При выделении в сцене некоторого количества "особых" точек и определении их
положения на каждом кадре, полученные данные могут служить источником
информации о структуре сцены, а также о параметрах камеры, с которой были
получены изображения.
61
В
случаях
съемки
несколькими
камерами
или
при
использовании
дополнительных сенсоров можно получить информацию о глубине сцены, что
существенно упрощает трекинг объектов. Здесь нет необходимости отслеживать
отдельно особые точки, и определять к каким объектам они относятся. Можно
применить сегментацию по глубине и сразу выделить целые элементы сцены,
находящиеся на определенном расстоянии от камеры.
1.9.5 Задача поиска дефектов материала.
Как уже отмечалось ранее, параллельно с выполнением дипломной работы
решалась
задача
компьютерного
анализа
зрения.
дефектов
Современное
на
поверхности
повышение
металла
требований
к
методами
качеству
поверхности материалов на производстве делает эту задачу чрезвычайно
актуальной. Поэтому было принято решение включить дополнительный модуль для
исследования
материалов на предмет обнаружения повреждений в АРМ,
разрабатываемый в рамках дипломного проекта.
В данном разделе описана природа часто встречающихся коррозийных
повреждений металла, на которых тестировался разработанный детектор дефектов и
общая схема решения задач поиска дефектов методами компьютерного зрения.
Питтинговая (точечная) коррозия – это вид коррозионного разрушения,
которому подвергаются исключительно пассивные металлы и сплавы, такие как
никелевые, циркониевые, хромоникелевые, хромистые, алюминиевые и др.
При питтинговой коррозии разрушению подвергаются только отдельные
участки поверхности, на которых образуются глубокие поражения – питтинги
(точечные язвы) [21].
Рис. 1.27. Пример питтинговой коррозии [21]
62
Наблюдается питтинговая коррозия при воздействии на металл или сплав не
только пассиваторов (приводят поверхность в пассивное состояние, например,
окислитель), но и ионов-активаторов (Cl-, Br-, J-).Точечная коррозия активно
протекает в морской воде, смеси азотной и соляной кислот, растворах хлорного
железа и других агрессивных средах.
Питтинг может быть закрытым, открытым и поверхностным. Визуально
зафиксировать, без специальных приборов, можно только последние два вида
коррозии.
Соответственно
открытый
и
поверхностный
питтинг
можно
анализировать методами компьютерного зрения.
Питтинговая коррозия требует внимательного изучения из-за своих
уникальных характеристик, таких как высокая скорость проявления, нелинейное
поведение во времени и локальные атаки, которые значительно повышают риск
разрушений.
В компьютерном зрении существует множество подходов к детектированию
дефектов поверхности, они различаться в зависимости от конкретных задач.
Можно выделить общую схему поиска повреждений поверхности:
1) выбор кадра из видео или изображения поверхности для последующей
обработки;
2) улучшение и фильтрация изображения;
3) сегментация изображения и выделение дефектов;
4) анализ параметров дефектов.
63
2.
Технологическая часть
В данном разделе рассмотрены технические характеристики периферийного
устройства Kinect, входящего в состав разработанного АРМ, а также описаны
использованные библиотеки и средства разработки ПО.
Программирование модулей АРМ осуществлялось на языке высокого уровня
C#.NET, что обеспечило кроссплатформенность ПО.
2.1 Характеристики сенсора Kinect.
Бесконтактный
сенсорный
игровой
контроллер,
первоначально
представленный для консоли Xbox 360, и значительно позднее для персональных
компьютеров под управлением ОС Windows. Разработан фирмой Microsoft.
Основанный на добавлении периферийного устройства к игровой приставке Xbox
360, Kinect позволяет пользователю взаимодействовать с ней без помощи
контактного
игрового
контроллера
через
устные
команды,
позы
тела
и
показываемые объекты или рисунки [4].
ИК излучатель
Цветная камера
ИК сенсор
излучатель
Корректор
угла
наклона
Микрофоны
Рис. 2.1. Устройство сенсора Kinect [22]
IR
Emitter
–
инфракрасный
излучатель.
Его
назначение
испускать
инфракрасные лучи, которые, отражаясь от предметов, попадают назад в сенсор, где
их принимает IR Depth Sensor (Инфракрасный сенсор).
64
IR Depth Sensor – инфракрасный датчик глубины (сенсор). Собирает
отраженные лучи, преобразуя их в расстояние от сенсора до объекта(ов). Таким
образом, строится матрица расстояний — целый кадр. Максимальное разрешение
640x480 (30 fps).
Color Sensor – цветная камера. Захват видео с максимальным разрешением
1280x960 (12fps). Угол обзора камеры: 43° по вертикали и 57° по горизонтали (угол
обзора дальномера идентичный). Можно выбрать формат изображения: RGB или
YUV.
Microphone Array – набор микрофонов. 4 встроенных микрофона позволяют
определить местоположение источника звука и направление звуковых волн.
Встроенный обработчик звукового сигнала включает подавление эха и уменьшение
шума.
Tilt Motor – корректор наклона. Позволяет программно настраивать наклон
сенсора в диапазоне ±27° по вертикали.
Сенсор подключается к компьютеру через USB, хотя, строго говоря, USB
устройством не является, т.к. имеет несколько отличную прошивку, нежели
стандартное USB устройство. Имеется возможность подключить до четырех
сенсоров одновременно. Другой важный аспект аппаратной части – диапазон
«рабочих» расстояний для дальномера (см. р. 2.2).
Расстояние от сенсора (м)
Станд.
диапазон
Ближний
диапазон
Не определено
Слишком близко
Слишком далеко
Нормально
Рис. 2.2. Диапазон рабочих расстояний для сенсора Kinect [22]
65
Режим стандартного диапазона (Default Range) доступен как для Kinect for
Windows, так и для Kinect for XBox, который используется в разработанном АРМ.
Режим ближнего диапазона (Near Range) доступен только для сенсора Kinect for
Windows. Для всех объектов в кадре находящихся в пределах нормальных
расстояний (см. рис. 2.2) сенсор вернёт измеренное расстояние, но для объектов,
выходящих за этот диапазон, сенсор вернёт либо ноль, либо определенную для
каждого диапазона константу (зависит от заданных настроек).
Погрешность измеренной сенсором глубины варьируется от нескольких
миллиметров для объектов на расстоянии около 1,5 м, до 25 мм на расстоянии 3 м от
камеры.
В Kinect используется двухпоточное восстановление карты глубины: данные
о распределении инфракрасных спеклов сопоставляются с данными фокусировки,
где предполагается, что чем дальше предмет, тем более он размыт.
2.1.1 Среда разработки Kinect SDK для Windows.
Среда разработки предоставляет инструменты и программный интерфейс,
которые необходимы для программирования приложений, использующих Kinect в
ОС Windows. При помощи Kinect SDK можно реализовывать, например, следующие
типы приложений: распознавание и трекинг движущегося человека; определение
расстояния между объектами и камерой сенсора; захват звука, используя подавление
шума и эха, а также локализация источников звука; голосовое управление.
SDK включает в себя инструменты разработчика (Developer Toolkit),
содержащие примеры кода, студию записи, браузер приложений (см. р. 2.3) и т.п.
66
Рис. 2.3. Браузер приложений для Kinect (Developer Toolkit Browser)
2.2 Анализ библиотек компьютерного зрения.
2.2.1 Библиотека AForge.NET и Accord.NET.
Accord.NET – это платформа для научных расчетов в среде .NET. Платформа
является надстройкой над AForge.NET – такой же популярной базы для обработки
изображений, но с поддержкой новых инструментов и библиотек. Библиотеки
Accord.NET охватывают широкий спектр приложений для научных вычислений,
таких как обработка статистических данных, машинное обучение, распознавание
образов, в том числе в компьютерном зрении и звуковой обработке. Платформа
предлагает огромное число вероятностных распределений, проверок статистических
гипотез, функций ядра и поддержку наиболее популярных техник для тестов
производительности [23].
2.2.2 Библиотеки OpenCV и Opencvsharp.
OpevCV (Open Source Computer Vision Library) – это одна из самых
популярных библиотек компьютерного зрения с открытым исходным кодом.
Библиотека написана на языках C и С++ и может использоваться в ОС Linux,
Windows и Mac OS X.
67
OpenCV была разработана с учетом требований повышенной эффективности
вычислений для создания приложений, работающих в режиме реального времени.
С-код библиотеки оптимизирован для работы на мультипроцессорных системах и
автоматически использует предустановленную библиотеку IPP от Intel.
Одна из целей библиотеки – обеспечить простую в использовании среду
компьютерного
зрения,
которая
поможет
разработчикам
быстро
создавать
достаточно сложные приложения. Библиотека содержит более 500 функций,
которые покрывают множество сфер компьютерного зрения, включая инспекцию
продуктов на производстве, обработку медицинских изображений, решения для
систем безопасности, создания пользовательского интерфейса, калибровки камеры,
стереозрения и навигации роботов. Так как компьютерное зрение и машинное
обучение очень часто пересекаются, OpenCv содержит большую библиотеку
алгоритмов машинного обучения – MLL (Machine Learning Library).
Открытая
лицензия
для
OpenCV позволяет бесплатно использовать
библиотеку для создания коммерческих приложений. Благодаря либеральным
условиям лицензии в мире существует огромное сообщество пользователей
библиотеки, включая людей из таких известных компаний как IBM, Microsoft, Intel,
SONY, Siemens, Google и др [24].
Разработка специализированного АРМ проводилась на языке C#, поэтому
встал вопрос совместимости с библиотекой OpenCV, написанной на С++. На данный
момент самые популярные .NET адаптеры для OpenCV – это EmguCV,
OpenCvDotNet и OpenCvSharp. Последний отличается легкостью установки и
большим количеством готовых примеров использования, поэтому для данного
дипломного проекта был выбран адаптер OpenCvSharp [25].
68
3.
Исследовательская часть
В данной главе приведена схема разработанного АРМ, подробно описан
каждый модуль, входящий в его состав, а также разобраны использованные
алгоритмы компьютерного зрения, которые не упоминались в главе 1.
3.1 Общая схема АРМ.
ПО специализированного рабочего места включает 6 модулей, которые
можно разделить на 2 основные группы: работа которых зависит от наличия сенсора
Kinect в системе и не зависящие от сенсора (рис. 3.1).
Рис. 3.1. Схема специализированного АРМ компьютерного зрения
К первой группе относятся модули:
- получения 3D описания сцены,
- отслеживания объектов,
- ночного видения,
69
- динамической оценки расстояния.
Вторая группа включает модули:
- сопоставления изображений,
- анализа дефектов материала.
Пользователь АРМ выбирает для работы один из модулей, в соответствии с
поставленной перед ним задачей. Если модуль не зависит от работы сенсора Kinect
(см. рис. 3.1), то последний может быть отключен от системы.
3.2 Восстановление карты глубины.
В разделе 1.8 описана проблема дефектов карты глубины, которая
препятствует ее использованию при решении задач, требующих повышенной
точности. Для устранения погрешностей в АРМ был включен специальный модуль
восстановления карты глубины, алгоритм работы и реализация которого приведены
ниже.
Обычно
карта
глубины
вычисляется
сопоставлением
изображений
стереопары. Стереосопоставление выделяет соответствующие пиксели на левом и
правом снимке, а затем из расхождения между ними вычисляется глубина. Карты
глубины, полученные таким методом, содержат ошибки на границах объектов и
точечный шум.
Использование
инфракрасных
сенсоров
глубины
может
служить
альтернативой стереосопоставлению. Карты, полученные по структурированной
подсветке, отличаются большей точностью, но при этом ИК-сенсоры не могут
передавать цвет сцены, и для этого требуется дополнительная камера.
Стереовидение в режиме реального времени требует восстановления границ
объектов и удаления шума с минимальными вычислительными затратами.
Обычно
после
фильтрации
на
границах
появляется
нежелательное
размывание. Двунаправленный фильтр удаляет шум, сохраняя границы, но работа
такого фильтра требует больших накладных расходов, поэтому авторами статьи [26]
была предложена его модификация, имеющая меньшую вычислительную сложность
- взвешенный объединенный двунаправленный фильтр. Для работы ему необходимо
70
исходное цветное изображение и карта глубины сцены. Фильтр определяется
формулой
𝐷𝑝 =
∑𝑆𝜖𝑁 𝑤(𝑝,𝑠)𝑐(𝐼𝑝 ,𝐼𝑠 )𝑅𝑠 𝐷𝑠
,
(49)
)),
(50)
)),
(51)
∑𝑆𝜖𝑁 𝑤(𝑝,𝑠)𝑐(𝐼𝑝 ,𝐼𝑠 )𝑅𝑠
1 ‖𝑥−𝑦‖
𝑤(𝑥, 𝑦) = exp (− (
2
𝜎𝑠
1 ‖𝑥−𝑦‖
𝑐(𝑥, 𝑦) = exp (− (
2
𝜎𝑐
где p - координаты текущего пикселя, s – координаты окрестных пикселей около p,
I – входное цветное изображение, D – входная/выходная карта глубины,
N-
множество точек окрестности, w – взвешенная пространственная функция ядра, c –
взвешенная
функция
цвета.
Каждая
взвешенная
функция
есть
Гауссово
распределение (𝜎𝑠 , 𝜎с ). 𝑅𝑠 – карта весов.
Такой фильтр является эквивалентом простого взвешенного за исключением
наличия карты весов. Если карта весов является однородной (например, все веса
равны 1), то взвешенный фильтр превращается в простой объединенный
двунаправленный фильтр.
Формула (49) разделена на 2 части: одна – взвешенное ядро (w и c), другая –
значения фильтруемой области (R). Взвешенная карта R обозначает степень
значимости глубины в пикселе, и она фиксирована во время фильтрации
изображения. Таким образом, должен быть задан максимальный вес в пикселе,
который имеет соответствующую глубину.
В случае объединенного двунаправленного фильтра разница веса ядра между
текущем пикселем на границе объекта и пикселем из его окрестности, но на другом
объекте, стремится к среднему весу по ядру (из-за смешанных пикселей на границе).
Это нежелательно и будет приводить к размытию границ на карте весов. Значения
на разрывах карты глубины ненадежны, поэтому вес R здесь должен быть
маленьким.
Также ненадежны импульсные помехи в виде спеклов. Мелкие спеклы могут
быть пропусками генерации карты глубины. Такие регионы тоже должны быть
71
отмечены нулевым весом. Если подобные области невозможно игнорировать, то они
могут быть уменьшены сглаживающим фильтром. В итоге, очевидна необходимость
заблаговременного задания веса для каждого пикселя (карта весов R) для мягкого
исключения границ объектов и спеклов из расчетов.
При
вычислении
карты
весов
пиксели
разделяются
на
пиксели,
расположенные около границ объектов или далеко от них, а также на зашумленные
и нет. Результат мягкой классификации представляется значениями весов. Во время
классификации учитываются следующие приближения:
- если граница между текущим пикселем и пикселем окрестности
отсутствует, то считается, что оба пикселя принадлежат одному объекту. Подобное
отношение возможно в том случае, если значение глубины и цвета текущего
пикселя схожи со значениями окрестного.
-
если размер связанной компоненты мал, то регион зашумлен спеклами.
Различие значений глубины в связанной компоненте должно быть низким.
Таким образом, значение веса R в точке s
𝑅𝑠 = ∑𝑞∈𝑁′ 𝑀𝑠 ∙ 𝑤(𝑠, 𝑞)𝑐(𝐼𝑠 , 𝐼𝑞 )exp (−
1 ‖𝐷𝑠 −𝐷𝑞 ‖
2
𝜎𝑟
),
(52)
где q- координата пикселя окрестности около пикселя s, N’ – множество пикселей q,
𝑤(𝑠, 𝑞) и 𝑐(𝐼𝑠 , 𝐼𝑞 ) такие же функции как в (49).
Однако, уравнение (52) имеет дополнительный компонент, учитывающий
разницу глубин между текущим пикселем и пикселем окрестности – это 𝑀𝑠 , маска
регионов спеклов. Она имеет только два значения веса – 0 и 1 для спеклов и
действительных глубин соотвественно.
Первое приближение вычисляется по разности интенсивностей и значений
глубины между текущим пикселем и пикселем окрестности. Второе приближение –
использование маски спеклов, составленной по начальной карте глубины
посредством фильтра спеклов. Фильтр спеклов имеет два параметра: верхняя
граница размера спекла (speckleWindowSize) и допустимая разница глубин
(speckleRange). Фильтр присваивает пикселям 𝑀𝑠 значение 0 в найденных спеклах.
72
а)
б)
в)
г)
Рис. 3.2. Пример карты весов: а) – входное изображение, б) – входная зашумленная
карта глубины, в) – маска спеклов, г) – взвешенная карта [26]
Если регионы содержат спеклы, то их вес равен нулю, если нет, то все
значения 𝑀𝑠 равны единице.
Как результат фильтрации спеклов, граничные
регионы на изображениях и на карте глубины имеют маленький вес. Мы можем
мягко игнорировать глубину границ и глубину спеклов, таким образом, взвешенный
двунаправленный фильтр с картой весов может снизить размытие границ, четко
корректировать их и уменьшить шум.
При грубой фильтрации каждый пиксель требует 4 прохода (вертикальное и
горизонтальное фильтрующее ядро и вертикальное и горизонтальное ядро карты
весов), поэтому авторы статьи [26] вычисляют карту весов перед взвешенным
двунаправленным фильтром для повышения эффективности вычислений.
73
3.2.1 Реализация алгоритма.
Специализированное АРМ компьютерного зрения включает модуль для
удаления
дефектов
карты
глубины.
В
основе
модуля
лежит
алгоритм
восстановления карты глубины, с использованием взвешенного двунаправленного
кросс-фильтра, реализованный на платформе .NET. Этапы его работы можно
проиллюстрировать изображениями, полученными во время тестов.
На вход подаются два изображения (см. рис. 3.3) – цветная фотография
сцены и карта глубины той же сцены, например, полученные с устройства Kinect.
Рис. 3.3. Входные изображения для модуля восстановления карты глубины: слева –
цветной снимок сцены, справа – карта глубины (получены с устройства Kinect)
Далее происходит формирование взвешенной карты R (см. рис. 3.4), которая
отображает степень значимости глубины пикселей в расчетах. Спеклы здесь
получают наименьший (нулевой) вес и не влияют на
окрестных пикселях.
74
вычисление глубины в
Рис. 3.4. Взвешенная карта, сформированная алгоритмом по входным изображениям
(см. рис. 3.3)
После прохода фильтра по всему изображению на выходе получается
восстановленная карта глубины, показанная на рис. унок 3.5. Здесь можно отметить
значимое размытие границ, что сильно затрудняет, например, детектирование
особенностей на карте (красные точки на рис. унок 3.5). Авторы статьи [26]
предлагают ввести дополнительную обработку, которая исключает этот эффект,
сравнивая в каждом пикселе его начальное и конечное значения. По сути, результат
такой обработки будет эквивалентен случаю, когда двунаправленный фильтр
проходит не по всему изображению, а только по известным участкам спеклов. Такой
подход, к тому же, значительно сокращает время обработки. Результаты
избирательной фильтрации
и показаны на рис. унок 3.6. Здесь особенности
распределены более естественным образом – вдоль границ объектов и на уголках.
75
Рис. 3.5. Восстановленная карта глубины после прохода фильтра по всему входному
изображению, красными точками отмечены детектированные уголки Харриса
Рис. 3.6. Результаты избирательной фильтрации карты глубины, красными точками
отмечены детектированные уголки Харриса
76
3.2.2 Оптимизация вычислительных затрат.
Тестирование программы проводилось на ПК с двухъядерным процессором
Intel Core i3 (2,27 ГГц). В первоначальном виде грубо реализованный алгоритм
восстановления карты глубины обрабатывал карту в течение 478,698 с. После
модификации метода, с целью обрабатывать только участки спеклов, время работы
программы снизилось до 97,720 с. Затем, с помощью встроенных инструментов
анализа производительности Visual Studio 2012, были выявлены проблемные
участки кода, и проведена их оптимизация. Время вычислений сократилось до
12,111 с.
Известно, что большинство методов обработки изображений содержат
циклические обходы множества пикселей, в которых итерации не связаны между
собой. Вышеописанный алгоритм восстановления карты глубины – не исключение.
Это значит, что его производительность легко повысить за счет распараллеливания
циклов. Библиотека AForge.NET предоставляет такую возможность в виде метода
Parallel.For. После его применения общее время вычислений составило 4,928 с.
500
Время работы программы, c.
450
400
350
300
250
200
150
100
50
0
грубая
реализация
избирательная
фильтрация
оптимизация
кода
параллельные
циклы
Этапы оптимизации
Рис. 3.7. Оптимизация вычислительных затрат для модуля восстановления карты
глубины
77
3.3 Динамическое измерение расстояния.
В
процессе
подготовительного
3D
анализа
и
настройки
системы
компьютерного зрения часто требуется измерить расстояние от камеры до объектов
сцены.
Поэтому
для
специализированного
АРМ
был
разработан
модуль
динамического измерения расстояния.
Сенсор Kinect позволяет в режиме реального времени получать карту
глубины сцены с точностью от ±25 мм до ±5 мм. Помимо отображения рельефа
сцены на изображении в градациях серого, требуется предоставить удобный
интерфейс для определения расстояния до областей интереса.
Одним из наиболее удобных и интуитивных способов выделения областей
интереса является прямоугольное выделение. Пользователю предоставляется
возможность выбрать один из двух видеопотоков (цветовой или глубинный), где в
режиме реального времени он может выделять области, глубину которых
необходимо измерить. Сразу после отпускания кнопки мыши на экране появляется
снимок карты глубины в текущий момент времени с отмеченной на нем областью и
средним значением ее удаленности от камеры (рис. 3.8). В тех случаях, когда
большую часть области занимают неопределенные значения глубины, расстояние
считается также неопределенным. Такую проблему можно решить, если перед
определением расстояния провести восстановление карты глубины, однако будет
нарушен режим реального времени.
В будущих модификациях комплекса предполагается выводить 3D график
области интереса.
78
Рис. 3.8. Работа модуля динамического определения расстояния от камеры до
объекта интереса
3.4 Отслеживание положения объектов.
В данной дипломной работе был создан модуль специализированной АРМ
для отслеживания местоположения объектов в пространстве сцены.
Как уже отмечалось в разделе 1.9.4, при наличии информации о глубине
сцены решение задачи трекинга объектов значительно упрощается. Карта глубины
хорошо сегментирована и ее легко разделять на слои по заданным интервалам
расстояний. Примем допущение, что отслеживаемые объекты преимущественно
перемещаются в плоскости, перпендикулярной направлению камеры и лишь
незначительно смещаются вдоль оси съемки.
Пользователю данного модуля предлагается ввести в миллиметрах интервал
глубин, на котором могут быть обнаружены объекты. Заданные ограничения
позволяют бинаризовать карту глубины таким образом, что все пиксели внутри
интервала получают значение 1, а вне интервала – 0. Метод findContours
библиотеки OpenCV выделяет все замкнутые единичные области на изображении –
то есть фактически обнаруживает все объекты, находящиеся на определенном
пользователем интервале глубин и помещает информацию о них в список [24].
Осуществляя доступ к элементам списка, можно получить такие параметры, как
координаты на плоскости изображения, площадь, ориентация, периметр объектов и
др. Также есть возможность задать ограничения по размеру отслеживаемых
79
объектов,
чтобы,
например,
упростить
их
сопоставление
между
кадрами
видеосъемки.
Рис. 3.9. Работа модуля по отслеживанию положения объектов сцены
3.5 Ночное видение.
Разработанное АРМ включает ИК камеру ночного видения, реализованную
на основе периферийного устройства Kinect.
ИК излучатель
Цвет. камера
ИК сенсор
Привод регулир. наклона
Микрофоны
Рис. 3.10. Расположение ИК излучателя и приемника на устройстве Kinect [22]
Инфракрасный излучатель Kinect и сенсор глубины (рис. 3.10) служат для
получения значений расстояния между устройством и каждым объектом сцены.
Инфракрасное излучение невидимо для глаза человека, так как имеет большую
80
длину волны, чем человек может воспринять. Такое ИК излучение дает возможность
устройству Kinect «видеть» в темноте.
Также как каналы цвета, глубины и склетона человека, Kinect SDK
предоставляет API для захвата инфракрасных данных, то есть разработчик имеет
возможность работать с изображением сцены в условиях плохой освещенности.
Kinect возвращает 16-бит ИК данных на каждый пиксель изображения с
разрешением 640 x 480 в формате цветного изображения. ИК канал поддерживает
скорость обновления до 30 FPS.
Устройство Kinect не позволяет читать ИК и цветовой каналы одновременно,
при том, что одновременно читать глубину и цвет можно. Причина такого
нелогичного, на первый взгляд,
запрета заключается в том, что ИК данные
предоставляются разработчику как часть формата цветного потока Kinect.
Примеры работы камеры ночного видения изображены на рис. унок 3.11.
Рис. 3.11. Пример работы модуля ночного видения разработанного АРМ
3.6 Сопоставление изображений.
Для специализированного АРМ был разработан модуль по сопоставлению
изображений. На вход модуля подаются два изображения, содержащие одну и ту же
сцену, снятую с разных ракурсов и расстояний, а на выходе пользователь получает
найденное аффинное преобразование от одного к другому.
Алгоритм сопоставления можно представить следующим образом.
Поиск пар соответствующих особых точек на изображениях.
81
(a) Детектирование особенностей на изображениях при помощи SURF
детектора.
(b) Поочередное сопоставление всех особых точек со всеми. При
сопоставлении для каждой особой точки первого изображения
проводится поиск наиболее «близкой» точки второго изображения
(сравнивая их дескрипторы) с некоторым порогом. Если «близкие»
точки найдены, пара заносится в список выявленных пар точек.
Производится переход к следующей итерации итерации поиска пар.
Поиск преобразования трансформации между изображениями, используя
метод RANSAC и составленный на предыдущем шаге список пар точек.
Вывод результатов на экран.
Библиотека OpenCV предоставляет готовую реализацию SURF детектора
особенностей, которая использовалась при разработке модуля сопоставления
изображений. Теоретические основы работы детектора были описаны в разделе
1.9.2.2. Пример работы детектора на тестовых входных данных представлен на
рис. унок 3.12.
Рис. 3.12. Работа SURF детектора на тестовых изображениях: красными
окружностями обозначены детектированные точки интереса, радиус окружностей
зависит от масштаба особенности
Для
поиска
преобразования
трансформации
между
изображениями
используется метод findHomography библиотеки OpenCV [27].
Он находит и
82
возвращает перспективное преобразование H (матрицу трансформаций) между
двумя изображениями
𝑥𝑖
𝑥′𝑖
[𝑦′𝑖 ] ~𝐻 [𝑦𝑖 ].
1
1
(53)
Таким образом, минимизируется ошибка отображения
∑𝑖 (𝑥′𝑖 −
ℎ11 𝑥𝑖 +ℎ12 𝑦𝑖 +ℎ13 2
ℎ31 𝑥𝑖 +ℎ32 𝑦𝑖 +ℎ33
ℎ
𝑥 +ℎ
2
𝑦 +ℎ
) + (𝑦′𝑖 − ℎ21𝑥𝑖+ℎ22𝑦𝑖+ℎ23) .
31 𝑖
32 𝑖
(54)
33
Если параметр функции «метод» задан как 0, то findHomography использует
все пары точек для вычисления начальной трансформации с оценкой по методу
наименьших квадратов.
Однако если не все пары точек удовлетворяют условиям жесткой
перспективной
трансформации,
то
простейшая
оценка
будет
давать
неудовлетворительный результат. В таком случае можно использовать один из двух
устойчивых методов. Оба метода RANSAC и LMeDs (Least Medias of Squares)
пробуют много различных случайных подмножеств соответствующих пар точек (по
четыре пары каждый), оценивают матрицу трансформации, используя
заданное
подмножество и метод наименьших квадратов, а затем вычисляют качество
рассчитанного преобразования (это число верных сопоставлений для RANSAC или
средняя проекционная ошибка для LMeDs). Лучшее подмножество затем
используется для задания начальной оценки матрицы
правильных/ошибочных сопоставлений.
83
трансформации и маски
Рис. 3.13. Результат работы модуля по сопоставлению изображений: предполагаемое
соответствие верхнего изображения нижнему обозначено белым прямоугольником
3.7 Детектор дефектов.
Для решения задачи поиска и оценки дефектов материала был разработан
специальный модуль АРМ, не зависящий от сенсора Kinect и обрабатывающий
входные данные, предоставленные пользователем.
Тестовое задание состояло в анализе видеозаписи изменения поверхности
стали Ст20 в растворе 0,1 М NaCl под действием электрического поля (рис. унок
3.14).
Допускалось
использовать
разреженную
последовательность
кадров
видеоряда для исследования на предмет обнаружения питтинговой коррозии,
84
описанной в разделе 1.9.5. По результатам требовалось построить графики
зависимости числа дефектов, их суммарной площади и периметра от времени видео.
Рис. 3.14. Кадр видеозаписи из тестового задания по анализу питтинговой коррозии
Поиск дефектов можно осуществлять разными способами. В данном случае
на поверхности металла хорошо различимы продольные полосы, характеризуемые
одинаковым ярко выраженным направлением градиента. На границах дефектов
векторы градиента меняют направление, т.е. повреждения могут быть обнаружены,
например, SURF детектором. С другой стороны, можно попробовать привести
тестовые изображения к бинарному виду, на котором поврежденный и чистый
материал будут отличаться по цвету. Первый вариант поиска влечет большие
вычислительные затраты, а затраты второго зависят от реализации, поэтому было
решено исследовать пути интеллектуальной бинаризации.
В данной задаче цвет не несет полезной информации и для упрощения
обработки изображение приводится к представлению в оттенках серого.
Очевидно, что кадр видео, изображенный на рис. 3.14, слишком темный и
требует увеличения контрастности. Возможным методом улучшения контраста
может стать так называемая линейная растяжка гистограммы (рис. 3.15). Уровням
исходного изображения, лежащим в интервале [fмин, fмакс], присваиваются новые
значения
с
тем,
чтобы
охватить
85
весь
возможный
интервал
изменения яркости, в данном случае [0, 255]. При этом контраст существенно
увеличивается.
Преобразование уровней яркости осуществляется по формуле
𝑔𝑖 = 𝑎 + 𝑏𝑓𝑖 ,
где
fi
-
значение
яркости i-го
пикселя, gi - новое
(55)
значение
яркости, a, b -
коэффициенты.
Рис. 3.15. Линейное растяжение гистограммы: слева – гистограмма распределения
оттенков серого на исходном кадре видео (рис. 3.14), справа – гистограмма
распределения оттенков серого после растяжения (рис. унок 3.16)
После улучшения контраста можно преступать к бинаризации. На рис. унок
3.16 видно, что яркость пикселей дефектов и пикселей в продольных полосах на
металле практически одинаковая и соответствует первому пику гистограммы (рис.
3.15). Следовательно, при бинаризации не удастся сразу отделить коррозированную
поверхность от чистой.
86
Рис. 3.16. Кадр видеозаписи из тестового задания по анализу питтинговой коррозии
после обесцвечивания и линейного растяжения гистограммы
Заметим, что любое сечение дефектов превышает в размерах поперечное
сечение естественных полос на металле, что позволяет применить морфологическую
операцию закрытия.
Закрытие – это одна из важнейших операций в математической морфологии.
Результат
операции
эквивалентен
последовательному
применению
морфологической дилатации и эрозии – она ведет к удалению мелких темных
областей на изображении, оставляя практически неименными крупные.
Дилатация – это свертка изображения (или региона изображения) с
некоторым ядром, которое имеет определенную опорную точку. Обычно ядро
представляет собой небольшую квадратную маску или диск с опорной точкой
посередине. При перемещении ядра по изображению вычисляется максимум
интенсивности по пикселям, которые оно покрывает. Полученное значение
присваивается пикселю под опорной точкой. В результате светлые области на
изображении расширяются как показано на рис. 3.17.
87
Рис. 3.17. Морфологическая дилатация: A – светлая область; на результирующем
изображении остается максимум по ядру B [24]
Эрозия является операцией обратной дилатации. Действие оператора эрозии
эквивалентно вычислению локального минимума по ядру. Эрозия генерирует новое
изображение путем перемещения ядра по исходному и заменой интенсивности
каждого пикселя под опорной точкой на минимальное значение из интенсивностей,
покрытых ядром.
Рис. 3.18. Морфологическая операция эрозии: А – темная область; на
результирующем изображении остается минимум по ядру B [24]
88
Для успешного применения морфологического закрытия минимальные
сечения дефектов и естественных полос на металле после бинаризации должны
различаться как можно больше. Хорошие результаты в этом смысле дает
бинаризация со сглаживанием по Флойду-Штейнбергу.
Дело в том, что стандартная бинаризация требует точного подбора порога, а
ее результаты характеризуются грубыми границами между светлыми и темными
областями, что провоцирует значительные искажения формы и размеров дефектов.
Бинаризация со сглаживанием по Флойду-Штейнбергу или
дизеринг Флойда-
Штейнберга (dithering) – это подмешивание в первичный сигнал псевдослучайного
шума со специально подобранным спектром, которое применяется для уменьшения
негативного эффекта от квантования. Сглаживание достигается размыванием
ошибки квантования текущего пикселя по его окрестности в соответствии с
распределением
1
16
[
3
∗ 7],
5 1
(56)
где элемент ∗ обозначает текущий сканируемый пиксель.
Алгоритм Флойда-Штейнберга сканирует изображение попиксельно слева
направо и сверху вниз, бинаризуя значения интенсивности. На каждом шаге ошибка
квантования передается соседним пикселям за исключением тех, которые уже были
обработаны. Таким образом, при округлении интенсивности некоторого пикселя в
меньшую сторону увеличивается вероятность того, что значения последующих
пикселей будут округляться в большую сторону, а в среднем ошибка квантования
будет стремиться к нулю [28].
.
89
Рис. 3.19. Бинаризация изображения поверхности металла с использованием
сглаживания по Флойду-Штейнбергу
Бинаризующий дизеринг Флойда-Штейнберга имитирует оттенки серого
разной плотностью белых пикселей на черном фоне (рис. 3.19). Это свойство
позволяет перенести проблему выбора порога бинаризации на выбор размера ядра
морфологического закрытия, которую необходимо решать в любом случае. То есть
при закрытии все области с достаточно высокой плотностью белых пикселей
замкнутся белым цветом, и в их числе будут продольные полосы на поверхности
металла.
Рис. 3.20. Работа детектора дефектов на поверхности металла
После применения морфологических операций остается найти все замкнутые
внутри белого фона темные регионы – это и будут предполагаемые дефекты
(рис. 3.20).
Для того чтобы исключить распространение псевдослучайного шума на
области, принадлежащие дефектам, перед бинаризацией проводится предобработка
90
изображения.
Всем
пикселям,
значение
интенсивности
которых
меньше
определенного порога, присваивается значение 0 (черный цвет). При постоянном
значении такого порога результаты детектирования дефектов противоречили
реальности – число обнаруженных пятен коррозии многократно уменьшалось и
возрастало во времени (рис. 3.21).
25
число пятен
20
15
10
5
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21
номер замера
Рис. 3.21. График изменения количества пятен питтинговой коррозии на
протяжении тестового видео при предобработке с постоянным порогом
Анализ предоставленного тестового видео показал, что интенсивность
пикселей повреждений и темного фона меняется на протяжении съемки,
преимущественно – возрастает. Поэтому было решено компенсировать такие
колебания линейным увеличением порога предобработки. Результаты работы
детектора стали показывать более стабильный рост числа дефектов и в большинстве
случаев совпали с ручными замерами (рис. унок 3.22).
91
60
50
число пятен
40
30
20
10
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21
номер замера
Рис. 3.22. График изменения количества пятен питтинговой коррозии на
протяжении тестового видео при предобработке с изменяющимся порогом
Для того чтобы уменьшить погрешности из-за грубого линейного подбора
порога предобработки и исключить «провалы» количества обнаруженных пятен, в
будущих модификациях алгоритма предлагается аппроксимировать результаты
поиска дефектов сплайном Безье.
92
4.
Технико-экономическое обоснование эффективности НИОКР
4.1 Введение.
Разработка
программного
обеспечения
-
достаточно
трудоемкий
и
длительный процесс, требующий выполнения большого числа разнообразных
операций.
Организация и планирование процесса разработки программного продукта
или
программного
комплекса
при
традиционном
методе
планирования
предусматривает выполнение следующих работ:
- формирование состава выполняемых работ и группировка их по стадиям
разработки;
- расчет трудоемкости выполнения работ;
- установление
профессионального
состава
и
расчет
количества
исполнителей;
- определение продолжительности выполнения отдельных этапов разработки;
- построение календарного графика выполнения разработки;
- контроль выполнения календарного графика.
Далее
приведен
перечень
и
состав
работ
при
разработке
АРМ
специализированной системы компьютерного зрения, построенной с расчетом на
максимальную доступность и минимальное количество дополнительных устройств.
4.2 Определение этапов выполнения НИОКР.
Трудоемкость разработки программной продукции зависит от ряда факторов,
основными из которых являются следующие: степень новизны разрабатываемого
программного комплекса, сложность алгоритма его функционирования, объем
используемой информации, вид ее представления и способ обработки, а также
уровень используемого алгоритмического языка программирования. Чем выше
уровень языка, тем трудоемкость меньше.
По степени новизны разрабатываемая программная продукция может быть
отнесена к одной из четырех групп таблице 4.1.
Таблица 4.1. – Классификация программных продукций по степени новизны
93
Назва
ние группы
А
Б
Описание
Разработка программных комплексов, требующих использования
принципиально новых методов их создания, проведение НИРС и т.п.
Разработка программной продукции, не имеющей аналогов, в том
числе разработка пакетов прикладных программ.
В
Разработка программной продукции, имеющей аналоги.
Г
Разработка программной продукции, основанной на привязке типовых
проектных решений.
В данном случае разрабатываемая продукция относится к группе «В».
По степени сложности алгоритма функционирования проект относится к 3
группе сложности - программная продукция, реализующая алгоритмы стандартных
методов решения задач.
По виду представления исходной информации и способа ее контроля
программный продукт относится к группе 11 - исходная информация представлена в
форме документов, имеющих различный формат и структуру и группе 22 требуется печать документов одинаковой формы и содержания, вывод массивов
данных на машинные носители.
Для построения план-графика выполнения НИОКР необходимо рассчитать
продолжительность каждого этапа работы (ТЗ, ТПР, ЭП, ТП, РП, ИОО, ИО, ТД).
Требуемое количество исполнителей R по этапам определяется по формуле:
𝑅эт =
𝜏эт ∙𝐾д
𝐹и ∙𝐾в
,
(57)
где  эт - трудоемкость этапа, час; K д - коэффициент дополнительных затрат
(1.1  K д  1.15) ; Fu - фонд рабочего времени исполнителя (176 часов в месяц); 𝐾вн коэффициент выполнения норм (𝐾вн = 1.0).
В таблице 4.2 приведены основные этапы разработки ПП с перечнем
выполняемых в них работ.
Общие затраты труда на разработку и внедрение изделия (проекта)
Qp
определяют следующим образом:
Qp   t
i
,
i
94
(58)
где ti - затраты труда на выполнение i -го этапа проекта.
В таблице 4.3 приведены трудоемкости выполнения работ по этапам в
соответствии с экспертной оценкой, а также перечень специалистов, необходимых
для выполнения указанных работ.
Таблица 4.2 — Основные этапы разработки ПО
Этапы
1. Техническое задание (ТЗ)
Выполняемые работы
1.1. Разработка ТЗ.
2.1. Сбор и анализ информации.
2. Техническое предложение
(ТПР)
2.2. Выбор программных средств.
2.3. Технико-экономическое обоснование разработки.
3.1. Исследование предметной области (проблематики,
существующих решений, используемых технологий).
3. Эскизное проектирование
(ЭП)
3.2. Выбор метода решения задачи, наиболее оптимального по
затратам времени и качеству результата.
3.3. Определение набора функций АРМ.
4. Техническое
проектирование (ТП)
4.1. Разработка структуры работы программы.
5.1. Разработка алгоритма восстановления карты.
5.2. Разработка алгоритма обнаружения дефектов поверхности.
5. Рабочий проект (РП)
5.3. Программирование алгоритма сопоставления
изображений.
5.4. Разработка дополнительных алгоритмов.
6.1. Исследование эффективности и точности работы
алгоритма по восстановлению карты глубины.
6. Экспериментальные
исследования (ЭИ)
6.2. Исследование эффективности и точности работы
алгоритма по обнаружению дефектов поверхности.
6.3. Исследование эффективности и точности работы
алгоритма по сопоставлению изображений.
6.4. Исследования эффективности работы дополнительных
модулей программы.
7. Оформление технической
документации (ТД)
7.1. Разработка комплекта программной документации
95
Воспользуемся двухточечной оценкой продолжительности работ. Ожидаемое
время выполнения каждого этапа НИР tож рассчитывается по формуле
tож 
3  tmin  2  tmax
5
,
(59)
где tmin — минимальная продолжительность работы, т.е. время, необходимое для
выполнения работы при наиболее благоприятном стечении обстоятельств (часы,
дни, недели); tmax — максимальная продолжительность работы, т.е. время
необходимое для выполнения работы при наиболее неблагоприятном стечении
обстоятельств (часы, дни, недели).
Таблица 4.3 – Трудоемкости выполнения работ по этапам
Этап
Идентификатор работы
tmin, дн.
tmax, дн.
tож, дн.
ТЗ
1.1
7
14
10
ТПР
2.1
14
20
16
2.2
4
8
6
2.3
6
15
10
3.1
15
30
21
3.2
10
20
14
3.3
7
20
12
ТП
4.1
10
25
16
РП
5.1
7
15
10
5.2
14
30
20
5.3
4
7
5
5.4
20
40
28
6.1
7
12
9
6.2
4
8
6
6.3
4
8
6
6.4
4
7
5
7.1
35
50
41
ЭП
ЭИ
ТД
96
Таким образом, получаем общее ожидаемое время выполнения НИОКР при
последовательном выполнении задач 235 чел.-дней.
4.2.1 Календарный график выполнения НИОКР
Для иллюстрации последовательности проводимых работ проекта применяют
ленточный график (календарно-сетевой график, диаграмму Ганта). На диаграмме
Ганта на оси абсцисс показывают календарные дни (по рабочим неделям) от начала
проекта до его завершения. По оси ординат - выполняемые этапы работ.
Диаграмма Ганта для рассматриваемого проекта приведена на листе
дипломного проекта.
4.3 Расчет стоимости выполнения НИОКР
Для определения стоимости работ необходимо на основании плановых
сроков выполнения работ и численности исполнителей рассчитать общую сумму
затрат на разработку программного продукта.
Если ПП рассматривается и создается как продукция производственнотехнического назначения, допускающая многократное тиражирование и отчуждение
от непосредственных разработчиков, то ее цена определяется по формуле
Ц = K  C + Пр,
(60)
где C - затраты на разработку ПП (сметная себестоимость), K - коэффициент учёта
затрат на изготовление опытного образца ПП как продукции производственнотехнического назначения (K=1,1).
Пр - нормативная прибыль, рассчитываемая по формуле
ПР = ( С – См) ∙Н / 100,
(61)
где  н - норматив рентабельности, 30 %; См – материальные затраты, [руб./изд.]
Затраты, образующие себестоимость продукции (работ, услуг), группируются
в соответствии с их экономическим содержанием по следующим элементам:
1.
нематериальные активы и затраты на оборудование (за вычетом
стоимости возвратных отходов);
2.
затраты на оплату труда;
3.
отчисления на социальные нужды;
97
4.
амортизация основных фондов;
5.
прочие затраты.
4.3.1 Материальные затраты.
Материалы, покупные изделия и полуфабрикаты, используемые для
выполнения НИОКР, оцениваются по действующим оптовым или договорным
ценам. Расчет затрат на материалы приведен в таблице 4.4.
Общая сумма затрат на РМ с учетом транспортно-заготовительных расходов
(3÷5% стоимости материалов и покупных комплектующих изделий) равна 890 руб.
Таблица 4.4 – Материалы, покупные изделия и полуфабрикаты.
№
Наименование материалов и
п/п других материальных ресурсов
1
Картридж для принтера ч/б
2
Бумага для оргтехники
Единица
измерения
шт.
пачка 500
листов
Количество
1
Цена
Сумма,
единицы, руб
руб.
600
600
1
250
ИТОГО
250
850
4.3.2 Расчет основной заработной платы.
В данную статью включаются основная заработная плата всех исполнителей,
непосредственно занятых разработкой данного программного продукта с учетом их
должностных окладов и времени участия. Расчет проводится по формуле
Сзо = ∑Зi∙ τi/d,
(62)
где Зi - месячный оклад i-го исполнителя, [руб.]; τi - трудоемкость работ,
выполняемых i-м исполнителем, [чел.-дни] - определяются из календарного планаграфика; d – среднее количество рабочих дней в месяце (принимаем d = 21 день).
За месячный оклад принимается средняя заработная плата инженерапрограммиста – 30000 рублей.
Расчет затраты на оплату труда каждого исполнителя:
Сзо 1 = 30 000 ∙ 235/21 = 335 714 [руб.]
Суммарная заработная плата равна:
98
Сзо = Сзо 1 * 1 = 335 714 [руб.]
4.3.3 Расчет дополнительной заработной платы.
В
данной
статье
также
учитываются
выплаты
непосредственным
исполнителям за время, не проработанное на производстве, в том числе: оплата
очередных отпусков, компенсация за недоиспользованный отпуск, оплата льготных
часов подросткам и др. Дополнительная заработная плата рассчитывается по
формуле
Сзд = Сзо ∙ Ад,
(63)
где Ад - коэффициент отчислений на дополнительную заработную плату (Ад = 0.2).
Сзд = 335 714 ∙ 0,2 = 67 142 [руб.]
4.3.4 Отчисления на социальные нужды.
В статье учитываются отчисления в бюджет социального страхования по
установленному законодательством тарифу от суммы основной и дополнительной
заработной платы. Расчет производится следующим образом:
Ccc = Acc ∙ (Cзо+Cзд),
(64)
где Асс – коэффициент отчислений на социальное страхование:
0,22 – отчисления в пенсионный фонд;
0,029 – в фонд социального страхования;
0,051 – в фонд медицинского страхования;
0,015 – страхование от несчастных случаев.
Асс = 0,315
Ссс = 0,315 ∙ (335 714 + 67 142) = 126 900 [руб.]
4.3.5 Расчет амортизационных отчислений.
В
элементе
амортизационных
“Амортизация
отчислений
основных
на
полное
фондов”
отражается
восстановление
сумма
основных
производственных фондов, исчисленная из балансовой стоимости и утвержденных в
установленном порядке норм, включая и ускоренную амортизацию их активной
части, производимую в соответствии с законодательством.
Расчет ведется по формуле
99
Са = А/Fд ∙ Т,
(65)
где А - годовые амортизационные отчисления; Т - время работы оборудования; Fд действительный годовой фонд рабочего времени, [час/год].
Таблица 4.5 – Данные для расчета амортизационных отчислений
ОФ
Цена (на апрель
2013 года)
% на
амортизационные
отчисления
Годовой фонд рабочего
времени на ПК (5-ти дневная
неделя, 8-и часовой рабочий
день), час
ПК
27 770
12
2080
Сенсор Kinect
6 900
20
2080
При разработке данного АРМ использовалась бесплатная студенческая
версия программы Visual Studio 2012 Ultimate, распространяемая по программе
DreamSpark Premium. При дальнейших разработках будет необходима покупка
лицензии на данное ПО.
А = 0,12 ∙ 27 770 ∙ 1 + 0,2 ∙ 6900 ∙ 1 = 4 712 руб.
T = 235 ∙ 8 = 1880 [час.] (из расчета 8-и часового рабочего дня)
Всего амортизационные отчисления при разработке программного продукта
составят:
Са = 4 712/2080 ∙ 1880 = 4259 руб.
4.3.6 Прочие затраты.
Затраты, связанные с использованием вычислительной техники определяют
по формуле:
Сэвм = tэвм ∙ Кэвми ∙ Цэвм ∙ КБД эвм ∙ Кэ эвм,
(66)
где tэвм – время использования ЭВМ для разработки данного ПП, ч. (из расчета 80%
от времени выполнения НИОКР).
tэвм= 235 ∙ 8 ∙ 0,8 = 1 504[час.]
Кэвми – поправочный коэффициент учета времени использования ЭВМ.
Находим по таблице (для языка высокого уровня, сложность алгоритма ПП – 3,
группа новизны - В): Кэвми = 1.
100
Цэвм – цена 1-го часа работы ЭВМ, руб. В соответствии с данными на 2008 г.:
Цэвм = 2 [руб./час]
КБД эвм – коэффициент учета степени использования СУБД. Выбираем (СУБД
не используется):
КБД ЭВМ = 1.
Кэ
эвм
– коэффициент учета быстродействия ЭВМ. Выбираем (более 20∙1030
опер./с.):
Кэ эвм = 1.
Сэвм = 1504 ∙1∙2∙1∙1 = 3 008 [руб.]
4.4 Результаты.
Результаты расчетов затрат на разработку программного продукта приведены
в таблице 4.6.
Таблица 4.6 – Результаты расчетов затрат на разработку программного
продукта
№п/п
1
Наименование статьи
Материальные затраты
Сметная стоимость, руб.
890
2
Затраты на оплату труда
335 714
3
67 142
4
Дополнительная заработная
плата
Отчисления в ФСС
126 900
5
Амортизация оборудования
4259
6
Прочие расходы
3 008
Итого
534 905
Вывод: затраты на разработку составляют: 534 905 рублей.
101
Примечание
1%
0,1% 0,1%
Материальные затраты
Затраты на оплату труда
24%
12%
Дополнительная
заработная плата
Отчисления в ФСС
63%
Амортизация
оборудования
Прочие расходы
Рис. 4.1. Соотношение затрат на разработку программного продукта
Цена разработки определяется по формуле (60).
Пр - нормативная прибыль, рассчитываемая по формуле (61).
Пр = 534 905∙ 30 / 100 = 160 472 [руб.]
Ц = 1,1 ∙ 534 905 + 160 472 = 764 914 [руб.]
Вывод: Цена разработки: 764 914 рублей.
4.5 Выводы.
В
рамках
организационно-экономической
части
был
спланирован
календарный график проведения работ по созданию АРМ специализированной
системы технического зрения и построен график Ганта, а также были проведены
расчеты по трудозатратам. Были исследованы и рассчитаны следующие статьи
затрат: материальные затраты; основная заработная плата исполнителей дополнительная заработная плата исполнителей; отчисления на социальное
страхование; амортизационные отчисления; прочие расходы.
В результате расчетов было получено общее время выполнения проекта,
которое составило 235 дней, получены данные по суммарным затратам на создание
АРМ, которые составили 534 905 рублей.
102
В результате расчетов была определена цена создания данной подсистемы,
которая составила 764 914 рублей.
103
5.
Промышленная экология и безопасность
5.1 Введение.
В текущем разделе производится анализ вредных факторов, действующих на
пользователя
разработанного
комплекса,
предлагаются
средства
защиты
и
безопасная конфигурация рабочего места.
Анализ производится на соответствие санитарным правилам и нормам
2.2.2./2.4.1340-03
"Гигиенические
требования
к
персональным
электронно-
вычислительным машинам и организации работы", а также ГОСТ на нормы
противопожарной (ГОСТ 12.1.004-91) и электробезопасности (ГОСТ 25861-83 и
ГОСТ Р МЭК 60950-2002).
5.2 Основные факторы воздействия среды на оператора ПК.
Работа оператора ПК относится к категории работ, связанных с опасными и
вредными условиями труда.
В соответствии с СанПиН 2.2.2./2.4.1340-03 и ГОСТ Р МЭК 60950-2002 при
организации
рабочего
места
оператора
должны
соблюдаться
следующие
требования:
- требования к ПК;
- требования к помещениям для работы с ПК
- требования к микроклимату;
- требования к уровням шума и вибрации;
- требования к освещению на рабочем месте;
- требования к уровням электромагнитных полей;
- требования к визуальным параметрам ВДТ;
- требования к организации рабочего места;
- требования к организации медицинского обслуживания пользователей ПК;
- требования электробезопасности;
- требования пожаробезопасности.
5.2.1 Параметры микроклимата.
В соответствие с пунктом IV СанПиН 2.2.2./2.4.1340-03 в производственных
помещениях, в которых работа с использованием ПК является основной и связана с
104
нервно-эмоциональным
напряжением,
должны
обеспечиваться
оптимальные
параметры микроклимата для категории работ 1а и 1б в соответствии с
действующими
санитарно-эпидемиологическими
нормативами
микроклимата
производственных помещений (таблица 5.1). На других рабочих местах следует
поддерживать параметры микроклимата на допустимом уровне, соответствующем
требованиям и нормам микроклимата производственных помещений.
В СанПин 2.2.4.548-96 приводятся характеристики указанных выше видов
работ. К категории 1a относятся работы с интенсивностью энерготрат до 120 ккал/ч
(до 139 Вт), производимые сидя и сопровождающиеся незначительным физическим
напряжением (ряд профессий на предприятиях точного приборо- и машиностроения,
на часовом, швейном производствах, в сфере управления и т.п.). К категории 1б
относятся работы с интенсивностью энерготрат 121-150 ккал/ч (140-174 Вт),
производимые сидя, стоя или связанные с ходьбой и сопровождающиеся некоторым
физическим напряжением (ряд профессий в полиграфической промышленности, на
предприятиях связи, контролеры, мастера в различных видах производства и т.п.).
Таблица 5.1, «Нормы микроклимата для помещений с ВДТ и ПК»
Нормы микроклимата для помещений с ВДТ и ПК.
Оптимальные параметры
Допустимые параметры
температура,
град.С
относительная
влажность %
температура,
град.С
относительная влажность %
19
62
18
39
20
58
22
31
21
55
Примечание: Скорость движения воздуха - не более 0,1 м/с
В помещениях, оборудованных ПК, должна проводиться ежедневная влажная
уборка и систематическое проветривание после каждого часа работы на ПК. Уровни
положительных и отрицательных аэроионов в воздухе должны соответствовать
действующим санитарно-эпидемиологическим нормативам (таблица 5.2).
Содержание вредных химических веществ в производственных помещениях,
где работа с использованием ПК является основной, не должно превышать
105
предельно допустимых концентраций загрязняющих веществ в атмосферном
воздухе населенных мест в соответствии с действующими гигиеническими
нормативами (ГН 2.1.6.1338-03).
Таблица 5.2, «Уровни ионизации воздуха помещений при работе на ВДТ и
ПК»
Число ионов в 1 см. куб. воздуха
Уровни
n+
n-
Минимально необходимые
400
600
Оптимальные
1500-3000
3000-5000
Максимально допустимые
50000
50000
5.2.2 Требования к уровням шума и вибрации.
В соответствии с пунктом V СанПиН 2.2.2./2.4.1340-03 в производственных
помещениях
при
выполнении
основных
или
вспомогательных
работ
с
использованием ПК уровни шума на рабочих местах не должны превышать
предельно допустимых значений, установленных для данных видов работ (таблица
5.3).
Таблица 5.3. Допустимые значения уровней звукового давления в октавных
полосах частот и уровня звука, создаваемого ПК
Уровни звукового давления в октавных полосах со среднегеометрическими
частотами
31,5 Гц
63 Гц
125 Гц
250 Гц 500 Гц
1000
Гц
2000
Гц
4000
Гц
8000
Гц
86 дБ
71 дБ
61 дБ
54 дБ
45 дБ
42 дБ
40 дБ
38 дБ
49 дБ
Уровни в
дБа
50
Основным источником шума в разработанном АРМ является охлаждающий
вентилятор, использующийся для тепловой разгрузки процессора ПК. Техника, на
которой
проводилось
тестирование
разработанного
106
комплекса,
оснащена
современными охлаждающими системами, порождающими шум, не выходящий за
пределы 20 – 32 дБА, что не выходит за пределы нормы.
При выполнении работ с использованием ПК в производственных
помещениях уровень вибрации не должен превышать допустимых значений
вибрации для рабочих мест (категория 3, тип "в") в соответствии с действующими
санитарно-эпидемиологическими нормативами.
Разработанное АРМ не может размещаться в зонах воздействия вибрации по
техническим условиям эксплуатации сенсорного контроллера Kinect, поэтому
нормирование вибрации не производится.
5.2.3 Освещенность.
Правильно спроектированное и рационально выполненное освещение
рабочего помещения оказывает положительное психофизическое воздействие на
сотрудников, способствует повышению эффективности и безопасности труда.
Утомляемость органов зрения зависит от ряда причин. Недостаточность
освещения приводит к напряжению зрения, ослабляет внимание. Чрезмерно яркое
освещение вызывает ослепление, раздражение и резь в глазах. Неправильное
направление света на рабочем месте может создавать резкие тени, блики,
дезориентировать работающего. Все эти причины могут привести к несчастному
случаю или
профзаболеваниям, поэтому столь важен правильный расчет
освещенности.
Для качественной оценки условий зрительной работы используют такие
показатели, как фон, контраст объекта с фоном, коэффициент пульсации
освещенности, видимость, показатель ослепленности, спектральный состав света.
Требования к искусственному освещению изложены в разделе VI СанПиН
2.2.2./2.4.1340-03. Освещение в помещениях для эксплуатации ПК должно
осуществляться системой общего равномерного освещения.
Освещенность на поверхности стола в зоне размещения рабочего документа
должна быть 300 - 500 лк. Освещение не должно создавать бликов на поверхности
экрана. Освещенность поверхности экрана не должна быть более 300 лк.
107
Следует ограничивать прямую блесткость от источников освещения, при
этом яркость светящихся поверхностей (светильники и др.), находящихся в поле
зрения, должна быть не более 200 кд/м2.
Следует ограничивать отраженную блесткость на рабочих поверхностях
(экран, стол, клавиатура и др.) за счет правильного выбора типов светильников и
расположения рабочих мест по отношению к источникам искусственного
освещения, при этом яркость бликов на экране ПК не должна превышать 40 кд/м2 и
яркость потолка не должна превышать 200 кд/м2.
Показатель
ослепленности
для
источников
общего
искусственного
освещения в производственных помещениях должен быть не более 20.
Яркость светильников общего освещения в зоне углов излучения от 50 до 90
градусов с вертикалью в продольной и поперечной плоскостях должна составлять не
более 200 кд/м2, защитный угол светильников должен быть не менее 40 градусов.
Следует ограничивать неравномерность распределения
зрения пользователя ПК, при этом соотношение
яркости в поле
яркости между рабочими
поверхностями не должно превышать 3:1 - 5:1, а между рабочими поверхностями и
поверхностями стен и оборудования 10:1.
В качестве источников света при искусственном освещении следует
применять преимущественно люминесцентные лампы
типа ЛБ и компактные
люминесцентные лампы (КЛЛ). В светильниках местного освещения допускается
применение ламп накаливания, в том числе галогенные.
Для освещения помещений с ПК следует применять светильники с
зеркальными параболическими решетками, укомплектованными электронными
пуско-регулирующими
аппаратами
(ЭПРА).
Допускается
использование
многоламповых светильников с ЭПРА, состоящими из равного числа опережающих
и отстающих ветвей.
При отсутствии светильников с ЭПРА лампы многоламповых светильников
или рядом расположенные светильники общего освещения следует включать на
разные фазы трехфазной сети.
108
Общее освещение при использовании люминесцентных светильников
следует выполнять в виде сплошных или прерывистых линий светильников,
расположенных сбоку от рабочих мест, параллельно линии зрения пользователя
при рядном расположении видеодисплейных терминалов. При периметральном
расположении
компьютеров
линии
светильников
должны
располагаться
локализовано над рабочим столом ближе к его переднему краю, обращенному к
оператору.
5.2.4 Требования к уровням электромагнитных полей.
Согласно
современным
представлениям,
основным
механизмом
биологического действия магнитного поля являются вихревые токи, которые
индуцируются им в теле человека. При этом реакция организма имеет
неспецифический
характер,
проявляющийся
в
возникновении
изменений
функционального состояния нервной, сердечно-сосудистой, иммунной систем.
Большую часть спектра неионизирующих электромагнитных излучений
составляют радиоволны (3 Гц … 3000 Гц), меньшую часть – колебания оптического
диапазона (инфракрасное, видимое и ультрафиолетовое излучение). В зависимости
от частоты падающего электромагнитного излучения ткани организмов проявляют
различные электрические свойства и ведут себя как проводник или как диэлектрик.
Допустимые
значения
параметров
неионизирующих
электромагнитных
излучений в соответствии с разделом VII СанПиН 2.2.2./2.4.1340-03 приведены в
таблице 5.4.
109
Таблица 5.4. «Допустимые значения параметров неионизирующих
электромагнитных излучений»
Наименование параметров
Напряженность электрического
поля
ВДУ ЭМП
в диапазоне частот 5 Гц - 2 кГц
25 В/м
в диапазоне частот 2 кГц - 400 кГц
2,5 В/м
в диапазоне частот 5 Гц - 2 кГц
250 нТл
в диапазоне частот 2 кГц - 400 кГц
25 нТл
Плотность магнитного потока
Электростатический потенциал экрана видеомонитора
500 В
В составе разработанного АРМ основными источниками ЭМИ являются
монитор, системный блок и сенсорный контроллер Kinect. Это оборудование
прошло испытания в аккредитованных лабораториях и имеет соответствующие
гигиенические сертификаты электромагнитной безопасности, и поэтому не требует
применения дополнительных устройств защиты.
5.2.5 Опасность поражения электрическим током.
Вопросу электробезопасности при работе с электроприборами всегда
необходимо уделять большое внимание. При прохождении через организм
электрический ток оказывает термическое, электролитическое и биологическое
действия. Под электробезопасностью понимается система организационных и
технических мероприятий и средств, обеспечивающих защиту людей от вредного и
опасного воздействия электрического тока, электрической дуги, электромагнитного
поля и статического электричества.
Защита от поражения электрическим током обеспечивается различными
способами, в том числе:
- размещением разъемов электропитания на тыльной стороне системного
блока и монитора;
- применением надежных изоляционных материалов;
- использованием кабелей электропитания с заземляющими проводниками;
110
- использованием для электропитания клавиатуры, ручных манипуляторов, в
интерфейсных кабелях и в элементах регулировки и индикации на лицевой панели
системного блока и монитора низковольтных напряжений.
Защитное зануление - называется присоединение металлических корпусов
электрических машин, трансформаторов и других токоведущих металлических
частей электрооборудования, которые не находятся под напряжением при
нормальной работе, к многократно заземленному нулевому проводу.
Нулевым
проводом
называется
провод
сети,
соединенный
с
глухозаземленной нейтралью трансформатора или генератора или со средним
нулевым проводом сети постоянного тока.
Назначение защитного зануления - устранение опасности поражения
электрическим током при соприкосновении человека с металлическими частями
электрооборудования, оказавшимися под напряжением при замыкании фазы на
корпус или землю.
Защитное зануление является наиболее простой и в тоже время весьма
эффективной мерой защиты от поражения током при появлении напряжения на
металлических нетоковедущих частях.
Вся техника, используемая в АРМ, удовлетворяет требованиям первого
класса электробезопасности, а значит, обеспечивает надежную защиту от поражения
электрическим током для оператора. Системный блок, монитор и сенсорный
контроллер подключены к четырехпроводной сети с заземленной нейтралью сети
переменного тока напряжением 220 В и частотой 50 Гц. Нетоковедущие корпуса
монитора, системного блока и сенсорного контроллера заземлены. Все токоведущие
части скрыты под слоем изоляции либо закрыты защитными кожухами. Все
электрооборудование протестировано в аккредитованных лабораториях и имеет
соответствующие сертификаты электрической безопасности. Помещение, в котором
планируется размещать АРМ, относится к классу помещений без повышенной
опасности.
111
5.2.6 Требования
к
организации
рабочего
места
пользователей
разработанного АРМ.
При размещении рабочих мест с ПК расстояние между рабочими столами с
видеомониторами должно быть не менее 2,0 м, а расстояние между боковыми
поверхностями видеомониторов - не менее 1,2 метра.
Рабочие места с ПК для выполнения работы, требующей значительного
умственного напряжения или высокой концентрации внимания, к которым
относится разработанное АРМ, рекомендуется изолировать друг от друга
перегородками высотой 1,5 - 2,0 м.
Экран видеомонитора должен находиться от глаз пользователя на расстоянии
600 - 700 мм, но не ближе 500 мм с учетом размеров алфавитно-цифровых знаков и
символов.
Конструкция рабочего стола должна обеспечивать оптимальное размещение
на рабочей поверхности используемого оборудования с учетом его количества и
конструктивных особенностей, характера выполняемой работы. Поверхность
рабочего стола должна иметь коэффициент отражения 0,5 - 0,7.
Высота рабочей поверхности стола для взрослых пользователей должна
регулироваться в пределах 680 - 800 мм; при отсутствии такой возможности высота
рабочей поверхности стола должна составлять 725 мм. Рабочий стол должен иметь
пространство для ног высотой не менее 600 мм, шириной - не менее 500 мм,
глубиной на уровне колен – не менее 450 мм и на уровне вытянутых ног - не менее
650 мм.
Конструкция рабочего стула (кресла) должна обеспечивать поддержание
рациональной рабочей позы при работе на ПК позволять изменять позу с целью
снижения статического напряжения мышц шейно-плечевой области и спины для
предупреждения развития утомления. Тип рабочего стула (кресла) следует выбирать
с учетом роста пользователя, характера и продолжительности работы с ПК.
Рабочий стул (кресло) должен быть подъемно-поворотным, регулируемым по
высоте и углам наклона сиденья и спинки, а также расстоянию спинки от переднего
112
края сиденья, при этом регулировка каждого параметра должна быть независимой,
легко осуществляемой и иметь надежную фиксацию.
Поверхность сиденья, спинки и других элементов стула (кресла) должна быть
полумягкой, с нескользящим, слабо электризующимся и воздухопроницаемым
покрытием, обеспечивающим легкую очистку от загрязнений.
Конструкция рабочего стула должна обеспечивать:
- ширину и глубину поверхности сиденья не менее 400 мм;
- поверхность сиденья с закругленным передним краем;
- регулировку высоты поверхности сиденья в пределах 400 - 550 мм и углам
наклона вперед до 15 град, и назад до 5 град.;
- высоту опорной поверхности спинки 300 +-20 мм, ширину - не менее 380
мм и радиус кривизны горизонтальной плоскости - 400 мм;
- угол наклона спинки в вертикальной плоскости в пределах +-30 градусов;
- регулировку расстояния спинки от переднего края сиденья в пределах 260 400 мм.
5.2.7 Рабочая поза и рабочее место.
Работа в позе сидя наиболее рациональна и наименее утомительна для
оператора АРМ, так как уменьшается высота центра тяжести над площадью опоры,
повышается устойчивость тела, снижается напряжение мышц, уменьшается
нагрузка на сердечно-сосудистую систему. Однако в этом случае могут возникать
застойные явления в органах таза, затруднение работы органов кровообращения и
дыхания.
Нормальной позой «сидя» является слегка наклонное вперед положение тела
с легкими изгибом поясничной части позвоночника. Оно должно периодически
изменяться от слегка наклонного к выпрямленному и обратно. Это облегчает
кровообращение и перераспределяет нагрузку на различные мышцы. Нормальная
рабочая зона при рабочем положении «сидя» составляет по высоте 600—1200 мм, по
глубине 500 мм, по фронту 550 мм от центра сидения.
113
В соответствии с выбранной позой определяются размеры рабочего места:
поле зрения, дистанция наблюдения, углы зрения в горизонтальной и вертикальной
плоскости, зона досягаемости моторного поля, оптимальная зона моторного поля.
Рабочее
место
включает
информационное
и моторное
поля.
В
информационном поле различают три зоны. В зоне 1 (±15° от нормальной линии
взора в горизонтальной и вертикальной плоскостях) располагают очень часто
используемые СОИ, требующие точного и быстрого считывания показаний; в зоне 2
(ее внешние границы определяются углом ±30°) располагают часто используемые
СОИ, требующие менее точного и быстрого считывания; в зоне 3 (внешняя граница
соответствует углу ±60°) – редко используемые СОИ (здесь возможны движения
глаз и повороты головы).
Рис.. 5.1. Зоны зрительного наблюдения: а) – в вертикальной
б) – в горизонтальной плоскости.
В моторном поле также различают три зоны. Зона оптимальной досягаемости
ограничена дугами, описываемыми предплечьями при движении в локтевых
суставах с опорой. Зона легкой досягаемости ограничена дугами, описываемыми
расслабленными руками при движении их в плечевом суставе. Зона досягаемости
ограничена дугами, описываемыми максимально вытянутыми руками при движении
их в плечевом суставе.
Оптимальная зона - часть моторного поля рабочего места, ограниченного
дугами, описываемыми предплечьями при движении в локтевых суставах с опорой в
точке локтя и с относительно неподвижным плечом.
114
Форма пульта управления зависит от числа располагаемых на нем элементов.
Так как в данном проекте их небольшое число, то выбирается фронтальная форма.
5.2.8 Эргономические требования к дисплею.
Набор
параметров
фотометрическую
и
для
расчета
психологическую
характеристик
яркость,
дисплея
разрешающую
включает:
способность,
мелькание, контраст, уровни яркости (градации серого), размер символов, угол
наблюдения, цвет, четкость, дрожание.
Одной из основных проблем при расчете параметров является взаимовлияние
между ними. Это особенно заметно для разрешающей способности и мелькания, на
которые сильно влияет уровень коэффициента контраста и используемая яркость.
Поэтому рекомендуется начинать выбор с желаемой разрешающей способности и
соответственно
ей
выбирать
остальные
параметры.
Частота
обновления
изображения должна быть не менее 60 Гц для дисплеев на плоских дискретных
экранах (жидкокристаллических, плазменных и т.п.).
Разрешающая способность. Разрешающую способность можно выразить в
линиях сужающегося растра, т. е. с помощью определения числа линий дисплея.
Одним из наиболее важных факторов при этом является оптимальная дистанция
наблюдения
d
2 * * D * 
360 * 60 ,
(67)
где d – минимальный размер различимой детали изображения, м; D – расстояние от
экрана, м;  – угловой размер в минутах (обычно принимают 1’ или 2’).
Разрешающая способность экрана R  A d , где A – размер экрана.
Таким
образом,
экран
видеомонитора
должен
находиться
от
глаз
пользователя на оптимальном расстоянии 600-700 мм, но не ближе 500 мм с учетом
размеров алфавитно-цифровых знаков и символов (СанПиН 2.2.2./2.4.1340-03 раздел
X).
Коэффициент контраста. Оптимальные величины коэффициента контраста,
необходимые для решения задач от различения минимального точечного объекта до
115
надежной идентификации символов, находятся в диапазоне от 5 до 1. Снижение
уровня этого параметра нецелесообразно даже в тех случаях, когда получен
сравнительно высокий уровень яркости.
В соответствии с требованиями СанПиН 2.2.2./2.4.1340-03 к качеству
представляемой информации контраст для монохромных ВДТ должен быть от 3:1
до 1,5:1
Яркость. Чтобы выйти за пределы области малых величин вероятности
опознания, требуется яркость, превышающая 28 кд/м2. В целях более быстрой
адаптации глаза рекомендуется, чтобы яркость, создаваемая окружающей средой,
была не более чем в два раза больше яркости, создаваемой дисплеем. Это означает,
что глаз не должен ощущать сильных изменений в яркости по мере того, как он
движется от дисплея.
В соответствии с требованиями СанПиН 2.2.2./2.4.1340-03 к качеству
представляемой информации, неравномерность яркости элементов знаков должна
устанавливаться не более +25%, и не более +20% для яркости рабочего поля экрана.
Требования к символам. Факторами, влияющими на качество и четкость
символов, являются: число точек в матрице и отношение высоты символа к ширине
штриха. Матрицы 57 и 711 обеспечивают довольно высокую точность опознания.
Существуют различные типы шрифтов, которые можно использовать по
желанию. Кроме того, если шрифт не устраивает, то имеется возможность его
изменения с помощью стандартных программ.
Цвет. Несмотря на некоторые субъективные мнения, применение цвета
является, прежде всего, вопросом стоимости и эстетичности. Наилучшими
оказываются красный, желтый, пурпурный и белый цвета, для задач достоверного
опознания символов.
Градации серого. Градация серого является мерой диапазона яркости.
Градации серого определяют посредством коэффициента яркости, равного 1.4,
между двумя особыми уровнями яркости. Для данного типа дисплея это порядка 256
градаций.
116
Угол наблюдения. Угол наблюдения – это выраженный в градусах угол
между главной зрительной осью и линией, соединяющей центр глаза с точкой
наблюдения на поверхности экрана. Резкое снижение остроты зрения при углах
наблюдения, больших 10°, создаёт условия, неприемлемые для пользователя.
В соответствии с требованиями СанПиН 2.2.2./2.4.1340-03 к качеству
представляемой информации рекомендовано:
- угол наклона линии наблюдения установить не более 60 градусов ниже
горизонтали;
- угол наблюдения установить не более 40 градусов от нормали к любой
точке экрана дисплея;
- установить допустимую пространственную нестабильность изображения
(дрожание по амплитуде изображения) при частоте колебания в диапазоне от 0.5 до
30 Гц не более 2L*10e-4, где L -расстояние наблюдения, мм;
- установить
отображательную
способность,
зеркальное
и смешанное
отображение (блики) не более 1 %.
Тестовый дисплей для АРМ соответствует вышеуказанным нормам и имеет
соответствующие гигиенические сертификаты.
5.2.9 Требования
к
организации
медицинского
обслуживания
пользователей ПК.
Лица, работающие с ПК более 50% рабочего времени (профессионально
связанные с эксплуатацией ПК), должны проходить обязательные предварительные
при поступлении на работу и периодические медицинские осмотры в установленном
порядке.
Женщины со времени установления беременности переводятся на работы, не
связанные с использованием ПК, или для них ограничивается время работы с ПК (не
более 3-х часов за рабочую смену) при условии соблюдения гигиенических
требований,
установленных
настоящими
Санитарными
2.2.2./2.4.1340-03.
117
правилами
СанПиН
5.2.10
Пожаробезопасность.
Пожаровзрывобезопасность
производственных
помещений
и
технологического оборудования во многом определяется наличием горючих газов,
паров легковоспламеняющихся жидкостей, паров горючих жидкостей и горючих
пылей. Пожаробезопасность оборудования определяется нормами и правилами его
проектирования и соблюдением проводимых на нем технологических процессов.
Пожарная безопасность объекта обеспечивается системой предотвращения пожара,
системой
противопожарной
защиты
и
организационно-техническими
мероприятиями. Требования к указанным системам и комплекс организационнотехнических
мероприятий
определены
ГОСТ
12.1.004
предотвращения пожара и противопожарной защиты
–
85.
Системы
в совокупности должны
исключать воздействие на людей опасных факторов пожара (ОФП). Вероятность
воздействия ОФП не должна превышать нормативного значения.
Помещение, в котором тестировалось АРМ по классификации НПБ105-95
“Категорирование помещений (производств) по пожарной и взрывной опасности”
попадает в категорию “Д” – негорючие материалы в холодном состоянии. В этом
помещении не хранились легковоспламеняющиеся материалы и жидкости, поэтому
основными
факторами
возникновения
пожара
могут
быть
перегрузки
электропроводки, неисправность монитора, либо блока питания системного блока
компьютера. Однако электрическая проводка используется без перенагрузок по
потреблению электрического тока. Максимальная нагрузка на электросеть в данном
помещении составляет 3 кВт, а суммарная мощность всех электроприборов (без
освещения) составляет 1,4 кВт. Корпуса монитора и системного блока изготовлены
из негорючих материалов. Электрические схемы данных приборов имеют
предохранители, размыкающие электрические цепи в случае короткого замыкания.
Системный блок компьютера, монитор и сенсорный контроллер прошли аттестацию
на соответствие ГОСТу по уровням пожаробезопасности и имеют соответствующие
сертификаты.
118
5.3 Использование сенсора Kinect.
5.3.1 Обеспечение безопасности использования.
Для обеспечения оптимальной работы датчика желательно располагать его
на уровне глаз человека. Если это невозможно, рекомендуется диапазон высот от 0,6
до 1,8 м. Сенсор должен быть расположен на устойчивой поверхности как можно
ближе к ее переднему краю, но так, чтобы он не упал во время работы и никто не
мог его задеть. Не рекомендуется помещать сенсор Kinect на динамиках или перед
ними, а также на поверхностях, которые вибрируют или издают шум.
Устройство не должно подвергаться воздействию прямых солнечных лучей, а
также нагреву. Допустимые рабочие температуры: 5 – 35 оС. В случае если сенсор
подвергнется воздействию температур вне допустимого диапазона, его необходимо
отключить и дать ему достичь рабочей температуры, прежде чем использовать
снова.
Не рекомендуется прикасаться к объективу, поскольку отпечатки пальцев
снижают точность работы сенсора.
Изменять расположение сенсора необходимо только путем перемещения его
основания. Запрещается регулировать угол обзора сенсора вручную, наклоняя его на
основании, это может привести к повреждению сенсора.
При подключении разрешается использовать только тот комбинированный
кабель USB/питание, который поставляется с сенсором или был приобретен в
авторизованном сервисном центре.
Как и при использовании других электрических устройств, невыполнение
указанных ниже мер предосторожности может привести к серьезным травмам или
смерти от поражения электрическим током или пожара либо к повреждению
сенсора.
Если используется переменный ток, его источник должен соответствовать
указанным ниже требованиям.
1) На силовой вход сенсора должен подаваться постоянный ток со
следующими характеристиками: напряжение – 12 В, сила тока – 1,1 А.
Следует использовать только тот адаптер переменного тока, который
119
поставлялся в комплекте с сенсором или был приобретен в авторизованном
сервисном центре.
2) Необходимо
убедиться,
что
параметры
электросети
соответствуют
параметрам, указанным на блоке питания (напряжение в вольтах (В) и
частота в герцах (Гц)).
3) Не рекомендуется использовать нестандартные источники питания,
например генераторы или преобразователи, даже если обеспечиваемые ими
напряжение и частота кажутся подходящими.
4) Не рекомендуется перегружать розетку, удлинитель, разветвитель питания
или другой электрический разъем. Следует убедиться, что они рассчитаны
на работу с суммарным током (в амперах (А)), который потребляется
сенсором (указан на блоке питания) и всеми остальными устройствами,
подключенными к той же цепи.
Чтобы предотвратить повреждение USB кабеля или шнура питания,
необходимо соблюдать указанные ниже рекомендации.
1) Желательно оберегать кабель и шнур питания от защемлений, резких
сгибов, особенно в местах подключения к розетке и сенсору.
2) Необходимо располагать блок питания так, чтобы на него нельзя было
наступить.
3) Не следует дергать, запутывать или перегибать провода.
4) Не рекомендуется подвергать провода воздействию источников тепла.
5) Отключая блок питания, тянуть следует только за штепсель.
Если блок питания поврежден, необходимо немедленно прекратить его
использование.
Сенсор следует чистить
только снаружи и только сухой тканью.
Запрещается использование абразивных губок, моющих средств, чистящих
порошков, растворителей и других жидких или аэрозольных чистящих средств. Не
рекомендуется использовать сжатый воздух и чистить разъемы. Поверхность, на
которой размещен сенсор, также должна оставаться сухой.
120
Данных продукт должен использоваться исключительно в сочетании с ИТоборудованием, соответствующим требованиям Национальной испытательной
лаборатории (лаборатории UL, CSA, ETL и т.д.) и стандартам IEC/EN 60950-1
(имеющим маркировку CE).
5.3.2 Нормирование инфракрасного излучения.
Инфракрасное (тепловое) излучение (ИК) излучается любым нагретым
телом, температура которого превышает значение абсолютного нуля. Его диапазон
простирается от 0,75 мкм до 1000 мкм. Нагретые тела, имеющие температуру выше
100 oС являются источниками коротковолнового излучения (0,7 –0,9 мкм). С
уменьшением температуры нагретого тела от 100 до 50 oС ИК-излучение
характеризуется в основном длинноволновым спектром.
Воздействие интенсивного коротковолнового ИК-излучения (с длинной
волны менее 1,5 мкм) на открытые участки тела человека проявляется в виде ожога
кожи, расширения просвета капилляров и увеличения пигментации кожи.
Результатом воздействия его на глаза может явиться ожог кожи век (эритема и
образование пузырей). Повторное воздействие ИК-излучения на глаза может
привести к хроническому воспалению век, помутнению хрусталика, спазму зрачка,
ожогу сетчатки и др.
Опасность облучения ИК-лучами оценивается по величине интенсивности
или плотности потока энергии (Е, Вт/м2), которая не должна превышать значений,
приведенных в таблице 5.5.
Таблица 5.5. Предельно допустимые значения интенсивности инфракрасного
облучения персонала (СанПиН 2.2.4.548-96)
Облучаемая поверхность тела, %
Епд, Вт/м2
50 и более
35
50 … 25
70
не более 25
100
121
Кроме допустимых значений плотности потока энергии, ограничивается
также и температура нагретых поверхностей. Если температура источника (t ист)
тепла не превышает 100 оС, то поверхность оборудования должна иметь
температуру (tпд), не превышающую 35 оС, а при tист > 100 оС –– tпд должна быть
менее 45 оС.
Наиболее распространенными средствами защиты от ИК-излучения являются
оградительные устройства, то есть конструкции, отражающие или поглощающие
ИК-излучения. Конструктивно экраны могут выполняться из одной или нескольких
параллельно размещенных с зазором пластин. Охлаждение пластин может
осуществляться естественным или принудительным способом.
В качестве средств индивидуальной защиты применяются фибровые и
дюралевые каски, защитные очки, наголовные маски с откидными экранами и др.
Лечебно-профилактические мероприятия включают предварительные и
периодические
медицинские
осмотры
в
целях
предупреждения
и
ранней
диагностики заболеваний у рабочих.
Источником ИК-излучения в данном случае является периферийное
устройство – сенсор Kinect. Он имеет встроенный ИК-эмиттер в виде лазерного
диода с длинной волны 0,827 мкм и классом безопасности 1. К такому классу
относят лазеры и лазерные системы очень малой мощности, не способные создавать
опасный для человеческого глаза уровень облучения. Излучение систем класса 1 не
представляет никакой опасности даже при долговременном прямом наблюдении
глазом. Во многих странах к этому классу относятся также лазерные устройства с
лазером большей мощности, имеющие надежную защиту от выхода луча за пределы
корпуса. Важно понимать, что некоторые лазеры класса 1
могут представлять
опасность, если смотреть в телескоп или микроскоп с достаточно большой
апертурой.
5.3.3 Утилизация.
Сенсор Kinect нельзя выбрасывать вместе с бытовыми отходами. Вместо
этого его необходимо сдать в соответствующий пункт сбора электрического и
электронного оборудования и утилизации. Система раздельного сбора и утилизации
122
отходов
способствует
сохранению
природных
ресурсов
и
предотвращает
потенциально негативные последствия для здоровья людей и окружающей среды,
которые может вызвать неправильная утилизация, так как в электрическом и
электронном оборудовании могут присутствовать опасные вещества.
5.4 Расчет системы искусственного освещения.
5.4.1 Расчет искусственного освещения рабочего места оператора.
Для расчета искусственного освещения при равномерном размещении
светильников общего освещения и горизонтальной рабочей поверхности можно
использовать метод коэффициента использования светового потока. При этом
методе учитывается как световой поток источников света, так и световой поток,
отраженный от стен, потолка и других поверхностей помещения.
Расчет ведется по формуле
ФОСВ 
zEH SK З

,
(68)
где ФОСВ – общий световой поток всех светильников, лм; z – коэффициент,
учитывающий отношение средней освещенности к минимальной z  1,1; EН –
нормированная освещенность, лк; S – площадь помещения, м2; КЗ – коэффициент
запаса; η – коэффициент использования светового потока.
Коэффициент
использования
светового
потока
определяется
по
светотехническим таблицам. Он зависит от КПД и кривой распределения силы света
светильника, коэффициентов отражения потолка, пола и стен, высоты подвеса
светильника над рабочей поверхностью и конфигурации помещения, которая
определяется индексом помещения
i
ab
hp ( a  b)
,
(69)
где a и b – ширина и длина помещения, м; hp – высота подвеса светильника над
рабочей поверхностью, м.
Подсчитав индекс помещения, выбрав тип светильников и оценив
коэффициенты
отражения
потолка, стен
и
123
пола, можно найти
значение
коэффициента использования светового потока. После этого можно подсчитать
необходимый световой поток одного светильника (при лампах накаливания) или
одного ряда светильников (при люминесцентных лампах). По требуемому световому
потоку подбирается ближайшая стандартная лампа и определяется ее мощность.
Проведем расчет и определим тип и мощность используемых ламп для
помещения со следующими параметрами:
Ширина a = 5 м;
Длина b = 7 м;
Высота потолков
h = 2,5 м;
Высота стола hС = 0,8 м;
Высота подвеса hр = h – hС = 2,2 м.
Этапы расчета:
1) Вычислим индекс помещения (формула (69)):
𝑖=
5∙7
= 1,3
2,2 ∙ (5 + 7)
2) Число светильников N определим исходя из того, что будет установлено
три ряда светильников по два светильника в ряду:
N  3  2  6 (шт).
3) Принимаем 𝜌п =50%, 𝜌с =30%. Определим коэффициент использования
светового потока по таблицам, приводимым в СНиП 23-05-95, как   0,4.
4) Определим общий необходимый световой поток, воспользовавшись
формулой (1.1) при следующих условиях:
 коэффициент неравномерности освещения для люминесцентных ламп z
= 1,1;
 нормированная минимально-допустимая освещенность для общего
освещения равна EН = 300 лк;
 площадь помещения 𝑆 = 𝑎 ∙ 𝑏 = 5 ∙ 7 = 35 м2;
 коэффициент запаса согласно рекомендуемым в нормативах СанПиН
2.2.2/2.4.1340-03 – KЗ = 1,4.
124
Фосв =
1,1∙300∙35∙1,4
0,4
= 40425 (Лм).
1) Определим световой поток, приходящийся на один светильник:
ФСВ =
ФОСВ
𝑁
= 6737,5 (Лм).
2) Определим световой поток, приходящийся на одну лампу (в применяемых
светильниках используется две лампы):
ФЛ =
ФСВ
2
= 3368,75 (Лм).
Тип лампы определяется по таблице 1.7. Для значения светового потока ФЛ =
3368,75 лм подходит два типа ламп:
 ЛДЦ, 80 Вт, 3560 Лм.
 ЛД, 65 Вт, 3575 Лм.
С точки зрения минимизации расхода электроэнергии, выберем второй
вариант, т.к. он более экономичный. Суммарный выигрыш в мощности ламп на
указанное помещение составит:
  80  65  6  2  180 (Вт).
Потребная мощность всей осветительной установки (6 двухламповых
светильников):
P  P  N  65  12  780 (Вт),
где P – мощность одной лампы.
Приведенный расчет показал, что практическое значение светового потока
больше теоретического на 206,25 Лм (6,12%).
Таблица 5.6. Световой поток наиболее распространенных люминесцентных
ламп напряжением 220 В
Тип
лампы
Световой поток, лм, при мощности, Вт
15
20
30
40
65
80
ЛДЦ
500
820
1450
2100
3050
3560
ЛД
540
920
1640
2340
3575
4070
ЛХБ
675
935
1720
2600
3820
4440
ЛБ
760
1180
2100
3000
4550
5220
125
5.4.2 Утилизация люминесцентных ламп.
Все люминесцентные лампы содержат ртуть (в дозах от 1 до 70 мг), ядовитое
вещество 1-го класса опасности. Эта доза может причинить вред здоровью, если
лампа разбилась, и если постоянно подвергаться пагубному воздействию паров
ртути, то они будут накапливаться в организме человека, нанося вред здоровью.
Такие лампы нельзя выкидывать в мусоропровод или уличные контейнеры.
Существуют различные фирмы, специализирующиеся на утилизации ламп.
Юридические лица, а также индивидуальные предприниматели обязаны сдавать
лампы на переработку и разрабатывать паспорт опасного отхода. Кроме того в ряде
городов существуют полигоны по утилизации токсичных отходов, принимающие
отходы от частных лиц бесплатно. В Москве перегоревшие люминесцентные лампы
бесплатно принимаются для дальнейшей переработки в районных отделениях ЖЭК,
ДЭЗ или РЭУ, где установлены специальные контейнеры.
Процесс утилизации ламп на специализированном предприятии выглядит
следующим образом. Лампы транспортируются на мусоросжигательный завод в
специальных контейнерах плотно прижатыми, чтобы избежать разбивания и
накрытые брезентом для избегания намокания. Обезвреживание ламп происходит в
вибро-механической установке. Устройство дробит их на мелкие кусочки и делит на
три фракции: алюминиевые цоколи, стекло и опасное ртутьсодержащее вещество
(люменофор). Люменофор отделяется от стекла благодаря интенсивному трению
осколков лампы друг о друга. Далее аппарат распределяет составляющие
люминесцентных ламп по разным емкостям. После чего металл отправляют на
заводы по переплавке, а люменофор, содержащий ртуть, транспортируют в
герметичных бочках на переработку. Битое стекло хоронят на полигонах твердых
бытовых отходов.
5.5 Выводы.
Безопасность профессиональной деятельности во многом зависит от условий
труда, определяемых характером трудового процесса и трудовой обстановкой.
Своевременный учет всех вредных факторов, а также мероприятия защиты от них
126
помогают избежать
угрозы
жизни и
здоровью рабочих, наладить более
эффективную трудовую деятельность.
В данном дипломном проекте был проведен анализ всех вредных факторов,
воздействующих на оператора разработанного АРМ. В результате был определен
самый опасный фактор – нагрузка на зрительную систему человека, и проведен
расчет оптимальной осветительной установки. Полученная система освещения
состоит из 6-ти двухламповых светильников общей потребляемой мощностью 780
Ватт.
По результатам проведенного комплексного анализа и расчетов можно
утверждать, что разработанное АРМ соответствует всем необходимым для
обеспечения безопасности трудовой деятельности нормам.
127
ЗАКЛЮЧЕНИЕ
В
рамках
данного
дипломного
проекта
разработано
АРМ
специализированной системы компьютерного зрения. Оно позволяет существенно
упростить работу инженеров-разработчиков на подготовительном этапе при
решении сложных задач технического зрения.
Разработана и реализована структура АРМ, в состав которого входит
мультикамера Kinect. Она позволяет получать карту глубины обозреваемой сцены, а
также цветное видео сцены и видео сцены в инфракрасном излучении в режиме
реального времени. Для повышения качества стереовосстановления, производимого
мультикамерой, разработан специальный модуль и произведены мероприятия по
ускорению его работы.
АРМ предназначено для инженеров, занимающихся решением сложных
задач компьютерного зрения, а также будет интересно научным сотрудникам,
аспирантам
и
студентам,
которые
изучают
дисциплины,
связанные
с
робототехникой.
АРМ предоставляет пользователям возможность динамически получать
описания обозреваемой сцены в 3D, отслеживать положение объектов в
пространстве, замерять расстояния до участков сцены, получать ее картинку в
отсутствии
достаточной
для обычной
камеры освещенности, сопоставлять
изображения и анализировать коррозийные дефекты на поверхности материалов.
128
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1.
Demuynck, O. Edge based 3D object localization for fast and precise
industrial machine vision applications / O. Demuynck, C. Pacheco Cedeño, A. L. Moore //
International journal of systems applications, engineering & development.- 2009.- Issue 2,
Volume 3.- С. 46 – 52.
2.
Canny, J. A Computational approach to edge detection / J. Canny // IEEE
Trans. Pattern Analysis and Machine Intelligence.- 1986.- 8(6).- С. 679 – 698.
3.
Trimble 3D Warehouse [электронный ресурс] / Trimble Navigation Limited
- Portions ©2013 Google – Режим доступа: http://sketchup.google.com/3dwarehouse/ –
Загл. с экрана.
4.
Kinect sensor device [электронный ресурс] / Wikipedia, the free
encyclopedia. –The Wikimedia Foundation, Inc., a non-profit organization– Режим
доступа: http://en.wikipedia.org/wiki/Kinect – Загл. с экрана.
5.
Prasad, M. Class-specific 3D localization using constellations of object parts /
M. Prasad, J. Knopp, L. Van Gool // BMVC 2011. The 22nd British Machine Vision
Conference.- 2011.- С. 34.1 – 34.11.
6.
Felzenszwalb, P. Pictorial structures for object recognition / P. Felzenszwalb
and D. Huttenlocher // IJCV, 61(1).- 2005.- С. 55 – 79.
7.
Kolmogorov, V. Convergent tree-reweighted message passing for energy
minimization. / V. Kolmogorov // IEEE PAMI, 28(10).- 2006.- С. 1568 – 1583.
8.
Villamizar, M. Efficient 3D Object Detection using Multiple Pose-Specific
Classifiers / M. Villamizar, H. Grabner, F. Moreno-Noguer, J. Andrade-Cetto, L. Van
Gool, A. Sanfeliu // BMVC 2011. The 22nd British Machine Vision Conference.- 2011.- С.
20.1 – 20.10.
9.
Ozuysal, M. Fast keypoint recognition in ten lines of code / M. Ozuysal, P.
Fua, and V. Lepetit // Computer Vision and Pattern Recognition, CVPR’07.- 2007.- С. 1 –
8.
10. Suau, X. Real-time head and hand tracking based on 2.5D data / X. Suau, J.
Ruiz-Hidalgo, J. R. Casas // IEEE transactions on multimedia, vol. 14, no. 3.- 2012.- C.
575 – 585.
129
11. Camplani, M. and Salgado, L. Efficient Spatio-Temporal Hole Filling
Strategy for Kinect Depth Maps / M. Camplani, L. Salgado // Three-Dimensional Image
Processing (3DIP) and Applications II. Proceedings of the SPIE, Volume 8290, pp.
82900E-82900E-10 (2012).
12. Parker, Radford Kinect Depth Inpainting and Filtering/ R. Parker // ESPN
Technology Innovation, 2009.
13. Аффинные преобразования [электронный ресурс] / Wikipedia, the free
encyclopedia. –The Wikimedia Foundation, Inc., a non-profit organization– Режим
доступа: http://ru.wikibooks.org/wiki/Аффинные_преобразования– Загл. с экрана.
14. Шапиро Л. Компьютерное зрение / Л. Шапиро, Дж. Стокман // Пер. с
англ. – М.: БИНОМ. Лаборатория знаний, 2006. – 752 с.
15. Гаганов В. Инвариантные алгоритмы сопоставления точечных
особенностей на изображениях [электронный ресурс] / Гаганов В. // Компьютерная
Графика и Мультимедиа Сетевой Журнал – Выпуск №7(1)/2009. – Режим доступа:
http://cgm.computergraphics.ru/issues/issue17/invariant_features– Загл. с экрана.
16. Collins R. Harris Corner Detector / Penn State University, Department of
Computer Science and Engineering; lecture 06, 27 p.
17. Harris Corner Detector [электронный ресурс] / OpenCV 2.4.5.0
documentation. OpenCV Tutorials. – Apr 05, 2013. – Режим доступа:
http://docs.opencv.org/doc/tutorials/features2d/trackingmotion/harris_detector/harris_dete
ctor.html#theory– Загл. с экрана.
18. Обнаружение устойчивых признаков изображения: метод SURF
[электронный ресурс] / Информационный ресурс «Хабрахабр» – сентябрь, 2010. –
Режим доступа: http://habrahabr.ru/post/103107/– Загл. с экрана.
19. Конушин A. Устойчивые алгоритмы оценки параметров модели на
основе случайных выборок [электронный ресурс] / Конушин A. // Компьютерная
Графика и Мультимедиа Сетевой Журнал. – Режим доступа:
http://cgm.computergraphics.ru/content/view/47– Загл. с экрана.
20. Конушин А. Слежение за точечными особенностями сцены (Point feature
tracking) [электронный ресурс] / Конушин A. // Компьютерная Графика и
130
Мультимедиа Сетевой Журнал. – Выпуск №1(5)/2003. – Режим доступа:
http://cgm.computergraphics.ru/content/view/54#1– Загл. с экрана.
21. Питтинговая коррозия [электронный ресурс] / Все о коррозии. – Режим
доступа: http://www.okorrozii.com/pitting.html– Загл. с экрана.
22. Kinect for Windows Sensor [электронный ресурс] / Microsoft Developer
Network. – Режим доступа: http://msdn.microsoft.com/en-us/library/hh855355.aspx –
Загл. с экрана.
23. The Accord.NET Framework [электронный ресурс] / Google Code. –
Режим доступа: https://code.google.com/p/accord/– Загл. с экрана.
24. Bradski G. Learning OpenCv / Gary Bradski, Adrian Kaehler // O’Relly
Media, Inc., 2008 – 571p.
25. OpenCV wrapper for .NET Framework [электронный ресурс] / Google
Code. – Режим доступа: https://code.google.com/p/opencvsharp/– Загл. с экрана.
26. Matsuo T. Weighted Joint Bilateral Filter with Slope Depth Compensation
Filter for Depth Map Refinment / Takuya Matsuo, Norishige Fukushima, Yutaka Ishibashi
// International Conference on Computer Vision Theory and Application, 2013 – 10 p.
27. Camera Calibration and 3D Reconstruction [электронный ресурс] /
OpenCV 2.4.5.0 documentation. OpenCV Tutorials. – Apr 05, 2013. – Режим доступа:
http://docs.opencv.org/modules/calib3d/doc/camera_calibration_and_3d_reconstruction.ht
ml?highlight=findhomography#findhomography– Загл. с экрана.
28. Floyd–Steinberg dithering [электронный ресурс] / Wikipedia, the free
encyclopedia. –The Wikimedia Foundation, Inc., a non-profit organization– Режим
доступа: http://en.wikipedia.org/wiki/Floyd%E2%80%93Steinberg_dithering– Загл. с
экрана.
29. Иванова Н.Ю., Савченко Н.Н. Организация и планирование проведения
НИОКР. Методические указания по разработке организационно-экономической
части дипломных проектов исследовательского и конструкторского профиля. /
Кафедра «Экономика и организация производства», МГТУ им. Н.Э. Баумана, 2008 –
18с.
131
30. СанПиН 2.2.2/2.4.1340-03 – "Гигиенические требования к персональным
электронно-вычислительным машинам и организации работы".
31. ГОСТ 12.1.004-91 – «Система стандартов безопасности труда.
Пожарная безопасность. Общие требования».
32. ГОСТ 25861-83 – «Машины вычислительные и системы обработки
данных. Требования по электрической и механической безопасности и методы
испытаний».
33. ГОСТ Р МЭК 60950-2002 – «Безопасность оборудования
информационных технологий».
132
Download