Сидорова В.

advertisement
178
АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ ИЗОБРАЖЕНИЙ ПО
ТЕКСТУРНЫМ ПРИЗНАКАМ 1
Сидорова В.С.2
2
Институт Вычислительной Математики и Математической Геофизики СО РАН,
просп. Лаврентьева, 6, Новосибирск, 630090, Россия
svs@ooi.sscc.ru
Предлагается
метод
автоматической
классификации
аэрокосмических
изображений по статистическим текстурным признакам. В основе быстрый
непараметрический гистограммный кластерный алгоритм с применением оценки
качества полученных распределений для данных, представленных с различной
детальностью. Осуществляется автоматический выбор окна по расчету
текстурных признаков. Для изображений леса на аэроснимках экспериментально
показано, что кластеры лучших распределений соответствуют типам и
возрастным фазам леса.
Введение
В
задачах
неконтролируемой
классификации данных дистанционного
зондирования
автоматизация
осуществляется кластерными алгоритмами.
Алгоритмы кластерного анализа не
обеспечивают хорошую изолированность
кластеров в пространстве признаков.
Поэтому необходим последующий анализ
качества.
Это
вопрос
кластерной
достоверности.
Обзор
кластерных
алгоритмов и связанных с ними методов
оценки качества классификации дается в
[1]. Однако
обзор не касается
гистограммных
методов,
широко
используемых для данных дистанционного
зондирования. В [2] предложена мера для
оценки изолированности унимодальных
кластеров,
полученных
известным
гистограммным
алгоритмом
[3].
Автоматический
выбор
детальности
данных, обеспечивающей лучшее качество
классификации по данной мере, позволяет
выделить
наиболее
существенные
кластеры. Применение этого подхода к
многоспектральным спутниковым данным
показало, что лучшие распределения
соответствуют информационным классам
покрытия земной поверхности [2]. В
данной работе
рассматривается
приложение
этого
алгоритма
для
классификации
аэрокосмических
изображений по текстурным признакам.
Эти признаки являются локальными
характеристиками, а не точечными в
отличие от спектральных, поэтому есть
некоторые особенности классификации.
Алгоритм применяется для классификации
леса по изображению на аэроснимках.
Текстура изображения леса на снимках
определенного масштаба отражает его
внутреннюю структуру. Она является
важнейшей характеристикой для лесоводов
даже при проведении наземной таксации.
Выборочная рубка леса для определения
возраста
по
годовым
кольцам
осуществляется в весьма небольшой части
заранее выбранных областей. Эти области
определяются специалистом по визуальным
свойствам
аэроснимков.
Текстурных
свойств черно-белых изображений обычно
бывает достаточно, чтобы различить тип
леса, его возраст, и зависящие от них
другие характеристики: состав пород,
расстояние между деревьями, высоту
деревьев, запас древесины.
Лес различных типов, отличающихся по
породам,
может
составить
хорошо
различимые кластеры при классификации
изображения. Лесоводы установили, что
существуют качественно различные фазы
179
развития леса одного типа. Можно
предположить, что для определенного
уровня детальности данных, кластеры по
текстурным
признакам
изображения
наиболее изолированы и соответствуют
фазам развития. Экспериментальная часть
задачи состоит в том, чтобы показать, что
есть соответствие между кластерами
лучших
распределений
текстурных
признаков и информационными классами
покрытия, которыми являются возрастные
фазы леса.
 f (k ) 
g (k )  entier 
, k  1,..., L .
 kf 
Новые вектора g(k) классифицируются.
Получается ряд распределений векторов
для различных значений N. По мере
качества[4]
определяются
лучшие
распределения ряда. Мера качества для
отдельного унимодального кластера M j ( N )
(1), и мера качества распределения в целом
M ( N ) (2) - это среднее значение по K ( N )
кластерам:
Алгоритм классификации
В
основе
классификации
быстрый
непараметрический алгоритм разделения
векторного пространства по унимодальным
кластерам,
которые
соответствуют
локальным максимумам гистограммы [3].
Для
каждого
вектора
строится
элементарный граф по направлению
положительного
градиента
плотности
вероятности в списке соседей. Вектора
связываются в деревья с помощью
элементарных
графов.
Когда
граф
достигает локального максимума, то вся
цепочка векторов относится к тому же
кластеру, что и максимум. Границы
кластеров
соответствуют
долинам
гистограммы. Трассирование элементарных
графов
обеспечивает
линейную
зависимость количества операций от числа
векторов.
При
построении
графов
вычисления производятся со скалярными
значениями гистограммы. Многомерные
векторы хранятся в виде упорядоченного
списка, поэтому гистограмма не занимает
лишней памяти. Доступ к списку
осуществляется с помощью хэш-функций.
Благодаря упорядочению векторов, поиск
соседей
также является быстрой
процедурой.
Алгоритм используется многократно для
различного числа уровней квантования N
векторного
пространства.
Пусть
их
начальное число N0=256, N<N0. Размер
ячейки
для
произвольного
уровня
квантования kf=(N0-1)/(N-1). L – число
признаков, f=[f(1),f(2),…,f(L)] – вектор
признаков, g=[g(1),g(2),…,g(L)] – вектор, в
который преобразуется f в результате
квантования:
j
M j (N ) 
B (N)
1
 hi j ( N ),
j
j
B ( N ) * H ( N ) i 1
M (N ) 
1 K(N) j
 M (N ) ,
K ( N ) j 1
(1)
(2)
где hi j (N ) значение гистограммы в i-той
точке границы кластера j, B j (N ) число
точек
границы
кластера,
H j (N )
максимальное значение гистограммы.
Чем меньше M j ( N ) и M ( N ) , тем лучше
кластер и классификация соответственно.
Имея список соседей каждого вектора,
легко определить граничные векторы
кластера.
Можно
показать
для
унимодального кластера: чем меньше
отношение (1), тем меньше доля граничной
части кластера от его полного объема.
Особенности классификации по
текстурным признакам
Статистические
текстурные
признаки
вычисляются по окрестности точки и
составляют многомерный вектор. Пусть
окрестностью будет квадратное окно
одного
размера
для
всех
точек
изображения,
его
определим
автоматически. Чем меньше размер окна,
тем точнее определятся границы кластеров
на изображении. Но значение текстурного
признака стабилизируется для каждой
текстуры только с определенного размера
окна. Начиная с некоторого небольшого
размера,
будем
постепенно
его
увеличивать. Для каждого найдем лучшую
классификацию и соответствующее число
кластеров.
Предположим,
что
по
достижении определенного размера окна не
180
только признаки стабилизируются для всех
внутренних точек текстурных объектов, но
и перестанет меняться число кластеров.
Признаки
граничных
точек
могут
измениться, но мало повлияют на
образование кластеров, если учесть, что
выбираются классификации с хорошо
изолированными кластерами. Как только
число кластеров перестанет меняться,
выберем лучшую
классификацию с
меньшим размером окна.
Другой
особенностью
классификации
текстур является то, что сегменты
полученных кластеров на изображении не
могут быть
уже этого окна по
определению. В плоскости изображения на
границах объектов с разной текстурой
возможно появление ложных кластеров. Их
можно объединить с соседними при
построении
кластерной
карты.
Для
автоматической
индикации
ложных
кластеров возьмем отношение числа
граничных точек на изображении каждого
кластера к его площади и сравним с
заданным порогом. В качестве порога
примем это отношение для размеров окна.
Если отношение будет больше порога, то
кластер ложный. Найдем два его наиболее
представительных соседа по изображению
P1 и P2. Из них для присоединения
выберем тот, который менее изолирован от
ложного
кластера
в
пространстве
признаков. Пусть j - ложный кластер,
подсчитаем отдельно вклад в M j ( N ) точек
границы, соседних с P1 и с P2, и выберем
тот, для которого значение M j ( N ) больше.
полученного
двумерного
вектора
нормируется в пределах 0:255. Чтобы
признаки
были
инвариантными
по
направлению, вычисляются их средние
значения по четырем значениям  .
Пример
На рис.1 аэроснимок лесного ландшафта
Западной Сибири масштаба 1:25000.
Размер электронной версии изображения
1300*800, разрешение: 2.5м/пиксель. На
изображении присутствуют насаждения
кедровников всех шести фаз развития. Лес
данного типа представляет собой березовокедровое сообщество. Возобновляясь на
гарях, этот тип проходит определенный
путь развития, на ранних стадиях
преобладает береза, затем ее вытесняет
кедр. При данном разрешении текстуру
леса составляют чередующиеся светлые
группы берез (осенняя съемка) и темные
группы кедра.
Текстурные признаки
Используется
вектор
статистики
r ,
Харалика[4] P ( N ) , i-ая
компонента
которого является вероятностью того, что
модуль разности уровней серого тона в
паре
соседних
точек,
разделенных
векторным расстоянием r ,   , равен i. N –
число
уровней
серого
тона.
Рассматривались признаки MEAN, CON,
ENT и ASM для r=1 в комбинации
с
признаком
средний
тон
TONE.
Изображение предварительно эквализуется
[4]. Вектор признаков вычисляется для
каждой точки изображения по выбранному
окну пикселей. Каждая компонента
Рис. 1. Изображение лесного ландшафта
На изображении есть также сосновые
насаждения (все в пятой фазе), близкие по
текстуре
кедровникам.
На
рис.2
представлена карта участка, построенная
лесоводами с помощью наземной таксации.
Классификация проводилась для различных
сочетаний указанных признаков, включая
всегда средний тон TONE. Эквализация
сократила число уровней серого тона до 30.
181
Наименьшие значения меры (2) получены
для двух пар признаков. Хотя минимум
меры(2) меньше для пары CON и TONE,
число уровней квантования для пары
MEAN и TONE оказалось больше, эти
признаки позволили различить сосновые и
кедровые насаждения и
все фазы
кедровых.
Лучшее
распределение
соответствует 78 уровням квантования.
Размер окна для сбора статистики получен
18*18 пикселей. Таблица 1 иллюстрирует
поведение
числа
кластеров
лучших
распределений для выбора размера окна.
Значение
меры
(2)
M(78)=0.33.
Предварительное число кластеров K=50.
После обработки ложных
осталось 36
кластеров, из них двенадцать соответствует
лесу.
Таблица 1. Лучшие распределения
Размер
окна
N –число
уровней
Число
кластеров
M (N )
12*12
77
54
.339
14*14
80
48
.335
16*16
78
49
.332
18*18
78
50
.330
20*20
78
50
.348
Рис. 2. Картосхема для выбранного участка.
Большие цифры на карте - номера фаз кедровников,
6 – чередование участков кедровников шестой фазы
и сосняков, С – сосняки, светло-серый оттенок
относятся к луговой пойме реки и болотам
Кластерная карта представлена на рис.3. В
основном классификация соответствует
данным наземной таксации. Каждый
информационный
класс
по
лесу
соответствует одному, двум полученным
кластерам.
Выводы
Гистограммная классификация с
использованием оценки изолированности
кластеров
позволила автоматически получить лучшее
в смысле выбранной меры распределение
текстурных признаков для изображения
кедровников
на
аэроснимках.
Это
кластерное распределение оказалось в
соответствии с делением кедровников по
фазам развития, что соответствует точности
наземной таксации. Полученный результат
означает, что автоматически по чернобелым аэроснимкам удалось различить
березовый лиственный лес, смешанный лес
с разным соотношением хвойных и
лиственных пород (4 и 5 фазы), хвойный
лес и даже отличить сосновые насаждения
от кедровых.
Рис. 3. Кластерная карта
182
Литература
1.
2.
3.
4.
Halkidi M., Batistakis Y. and Vazirgiannis M. On
clustering validation techniques // Journal of Intelligent Information Systems. - 2001. - No.17 (2-3). P. 107.
В.С. Сидорова. Оценка качества классификации
многоспектральных
изображений
гистограммным методом // Автометрия. – 2007.
- Том 43, №1. - C. 37-43.
P.M.Narendra and M.Goldberg, A non-parametric
clustering scheme for LANDSAT // Pattern
Recognition. - 1977. –No. 9. – P. 207-215.
R.M. Haralick, K. Shanmugam, I. Dinstein. Textural
Features for Image Classification // IEEE Trans. Syst.
Man. Cybern. – 1973. - Vol. SMS-3. - P. 610 – 621.
Download