ismail_printsipi_i_kriterii_otsenki_kachestva_dannih_dzz_docx

advertisement
Исмаил Е.Е.
ДТОО «Институт космической техники и технологий», г. Алматы, Казахстан,
ismaile@rambler.ru
ПРИНЦИПЫ И КРИТЕРИИ ОЦЕНКИ КАЧЕСТВА ДАННЫХ
ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ЗЕМЛИ
Ключевые слова: качество данных ДЗЗ, оценка соответствия, принципы, критерии,
процедуры
В настоящее время применение технологий дистанционного зондирования Земли
(ДЗЗ) в управленческой, научной и хозяйственной деятельности достигло такого уровня,
что потребителей не удовлетворяют простые изображения объектов земной поверхности,
в большинстве случаев носящих демонстрационный характер, при котором вопросы
поддержания стабильного качества продуктов обработки данных, воспроизводимости и
сходимости результатов наблюдения просто не ставятся. В последние годы одним из
основных требований, предъявляемых к данным ДЗЗ, является повышение
потребительских свойств конечной информационной продукции ДЗЗ.
Для эффективного применения данных ДЗЗ в различных сферах, необходимо,
чтобы космические снимки и технологии их обработки обладали определенными
свойствами и характеристиками, которые характеризуют качество данных и степень
применимости их для решения конкретных целевых задач.
В соответствии с международной практикой в области обеспечения качества любой
поставщик продукции ДЗЗ и услуг на их основе должен подтвердить соответствие и
обеспечить конечный продукт необходимыми сертификационными документами по
основным параметрам их качества.
1. Постановка задачи оценки соответствия данных ДЗЗ
Согласно определению международного стандарта ISO/IEC 17000, процесс
доказательства того, что заданные требования к продукции, процессу, системе, лицу или
органу выполнены, называется оценкой соответствия (conformity assessment) [1].
Целью оценки соответствия является проверка объектов (продукции ДЗЗ) на
наличие определенных характеристик (показателей качества), установление их
соответствия предъявляемым требованиям и подтверждение возможности использования
этого объекта в соответствии с целевым назначением.
Область оценки соответствия:
- данные ДЗЗ различного уровня обработки, услуги по применению данных ДЗЗ;
- процессы получения, обработки и представления данных;
- технологии, приборы, оборудование, аппаратно-программные комплексы,
программные средства приема, обработки, интерпретации, визуализации и хранения
данных ДЗЗ;
- система менеджмента;
- квалификация персонала, участвующего в реализации процессов получения,
обработки и представления данных ДЗЗ.
Основные показатели качества данных ДЗЗ:
 пространственное разрешение;
 радиометрическое разрешение;
 спектральное разрешение;
 точность координатной (географической) привязки;
- полнота данных;
- временная точность;
- тематическая точность;
- согласованность данных.
2. Принципы описания качества данных дистанционного зондирования Земли
В соответствии с принятой в международном стандарте ISO 19113 концепцией
оценки качества данных, описание и оценка качества данных может осуществляться на
основе уникальных количественных и неколичественных компонентов (рис.1).
Количественные компоненты информации о качестве набора данных описываются
с использованием следующих понятий:
- элемент качества данных;
- подэлементы качества данных;
- дескрипторы подэлементов качества данных.
Под элементом качества данных понимается количественный компонент,
определяющий качество набора данных.
Рисунок 1 - Компоненты информации о качестве данных ДЗЗ
Для описания количественных компонентов качества набора данных (применительно
к данным ДЗЗ) могут быть использованы следующие элементы качества [2].
а) полнота данных ДЗЗ - необходимая достаточность данных об объектах, их
атрибутах и отношениях и отсутствие избыточности;
б) согласованность данных ДЗЗ - степень соответствия логических правил
структуры данных, координатных и атрибутивных данных области допустимых значений,
корректность топологических характеристик, форматов представления данных;
в) позиционную точность данных ДЗЗ - точность положения объектов;
г) временную точность данных ДЗЗ - точность временных атрибутов и временных
отношений объектов;
д) тематическую точность данных ДЗЗ - степень соответствия классификации
объектов, их количественных и неколичественных атрибутов предметной области (т.е.
реальной местности или эталонному набору данных).
Применимость элемента качества данных к набору данных ДЗЗ зависит от
содержания набора данных и спецификации продукта. Возможна ситуация, когда не все
элементы качества данных будут применимы ко всем наборам данных ДЗЗ.
Компонент элемента качества данных, описывающий определенный аспект этого
элемента называют подэлементом качества данных.
С целью описания определенных аспектов количественной оценки качества данных
ДЗЗ для вышеприведенных элементов качества данных, используют следующие
подэлементы качества данных (таблица 1) [2]:
а) полноту:
1) присутствие - избыточность данных в наборе данных,
2) отсутствие - отсутствие данных в наборе данных;
б) согласованность:
1) концептуальную согласованность - соответствие правилам концептуальной
схемы,
2) доменную согласованность - соответствие значений атрибутов области
допустимых значений,
3) согласованность по формату - степень соответствия накопленных данных
физической структуре набора данных,
4) топологическую
согласованность
корректность
представления
закодированных топологических характеристик набора данных;
в) позиционную точность:
1) абсолютную или внешнюю точность - соответствие заявленных значений
координат значениям координат, принятым или считающимся правильными,
2) относительную или внутреннюю точность - соответствие относительного
положения объектов в наборе данных их соответствующим исходным
положениям, принятым или считающимся правильными,
3) точность позиционирования данных относительно координатной сетки соответствие значения позиционирования данных значениям, принятым или
считающимся правильными;
г) временную точность:
1) точность измерения времени - правильность временных данных об объекте
(свидетельствующая об ошибках в измерении времени),
2) временную согласованность - правильность порядка последовательности
событий,
3) временную достоверность - соответствие даты по отношению к времени;
д) тематическую точность:
1) правильность классификации - соответствие классификации объектов или их
атрибутов предметной области,
2) правильность неколичественных атрибутов,
3) точность количественных атрибутов.
Для любого элемента качества данных могут быть созданы дополнительные
подэлементы качества данных.
Полную информацию о качестве формируют для каждого подэлемента качества
данных, используя следующие дескрипторы подэлемента [2]:
- область определения качества данных;
- мера качества данных;
- процедура оценки качества данных;
- результирующая оценка качества данных;
- тип значения качества данных;
- единица измерения качества;
- дата оценки качества данных.
Дескриптор «область определения качества данных» отражает область или
характеристики данных, в отношении которых выдается информация о качестве.
Таблица 1 – Количественные компоненты, определяющие качество данных ДЗЗ
Элементы Полнота
Логическая
согласованность
Позиционная
точность
Подэлементы
абсолютная или
внешняя точность
соответствие
концептуальная -заявленных
согласованность значений
- соответствие
координат
правилам
концептуальной значениям
координат,
схемы
принятым или
считающимся
правильными
наличие наличие
данных об
объектах, их
атрибутах и
отношениях
в наборе доменная
данных
согласованность
- соответствие
значений
атрибутов
области
допустимых
значений
согласованность
по формату степень
соответствия
накопленных
отсутствие данных
физической
отсутствие структуре
данных об набора данных
объектах, их
атрибутах и топологическая
отношениях согласованность
в наборе - корректность
данных
представления
закодированных
топологических
характеристик
набора данных
относительная
или внутренняя
точность соответствие
относительного
положения
объектов в наборе
данных их
соответствующим
исходным
положениям,
принятым или
считающимся
правильными
точность
позиционирования
данных
относительно
координатной
сетки соответствие
значения
позиционирования
данных значениям,
принятым или
считающимся
правильными
Временная
точность
Тематическая
точность
правильность
классификации
соответствие
точность измерения -классификации
времени объектов или
правильность
их атрибутов
временных данных
предметной
об объекте
(т.е.
(свидетельствующая области
реальной
об ошибках в
или
измерении времени) местности
эталонному
набору
данных)
временная
согласованность правильность
порядка
последовательности
событий
правильность
неколичественных атрибутов
временная
достоверность соответствие даты по
отношению к
времени
точность
количественных
атрибутов
Область определения качества данных для некоторого набора данных может
представлять собой комплект наборов данных, к которому такой набор данных относится,
сам набор данных или меньшую группу данных, расположенную физически в пределах
общих характеристик набора данных. Общими характеристиками могут быть
определенный тип объекта, его атрибут или отношения, критерий сбора данных, источник
данных, специфическая географическая или временная информация.
Дескриптор «мера качества данных» характеризует измеряемое значение
подэлемента качества данных, например, выраженное в процентах количество
правильных значений атрибута.
Дескриптор «процедура оценки качества данных» описывает операции,
используемые при применении методов оценки подэлемента качества данных.
Дескриптор «результирующая оценка качества данных» отражает результат
оценки значения или набора значений, получаемых в результате применения некоторой
меры качества данных.
Дескриптор «тип значения качества данных» характеризует тип значения качества
данных для выдачи результирующей оценки качества (например, "Булева переменная",
"процент", "отношение").
Дескриптор «единица измерения качества» отражает единицу измерения качества
данных при описании результирующей оценки качества.
Дескриптор «дата оценки качества данных» отражает дату или диапазон дат,
указывающий, в какое время была произведена операция оценки качества данных.
Элементы качества данных вместе с их подэлементами качества данных и
дескрипторами подэлементов качества данных определяют, насколько тот или иной набор
данных (идентифицированная совокупность данных) соответствуют критериям,
установленным в спецификации продукта, и обеспечивают количественную информацию
о качестве.
Общую неколичественную информацию о качестве данных обеспечивают
«описательные элементы качества данных». Для описания неколичественной информации
о качестве набора данных используют следующие описательные элементы качества
данных [2]:
- назначение;
- использование;
- происхождение.
Элемент «Назначение» содержит информацию о причинах создания набора данных
и его целевом предназначении набора данных.
Элемент «Использование» описывает тип приложения, для которого предназначен
набор данных.
Элемент «Происхождение» описывает историю набора данных и содержит
подробное описание жизненного цикла набора данных, начиная с его сбора и получения,
последующего кодирования и преобразования в текущую форму данных.
Описание элемента "Происхождение" складывается из двух уникальных
компонентов:
- источника информации для формирования набора данных;
- описания событий или преобразований, выполненных в процессе существования
набора данных, включая периодическое или постоянное обновление.
Описательные элементы качества данных обычно необходимы для оценки качества
набора данных для конкретного приложения, отличного от того, для которого он
предназначен.
3.Механизм оценки качества данных ДЗЗ
Исходной информацией для создания набора данных ДЗЗ является его
спецификация, которая включает описание предметной области и требования к
построению набора данных, отображающей эту предметную область.
Разработчик данных, используя информацию спецификации, создает набор данных,
который должен отражать заданную предметную область в соответствии с
установленными в спецификации требованиями. В связи с этим для разработчика данных
необходимо:
- определить насколько информация, используемая для создания того или иного
набора данных, отражает заданную предметную область;
- проверить, насколько созданный набор данных отвечает критериям, заданным в
спецификации продукта.
Пользователь данных может задавать требования к качеству набора данных в
форме спецификации, которая описывают требования применительно к конкретной
предметной области (целевого приложения). В связи с этим пользователям данных ДЗЗ
необходимо оценивать качество данных для удостоверения в том, что они удовлетворяет
требованиям того или иного приложения.
Исходные концептуальные положения оценки качества данных представлены на
рисунке 2.
РЕАЛЬНЫЙ МИР
Предметная
область В
Предметная
область С
Предметная
область А
РАЗРАБОТЧИК
ПОЛЬЗОВАТЕЛЬ
Описывает
Описывает
Качество
Качество
Требования
пользователя
Спецификация
продукта
Выбор
Изготовление
Данные ДЗЗ
(набор данных)
Рисунок 2 – Исходные концептуальные положения оценки качества данных ДЗЗ
При установлении качества набора данных определяют соответствие предметной
области заранее подготовленной спецификации.
Поскольку набор данных, как правило, создается не для какого-то конкретного
приложения, а для нескольких возможных приложений, качество набора данных может
быть определено как оценкой элементов качества данных, так и описательных элементов
качества данных.
Элементы качества данных позволяют оценить, насколько тот или иной набор
данных отвечает критериям, определенным в спецификации продукта, т.е. оценивают
расхождение между созданным набором данных и предметной областью (правильным
набором данных будет считаться тот, который соответствует спецификации продукта).
Подэлементы качества данных, отражающие определенные аспекты элементов
качества данных, оценивают или проверяют различными способами. Не все элементы и
подэлементы качества данных, а также не все средства их оценки и проверки могут быть
применимы к конкретному типу набора данных. Как правило, подэлементы качества
данных взаимосвязаны. Например, ошибка в координатах может повлечь за собой, как
минимум, ошибки двух типов - позиционную и топологическую. Значения подэлементов
качества данных и способ их трактовки находятся в компетенции разработчика
спецификации продукта.
Описательные элементы качества данных обеспечивают общую неколичественную
информацию и позволяют дополнительно оценить соответствие набора данных для
конкретного приложения, поскольку они содержат информацию о назначении,
использовании и происхождении набора данных. Назначение определяет причины
создания набора данных и его предназначение. Использование определяет тип
приложения, для которого набор данных использовался. Происхождение описывает
историю набора данных.
Наборы данных постоянно создают, обновляют и объединяют, в результате чего
качество или компонент качества набора данных может изменяться. На информацию о
качестве набора данных могут повлиять следующие условия:
а) некоторый объем данных удаляется из набора данных, изменяется или
добавляется к набору данных;
б) изменяется спецификация набора данных (описание и требования к набору
данных);
в) изменяются объекты реального мира.
В соответствии с вышеизложенными принципами описания качества данных,
оценка качества данных ДЗЗ должна состоять из следующих основных процедур:
1) определение количественной информации о качестве;
2) определение неколичественной информации о качестве.
3) принятие решения о соответствии на основе заранее установленных правил.
1) Определение количественной информации о качестве
Количественная информация о качестве набора данных может быть получена для
множества областей определения качества (комплект наборов данных, набор данных,
группу данных, входящую в набор данных).
В общем случае, процесс определения количественной информации о качестве
включает:
- определение применимых (к оцениваемому набору данных) элементов качества;
- установление задаваемых пользователем элементов качества данных;
- определение применимых подэлементов качества данных;
- установление задаваемых пользователем подэлементов качества данных;
- определение дескрипторов подэлемента качества данных.
Определение применимых (к оцениваемому набору данных) элементов качества
При определении применимых элементов качества данных должны быть из
спецификации продукта (набора данных) выбраны те элементы (полнота, логическая
согласованность, позиционная точность, временную точность, тематическую точность),
которые могут оказаться применимыми к конкретному типу набора данных. При этом
некоторые элементы качества данных могут оказаться неприменимыми к данному типу
набора данных. Например, для набора данных, содержащего только объекты с
пространственными ссылками в виде географических идентификаторов, элемент качества
"позиционная точность" может отсутствовать.
Установление задаваемых пользователем элементов качества данных
Если типовые элементы качества данных, перечисленные в табл. 1, в
недостаточной степени характеризуют качество данных, то пользователем может быть
установлен новый дополнительный элемент (элементы) качества данных. Наименование и
описание дополнительного элемента качества данных могут быть включены как часть
информации о качестве набора данных.
Определение применимых подэлементов качества данных
Для каждого элемента качества данных должны быть определены применимые
подэлементы качества данных, описывающие определенные аспекты этого элемента (не
менее одного подэлемента для каждого применимого элемента качества данных).
Применимость подэлемента качества определяется на основании спецификации
исследуемого набора данных.
Установление задаваемых пользователем подэлементов качества данных
Если подэлементы качества данных, перечисленные в табл. 1, в недостаточной
степени характеризуют аспект качества, пользователем может быть установлен новый
подэлемент (подэлементы) качества данных.
Определение дескрипторов подэлемента качества данных
Полную информацию о качестве формируют для каждого подэлемента качества
данных, определив дескрипторы подэлементов (область определения качества данных,
мера качества данных, процедура оценки качества данных, результирующая оценка
качества данных, тип значения качества данных, единица измерения качества, дата оценки
качества данных).
Под областью определения качества данных понимается область или
характеристики данных, в отношении которых выдается информация о качестве. Область
определения качества данных для некоторого набора данных может представлять собой
комплект наборов данных (совокупность наборов данных, имеющих общую
спецификацию), к которому такой набор данных относится, сам набор данных или
меньшую группу данных, расположенную физически в пределах общих характеристик
набора данных. Общими характеристиками могут быть определенный тип объекта, его
атрибут или отношения, критерий сбора данных, источник данных, специфическая
географическая или временная информация.
Область (области) определения качества устанавливается с использованием
спецификации продукта и неколичественной информации о качестве, содержащейся в
описательных элементах качества.
Для каждого применимого подэлемента качества данных должно быть установлено
не менее одной области определения качества, установление нескольких областей
определения качества данных позволяет более полно описывать количественную
информацию о качестве. Если область определения качества данных не может быть
установлена, ею должен быть сам набор данных.
Область определения качества данных должна быть адекватно описана. Для
описания области определения качества данных используют:
- уровень (комплект данных, к которому принадлежит набор данных, собственно
набор данных или поднабор данных);
- типы объектов (перечни типов объектов, атрибутов объектов и отношений) или
конкретные объекты (перечни экземпляров объектов, значений атрибутов и отношений объектов);
- географическую область;
- временную область (заданные временные пределы и точность временных
пределов).
Для каждой области определения качества данных должна быть предусмотрена
одна мера качества данных, измеряемое значение подэлемента качества данных
(например, выраженное в процентах количество правильных значений атрибута).
Для каждой меры качества данных должно быть указано наименование (если оно
существует), вид критерия, применимого к оценке данных в конкретной области
определения качества, а также граничные или предельные параметры (например,
доверительные интервалы и частота (вероятность) ошибок).
Качество набора данных измеряют с использованием различных критериев. Одной
меры качества данных может быть недостаточно для полной оценки качества данных,
задаваемых областью их определения, и получения меры качества для всех возможных
вариантов использования такого набора данных. Комбинация мер качества данных может
давать полезную информацию. Для данных, принадлежащих к одной предметной области,
может быть предусмотрено несколько мер качества данных.
Для каждой меры качества данных необходимо установить процедуру оценки
качества данных. Процедура оценки качества данных должна описывать методологию,
используемую для применения меры качества к данным, задаваемым некоторой областью
определения качества данных, а также операции, используемые при применении
выбранного метода оценки.
Результирующая оценка качества данных
Для каждой меры качества данных должна быть определена результирующая
оценка качества данных. Результирующей оценкой качества данных являются:
- значение или набор значений, полученных в результате применения некоторой
меры качества данных к данным, заданным областью определения качества данных;
- результат сравнения значения или набора значений, полученных при применении
некоторой меры качества к данным, заданным областью определения качества, с
некоторым приемлемым уровнем соответствия качества. Этот тип результирующей
оценки качества данных определяют как "удовлетворительная/неудовлетворительная".
Могут предусматриваться оба типа результирующих оценок качества данных в
соответствии с ISO 19113.
Тип значения качества данных
Для каждой результирующей оценки качества данных должен быть предусмотрен
один тип значения качества данных ("Булева переменная", "процент", "отношение").
Например, типом значения качества данных "удовлетворительно/неудовлетворительно"
будет "булева переменная".
Единица измерения качества данных
Для каждой результирующей оценки качества данных должна быть предусмотрена
одна единица измерения значения качества данных.
Дата оценки качества данных
Для каждой меры качества данных должна быть предусмотрена одна дата
(диапазон дат) оценки качества данных в соответствии с требованиями ISO 19108,
указывающая в какое время была произведена операция оценки качества данных.
2) Определение неколичественной информации о качестве
Для определения неколичественной информации о качестве исследуемого набора
данных должны быть определены применимых описательных элементов качества данных:
- элемент качества "Назначение", содержащий информацию о целевом
предназначении набора данных;
- элемент качества "Использование", содержащий информацию о фактическом
использовании данных, заявленная разработчиком набора данных или иными
конкретными пользователями данных;
- элемент качества "Происхождение", содержащий подробное описание
жизненного цикла набора данных, включая сведения об источнике информации для
формирования набора данных.
Для отдельного поднабора данных, являющегося предметом анализа, может быть
приведена информация о происхождении, отличающаяся от информации о
происхождении остальной части набора данных. Такая информация о происхождении для
поднаборов данных может быть предусмотрена как часть неколичественной информации
о качестве набора данных для более полного представления информации о качестве.
Если перечисленные описательные элементы качества данных в недостаточной
степени характеризуют область общей неколичественной оценки качества, то может быть
использован новый описательный элемент качества данных.
3) Принятие решения о соответствии
Принятие решения о соответствии выполняется на основе анализа результатов
оценки путем сравнения полученных результатов с критериями оценки соответствия. По
результатам анализа принимается следующее заключение о соответствии:
- объект оценки соответствует требованиям;
- объект оценки не соответствует требованиям;
- результаты оценки соответствия недоказательны.
Первые два заключения - основные, но в некоторых случаях может выдаваться
также и заключение о недоказательности. Для каждого заключения должно быть
предоставлено обоснование.
Заключение о соответствии принимается, если наблюдаемые результаты оценки
полностью соответствуют как требованиям стандартов, так и спецификации разработчика
и требованиям пользователя;
Заключение о несоответствии принимается, если полученные результаты оценки
показывают несоответствие, по крайней мере, одному из требований соответствия;
Заключение о недоказательности принимается, если полученные результаты
оценки не позволяют принять решение о соответствии или несоответствии.
Заключение
Организация оценки соответствия в области ДЗЗ должна осуществляться на основе
регламентированных для разработчиков и пользователей данных ДЗЗ правил, положений,
средств и методов и требует решения следующих основных задач:
- определение состава объектов оценки соответствия;
- определение основных характеристик и показателей качества объектов оценки
соответствия;
- установление нормативных требований к качеству объектов оценки соответствия;
- разработка моделей и методов описания и оценки качества объектов в области ДЗЗ;
- разработка методик и нормативных документов оценки и подтверждения качества
в области ДЗЗ;
- учитывая то, что обработка и интерпретация данных ДЗЗ является процессом
измерения, актуальными являются вопросы метрологического обеспечения этих
процессов, а также методик, технических и программных средств, которые при этом
используются.
ЛИТЕРАТУРА
1 ISO/IEC 17000:2004 (СТ РК ISO/IEC 17000:2009). Conformity assessment.
Vocabulary and general principles (Оценка соответствия. Словарь и общие принципы).
2 ISO 19113:2002. Geographic information. Quality principles (Географическая
информация. Принципы качества).
3 ISO 19105:2002. Geographic information. Conformance and testing (Географическая
информация. Соответствие и тестирование).
4 ISO 19108:2006. Geographic information. Temporal schema (Географическая
информация. Временная схема).
5 ISO 19114: 2003. Geographic information. Quality evaluation procedures
(Географическая информация. Методы оценки качества).
6 ISO 19115: 2003, 2009. Geographic information. Metadata. Part. 1,2
(Географическая информация. Метаданные. Часть 1,2).
Организация*
ДТОО «Институт космической техники и технологий»
Фамилия*
Исмаил
Имя*
Есмағамбет
Отчество
Есмағзамұлы
Должность
Заведующий лабораторией
Страна*
Республика Казахстан
E-mail*
ismale@rambler.ru
Контактный телефон* +7 701 755 4406
Download