Н - Проблемы информатики в образовании, управлении

advertisement
Федотов Н.Г., Старостин В.В., Кайманов А.С., Фионов Н.С. Структура данных при
решении задач быстрого поиска ближайшего аналога изображения в большой базе данных с
использованием стохастической геометрии. // Проблемы информатики в образовании,
управлении, экономике и технике: Сб. статей Междунар. научно-техн. конф.– Пенза: ПДЗ,
2010. – С. 95-97.
СТРУКТУРА ДАННЫХ
ПРИ РЕШЕНИИ ЗАДАЧ БЫСТРОГО ПОИСКА
БЛИЖАЙШЕГО АНАЛОГА ИЗОБРАЖЕНИЯ
В БОЛЬШОЙ БАЗЕ ДАННЫХ
С ИСПОЛЬЗОВАНИЕМ СТОХАСТИЧЕСКОЙ ГЕОМЕТРИИ
Н.Г. Федотов, В.В. Старостин, А.С. Кайманов, Н.С. Фионов
Пензенский государственный университет,
г. Пенза, Россия
Рассматривается проблема организации больших объемов данных в системе распознавания образов. Приведены основные требования к системе хранения и управления данными,
и предложена новая архитектура хранения данных, обеспечивающая быстрый поиск ближайшего образа.
Fedotov N.G., Starostin V.V., Kaimanov A.S., Fionov N.S. Data structure by solving the
problems of fast search of the nearest analogue of the image in big database with use of stochastic geometry. The problem of the organization of great volumes of the data in the system of
recognition of images is under discussion. The basic requirements of storage and data control system are listed and a special architecture of data storage, providing a quick search of the nearest image is offered.
Типичная задача распознавания образов при использовании больших БД
изображений состоит в поиске объекта, который является ближайшим аналогом
нового объекта, заданного на входе системы. Последнее время хорошо зарекомендовали себя методы распознавания с использованием стохастической геометрии. Традиционно считается, что к повышению эффективности механизма
распознавания ведет сокращение признакового пространства. Данный же метод
предполагает, наоборот, значительное расширение признакового пространства.
В зависимости от сложности распознаваемых объектов процесс поиска в данном случае может оказаться довольно длительным, следовательно – неэффективным.
Специфика метода требует особого подхода к организации хранения данных. К БД предъявляются следующие требования:
быстрый доступ к данным;
преагрегация;
дата майнинг;
многоуровневое кэширование.
Рассмотрим данные требования подробнее.
Быстрый доступ к данным
Собственно быстрый доступ к данным, независимо от размеров массива, и
является основой OLAP-систем. Так как основной упор именно на этом, храни-
лище данных обычно строится по принципам, отличным от принципов реляционных баз данных. Здесь время на выборку простых данных измеряется в долях
секунды, а запрос, превышающий несколько секунд, скорее всего, требует оптимизации.
Преагрегация
Кроме быстрой выборки существующих данных также предоставляется
возможность преагрегировать «наиболее вероятно используемые» значения.
При этом стоит учитывать, что теоретически возможных комбинаций признаков может быть огромное количество, а значит, нужно иметь четкие правила,
для каких элементов агрегация будет построена, а для каких – нет.
Дата майнинг
Интеллектуальный анализ данных (Data Mining) – по сути, выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах данных.
Многоуровневое кэширование
Собственно для обеспечения наиболее высокой скорости доступа к данным,
кроме хитрых структур данных и преагрегаций, OLAP-системы поддерживают
многоуровневое кэширование. Кроме кэширования простых запросов также
кэшируются части вычитанных из хранилища данных, агрегированные значения, вычисленные значения.
Наиболее полно данным требованиям соответствует архитектура OLAP-куб.
OLAP-куб – многомерный массив данных, как правило, разреженный и долговременно хранимый. Может быть реализован на основе универсальных реляционных СУБД или специализированным программным обеспечением.
Индексам массива соответствуют измерения (dimensions) или оси куба, а
значениям элементов массива – меры (measures) куба:
w : (x,y,z) → wxyz,
где x, y, z – измерения, w – мера.
В отличие от обычного массива в языке программирования доступ к элементам OLAP-куба может осуществляться как по полному набору индексовизмерений, так и по их подмножеству, и тогда результатом будет не один элемент, а их множество:
W : (x,y) → W = {wz1, wz2, …, wzn}.
Также известно описание OLAP-куба с использованием проекции отношений. Имея отношение N, рассмотрим проекцию с измерениями X, Y и Z как
ключом и W как разностным атрибутом. Это характеризуется функцией
W : (X,Y,Z) → W,
атрибутам (X, Y и Z) соответствуют оси куба, а значения W для каждых возможных троек ((X, Y, Z)) отвечают данным каждой ячейки куба.
Архитектура OLAP-куб, по сравнению с традиционными архитектурами
(OLTP), позволяет выполнять сложные запросы до 1000 раз быстрее. В результате суммарный выигрыш по времени более чем ощутим.
Библиографический список
1. Федотов Н.Г. Теория признаков распознавания образов на основе стохастической геометрии и функционального анализа. – М.: Физматлит, 2009. – 304
с.
2. Webb C., Russo M., Ferrari A. Expert Cube Development with Microsoft SQL
Server 2008 Analysis Services. – Packt Publishing, 2009. – 360 с.
Download