Fomin Aleksej - slides

advertisement
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Математико-механический факультет
Кафедра Системного Программирования
Автоматизированная система учета
расходования личных средств
Фомин Алексей Дмитриевич
545 группа
Научный руководитель:
к. ф.-м. н. Д.С. Шалымов
Идея проекта
• Учет расходов – актуальная задача
• Проблема ввода данных
– Решение – использование кассовых чеков
Необходимо распознавание информации
o Со стороны сервера
o На клиентской стороне
Архитектура системы учета
расходов
Распознаватель
Данные
Сервер
Данные
Задача
• Проверка применимости схемы
• Проектирование системы извлечения
данных из чеков
• Разработка алгоритма распознавания на
основе SPSA
• Реализация прототипа под платформу iOS
Распознавание текста
Требования:
Существующие
решения:
• Мобильность
• Доступность
• Tesseract-ocr
• ABBYY
• …
Общая схема
Обработка
изображения
Фрагментация
Распознаватель
Извлечение
данных
• Итоговая сумма
100.00 рублей
• ...
Обработка изображения
Обработка
изображения
Фрагментация
Распознаватель
Извлечение
данных
Фрагментация
Обработка
изображения
Фрагментация
Распознаватель
Извлечение
данных
Распознаватель
Обработка
изображения
Фрагментация
Распознаватель
Извлечение
данных
• Построение вектора признаков
(1, 2, 2, 0.3, 0,5, …)
Распознаватель
Обработка
изображения
Фрагментация
Распознаватель
Извлечение
данных
• Классификация - SPSA
Особенности метода:
• Помехоустойчивый
• Адаптивный
• Устойчивый к увеличению
размерности пространства
Извлечение данных
Обработка
изображения
Фрагментация
Распознаватель
• Использование словаря
• Корректировка стоимости:
• «лишние» символы: *, =, ≡
• Наименование валюты:
«100.00РУБ»
Извлечение
данных
Архитектура приложения
Image Provider
Prior Modifier
Segmentator
Engine
Data Grabber
Character
Recognizer
Numeric
Recognizer
…
Vocabulary
Provider
Результаты
• Реализован алгоритм распознавания на
основе SPSA
• Построена схема извлечения данных
• Создан прототип под iOS
Download