Системы оптического распознавания документов Урок 7 10 класс

advertisement
Урок 7
Системы оптического
распознавания документов
10 класс
Сафонова Л.Ф. гимназия 184 Нижний Новгород
Вопросы
1. Назначение компьютерных словарей. Приведите
примеры российских словарей
2. Перечислите дополнительные возможности
компьютерных словарей.
3. Назначение систем машинного перевода текстов.
Приведите примеры российских систем перевода
текстов
4. В чем недостаток систем машинного перевода
текстов?
Системы оптического
распознавания символов
Системы оптического распознавания символов
используются
при
создании
электронных
библиотек и архивов путем перевода книг и
документов в цифровой компьютерный формат.
Системы оптического распознания символов –
преобразуют элементы графического изображения
в последовательности символов.
Системы оптического
распознавания символов
1. Сначала с помощью сканера необходимо получить
изображение страницы текста в графическом
формате. Вместо сканера можно использовать
цифровой фотоаппарат или камеру мобильного
телефона.
2. Далее для получения документа в текстовом
формате необходимо провести распознавание
текста, т. е. преобразовать элементы графического
изображения в последовательность текстовых
символов.
Системы оптического
распознавания символов
Системы оптического
распознавания символов
Системы оптического распознавания символов
сначала определяют структуру размещения текста на
странице и разбивают его на отдельные области:
колонки, таблицы, изображения и т. д.
Далее
выделенные
текстовые
фрагменты
графического изображения страницы разделяются на
изображения отдельных символов.
Растровый метод распознавания
текста
Для отсканированных документов типографского качества
(достаточно крупный шрифт, отсутствие плохо напечатанных
символов
или
исправлений)
распознавание
символов
проводится путем их сравнения с растровыми шаблонами.
Растровое изображение каждого символа последовательно
накладывается на растровые шаблоны символов, хранящиеся в
памяти системы оптического распознавания. Результатом
распознавания является символ, шаблон которого it наибольшей
степени совпадает с изображением
Например, распознаваемый символ "Б" накладывается на
растровые шаблоны символов (А, Б, В и т. д.)
Структурный метод распознавания
При распознавании документов с низким качеством печати
(машинописный текст, факс и т. д.) используется векторный метод
распознавания символов. В распознаваемом изображении
символа выделяются геометрические примитивы (отрезки,
окружности и др.) и сравниваются с векторными шаблонами
символов. В результате выбирается тот символ, для которого
совокупность
всех
геометрических
примитивов
и
их
расположение больше всего соответствует распознаваемому
символу.
Например, распознаваемый символ "Б" накладывается на
векторные шаблоны символов (А, Б, В и т. д.)
Системы оптического
распознавания форм
FineReader
Forms
Системы оптического распознавания форм – распознаются
рукопечатные тексты (данные вводятся в поля печатными
буквами)
Сложность состоит в том, что необходимо распознавать
символы, написанные от руки, которые довольно сильно
различаются у разных людей. Кроме того, такие системы должны
уметь определять, к какому полю относится распознаваемый
текст.
Системы распознавания
рукописного текста
С появлением первого карманного компьютера Newton
фирмы Apple в 1990 году начали создаваться системы
распознавания рукописного текста. Такие системы преобразуют
текст, написанный на экране карманного компьютера
специальной ручкой, в текстовый компьютерный документ.
Программы оптического
распознавания документов
Это приложения, которые производят сканирование и
распознавание текста, от англ. Optical Character Recognition Оптическое распознавание символов
Работа с программой распознавания текста
Бумажный носитель
помещается под крышку сканера
В программе отдаётся команда
Сканировать и распознать
Распознанный текст переносится
в окно текстового редактора
OCR CUNEIFORM
Это
бесплатная
программа
сканирования
и
распознавания текста российского разработчика Cognitive
Technologies.
OCR CuneiForm обеспечивает быстрое, удобное и
качественное распознавание текста с сохранением
исходного вида документа. Поддерживается распознавание
с более 20 языков, среди них русский, украинский,
английский,
немецкий,
французский,
испанский,
итальянский, португальский, шведский, финский, сербский,
хорватский, польский, а также распознавание смешанного
русско-английского текста.
Скачать бесплатно программу
сканирования и распознавания текста
OCR Cuneiform 12 (freeware) с DepositFiles
http://depositfiles.com/files/sj9pt7q6x
ABBYY FineReader
Популярная программа распознавания текста
российской компании ABBYY
Программа производит распознавание текста с
более 180 языков, для 38 из них предусмотрена
встроенная проверка орфографии. Начиная с версии
Professional, распознаются иврит, японский, тайский,
китайский языки. Finereader открывает файлы
графических форматов (TIFF, JPG, PFD, PNG и др.) в
том числе DjVu – компактный формат для хранения
отсканированных документов, книг.
ABBYY FineReader
Этапы работы ABBYY FineReader
1. Сканирование (сканер, цифровой фотоаппарат,
цифровая видеокамера).
2. Сегментация - выделение блоков на изображении.
3. Распознавание – неоднозначно опознанные
символы выделяются цветом.
4. Проверка ошибок- можно провести проверку
грамматики.
5. Сохранение
результатов
в
виде
отформатированного или неотформатированного
документа, или прямой передачи
в другое
приложение - WORD, Excel в буфер обмена
Windows.
ABBYY FineReader
ABBYY FineReader
Вопросы
1. В чем состоят различия в технологии
распознавания текста при использовании
растрового и векторного методов?
2. Назовите
программы
оптического
распознавания текстов.
Практическая работа 1.4 (стр. 33)
Сканирование бумажного и распознание
электронного текстового документа
Цель работы:
получить представление о системах
оптического распознавания тесктов,
познакомиться с возможностями данных
программ, научиться использовать эти
программы.
19
Домашнее задание
1. Параграф 1.1.5
2. Вопросы стр.33
20
Источники
1. Угринович Н.Д. Информатика и информационные технологии.
Учебник для 10 класса. – М.: БИНОМ, 2012;
2. Угринович Н.Д. и др. Практикум по информатике и
информационным технологиям. Учебное пособие. – М.:
БИНОМ, 2009;
3. Угринович Н.Д. Преподавание курса «Информатика и ИКТ».
Методическое пособие для учителей
4. Презентация
издательства
Бином
http://900igr.net/kartinki/informatika/Programmy-raspoznavanijateksta/011-Kompjuternye-slovari-i-programmy-perevodchiki.html
5. Единая коллекция цифровых образовательных ресурсов http://school-collection.edu.ru/
6. Коллекция картинок Яндекс –
http://loveprogram.ru/foto/konvertirovanie-faylov/4217-abbyy-finereader9.0-rus.html
http://lanzone.info/index.php?cstart=191&do=digest
http://www.soft-wins.net/mac-os-unix/page/24/
http://www.ebook-service.ru/irex/irex-iliad-book-edition/82-opisanie-i21
texnicheskie-xarakteristiki-irex-iliad-book-edition.html
Download