Сканирование и все такое 1.05 -

advertisement
-1-
Введение .............................................................................................................................................
1
1. Сканирование ..................................................................................................................................
1
2. Обработка ........................................................................................................................................
3
3. Кодирование ...................................................................................................................................
9
4. Создание текстового слоя ............................................................................................................ 11
5. Добавление обложки ....................................................................................................................
12
6. Оглавление ....................................................................................................................................
12
7. Использованные программы и где их взять ..............................................................................
14
Заключение ......................................................................................................................................
14
Очистка сканов от тени и мусора (найдено на http://forum.ruboard.)............................................14
Добавление от 13_01_2008
Пошаговая инструкция (для
начинающих)………………………………………………………….17
Полезные
советы………………………………………………………………………………………20
Добавление от 30_06_2010 (для версий Sk 5.91 - 5.93)
Постобработка………………………………………………………………………24
Введение
Эта мини инструкция в картинках, описывающая полный цикл создания электронной
версии научно-технической книги, и предназначена для человека, искренне захотевшего
сделать приемлемого качества е-книгу, но не знающего с чего начать. Важно понимать, что
существует немало апробированных методов создания достаточно качественных e-книг, все
они характеризуются тем, что на выходе книга, как правило, научно-техническая, имеет
разрешения 600 dpi ч/б (все книги в 300 dpi ч/б, несмотря на все старания создателей, явно
проигрывают).
Рассматриваемая здесь метода, основана на сканировании в 300 dpi, в градациях серого
(600 dpi ч/б будет после обработки). По этому поводу следует заметить, что уменьшение
геометрического размера сырого скана в 4 раза, по сравнению со сканированием в 600 dpi,
практически компенсируется увеличением глубины цвета в 8 раз (зато скорость
сканирования возрастает в 2 раза, а также уменьшением количества паразитного мусора.
1. Сканирование
Беря в руки увесистую книгу, многие думают, что отсканировать ее может только маньяк.
Совершенно верно, именно так. Без применения научно-организованного подхода, любая
-2-
работа превращается в мучение, но, сделав работу незаметной, хоть большого удовольствия
и не получишь, но дело сделаешь.
Для сканирования сгодится любая программа, способная взаимодействовать с TWAIN
драйвером сканера и сохранять отсканированные изображения на диск, нумеруя их удобным
способом. Сойдет любой просмотровщик графических файлов: ACDsee, IrfanView,
XnView… Если ваш сканер поддерживается программой сканирования VueScan, можете
использовать и ее.
Например, в IrfanView (скачайте свежую версию этой бесплатной программы) это
выглядит примерно так:
- В меню Файл жмем пункт Выбрать TWAIN-источник…
-3-
- Далее, там же, выбираем пункт меню Получить изображение/пакетное
сканирование…
здесь выбираем как будут нумероваться файлы сканов, где они будут складироваться и
тип графического формата. Не забудем проверить Опции графического формата:
можно выбрать или Без сжатия или LZW (внимание, не все программы корректно с
ним работают), в последнем случае размер файла на выходе будет примерно в два
раза меньше. Можно, наверное, и ZIP, но это проверьте самостоятельно. - жмем на
кнопку OK и переходим в окно TWAIN Вашего сканера
Сама техника сканирования незатейлива:
берется книга, кладется разворотом (т.е. двумя страницами) на стекло,
прижимается если надо сверху рукой (это быстрее, чем использовать груз).
делается предварительное сканирование
картинка, если это возможно, в окне сканирования, разворачивается на 90
градусов (в нормальное положение)
выбирается область сканирования с некоторым запасом, как правило, по
горизонтали (по вертикали трудно промахнуться)
мышкой жмется кнопка основного сканирования
-4-
- после того, как данный разворот отсканирован, во время обратного движения
каретки сканера, переворачиваем страницу книги, кладем на то же место и жмем
опять на левую кнопку мыши (курсор ведь остался на кнопке сканирования), и так
пока книга не кончится.
Т.е. идея проста, сканируем развороты в слепую. Этим достигаем максимальной скорости
сканирования, которая ограниченна только техническими характеристиками сканера, и
полной свободы головы. Таким образом, во время сканирования, Вы можете заниматься
многими другими вещами, да хоть кино посмотреть.
Небольших перекосов, отсканированных страниц, бояться не стоит, это будет исправлено
при последующей обработке, но все же надо соблюдать аккуратность.
Не забываем, что сканируем с разрешением 300 дпи и в градациях серого (gray scale),
если будете сканировать в черно-белом режиме при 300 дпи, то просто потеряете время
(хорошая книжка уже не получится).
На выходе этого этапа получаем так называемый сырой материал – файлы в формате tiff
с разрешением 300 dpi в градациях серого, обычно размер каждого файла, без
использования сжатия, составляет примерно 8 мегабайт (4 при LZW).
Скорость сканирования может достигать до 200 и даже более разворотов (400 страниц) в
час, на сканере со скоростью 16 секунд на сканирование А4, т.е. сканирование
среднестатистической книги, займет не более 2 часов времени!
Обычно первый и последний разворот книги содержат по одной странице. Ну, так и сканируем их по одной, т.е. все-таки придется
сделать 3 предварительных сканирования на книгу.
2. Обработка
За обработку сырого материала отвечает замечательная, притом совершенно бесплатная,
программа ScanKromsator от bolega (тут убедительная просьба, не надо сразу же бросаться
и писать ему письма о том, как улучшить, углубить, да и просто спасибо, наверное, то же не
надо посылать, просто сделайте хорошо несколько книг и поделитесь ими).
ScanKromsator это мощный инструмент, предназначенный для обработки сканированного
материала, с целью создания качественных e-книг, со многими полезными и не очевидными
для новичка функциями. Поэтому, просто следуйте пошаговой инструкции и все получится.
a) Запускаем программу и загружаем в нее файлы (список файлов слева сверху, под этим
списком панель инструментов):
-5-
b) Выбираем путь для вывода результатов (закладка Files), тут же
можно назначить способ нумерации выходных файлов, и что
очень важно, назначить выходное разрешение 600 dpi.
-6-
c) Приступаем к черновому «кромсанию»:
Находим левее кнопки с надписью Process, кнопочку с ножницами (Draft kromsate),
нажимаем, появляется окно диалога
ставим галочки на Split pages и safe top/bottom и жмем кнопку OK.
(если первая и/или последняя страницы одинарные, т.е. не разворот, то можно
предварительно покромсать их отдельно (поле Kromsate = Current), соответственно не надо
для них ставить галочку Split pages)
Обратите внимание на синенькие полосочки, это резаки (по которым Вы безошибочно
отличите эту программу от других, за их пределами все будет безжалостно отрезано, а
-7-
данная страница будет разделена на две (см. центральные резаки). Посмотрите на то, что
рядом с названиями страниц появились зеленые галочки!
e) Это короткий, но очень важный этап – расстановка опций. Для
этого пройдемся по закладочкам (слева в окне программы).
Pages. На ней выставляем способ центрирования. По умолчанию
стоит A – автомат, это значит поместить изображение в верхний
левый угол. Но, как правило (это у меня так) горизонтальное
выравнивание ставится по центру (Page h.align) C, вертикальное в
низ (Page v.align) B или вверх T это зависит от форматирования
книги.
Despeckle – убирание мелкого мусора.
Deskew – выравнивание наклона страницы, если в результате
страница получится криво выровненной, то ее можно переделать с
помощью метода Art (включение этого метода для всех страниц
замедляет процесс) или Ortho если текст на данной странице
развернут на 90 градусов.
Чтобы опция была применена ко всем страницам, при выборе ее
удерживаем Ctrl.
Аналогично действуйте при выборе остальных опций, которые применяются ко всем
страницам сразу.
На закладке Book выставляем размеры выходных страниц, оставляем
Page width и height в Auto. В поле H.Gap value ставим 200 (или 250)
pixels, это значение обычно для обработки в 600 дпи, но если Вам
хочется других размеров полей, то можете подобрать это значение по
своему вкусу.
В закладке Files, как было сказано выше, ставим выходное дпи 600
(иначе ничего хорошего не получится). Это архиважно, от этого
зависит весь окончательный результат.
-8-
Во вкладке Options, ставим Deskew method = Auto(shear), для Despeckle
метод Safe или Fine+Normal это интеллектуальный метод очистки.
Например, он не вычищает точки над i и j.
Options 2 пропускаем. В принципе, перед Draft kromsate на этой вкладке можно
отрегулировать чувствительность, чтобы резаки не обрезали номера страниц при
предварительном кромсании.
Вкладка Convert – выставляем порог для преобразования из градаций
серого в черно-белый. Для Convert to b/w threshold выбираем
MiddleDark. Не забываем удерживать Ctrl при выборе опции,
предназначенной для всех страниц. Но никто не мешает провести
эксперимент для своего скана и выбрать другой параметр.
Ну, наконец, последняя, но очень важная вкладка Quality. В Enhance
image ставим галочки для Blur и Sharpen, значения для них обычно 1
или 2 (набор этих опций и их значения не догма, можете
поэкспериментировать, но для начала поставьте как на рисунке), для 2
результат будет пожирнее, выбирайте исходя из шрифта, сканируемой
книги.
И опять очень важно, если у вас исходники это разворот книги, то жмем на Gray enhance и
появляется диалог Gray image enhance, в нем ставим cleaner passes в 1, ставим галку на
Correct low contrast и главное, что бы это заработало, ставим галку на Enable. По этой
-9-
опции происходит выравнивание освещенности (особенно важно это для центра разворота),
что убирает черные полосы и кучу мусора. Незаменимая штука.
Здесь приведен вид диалогового окна для Gray image enhance для версии программы 5.6A, в
предыдущих версиях нет Enable.
Можно попробовать Smooth, по утверждению автора программы, применение этого метода
приводит к некоторому уменьшению размера книги, за счет сглаживания контура букв.
А в целом я советую, сделать 3-4 разворота, так, как описано, посмотреть результат, только
потом экспериментировать по улучшению, но повторяю, в 95% случаев должно получится
неплохо.
Кстати, часть выбранных опций можно сохранить на будущее в File->Task options settings.
f) Самый скучный, но к счастью не очень долгий этап. Надо пройтись по всем страницам, с
целью проверки правильности расстановки резаков.
Да, если не стоит большая зеленая галка, то поставьте ее (для запоминания вносимых
изменений).
Если Вы увидите, что для какой либо страницы резаки установлены не правильно, то их надо
поправить. Передвигаем резаки, если надо меняем способ центрирования для данной
страницы (если текст на странице развернут на 90°, то для данной странице ставим Deskew =
Ortho на закладке Pages).
Оптимально это делается так: левая рука отвечает за листание – кнопки q и w, правая за
мышь, которой мы передвигаем, если надо резаки. Если Вы уверены, что для части страниц
положение резака будет одинаково, то Вы можете скопировать их положение, нажав правую
кнопку мыши на резаке, выберите нужную опцию (Copy current position to).
Бывает, что страница расположена под углом, или тень на развороте расширяется, для таких
случаев можно устанавливать косые резаки, просто, удерживая шифт, передвигаем резак за
его кончик, это быстрее, чем в последствии в ручную чистить страницы.
- 10 -
g) Кстати, знаете ли Вы, чтобы все не делать заново, задание можно сохранить (пункт
основного меню File->Save Task)
e) Жмем большую кнопку Process. Тут появляется предупреждения, в здравом ли мы уме,
что меняем разрешение, но нам уже все равно, мы все уже сделали.
Все, теперь дело за компьютером.
На компьютере Pentium M 1400 MHz, этот процесс занимает порядка одной минуты на
разворот (это для версии 5.6A, в предыдущих версиях в 1.5÷2 раза медленнее).
Новая версия сканкромсатора (5.91) обрабатывает страницу в несколько раз быстрее, нежели
предыдущие версии.
Часа через 2-3, в указанной ранее папке, нас ждет результат, просматриваем его
внимательно, иногда могут быть несколько неправильно выровненных страниц. Их
переделываем отдельно.
Перед переделкой страницы, на вкладке Book, необходимо переключить Page width на
Fixed, этим мы зададим тот же размер страницы, который был подсчитан кромсатором для
Вашей книги.
Совершенно не обязательно кромсать всю книгу сразу, можно делать это по частям.
Просто, в последующих порциях, необходимо выставить Book ->Page width->Fixed размер
предыдущей части. Для определения правильного размера в кромсаторе, обычно, достаточно
взять 10÷15 разворотов (страниц).
Особо дотошные, могут почистить остатки вручную, так называемая тонкая очистка.
Лично я это не делаю, за исключением убирания библиотечных штампов и записей на полях.
Как правило, и так все замечательно. Кстати, в сканкромсаторе есть мощные средства для
очистки сканов, можете воспользоваться.
(Если у Вас 256 и менее мегабайт памяти, то возможен глюк, он характеризуется постоянным свопом диска при смене dpi, тогда просто
снимите задачу, выгрузите лишнее из памяти, запустите процесс кромсания заново)
О картинках. Если в книге встречаются фотографии, то самым простым, но не оптимальным по качеству
способом является использование опять-таки кромсатора. Во время просмотра результатов предварительного
кромсания, выделите мышкой иллюстрацию и в контекстном меню (по правой кнопке мыши) выберите метод
Exlude and Mark as dither regione.
3. Кодирование
Кодировать в djvu можно двумя способами.
Первый, использовать или свободно распространяемую программу Solo 3.1 (в этой
программе используется старый алгоритм кодирования) или Document Express Editor
версий от 4 до 6. Это делается просто, запускаем программу, загружаем первую страницу
(только одну!), добавляем к первой странице остальные, но не более 500 (обычно 200÷300).
Сохраняем с выбором профиля bitonal и с разрешением 600 dpi.
Второй, рекомендованный способ, это использовать Document Express Enterprise 5.1
(доступна облегченная версия этого пакета, объемом около 20 мегабайт). Вначале создаем
профиль для кодирования (делается это не часто, можно один раз), для этого запускаем
Document Express Enterprise Configuration Manager из этого же пакета, из списка
выбираем профиль Bitonal(600), нажимаем на кнопку Advanced Settings…, в диалоговом
окне Advanced Settings выбираем закладку Text и ставим Pages Per Dictionary равным 1000
(конечно, это небольшой экстремизм, можно ограничиться значением 100÷200). Сохраняем
этот профиль под новым именем. Увеличение размера страниц на словарь, приводит к
заметному уменьшению размера файла, до 25%.
11
Запускаем Document Express Enterprise Workflow Manager, загружаем все страницы
зараз, в поле Job Name пишем название книги, из списка Raster Profile выбираем,
подготовленный ранее профиль, переключаемся на закладку Output и из списка Separate
Document(s) by выбираем One document only. Ставим галочку (с самого левого края под
Enable) и ждем конца кодирования, следим или пока эта галка исчезнет или по закладке Log.
12
4. Создание текстового слоя
После того, как все уже сделано, остановится на этом просто себя не уважать, не говоря
уж об остальных.
Для добавления распознанного текстового слоя в djvu книгу потребуется две программы.
Первая это FineReader 7.0 или 8.0 версии. Вторая программа, это небольшая утилита
DjvuOCR 2.3 от болгарского камрада Gencho.
Загружаем все, обработанные в кромсаторе, тифы в FineReader, те из которых была
сделана djvu книжка, и распознаем в пакетном режиме. После распознавания, ничего не
правим, не вычитываем, просто сохраняем пакет на диск, желательно путь для того пакета
надо выбирать попроще, у DjvuOCR могут быть проблемы, если в названии пакета и/или
пути будут кириллические символы. С FineReader все.
Кстати, для наших целей вполне подойдет триал версия FineReader, которую можно
свободно скачать с официального сайта разработчика.
Запускаем DjvuOCR, жмем на кнопку Manual made OCR manager
.
Далее, тоже все просто:
- FineReader Project directory – выбираем каталог с проектом.
- Output OCR text file – это любой, пустой текстовой файл, помещенный в каталог с
проектом.
- Ставим галочку на Burn DJVU file и выбираем djvu книжку.
- Нажимаем Process.
- Ждем несколько минут.
И всё.
13
5. Добавление обложки
В добавлении обложки, если не преследовать сверхзадач, никаких особых хитростей нет.
Сканируем обложку в цвете в 200 дпи, чистим ее по вкусу, слегка размываем ее и кодируем в
djvu профилем Photo(300). Полученный файл добавляем в книгу, например с помощью
Document Express Editor.
З.Ы. Поступают жалобы, что таким образом сделанная обложка имеет размер меньший,
чем страницы книги, что выглядит не эстетично, поэтому делайте обложку, как Вам больше
нравится, сохраняя размер в пределах разумного. Говорят, есть метода от Minor`а по
созданию сверх компактных обложек в 600 дпи, если не лень, поищите.
6. Оглавление
Знаете ли Вы, что в Вашу книгу можно вставить оглавление? А между прочим, благодаря
уважаемому Shea, это поразительно просто! Для этого воспользуемся утилитой DjVu
Hyperlinks Editor.
Добавляем книгу, указываем, на каких страницах находится оглавление (нумерация с
учетом обложки), выставляем смещение 1 (для компенсации обложки) и жмем Создать!
Конечно, без глюков пока не обходится, проверьте на всякий случай результат,
вопиющие случаи можно и поправить в ручную (см. вставку оглавления ручным случаем
чуть ниже).
Аналогично, с помощью этой программы, можно создать предметный указатель (Тип
работы).
Подробнее, обо всех возможностях программы, можно почитать в сопроводительном
файле.
14
В 5 и 6 версии Document Express Editor это же можно сделать мышкой. Жмем на кнопку
– прямоугольная гиперссылка, обводим пункт меню, выскакивает окно диалога – свойство
гиперссылки, в котором выбираем линк на номер страницы и затем соответственно сам этот
номер. Ну и так далее, пока рука не отсохнет. Только делаем это в самый последний момент,
после добавления обложки, вкладок и пр., иначе ссылки сдвинутся.
- 15 -
7. Использованные программы и где их взять
IrfanView
ScanKromsator
Solo 3.1
Document Express Editor
Document Express Enterprise
ABBYY FineReader
DjvuOCR 2.1
DjVu Hyperlinks Editor
www.irfanview.com
http://www.djvu-soft.narod.ru/
http://www.djvu-soft.narod.ru/
http://www.djvu-soft.narod.ru/
http://www.djvu-soft.narod.ru/
www.abbyy.com.
http://djvuocr.ucoz.ru/
http://www.djvu-soft.narod.ru/
freeware
freeware
freeware
?
?
trial
freeware
freeware
За http://www.djvu-soft.narod.ru/ особое спасибо monday2000!
Заключение
С образцами книг, выделанных строго по этой инструкции (подчеркиваю строго!), можно
ознакомится на сайте www.engenegr.ru. Поищите на нем по ключевым словам «Новинка
сканирования». Если результат Вас удовлетворит, то может быть и сами попробуете?
Прежде чем делать книгу, проверьте, может она уже есть, посетите поисковый ресурс
www.poiskknig.ru. Хотя если Вам встретится некачественный экземпляр, то никто не мешает
его переделать (практически любая djvu книга, сделанная в 300 дпи ч/б и менее, может
считаться браком).
Поделиться книгой, можно опубликовав ее на руборде или профильном блоге.
Если Вам не лень, настаивать на этом не могу, посетите www.engenegr.ru и выставьте
новинку также и там.
Очистка сканов от тени и мусора (найдено на http://forum.ru-board.)
Эту процедуру следует применять для сканов, которые сканкромсатору не удаётся
вычисть в штатном режиме (так, как описано выше).
Похоже и впрямь СканКромсатор предназначен для опытных юзеров.
В неумелых руках он будет не кромсать сканы, а их шинковать :).
Попробую разъяснить некоторые моменты.
О Clear Shadow. Эта опция работает только с b/w сканами и предназначена для удаления
паразитной черноты у корешка на сгибе.
Надо понимать, что если резак отрезал черноту, то СканКромсатор начинает откусывать
то, чего не нужно трогать.
Виноваты здесь вы, а не СканКромсатор - не надо вводить его в заблуждение и заставлять
искать и удалять то, чего нет.
Лучше при черновом кромсании отключить соответствующую опцию и включать ее на
некоторых страницах при необходимости.
О Background cleaner.
Эта опция предназначна для удаления фона на серых сканах.
Это не простое удаление фона, а так сказать адаптивное.
Удаление фона по СканКромсатору заключается в сдвиге тонового баланса в область
светов так, чтобы фон стал как можно белее.
Простое удаление фона смысла бы не имело.
Адаптивное удаление фона заключается в том, что величина
тонового сдвига
определяется локально. Т.е. происходит выравнивание освещенности, в том числе удаление
тени на сгибе.
По моему опыту, для СканКромсатора удаление тени вообще не проблема, работает эта
функция без замечаний.
О том, как я использую Background cleaner.
Загружаю серые сканы в СканКромсатор.
- 16 -
Сразу же поворачиваю их как надо: Image->Rotate & save...
(потерь и искажений при этой операции не происходит).
Далее перехожу на вкладку Pages, делаю щелчок правой кнопкой мыши и применяю
Clear all options. Там же включаю Split и Deskew и устанавливаю резак где-то посередине
скана. На вкладке Files включаю для папки назначения Default, устанавливаю Output format
на TIFF LZW Compress (DPI и Color должно стоять Original).
На вкладке Options устанавливаю Deskew method на Interpolate.
На вкладке Quality включаю Enhance image и нажимаю Gray enhance...,
в диалоге на вкладке Background cleaner устанавливаю Cleaner passes=1
и ставлю галку Enable. Перехожу на последний скан и применяю
Apply up to current. В заключение пробегаюсь по сканам и проверяю
установку резака.
Все, надеюсь ничего не забыл и не перепутал :).
Далее, естественно, Process. После кромсания проверяю deskew, если что не так
устанавливаю, если нужно, Art/Ortho или указываю
угол deskew вручную. В итоге имею разрезанные на страницы и выровненные серые
сканы без тени на сгибе. То, что текст стал светлее никакого значения не имеет.
Зная, по собственному опыту, что осваивать программу новичку тяжело, постараюсь
пошагово расписать все действия в программе, чтобы получить приемлемый результат:
1. Открываем все сканы, которые будем обрабатывать при помощи кнопки
,
расположенной на панели инструментов, щёлкаем мышкой по первому скану и,
удерживая нажатой клавишу “Shift” щёлкаем мышкой по последнему, подлежащему
обработке скану, выделенные сканы открываем нажатием кнопки “Открыть” в окне:
2. Теперь необходимо расставить «резаки», которые определяют области страницы,
подлежащие обработке. Проще всего это сделать, нажав кнопку
инструментов.
В открывшемся окне:
на панели
- 17 -
Если скан содержит две страницы (разворот), то нужно поставить галку в окошке с надписью
“Split pages”, и не забудьте указать направление и угол поворота скана (это делается в
окошке “Pre-rotate”).
Сканкромсатор неплохо справляется с расстановкой резаков, нам после завершения
«кромсания» остаётся проверить насколько правильно программа расставила резаки и, если
необходимо, поправить их вручную, если резаки залезли на текст.
Важно!: Там где сканкромсатор неуверенно распознал границы текста, он изменяет цвет
резаков на малиновый. Необходимо проверить и если потребуется вручную выставить этот
резак, а на вкладке “Page”:
установить отсутствующую галку в окошке напротив “Automargins” , если этого не сделать,
то размеры страниц будут сильно увеличены (поля будут несоразмерно большими после
обработки).
На этой же вкладке необходимо указать, как будет размещён текст на странице (Page h.align
и Page v.align).
Чтобы эти установки применялись ко всем страницам пакета, следует удерживать нажатой
клавишу “Ctrl”.
3. Вкладка “Book”:
- 18 -
Здесь нужно установить размеры полей, которые сканкромсатор автоматически применит ко
всем страницам пакета. Для сканов, обрабатываемых на выходе с разрешением 300 дпи
достаточно установить 100 (H.Gap.value и V.Gap.value), для 600 дпи – 200. Остальные
установки в этом окне по умолчанию.
4. Вкладка ”Files”:
Чтобы гарантированно получить качественный материал, который не будет испорчен
дежавю-кодировщиком, следует установить не менее 600 дпи, даже если Ваши сканы с
разрешением 300 дпи. Это требование продиктовано тем, что при одежавючивании ч/б
материала с разрешением менее 600 дпи дежавю-кодировщик, по своему разумению,
самопроизвольно может заменить некоторые буквы “и” на “н”, и наоборот (т.н. проблема
«инь-янь»). Не забудьте установить галку в окне Output.dir (обработанные страницы
сканкромсатор размещает в папке “out”, расположенную там же где и исходные сканы).
5. Вкладка “Options”:
Установите опции так, как это сделано на этом примере (для большинства случаев они
- 19 -
оптимальны, я практически всегда применяю именно эти установки). Вкладку “Options2”
можно не трогать.
6. Вкладка “Convert”:
Для того чтобы получить необходимую толщину букв, следует подобрать значение яркости
(я обычно ставлю “MiddleDark”). Не забудьте, что применить эту опцию ко всем страницам
пакета можно при удержании нажатой клавиши “Ctrl”.
7. Вкладка “Quality”
Сначала ставим галку в окошке “Enhance image”, что позволит Вам выставить значения
опций, как показано на этом рисунке, затем в трёх остальных (эти значения оптимальны для
большинства случаев). Затем наводим указатель мыша на надпись “Gray enhance”, которая
становится кнопкой и нажимаем на неё, появляется ещё одно окно:
Здесь устанавливаем в 1 число проходов очистки (Cleaner passes), остальные вкладки не
столь существенны, они используются «продвинутыми» юзверями для тонкой обработки
проблемных сканов. Освоив этот не самый сложный способ обработки сканов, Вы сможете
поупражняться и с остальными опциями программы, которые представлены в этом окне.
После того как Вы установили нужные опции в этом окне, снимите галку в окошке “Enhance
- 20 -
image”, а затем снова установите её при нажатой клавише “Ctrl” (чтобы изменения
применились ко всем остальным страницам пакета). (Внимание! Чтобы установленные
опции в “Gray image enhance” применились ко всем страницам документа, необходимо
устанавливать галку в окошке “Enhance image” при открытом окошке “Gray image enhance”).
Всё вышесказанное - пп. 1-7 вполне достаточно чтобы обработать сканы, не содержащие
иллюстраций.
Для обработки иллюстраций необходимо на скане в окне с изображением страницы
выделить мышкой (прямоугольным блоком) эту иллюстрацию и нажать на кнопку
на
панели инструментов, этим Вы укажете сканкромсатору, что выделенную область следует
обрабатывать как картинку. По умолчанию сканкромсатор устанавливает цвет картинки как
серый, если картинка цветная, то двойной клик мыша по выделенной области с картинкой
вызовет окно со свойствами картинки:
В котором Вы сможете по своему усмотрению менять её параметры.
Запуск обработки осуществляется нажатием кнопки
на панели инструментов.
После того как Вы отметили все картинки на всех страницах пакета и обработали пакет, не
забудьте выполнить операцию слияния картинок со страницами: Zones/Picture zone/Merge all
zones for all output files.
Теперь обработанные сканкромсатором сканы можно одежавючить, что позволит уменьшить
объём уже обработанных сканов ещё во многие разы. Как правило, книги, выполненные с
хорошим полиграфическим качеством позволяют добиться объёма 10-20 кб на страницу при
600 дпи, после обработки дежавю-кодировщиком.
Полезные советы:
1. Если книга напечатана на «газетной» бумаге, и буквы плохо пропечатаны (бледная
печать), то заметно улучшить качество такого материала позволяет сам сканкромсатор при
нестандартных установках в окне “Gray image enhance”:
- 21 -
Подобрав значение “Sensivity”, Вы сможете найти оптимальный режим для Вашего скана,
при котором и фон чистый и буквы имеют минимум разрывов.
2. Если на странице просматривается текст или картинка с другой стороны страницы, то
воспользуйтесь закладкой “Illumination”:
Это позволит Вам избавиться от лишнего мусора. Подбор интенсивности подсветки “Normal
– Aggressive” подбирается опытным путём.
3. Проверить правильность подобранных опций можно на какой-нибудь, наиболее типичной
странице пакета,
запустив обработку одной этой страницы, нажатием кнопки
на панели инструментов.
Внимание! Эта опция позволяет выполнить обработку и просмотр страницы только после
того как задание обработано, т.е. на этапе постобработки. Если на этапе постобработки Вы
обнаружили страницу с некачественным (грязным или с разрывами изображением), то
закройте окно просмотра (Result view), подберите опции, как это оговорено выше (пп. 1 и 2)
и выполните п. 3. Продолжить просмотр результатов обработки задания Вы сможете, выбрав
в меню программы пункт “Result”-> “Show all”.
4. Этот пункт следовало бы сделать первым, ну да ладно! Когда пакет подготовлен для
обработки, то желательно сохранить его в файл: File->Save task, дабы иметь возможность в
непредвиденных случаях (пропадание питания, сбой компьютера и т.д.) не формировать
заново задание, а открыв этот файл сразу приступить к обработке, к тому же сканкромсатор
позволяет прервать работающее задание, сохранить промежуточные результаты, а в
следующий раз начать обработку пакета не заново, а с прерванного места (открываете пакет
нажатием кнопки
на панели инструментов, затем нажимаете кнопку
, не
путайте с кнопкой
, по нажатию которой обработка пакета начинается с самого
начала. В выпадающем меню выбираете строку “Resume processing interrupted task”,
открываете файл с прерванным заданием (с расширением .skt) и продолжаете обработку.
Внимание! После загрузки пакета обязательно установите галку в окне Output.dir на вкладке
Files, если этого не сделать, то программа не будет выполнять вычисление средних размеров
страниц после обработки.
5. Иногда попадаются книги с пометками (подчёркиваниями). Сканкромсатор позволяет
вычистить эти подчёркивания. Для этого выделите мышкой прямоугольный блок,
захватывающий подчёркивание на изображении страницы (если в этом блоке окажутся
- 22 -
захваченными небольшие участки букв, то это не страшно). Затем в окне:
установите метод очистки “Horizontal” и нажмите в этом же окне кнопку
(левую), при
нажатии этой кнопки выполнится очистка подчёркивания. После того как все подчёркивания
на странице зачищены, необходимо сохранить отредактированное изображение страницы.
Сохранение выполняется по нажатию кнопки “Image”, в выпадающем меню выбираете
“Save”. Обрабатываете таким образом все сканы с пометками. Этот метод очистки от
подчёркиваний рекомендовал разработчик Сканкромсатора (“bolega”). Описанная выше
процедура опробована на версии 5.6А Сканкромсатора. Как чистить сканы от подчёркиваний
в версии 5.91 я не разобрался.
P.S. С карандашными подчёркиваниями новая версия сканкромсатора (5.91) неплохо
справляется на автомате, только нужно подобрать нужное значение для “Illumination”.
Версию 5.6А Сканкромсатора можно скачать вот по этой ссылке:
http://physicsbooks.narod.ru/djvu/scan_kromsator_v5_6a_full.rar
6. После того как Сканкромсатор обработал Ваше задание, Вам предоставляется
возможность просмотра и ручного редактирования результатов обработки. На этом этапе Вы
можете удалять мусор со страницы, который не смогла вычистить программа (я это делаю
самым незатейливым образом: выделяю мышкой область, которую нужно удалить и
нажимаю “Del”), выравнивать перекосы изображения, перемещать и копировать участки
изображения.
7. Если скан выполнен с перекосом и в область обработки ограниченную резаками попадает
мусор, например, тёмная середина сгиба разворота книги, которая после обработки
сканкромсатором проявится грязной чёрной полосой, то при удержании клавиши “Shift”
можно изменять угол наклона резаков, что позволяет во многих случаях избавиться от
лишнего мусора на краях скана.
8. Если после обработки на странице видно большое количество мелких точек (мусора), то
избавиться от них можно подбором параметра “despekle”, который станет доступен, если в
окне:
- 23 -
Навести курсор мыша на надпись “special” и кликнуть по ней, после клика появится окно с
дополнительными опциями:
Выбор нужного режима очистки осуществляется в том окошечке, где на этой картинке стоит
по умолчанию “Normal”. Как правило, установки Fine+1 – Fine+2 бывает вполне достаточно,
для того чтобы избавиться от мелкого мусора. Чтобы изменения применились ко всем
страницам задания, не забывайте держать нажатой клавишу “Ctrl”, когда ставите или
снимаете галочку в окошечке слева от окна с выбранной опцией.
Внимание! Следите, чтобы при таком способе очистки не пострадали знаки препинания.
Чаще всего «достаётся» двоеточию и точке с запятой (иногда в этих знаках начинают
пропадать верхние точки, т.е. от двоеточия остаётся только точка, а от точки с запятой запятая). Поэтому следует пользоваться выбором этой опции очень аккуратно, например,
выполнив обработку одной наиболее типичной страницы из обрабатываемой книги. Только
после подбора нужных параметров, проверенных на типичной странице, следует применять
эти параметры ко всем остальным страницам обрабатываемой книги.
Впрочем, программа настолько богата своими возможностями, что описать все нюансы
обработки вряд ли возможно.
Да и может это и к лучшему: у Вас остаётся большой простор для творческого
экспериментирования.
- 24 -
Процедура внедрения текстового слоя и создания гиперссылок подробно расписана в
журнале «Домашняя лаборатория» №6 за 2008 г., найти этот журнал можно на:
http://librus.ru/
На многие Ваши вопросы, которые наверняка возникнут при работе со Сканкромсатором,
Вы найдёте ответы здесь:
http://forum.ru-board.com/topic.cgi?forum=5&topic=15877&start=880
И, пожалуй, последнее по сканкромсатору:
Постобработка
После того как сканкромсатор выполнил заданную Вами работу, он автоматически
переходит в режим постобработки (“Result view”). На этом этапе Вы можете исправить
дефекты, которые остались после обработки (вручную выровнять изображение, удалить
оставшийся мусор, почистить фон области “картинка” и мн. др.).
1. Очистка от мусора:
Чтобы облегчить эту операцию, в программе предусмотрены режимы “Autosave” и
“Autoclear”, которые можно установить в выпадающем меню, вызываемом нажатием правой
кнопки мыша.
2. Ручное выравнивание страницы:
Если страница расположена криво, то её можно выровнять, выделив мышом всю страницу
или её часть, которую нужно поправить, и нажав на панели инструментов кнопку”Rotate
selection”:
3. Очистка фона вокруг картинок:
Эту операцию можно выполнить, удерживая нажатыми клавиши “Ctrl” и “Shift”, и кликнув
левой кнопкой мыша по тому участку, изображения, который Вы хотите удалить. Программа
сама определит цвет, который следует почистить и покажет Вам границы области, которая
будет почищена, после чего Вам остаётся только нажать на клавишу “Del”, и очистка будет
выполнена.
4. Реставрация фрагментов текста:
Если на странице есть дефекты текста, то их можно исправить, скопировав с этой или любой
другой страницы пакета изображение нужного символа или группы символов, и в вклеить их
в нужное (реставрируемое) место.
Не следует считать, что именно этот метод и никакой другой пригоден для создания
электронных книг.
Неплохой результат при условии, что Вы знакомы с программой Finereader, можно получить,
если отсканированный Вами материал распознать с его помощью, а затем передать в Adobe
Acrobat. Во-первых, Вы получите соответствующий по оформлению оригиналу материал с
текстовым слоем, а во-вторых, объём такой книги зачастую оказывается меньшим, нежели
сделанный в дежавю (режим сохранения пдф «только текст и картинки») (для книг, не
содержащих картинок и формул объём одной страницы составляет в среднем 5-7 кб), да и
качество получается выше (векторизация, однако!).
Сохранение в Ворд распознанного материала иногда приводит к потере оригинального
оформления, поэтому предпочтительнее передавать в Adobe Acrobat, который, разумеется,
- 25 -
должен быть установлен на Вашем компьютере, подойдёт для этого и программа
FoxitPdfReader, которую можно найти в Интернете (она значительно меньше по объёму, чем
Adobe Acrobat).
Только не забывайте, что распознанный Файнридером материал следует внимательно
проверить, и если потребуется, то поправить (не стоит полностью полагаться на программу,
как показывает практика, ошибки распознавания неизбежны).
Сохранять из файнридера в пдф лучше всего так:
1. Выбрать необходимые для передачи страницы в окне “Пакет”, кликнув по первой нужной
Вам странице мышкой (квадратик с номером страницы, который находится под её
изображением, должен закраситься синим цветом). Затем, если страницы идут подряд, то,
удерживая нажатой клавишу “Shift” выбрать все необходимые страницы.
2. После этого в меню “Файл” выбрать “Сохранить результаты”->”Передать выбранные
страницы в ”Adobe Reader/Acrobat”, разумеется, на Вашем компьютере должна быть
установлена программа от Adobe (Reader или Acrobat).
Если Вы не хотите заниматься тщательной вычиткой и правкой распознанного материала, то
следует сохранить не только распознанный текст, но и оригинальное изображение страницы.
Для этого в Файнридере (я использую восьмую версию Файнридера, т.к. в ней значительно
меньше глюков, нежели в новой «девятке») следует в опциях сохранения пдф установить
параметры, так как это сделано на этом скриншоте (“Сервис”->”Опции”->”Сохранить”>”Форматы”->”PDF”):
Добиться сравнимого с djvu объёма пдф-файла можно «оптимизировав» полученный из
Файнридера, и сохранённый на диск пдф файл, например, в восьмом “Акробате”
- 26 -
(“Advanced”->”PDF Optimizer”:
Здесь приведены настройки профиля “оптимизации” “по умолчанию”.
Вы можете сами выбрать необходимый алгоритм сжатия.
Важно!: При такой “оптимизации” независимо от того, каким было разрешение
исходного пдф, на выходе Вы получите пдф с разрешением не выше 300 дпи, т.е.
Acrobat “по умолчанию” самовольно понижает разрешение изображений.
Если Вы не хотите, чтобы разрешение было снижено, то Вам следует в “Monochrome
Images” поставить не “Bicubic Downsampling to”, а “Off”. Но при этом Вы вряд ли сможете
добиться сравнимого с djvu сжатия, т.к., многочисленные заверения, что алгоритмы сжатия
JB2 (djvu) и JBIG2 (pdf), примерно равноценны, не подтверждаются на практике:
Практически всегда djvu получается более компактным, нежели пдф, особенно заметно
преимущество djvu на материале с высоким полиграфическим качеством.
И последнее: не применяйте «оптимизацию» к материалу, в котором на одной странице
присутствуют цветные картинки и монохромный текст, т.к. Акробат на таких страницах
пытается сжимать монохромный текст не по алгоритму JBIG2, а по JPEG.
Качество текста получается при таком сжатии “глаза б мои не видели”.
Чтобы получить высокого качества пдф, сравнимого, а, как правило, меньшего объёма, чем
djvu, то Вам следует в Файнридере сделать тщательную вычитку и, правку распознанного
материала и передавать его в Акробат не в режиме “Текст под изображением страницы”, а
“Только текст и картинки”. Но это очень нудная и тяжёлая работа, требующая много
времени и внимания.
Но в любом случае предварительную обработку материала (очистку фона, удаление мелкого
мусора, теней на развороте, деление разворота на страницы, выравнивание страниц) следует
производить с помощью “Сканкромсатора”.
Download