Меню Рубрики

Установка djvu на linux

Чем открыть DjVu файл в Windows, Ubuntu, OS X и Andro > 30.09.2018 Автор: Евгений Целярицкий

DjVu («дежа вю») – это графический формат, разработанный для хранения, просмотра, печати и редактирования отсканированных изображений и текстов. В сравнении с PDF, файлы DjVu весят в 10-100 раз меньше, не уступая при этом в качестве. Благодаря такому свойству формат как нельзя лучше подходит для оцифровки многостраничных книг и создания электронных библиотек.

Файлы «дежа вю» можно просматривать на разных платформах, а не только на Windows, как думают многие. В этой статье я расскажу, чем открыть DjVu в операционных системах Windows, Ubuntu, OS X и Android. В обзоре будут участвовать только бесплатные приложения, которые хорошо зарекомендовали себя у пользователей.

DjVuReader для Windows

DjVuReader – простая и удобная DjVu-читалка, понятная даже новичку, которая не нуждается в установке на жесткий диск. Достаточно распаковать папку с программой на любой носитель, дважды кликнуть DjVuReader.exe и с помощью меню «Файл» – «Открыть» загрузить в нее документ.

Для навигации по документу в DjVuReader есть функции показа содержания, эскизов и описаний страниц. А также кнопки-стрелки для перемещения вперед-назад и в начало и конец документа.

Удобство чтения обеспечивают функции подстройки яркости и контраста, масштабирование, 4 режима цветности и столько же режимов просмотра: одностраничный, альбомный, книжный и буклетный.

Кроме того, программа дает возможность копировать текст и картинки из открытого файла. Для этого используются кнопки верхней панели или горячие клавиши – Ctrl+P (скопировать картинку) и Ctrl+T (скопировать текст). Можно скопировать и отдельный фрагмент, нажав кнопку «Выбор» (показана на скриншоте) и обведя участок странички.

Кроме простоты и удобства, DjVuReader отличается нетребовательностью к ресурсам компьютера. Многостраничные книги и графика высокого разрешения открываются в нем быстрее, чем в программах-аналогах. Даже на слабых машинах.

DjView для Ubuntu

В дистрибутивы Ubuntu обычно предустановлены приложения для открытия файлов DjVu, но их функциональность и скорость оставляют желать лучшего. Так, в Ubuntu Unity есть инструмент «Просмотр документов».

Как видите, здесь нет ничего, кроме содержания, масштабирования и кнопок прокрутки. Листать толстенный том в этом просмотрщике крайне неудобно, к тому же, работает он медленно.

DjView – совсем другое дело. Установим его через Центр приложений Ubuntu и запустим.

Окно приложения чем-то напоминает «виндовый» DjVuReader. В нем присутствуют почти все знакомые нам инструменты плюс некоторые другие:

  • Эскизы страниц
  • Содержание книги
  • Печать
  • Поиск
  • Масштабирование
  • Кнопки навигации
  • Одно — и двухстраничный режим просмотра
  • Копирование текста и изображений
  • Цветокоррекция
  • Экспорт данных из файлов DjVu в форматы PDF, JPG и TIFF

Чтобы скопировать фрагмент, нажмите показанную на скриншоте кнопку, обведите нужную область и выберите вариант сохранения.

DjView4 быстро и легко справляется с большими по объему документами. И еще: хоть в программе и нет функции сохранения закладок, при повторном просмотре книга открывается на той же странице, где была закрыта.

MacDjView для OS X

Программа MacDjView имеет лишь базовый набор инструментария: кнопки вперед-назад, переходы к первой и последней странице и масштабирование. Также для навигации по документу можно пользоваться скроллингом мыши. Это даже меньше, чем в приложении «Просмотр документов» из Ubuntu. Однако почти тысячестраничный «талмуд» в формате DjVu открылся в MacDjView моментально. Это большой плюс.

EBookDroid для Android

EBookDroid признан пользователями одной из лучших PDF и DjVu-читалок для мобильных устройств. В EBookDroid масса функций и настроек, которые больше всего касаются отображения документа на экране. В их числе:

  • Включение/сокрытие статус-бара и служебных кнопок
  • Запоминание наиболее удобной пользователю ориентации экрана и способа прокрутки страниц при чтении книги
  • Одно- и двухстраничный режим отображения
  • Режимы «день» (белый фон, темный текст), «ночь» (черный фон, белый текст), «темная комната» (красная подсветка)
  • Функции обрезки, разворота и наклона страниц
  • Изменение нумерации страниц
  • Закладки
  • Поиск
  • Возможность поделиться книжкой с друзьями
  • Улучшение отрисовки картинок и выравнивание шрифтов
  • Изменение обложки книги на произвольную страничку

Все когда-либо открытые книги EBookDroid заботливо расставляет на виртуальные полочки. Чтобы перейти к просмотру, достаточно коснуться обложки. Кстати, это меню тоже можно настроить по своему вкусу.

Все приложения из сегодняшнего обзора поддерживают русский язык, поэтому разобраться, как они работают, можно и без подсказок. Кроме того, DjView и MacDjView имеют версии не только для описанных платформ, но и для некоторых других, за исключением мобильных.

источник

Создание документов DJVU в Linux

Что такое DjVu?

DjVu — это формат хранения изображений высокого разрешения. В его основе лежит алгоритм сжатия с использованием вейвлет-анализа. Из-за возможности хорошего сжатия изображения при котором текст остается читаемым у DjVu нет конкурентов для хранения отсканированных текстовых документов или фотографий.

Разновидности формата

Для работы с одностраничными или многостраничными документами, черно-белыми или цветными изображениями, Фото и картинками высокого разрешения DjVu объединяет в себе три формата сжатия: DjVuText, DjVuPhoto, и DjVuLayered.

DjVuText (Также известный как JB2): формат сжатия черно-белых и однотоновых изображений. Используемый здесь алгоритм дает высокую степень сжатия за счет обработки специальным способом элементов одинаковой формы (например букв) на странице. Черно-белые многостраничные документы разрешением 300dpi (12 точек на миллиметр) содержащие только текст обычно сжимаются до размера в 5–20 KB. Файлы обработанные DjVuText получаются в 3–10 раз меньшего размера, чем файлы PDF или TIFF того же качества. DjVuText также поддерживает режим при котором с каждым объектом может быть связан определенный цвет. Этот режим можно использовать для электронных документов или для изображений формата GIF.

DjVuPhoto (известный как IW44): передовой формат сжатия для цветных и grayscale (оттенки серого) фотографий, рисунков и других изображений. Он основан на математической теории вейвлетов. Размер сжатого файла выходит в среднем в два раза меньше чем файла JPEG того же качества. Основными преимуществами DjVuPhoto перед JPEG являются:

  • Меньший размер файла (примерно в два раза меньше чем JPEG того же качества). Кроме того, при больших коэффициентах сжатия не появляются отвратительные артефакты как у JPEG.
  • Быстрота: картинка на экране появляется очень быстро, а четкость изображения увеличивается по мере его декодирования.
  • Масштабирование с декомпрессией на лету. Это полезно при просмотре очень больших изображений на компьютере с ограниченным объемом оперативной памяти. При этом изображение остается частично сжатым. Изображения 4000×4000 пикселов могут быть просмотрены на компьютере с 32 мегабайтами оперативной памяти без участия раздела подкачки (свопа).

Формат позволяет работать с очень большими изображениями, но максимальный размер изображения ограничен размером оперативной памяти компьютера. Еще одно ограничение DjVuPhoto — формат поддерживает только одну цветовую схему (YCrCb). Это ограничение может вызвать проблемы при работе с медицинскими или геологическими изображениями. Для таких целей больше подходит формат от LizardTech — MrSID.

Читайте также:  Установка vsphere hypervisor на флешку

DjVuLayered (или просто DjVu): применяется для сжатия отсканированных черно-белых или grayscale-изображений содержащих текст вперемешку с картинками и фоновыми рисунками. Примером таких документов могут быть: газеты, рекламные каталоги, комиксы… DjVu добивается большого коэффициента сжатия разделением изображения на несколько слоев и сжатием каждого слоя наиболее подходящим для него способом. Обычно документ разделяется на 2 или 3 слоя. Слой с фоновым изображением сжимается DjVuPhoto, маска (слой содержащий текст и простые рисунки) сжимается DjVuText. Цвет текста и рисунков может быть сохранен двумя способами: с использованием цветового режима DjVuText или как отдельный слой для DjVyPhoto. Маска сохраняется в полном разрешении чтобы сохранить начертание символов без изменения, а фоновый слой — в меньшем разрешении, потому что для нормального вида документа этого вполне достаточно. Благодаря этой технике удается достичь высокого коэффициента сжатия. Размер файла с отсканированным в разрешении 300dpi изображением одной страницы журнала обычно равен 40–100KB.

Документ DjVu может содержать как одну так и множество страниц. многостраничные документы бывают двух видов: связанные (bundled) — хранящиеся в одном файле и ‘indirect’ — когда отдельные страницы документа хранятся в отдельных файлах в одной директории.

Каждое изображение в формате DjVu может содержать дополнительную информацию о разрешении картинки, гиперссылках, подсвечиваемых областях, цвете рамки изображения, режиме показа и параметрах масштабирования. Еще документ DjVu может содержать в специальном сжатом формате текст находящийся на изображении (например, полученный программой распознавания текста OCR). Этот текст используется для поиска по странице и выделения отдельных слов/выражений.

Применение DjVu

Краткий ответ на вопрос «когда я должен использовать DjVu?» таков:

  • Для хранения изображений разрешением более 1 миллиона пикселей (отсканированные документы, фотографии высокой четкости).
  • Для хранения любых изображений содержащих текст.
  • Для хранения многостраничных документов: отсканированные книги, фотоальбомы и т.п.

Преимущества DjVu

  • Значительно меньший размер файла (по крайней мере в два раза меньший чем у изображения JPEG того же разрешения или в 3-10 раз меньший чем у PDF).
  • Возможность текстового поиска (если текстовая информация была добавлена при создании документа) в отличие от JPEG
  • Меньшее потребление памяти при просмотре изображений большого разрешения благодаря возможности частичной декомпрессии в отличие от файлов Jpeg
  • Отсутствие возможных проблем со шрифтами как у PDF и PostScript.
  • Меньшее время отрисовки изображения на экране при начале просмотра или при масштабировании (по сравнению с PDF и PostScript)
  • Простой и легкий просмотрщик (плагин для просмотра DjVu — 600KB; Acrobat Reader — 6MB)

Собираем DjVu-документ

Если вы до этого не работали с форматом DjVu, нужно установить два пакета. Для разных дистрибутивов их названия не должны сильно отличаться. В дебиане это делается следующей командой:

\$ sudo apt-get install netpbm djvulibre-bin

Теперь можно приступать собственно к созданию DjVu-документа. Допустим у нас есть отсканированная книга — файлы 010…BMP и обложка — 010.BMP.

Первым делом сконвертируем все изображения в формат ‘portable anymap‘. Сделать это можно командой bmptopnm, перенаправив ее вывод в файл с нужным названием. Для других форматов файлов есть команды jpegtopnm, pngtopnm, giftopnm или anytopnm. Чтобы не вводить одну и ту же команду для каждого файла, напишем небольшой цикл, как учились в статье про bash:

\$ for i in 010*BMP; do bmptopnm \$i > \$pnm; done bmptopnm: Windows BMP, 2480x3507x1 bmptopnm: WRITING PBM IMAGE bmptopnm: Windows BMP, 2480x3507x8 bmptopnm: WRITING PGM IMAGE .

После этого в текущей директории появятся файлы с расширениями .pnm и именами как и у BMP-шек.

Черно-белые изображения

Для преобразования черно-белых изображений будем использовать команду cjb2. У этой команды два аргумента — файл ‘portable anymap’ и название желаемого djvu-файла. А также есть несколько опций: -dpi — разрешение картинки, -losslevel — степень сжатия. Есть также несколько сокращений для удобства:

  • -lossless эквивалентно -losslevel 0 — вообще не сжимать (это опция по умолчанию)
  • -clean эквивалентно -losslevel 1 — удаление самых мелких помарок с изображения
  • -lossy эквивалентно -losslevel 100 — включает возможность кодировать некоторые похожие символы одинаково.

Возможны и большие значения losslevel, но это приведет к ухудшению качества изображения.

Итак, обрабатываем изображения опять в цикле:

\$ for i in 010*pnm; do cjb2 -dpi 300 -clean \$i \$djvu; done

После этой операции в рабочей директории появятся файлы с расширением .djvu

Цветные изображения

Для сжатия цветных изображений будем использовать утилиту с44. Цветная у меня только обложка. У команды c44 опций побольше, чем у предыдущей, но я буду использовать только две из них: разрешение и ‘-slice’ для контроля качества сжатия. В мануале для фотографий рекомендуется значение -slice 74+13+10, но я возьму немного меньшие значения — для четырехцветной обложки будет нормально. (за подробной информацией о параметрах — смотри справку man c44).

\$ c44 -dpi 300 -slice 60+7+7 01.pnm 01.djvu

Собираем многостраничный документ

Теперь, когда мы обработали каждую страницу, можем собрать их все в один документ. Делается это так:

\$ djvm -c my-cool-book.djvu 01.djvu 010*djvu

Опция -c (‘create’) указывает что мы хотим сделать новый документ. Далее идет название, которое мы хотим дать нашей книге, а после — файлы ‘.djvu’ из которых книга будет состоять. Важно чтобы имена файлов были в алфавитном порядке если мы используем globbing (подстановку шаблона * вместо части имени файла), тогда страницы в книге будут идти по-порядку

Чем смотреть DjVu-документы?

Самые популярные просмотрщики DjVu-файлов: djview4, evince, okular.

источник

Создаем DjVu файлы в Убунту

DjVu был разработан для сжатия графических файлов с потерями, и разработанн специально для хранения сканированных книг, документов, журналов и т.д. Как можно создать DjVu файлы в Ubuntu? Первой в обзоре идет утилита gscan2pdf. Программу GScan2Pdf можно назвать аналогом Fine Reader и Adobe Acrobat в Ubuntu. Утилита умеет сканировать, сохранять документы и фото, распознавать текст, импортировать и редактрировать PDF. В наличии имеются инструменты для базовой обработки графических файлов во время сканирования, такие как: повороты, негатив, кадрирование, установка порога, нерезкая маска и очистка документа. Экспортирует выходные файлы в форматы: GIF, JPEG, PNG, PNM, PS, TIFF, DjVu и текст. Установим самую свежую версию программы командами в Терминале:

sudo add-apt-repository ppa:jeffreyratcliffe/ppa

sudo apt-get update

sudo apt-get install gscan2pdf

Далее советы для любителей Терминала.

Для начала установим нужные пакеты командой в Терминале:

sudo aptitude install djvulibre-bin netpbm imagemagick

А теперь приведу примеры скриптов для обработки черно-белых, серых и цветных изображений. Перерыл много информации и остановился именно на этих способах. Если у вас присутствует много файлов, которые должны идти друг за другом в нужном порядке, то советую пронумеровать их последовательными номерами (001, 002, 003 — 026 и т.д.), и тогда можно будет применить цикл (массовую обработку). Заходим в папку с нужными изображениями и открываем ее в Терминале по этому способу.

Читайте также:  Установка противопожарных щитов смета

Цикл для черно-белых изображений.
В данном случае нас интиресуют только отличного качества сканы с черно-белым режимом, т.е. белый фон и черный текст.

for file in `ls * .jpg `
do
anytopnm $file | ppmtopgm | pgmtopbm -value 0.499 > $file.pbm
cjb2 -dpi 300 $file.pbm $file.djvu
rm -f $file.pbm
done

Значение 0.499 является оптимальным для большинства случаев, но вы можете поэкспериментировать. Вместо расширения .jpg вы впишите нужное вам, например: .tiff, .png и т.д. Также можно изменить значение -dpi. Чем оно выше, тем лучше качество, но и больше размер файла. Для текстовых файлов подойдет значение от 150 до 300.

Скрипт для массовой обработки серых изображений.
Чем меньше число степени сжатия, в нашем случае 4, тем меньше размер djvu файла.

#!/bin/bash
for i in * .jpg ; do
convert $i -format pgm «$i.pgm»
c44 -dpi 300 -percent 4 «$i.pgm» «$i.djvu»
# percent 4 — степень сжатия изображения
rm -f «$i.pgm»
done

Скрипт для массовой обработки цветных изображений.

for name in $(ls | grep ‘ jpg ‘) ; do c44 $name -slice 100 $(echo $name | sed -r ‘s/(.*)\.[^\.]+/\1/’).djvu ; done

Чем выше значение -slice, тем выше качество и больше размер файла.

for x in * .jpg ; do c44 -dpi 300 $x; done

Далее нам остается склеить все созданные djvu файлы в один.

djvm -c rezultat.djvu *.djvu

Как вы видите, мы получим многостраничный файл с именем rezultat.djvu

Теперь удалим ненужные, одиночные djvu файлы, а оставим только нужный нам, с именем rezultat.

rm -f [^rezultat]*.djvu

И напоследок могу порекомендовать установить программу DjVu Solo через Wine. Во время установки вам будет предложено скачать и установить нужные компоненты и библиотеки. Устанавливал и проверял в Убунту 12.04. Работает отлично.

источник

Создание электронной копии книги в формате DjVu в Linux

Этот учебник посвящён описанию примера создания электронной копии книги в формате DjVu (дежавю) в операционной системе GNU/Linux.

Содержание

Программное обеспечение [ править ]

  1. Linux Mint 17.1 Xfce — дистрибутив GNU/Linux.
  2. Драйвер вашего сканера.
  3. XSane — получение сканов, изображений страниц книги со сканера.
  4. Geeqie — просмотр сканов.
  5. Viewnior — просмотр и кадрирование изображений.
  6. Scan Tailor 0.9.11.1 — обработка сканов. Вариант Scantailor-Advanced (портативная версия, PPA-репозиторий для Ubuntu) обладает двумя важными особенностями: 1) возможностью полуавтоматической корректировки границ полезной области при помощи двойного клика рядом с полезным содержимым; 2) автоматическое прямоугольное выделение иллюстраций в режиме «смешанный».
  7. GIMP — редактирование скана обложки.
  8. DjVuLibre (пакет djvulibre-bin) — создание и чтение файлов DjVu.
  9. img2djvu (скрипт) — конвертирование страниц, обработанных в Scan Tailor в режиме «Смешанный». Скрипт выполняет разделение страниц на слой текста и слой иллюстраций для их раздельного конвертирования в формат DjVu с целью экономии размера файла готовой книги и ускорения её обработки при просмотре. См. Принцип работы img2djvu. Если в проекте нет страниц, обработанных в режиме «Смешанный», то можно обойтись без использования этого скрипта.
  10. ImageMagick — работа с изображениями (необходима для img2djvu).
  11. Tesseract (+ tesseract-ocr-rus) — оптическое распознавание текста оглавления.
  12. YAGF или OCRFeeder — графический интерфейс для Tesseract.
  13. DjVuSmooth — добавление интерактивного оглавления в документ DjVu.
  14. QpdfView (+ qpdfview-djvu-plugin) — просмотр документов DjVu и PDF.
  15. LibreOffice Writer, текстовый процессор — для проверки орфографии результата распознавания текста оглавления.
  • DjView4 — извлечение страниц DjVu из документа, а также конвертирование документа и его отдельных страниц в другие форматы: PDF, PNG и др. По сравнению с QpdfView, программа быстрее отображает страницы файла.

Сканирование [ править ]

  • Число страниц: 999 (примерное)
  • Цель: Файл
  • Путь сохранения: (создать и выбрать папку); название первого файла: 0001.jpeg
  • Шаг: +1 (нумерация файлов будет такой: 0001.jpeg, 0002.jpeg, 0003.jpeg…)
  • Формат: JPEG
  • Профиль цветности (режим сканирования): — Цветной.
  • Тип изображения: Полная палитра цветов (фото).
  • Разрешение сканирования (по осям X, Y): 200 DPI (точек на дюйм) — оптимальное соотношение качества получаемых изображений и времени сканирования.
  • В строке меню главного окна выбрать «Окна» —> «Показывать дополнительные параметры». В окне дополнительных параметров выбрать «Ожидать нажатия кнопки».

Последовательно сканируем страницы книги по одной или по две сразу (разворотом). Сохраняем одну ориентацию страниц при сканировании. Качество сканирования контролируем программой Geeqie. Обращаем внимание на место соединения страницы с переплётом — в нём могут образовываться затемнённые области, которые при обработке превращаются в чёрные полосы, закрывающие текст, чтобы избежать их, необходимо хорошо прижимать книгу к стеклу сканера в месте переплёта. Для начала сканирования каждой страницы используем кнопку на корпусе сканера. Изображения будут автоматически сохраняться в указанной папке. Все страницы будут иметь порядковые названия 0001.jpeg, 0002.jpeg, 0003.jpeg… — это важно, так как при конвертировании в DjVu программа-обработчик будет собирать их в книгу в той же последовательности.

Улучшение резкости сканов

Для улучшения резкости сканов используем нерезкую маску. Открываем терминал в папке со сканами и вводим команду-цикл, обрабатывающую все файлы JPEG

Значения параметра -unsharp выбраны по умолчанию: radius 0 , sigma 1.0, gain 1.0, threshold 0.05.

Примеры соотношения размера скана в пикселях с его разрешением для сканеров формата A4:

  • 1272 × 1754 — 150 dpi.
  • 1696 × 2339 — 200 dpi.
  • 2544 × 3509 — 300 dpi.

Обработка обложки [ править ]

Обложка всегда сканируется и обрабатывается первой, так как при сканировании книги она может потрепаться (особенно это актуально для мягких обложек старых книг). Скан обложки выравнивается и обрезается в программе GIMP или любом другом подходящем растровом редакторе. В GIMP:

  • Поворот на 90 или 180 градусов: меню «Изображение» → «Преобразования» → «Повернуть «. Поворот на произвольную величину: «Инструменты» → «Преобразование» → «Вращение».
  • Кадрирование: Shift+C или «Инструменты» → «Преобразование» → «Кадрирование».
  • Сохранение результата: «Файл» → «Экспортировать как…» → дать имя «000.jpg»
  1. Если img2djvu не используется, то djvu-файл обложки разместить в папке out, создаваемую Scan Tailor’ом.
  2. Если для конвертирования страниц будет использоваться img2djvu, то djvu-файл обложки необходимо присоединить к готовому djvu-файлу книги: поместить их в одну папку и дать команду

Ускоренное создание книги [ править ]

— Это создание книги без обработки сканов в Scan Tailor’е. Обрезка пустых областей вокруг страниц производится во время сканирования при предварительной настройке программы сканирования (ограничении области сканирования), либо вручную после сканирования. Основные особенности:

  • Во время сканирования страницы должны располагаться на сканере таким образом, чтобы соблюдалась максимально возможная горизонтальная ориентация строчек текста (или вертикальная ориентация, которая потом легко исправляется).
  • Перед редактированием сканов обязательно сделать их резервную копию для быстрого исправления возможных ошибок.
  • Поворот сканов делается пакетной командой ImageMagick (см. ниже).
  • Обрезку пустых полей удобно делать программой Viewnior (меню «Изображение» → «Обрезать»), а обрезку разворотов на отдельные страницы пакетными командами. В конце имени файлов с левыми страницами добавить «-1», с правыми «-2» (пакетным переименованием). Затем объединить левые и правые страницы в одной папке, сконвертировать и собрать их.
  • Проверить результат обрезки. Это быстро делается во Viewnior’е или Geeqie’е.
Читайте также:  Установка распредвала 2112 16кл

Повернутые и обрезанные сканы конвертируются и собираются в книгу:

Обработка сканов в Scan Tailor’е [ править ]

Обработка сканов в Scan Tailor состоит из 6 основных операций:

  1. Исправление ориентации — поворот страниц на угол, кратный 90 градусов.
  2. Разрезка страниц — разделение разворота книги на две отдельных страницы или обрезка лишней части при постраничном сканировании.
  3. Компенсация наклона — горизонтальное выравнивание строк текста на странице. Образовавшиеся после обрезки пустые страницы в начале и конце книги удаляем.
  4. Полезная область — определение границ области с печатными данными (обрезка пустых полей).
  5. Поля — добавление пустых полей с подгонкой страниц к одному общему размеру, выравнивание полезной области. Примерные размеры полей (мм): нижнее 5, слева и справа по 6, верхнее 7. Выравнивание по середине нижнего края (при нумерации страниц снизу).
  6. Вывод — итоговая обработка: фон страницы очищается до чисто белого, шрифт становится чисто чёрным с чётким начертанием букв. Страница готова к конвертированию в формат DjVu.

На выводе есть дополнительные вкладки с двумя часто используемыми функциями:

  • Зоны картинок — активна при выборе режима вывода «Смешанный». Здесь можно вручную исправить автоматическое определение границ иллюстраций на странице. Возможны 3 свойства выделяемых областей:
    • «Вычесть из всех слоёв» — область будет обработана в режиме «Чёрно-белый».
    • «Добавить к авто-слою» — область будет обработана в режиме «Цветной / Серый».
    • «Вычесть из авто-слоя» — область будет обработана в режиме «Чёрно-белый», но внутри этой области можно создавать зоны со свойством «Добавить к авто-слою».
  • Зоны заливки — выделение областей для удаления случайных посторонних элементов на странице.

Для обработки страниц, содержащих только текст и графические изображения (не фото, без полутонов) выбираем режим вывода «Чёрно-белый», для страниц с текстом и фотографиями — «Смешанный». Scan Tailor сохраняет обработанные страницы в папку «out», которая автоматически создаётся в папке со сканами.

Контроль [ править ]

Практически весь процесс обработки сканов необходимо проверять визуально:

  1. Исправление ориентации — задаётся вручную.
  2. Разрезка страниц — можно проконтролировать прямо во время обрезки.
  3. Компенсация наклона — ошибка встречается при отсутствии на странице строчек текста (нет прямолинейных ориентиров).
  4. Полезная область — основной этап проверки. В полезную область могут попадать посторонние элементы или наоборот, пропускаться часть полезной информации. Пропуски чаще всего возможны вверху и внизу страницы (например номера страниц), реже слева и справа. Для ускорения поиска дефектов можно отсортировать страницы «Сортировка по возрастающей ширине или высоте» (переход по страницам клавишами «Pg Up/Down»).
  5. Поля — их размер устанавливается вручную.
  6. Вывод — ошибки возможны в режиме «Смешанный» при определении границ иллюстраций. Исправляется ручной расстановкой границ на боковой вкладке «Зоны картинок».

Конвертирование в DjVu [ править ]

Перед конвертированием проверяем отсутствие пропусков, повторов страниц, правильность их последовательности и отсутствие на них посторонних объектов.

Без img2djvu [ править ]

Если в папке Out все файлы tif обработаны в режиме «Чёрно-белый», то в ней необходимо открыть терминал и последовательно дать две команды, первая из которых конвертирует tif в djvu, а вторая — собирает отдельные страницы в книгу:

С img2djvu [ править ]

Если в папке Out есть файлы tif, созданные в режиме «Смешанный», то необходимо использовать программу img2djvu:

  • Помещаем файл скрипта img2djvu в папку с jpeg-сканами, где находится папка Out.
  • Открываем терминал в этой же папке и даём команду

, где -l 1 — разделение текста и иллюстраций с наилучшим качеством кодирования последних,
-d 600 — разрешение обработанных сканов,
out — название папки.

По умолчанию img2djvu применяет к изображениям параметры «-contrast -blur 0x1»: -contrast увеличивает контраст, а -blur размывает полиграфический растр. Чтобы отключить это, необходимо запускать img2djvu с параметром -p «»:

После конвертирования всех страниц создаётся файл электронной книги out.djvu (по названию имени папки, в которой находятся обработанные сканы). Осталось присоединить djvu-файл обложки.

Примечание: Если при выставленном масштабе 100 % в программе для просмотра книга выглядит меньше или больше своего истинного размера, значит было неправильно указано разрешение сканов в программе Scan Tailor (что очень влияет на качество обработки), либо неправильно указано разрешение при кодировании в DjVu.

Оглавление [ править ]

Интерактивное оглавление позволяет быстро переходить к нужному разделу электронной книги, поэтому его желательно добавлять. Однако, если оглавление достаточно объёмное, что вызовет значительные трудовые и временные затраты по его добавлению, то можно обойтись без него, добавив только одну ссылку на страницу оглавления в книге. В этом случае читатель сможет перейти на нужную ему страницу, набрав её номер в программе-просмотрщике DjVu-файлов.

При необходимости предварительно программой YAGF + Tesseract распознаём текст с обработанных в Scan Tailor страниц оглавления книги и проверяем его орфографию (например в LibreOffice Writer). Открываем созданный DjVu-файл книги программой DjVuSmooth и добавляем в него оглавление: переходим по страницам клавишами «Pg Up/Down», нажимаем на нужной странице «Ctrl+B» и вносим название пункта оглавления.

Для исправления структуры оглавления, при возможных ошибках визуального редактирования, используем команды:
Извлечение оглавления DjVu-книги с его записью в текстовый файл:

Добавление оглавления в DjVu-книгу из текстового файла:

, где Oglavlenie — имя текстового файла.

Пример оформления оглавления

Принцип работы img2djvu [ править ]

Скрипт img2djvu разделяет и по отдельности конвертирует текстовое изображение и иллюстрации с обработанных в Scan Tailor сканов в режиме вывода «Смешанный». Страницы, обработанные в режиме вывода «Чёрно-белый», сразу конвертируются в DjVu.

Отделение текстового изображения (чёрного цвета) с записью результата в fore.pbm :

Отделение иллюстраций (оттенков серого и цветных) с записью результата в back.ppm . Параметр -contrast увеличивает контраст, а -blur — размывает полиграфический растр:

Конвертирование слоя текстового изображения fore.pbm в sjbz.djvu :

Конвертирование слоя иллюстраций back.ppm в back.djvu :

Создание чанка слоя текстового изображения sjbz.cnk из sjbz.djvu :

Создание чанка слоя иллюстраций bg44.cnk из back.djvu :

Объединение чанков слоя текстового изображения и слоя иллюстраций с созданием файла страницы page.djvu :

Удаление промежуточных файлов:

Команды DjVuLibre [ править ]

Добавление, удаление, извлечение страниц DjVu [ править ]

, где 3.djvu — имя файла третьей страницы,
3 — порядковый номер страницы в документе.

, где 3 — порядковый номер удаляемой из документа страницы.

, где Kniga.djvu — документ,
select 5 — пятая страница в документе,
5.djvu — имя файла сохраняемой пятой страницы.

Конвертирование DjVu в TIFF [ править ]

Конвертирование отдельных страниц документа DjVu в многостраничный TIFF:

, где -page=3-5,7 — номера страниц 3, 4, 5, 7.

Конвертирование всех страниц документа DjVu в многостраничный TIFF:

Конвертирование всех страниц документа DjVu в отдельные файлы-страницы TIFF:

Конвертирование также можно сделать программой DjView.

Команды ImageMagick [ править ]

Вместо 90/180/270 оставить нужное значение 90, 180 или 270.

источник