Меню Рубрики

Установка abbyy finereader на ubuntu

Системы оптического распознавания текста в Linux — обзор и сравнительное тестирование

Автор: А. Кривошей
Дата публикации: апрель 2011 года

Одна из областей, в которых отставание Linux от Windows считается значительным и трудно преодолимым, является оптическое распознавание текста. Так как необходимость распознать текст время от времени появляется практически у каждого пользователя компьютера, потребность в программном обеспечении такого рода надо признать актуальной проблемой. В связи с этим недавно я решил потратить немного времени и провести сравнительное тестирование имеющихся систем оптического распознавания текста (OCR), доступных в Linux. Для полноты картины рассматривались как локально устанавливаемые программы, так и онлайновые сервисы.

Методика тестирования

Для более объективной оценки возможностей пакетов оптического распознавания я подготовил три образца. Первый из них представляет собой страницу текста из книги «Война и мир». Данная страница из электронной книги в формате PDF была импортирована в GIMP с разрешением 300 dpi и сохранена в формате png. Таким образом, она представляет собой практически идеальный объект для распознавания и все программы должны с этим справиться без труда.
Второй образец представляет собой ту же страницу, но импортированную уже с разрешением 200 dpi и сохраненную в формате jpg с уровнем качества 60%. Любопытно посмотреть, как это скажется на качестве распознавания.
Для третьего образца та же самая страница была импортирована с разрешением уже 150 dpi. После импортирования на рисунок в GIMP был наложен фильтр «Фотокопия», имитирующий копировальную машину, что еще больше усложняет распознавание.
Что касается полученных результатов, они приведены в таблице. Показателем точности распознавания является отношение количества правильно распознанных слов к общему количеству слов в документе, выраженное в процентах и определяемое с помощью утилиты dwdiff.
Желающие могут скачать образцы и проверить результаты самостоятельно:
Образец 1, Образец 2, Образец 3.
Само собой, автор не претендует на какую-либо стопроцентную достоверность полученных результатов. При использовании других образцов результаты могут значительно измениться.
А теперь рассмотрим наших кандидатов.

ABBYY FineReader for Linux

Не секрет, что уже в течение многих лет единоличным лидером на рынке оптического распознавания является российская компания ABBYY со своим продуктом Fine Reader. В настоящее время компания предлагает пакет ABBYY FineReader Engine 8.0 CLI for Linux, включающий утилиту командой строки для распознавания и SDK для встраивания движка распознавания в различные корпоративные системы документооборота и т.д. Полная версия программы стоит 149 евро, при этом количество распознаваемых страниц ограничено величиной 12000 в год. Есть и более дорогие версии, в которых это количество значительно больше. Более подробную информацию можно получить на странице проекта. При такой стоимости покупать программу для домашнего использования возможно и не стоит, однако даже для небольшой компании она выглядит вполне приемлемо. Триальная версия позволяет распознать 100 страниц, ее мы и испытаем.
Для начала необходимо скачать архив с программой весом 290 Мб. Для получения триального ключа необходимо заполнить несложную форму на этом же сайте. Мне через пару дней после ее заполнения пришел ответ с ключом. В архиве находится файл abbyyocr.run и инструкция по установке, которая в общем заключается в запуске вышеуказанного файла на выполнение от имени суперпользователя (все это делалось в Ubuntu 10.10):

В процессе установки программа запросила ключ, после чего благополучно активировалась. Программа имеет множество ключей командной строки, позволяющих гибко настроить параметры распознавания. Я использовал команду вида:

В целом здесь все понятно. Ключи -if и -of задают распознаваемый файл и файл, в который записывается результат работы программы. С помощью -f задается формат вывода. Необходимо отметить, что если в тексте имеются слова на иностранном языке, необходимо обязательно задать его вторым после ключа -rl. В противном случае программа будет пытаться распознать все на русском.

ABBYY Fine Reader Online

Для полноты картины необходимо рассмотреть еще один продукт от ABBYY — онлайновый сервис ABBYY Fine Reader Online . Ранее он позволял после несложной регистрации распознавать бесплатно до 10 страниц в день, теперь же бесплатно можно распознать только три страницы сразу после регистрации, после чего необходимо платить. Минимальный пакет стоит 3$ за 20 страниц. Сервис поддерживает большое количество языков и форматов файлов.

Cuneiform

На второе место по известности среди систем OCR можно смело поставить программу cuniform. Первоначально программа CuneiForm была разработана компанией Cognitive Technologies как коммерческий продукт. CuneiForm поставлялся с некоторыми моделями сканеров. Однако после нескольких лет перерыва разработки, 12 декабря 2007 года анонсировано открытие исходных текстов программы, которое состоялось 2 апреля 2008 года.
По умолчанию в Ubuntu 10.10 доступна достаточно старая версия 0.7. Однако после добавления соответствующего PPA можно стать обладателем версии 1.0. Для Cuneiform написаны два графических интерфейса — YAGF и Cuneiform-Qt .
Для тестирования я использовал версию 1.0.0, установленную из вышеуказанного PPA. Распознавание производилось с помощью команды вида:

В руководстве cuneiform приводится опция —fax, которая включает оптимизацию работы программы для распознавания документов, переданных с помощью факса, однако при ее использовании результат получается хуже, поэтому я не привел его в таблице.

GOCR — это свободная кроссплатформенная система оптического распознавания текстов, работающая из командной строки. Программа пока находится в ранней стадии разработки, поэтому имеет ряд серьезных недостатков (например, распознает только одноколоночный текст). Кроме того, изучение man-страницы показало, что опций, позволяющих задать язык распознавания, программа не имеет, что подтвердилось экспериментом — русский текст gocr пытается распознать как английский. Естественно, в таблицу я данную программу включать не стал.

Ocrad

Ocrad — это система оптического распознавания, разрабатываемая в рамках проекта GNU. Программа использует метод выделения характерных признаков (feature extraction). Она читает побитовое изображение в формате pgm/pbm и генерирует текст в байтовом (8-битном) формате. Ocrad содержит анализатор макета, способный отделять столбцы или блоки текста, часто встречающиеся в печатных страницах. К сожалению, поддержка русского языка также отсутствует напрочь. Поэтому из нашего сравнения программу исключаем.

Tesseract

Tesseract — свободная программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х. Затем ее разработка была заморожена на 10 лет. В августе 2006 г Google купил её и открыл исходные тексты под лицензией Apache 2.0 для продолжения разработки. В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0) осуществляется с помощью дополнительных модулей.
Так как в репозиториях Ubuntu присутствует 2-я версия программы, а русский язык поддерживается только с релиза 3.0.0, программу я собирал из исходных текстов по инструкциям, найденным в сети.
Итак, скачиваем здесь архив с исходными текстами (в моем случае это tesseract-3.00.tar.gz, но с выходом новых версий название может быть другим), распаковываем его и переходим в директорию с исходными кодами.
Для корректной работы tesseract необходим пакет leptonica — ПО с открытым исходным кодом, необходимое для приложений, работающих и анализирующих изображения. Устанавливаем его:

Читайте также:  Установка расширителей арок туарег

Кроме того, для работы tesseract необходимо установить следующие пакеты: libpng12-dev, libjpeg62-dev, libtiff4-dev, zlib1g-dev, libtool build-essential. Устанавливаем и их, а затем из директории с исходным кодом начинаем конфигурирование и сборку программы:

При подтверждении опций необходимо изменить имя пакета (номер 2) на tesseract-ocr.

Все остальные опции принимаем по умолчанию. В результате будет установлен tesseract 3.0, а также собран deb-пакет, поэтому в следующий раз программу можно будет устанавливать обычным способом с помощью GDebi.
С первого раза программа у меня не собралась, пожаловавшись на отсутствие каталога /usr/local/share/tessdata. После того, как я создал его вручную, процесс завершился благополучно.
Теперь необходимо скачать с сайта программы пакет поддержки русского языка (rus.traineddata.gz), распаковать его и скопировать содержимое архива (а это должен быть один файл rus.traineddata) в директорию /usr/local/share/tessdata/.
Изображения перед распознаванием необходимо прнобразовать в формат tiff.
Для распознавания я использовал команду вида:

Если программа не заработала и возникают ошибки, связанные с отсутствием необходимых библиотек или правами доступа, выполните следующие команды:

Теперь все должно работать.
Для tesseract имеется графический интерфейс tesseract-gui , который тоже надо собирать из исходного кода. У меня он запустился, но распознавать текст почему-то не захотел. Еще есть система OCRopus , которая может использовать движок tesseract. Собственно поэтому я ее отдельно рассматривать не стал.

SILVERCODERS OCR Server

Данная программа представляет собой мощную коммерческую серверную систему распознавания, предназначенную для предприятий и поддерживающую 189 языков, среди них и русский. Она разработана специально для интегрирования в корпоративные системы документооборота. Триальной версии для свободного скачивания нет, поэтому опробовать мне эту систему не удалось.

Free OCR

Free OCR — бесплатный онлайн-сервис для оптического распознавания текста, использующий движок tesseract. Размер загружаемого изображения ограничен 2 Мб. Поддерживаются форматы JPG, GIF, TIFF BMP и PDF (только первая страница, в скором времени обещают поддержку первых 10 страниц). Также, существует лимит на 10 изображений в час.
Сервис распознает множество языков — русский, украинский, английский, немецкий, французский, турецкий, большинство восточноевропейских языков.

img2txt

img2txt — многоязычный онлайн-сервис для оптического распознавания текста. Поддерживаются форматы JPG, PNG, TIFF с размером файла до 2 Мб. В будущем обещают поддержку PDF и DJVU. На Википедии сервис обозначен как коммерческий и проприетарный, однако на самом сайте никакой информации об типе лицензии и используемом движке нет. Мои три тестовые страницы распознались без проблем. Никакой оплаты или хотя бы регистрации не просили.

OnlineOCR

OnlineOCR — еще один онлайн-сервис, теперь уже коммерческий (28 языков, включая русский). Поддерживает ввод в форматах TIFF (multi-page), JPEG/JPG, BMP, PCX, PNG, GIF, PDF (multi-page), файлы до 20 мб; вывод в PDF, MS Word, MS Excel, HTML, RTF, TXT. Минимальный пакет, который можно купить, составляет 10 страниц за 5 рублей. Зарегистрированный пользователь имеет свой кабинет, в котором хранятся загруженные файлы и результаты распознавания. К сожалению, возможность бесплатной работы с сервисом настолько ограничена, что протестировать его не удалось. Причем попытка оплатить 10 страниц с помощью СМС также закончилась неудачно.

NewOCR

NewOCR — бесплатный OCR сервис, поддерживающий 29 языков распознавания, включая русский. Позволяет загружать файлы в форматах JPEG, PNG, GIF, BMP, многостраничный TIFF размером до 5 Мб, а также многостраничные PDF размером до 20 Мб. Поддерживается многоколоночное форматирование текста.

Кроме того, необходимо отметить, что на рынке имеется еще одна коммерческая система распознавания от компании vividata , однако стоимость этой программы составляет $2400 (!) плюс по $100 за каждый дополнительный язык, отдельная плата, например, за модуль вывода в PDF ($1200) и т.д., поэтому я даже не стал заморачиваться с ее установкой. Ко всему прочему программа видимо очень давно не обновлялась (файлы в установочном архива датируются 2001 годом) и сами разработчики сомневаются в том, что она заработает на современных дистрибутивах. Поэтому тестировать vividata я не стал.
Также я решил включить в таблицу Google Docs, так как эта служба в настоящее время также позволяет производить распознавание русского текста. По имеющимся данным она использует tessract, однако нельзя исключить, что в своем сервисе Google использует какие-нибудь дополнительные наработки, поэтому интересно сравнить ее с остальными.

Результаты сравнительного тестирования систем оптического распознавания

Программа (сервис) Точность распознавания, %
Образец 1 Образец 2 Образец 3
FineReader for Linux 100% 100% 87%
FineReader Online 100% 100% 94%
Cuneiform 1.0.0 94% 94% 17%
Tesseract 3.0.0 97% 98% 5%
Free OCR 96% 93% 61%
img2txt 96% 94% 24%
NewOCR 94% 94% 41%
Google Docs 93% 96% 58%

Выводы

Результаты, приведенные в таблице, показывают, что при хорошем качестве распознаваемого материала все участвовавшие в тестировании программы обеспечивают высокое качество распознавания, причем снижение разрешения с 300 до 200 dpi практически не влияет на результат. В то же время при распознавании некачественного материала ABBYY Fine Reader явно вырывается вперед, что неудивительно, учитывая ресурсы, задействованные в разработке данного приложения. Однако в целом можно отметить, что широко распространенное суждение о том, что для Linux нет хороших систем оптического распознавания текста, сегодня уже не выдерживает критики.
Для нерегулярного домашнего применения подойдет любая из представленных в обзоре бесплатных систем, а для организации, деятельность которой связана с частым использованием систем распознавания, особенно если дело касается факсов и другого материала посредственного качества, стоит подумать о покупке Fine Reader, тем более, что открытый API позволяет интегрировать его в любую корпоративную систему документооборота.

источник

Установка и запуск ABBYY FineReader

Установка ABBYY FineReader на локальный компьютер

  1. Запустите файл Setup.exe с установочного компакт-диска или из папки дистрибутива программы.
  2. Далее следуйте инструкциям Мастера установки.

Развертывание программы ABBYY FineReader 12 в сети

Программа ABBYY FineReader 12 Corporate обладает удобными возможностями для установки и работы в сети. Автоматические способы установки дают возможность быстро и гибко развернуть ABBYY FineReader 12 в корпоративной сети и устраняют необходимость устанавливать программу вручную на каждую рабочую станцию.

Установка программы осуществляется в два этапа. Сначала программа устанавливается на сервер. Затем с сервера на рабочие станции. На рабочие станции программа устанавливается одним из способов:

  • используя Active Directory;
  • с помощью Microsoft System Center Configuration Manager (SCCM);
  • из командной строки;
  • вручную, в интерактивном режиме.

Подробную информацию по установке программы ABBYY FineReader на рабочие станции, о работе с Менеджером лицензий, а также особенностях работы с программой в корпоративной сети вы можете найти в «Руководстве системного администратора».

Запуск ABBYY FineReader

Для того чтобы запустить программу ABBYY FineReader 12:

  • Выберите пункт ABBYY FineReader 12 (ABBYY FineReader 12 Corporate) в меню Пуск>Программы;

Совет. В операционной системе Microsoft Windows 8 нажмите WIN + Q, в строке поиска введите «ABBYY FineReader».

  • В приложениях Microsoft Office нажмите кнопку запуска ABBYY FineReader, расположенную на панели FineReader 12;
  • В Windows Explorer выделите файл с изображением и в его контекстном меню выберите пункт ABBYY FineReader 12>Открыть в ABBYY FineReader 12 или опцию конвертирования в нужный формат.
Читайте также:  Установка газового баллона в багажнике

Использование настроек предыдущих версий программы ABBYY FineReader

ABBYY FineReader позволяет использовать пользовательские словари, а также файлы, содержащие настройки документа FineReader, созданные в предыдущих версиях программы.

Чтобы подключить пользовательские словари, созданные версиями ABBYY FineReader 9.0, 10 или 11:

  1. Запустите ABBYY FineReader 12.
  2. В меню Сервис выберите команду Просмотр словарей…
  3. В диалоге Пользовательские словари укажите словарь, в который вы хотите добавить слова, и нажмите кнопку Просмотр….
  4. В окне словаря нажмите кнопку Импорт… и укажите путь, по которому находится нужный вам словарь.
  5. Выделите мышью словарь и нажмите кнопку Открыть.

О том, как подключить файлы с настройками документа FineReader, см. в статье «Документ FineReader».

Требования к системе

  1. 32-разрядный (x86) или 64-разрядный (x64) процессор с тактовой частотой 1 гигагерц (ГГц) или выше.
  2. Операционная система Microsoft® Windows® 8, Microsoft® Windows® 7, Microsoft Windows Vista, Microsoft Windows Server 2012, Microsoft Windows Server 2008, Microsoft Windows Server 2008 R2, Microsoft Windows Server 2003, Microsoft Windows XP.

Для работы с локализованным интерфейсом операционная система должна обеспечивать необходимую языковую поддержку.

  1. Оперативная память — 1024 Мб.

При работе в многопроцессорных системах требуется дополнительно 512 Мб оперативной памяти для каждого дополнительного процессора.

  1. Свободное место на диске: 850 Мб для установки всех компонентов программы, 700 Мб для работы программы.
  2. Видеоплата и монитор с разрешением не менее 1024×768 точек.
  3. Клавиатура, мышь или другое указательное устройство.

Замечание: Для того чтобы вы могли открывать файлы изображений или PDF-файлы непосредственно из Microsoft Word, Microsoft Excel и Microsoft Outlook на вашем компьютере должны быть установлены соответствующие приложения Microsoft Office.

источник

Распознавание текста в Linux (OCR)

Оглавление

Для Linux имеются разнообразные инструменты командной строки и с графическим интерфейсом для преобразования изображений в текст. В этой статье будут рассмотрены программы, с помощью которых вы можете после сканирования страниц книги или документов перевести их в текстовый формат.

OCR программы в Linux с графическим интерфейсом

OCRFeeder

OCRFeeder — это система анализа макета документов и оптического распознавания символов.

Откройте в этой программе изображения и она автоматически определит контуры областей, в которых находятся изображения и текст и выполнит OCR (распознавание текста) этого документа. Программа может сохранять полученные результаты в разные форматы, главным из них является ODT.

Программа имеет законченный GTK+ графический пользовательский интерфейс, который позволяет пользователям корректировать любые нераспознанные символы, определять или корректировать границы областей текста, устанавливать стили параграфов, очищать введённые изображения, импортировать PDF, сохранять и загружать проект, экспортировать всё в несколько форматов и так далее.

В общем, это программа по функциям схожая с Abbyy FineReader, в некотором смысле, можно сказать, что OCRFeeder это аналог Abbyy FineReader для Linux, по крайней мере, в его базовой функциональности.

В своей работе OCRFeeder использует сторонние движки оптического распознавания символов, например, по умолчанию она использует Tesseract. Для установки нужно установить и графический интерфейс OCRFeeder и Tesseract. В Debian и производных Tesseract устанавливается в качестве зависимости, поэтому необязательно указывать этот пакет явно. Но при этом помните, что вместе с Tesseract устанавливается по умолчанию только распознавание английского языка, для дополнительной поддержки русского, нужно явно указать этот пакет. Про распознавание других языков, а также про работу с Tesseract будет рассказано в этой же статье далее.

Установка OCRFeeder в Ubuntu, Linux Mint, Debian, Kali Linux и их производные:

Установка OCRFeeder в Arch Linux, BlackArch и их производные:

Как пользоваться OCRFeeder

Для запуска программы найдите её в меню (скорее всего, в разделе Офис):

Или в командной строке выполните команду:

Для анализа у меня есть тестовое изображение:

Загрузим его в программу (для этого нажмите знак плюс +). Вам необязательно добавлять изображения по одному — можно добавлять целыми папками или импортировать PDF документ.

Для распознавания в меню Документ выберем «Распознать документ» (будут распознаны все страницы, которые загружены в программу), либо «Распознать страницу» (будет распознана страница, которая выделена в данный момент).

В правом нижнем углу появляются результаты распознавания текста:

С моим тестовым файлом, результаты неудовлетворительные, поскольку программа неудачно выбрала области для распознавания. Это исправить легко, просто выбираем новую область и выбираем «Распознать выделенную область»:

Как видим, результаты не идеальные, но вполне удовлетворительные — после небольшой ручной корректировки, этот текст пригоден для использования.

Как обычно с системами OCR — чем лучше качество исходного текста (имеют значение ровность, размер, контрастность и другое), тем лучше получается результат (хотя в любом случае требуется вычитка и корректировка полученного при распознавании текста):

По умолчанию языком для распознавания установлен тот же язык, что имеет ваша система, то есть, скорее всего, русский язык. Вы можете изменить язык в Меню → Настройки → Распознавание → Default language. Если вы выбрали неверный язык, то движок оптического распознавания символов вернёт плохие результаты. Если вы выбрали язык, который не поддерживается движком, то он может вернуть пустую страницу.

Вы можете экспортировать для распознавания PDF документы. А полученные результаты сохранять в различных форматах:

Также вы можете сохранить весь проект целиком в собственном формате программы.

Если вы запускаете OCRFeeder из командной строки, то вы можете использовать несколько опций для ускорения процесса добавления изображений.

gImageReader

gImageReader — это графический GTK+ интерфейс для tesseract-ocr.

Tesseract — пожалуй, самое точное программное обеспечение с открытым исходным кодом для оптического распознавания символов (OCR) и может распознавать текст на более чем 60 языках.

gImageReader поддерживает автоматическое определение макета страницы, но пользователь также может вручную задать и отредактировать области распознавания. Есть возможность импортировать изображения с диска, устройств сканирования, буфера обмена и скриншотов. gImageReader также поддерживает многостраничные документы PDF. Распознанный текст отображается непосредственно рядом с изображением и базовое редактирование текста включает поиск/замену и удаление сломанных строк если это возможно. Также поддерживается проверка орфографии для выводимого текста если установлены соответствующие словари.

  • Импорт PDF документов и изображений с диска, сканирующих устройств, буфера обмена и скриншотов
  • Обработка нескольких изображений и документов за один проход
  • Ручное или автоматическое определение области распознавания
  • Распознавание в простой текст или в документ hOCR
  • Распознанный текст отображается рядом с исходным изображением
  • Последующая обработка текста, включая проверку орфографии
  • Геренирование PDF документов из hOCR документов

Установка OCRFeeder в Ubuntu, Linux Mint, Debian, Kali Linux и их производные:

Читайте также:  Установок вертикального пуска ракеты

Установка OCRFeeder в Arch Linux, BlackArch и их производные:

ocrgui

ocrgui — это графический интерфейс для OCR программ (Tesseract, GOCR). Программа давно не обновлялась и может отсутствовать в стандартных репозиториях.

Установка OCRFeeder в Arch Linux, BlackArch и их производные:

screentranslator

Это экранный переводчик, программа захватывает область экрана, распознаёт текст и выполняет его перевод. Если вам не нужен перевод, то его можно отключить.

Установка OCRFeeder в Arch Linux, BlackArch и их производные:

В настройках укажите путь к tesseract: /usr/bin/tesseract

Утилиты командной строки для OCR

Далее будут рассмотрены движки оптического распознавания символов, которые имеют интерфейс командной строки. Эта информация может пригодиться продвинутым пользователям, привыкшим иметь дело с консолью, а также пользователям OCRFeeder, поскольку эта программа умеет работать с каждым из рассмотренных ниже OCR инструментов, и знание их особенностей и различий помогут вам правильно выбрать используемый движок OCR:

Tesseract

Tesseract — это движок оптического распознавания символов (OCR) с открытым исходным кодом. Его можно использовать напрямую, с помощью API для извлечения печатного текста из изображений, а также программы с графическим интерфейсом, такие как OCRFeeder, могут использовать Tesseract. Этот движок поддерживает большое количество языков. Пакет включает в себя утилиту командной строки.

Обратите внимание на опцию -l, после которой нужно указать используемый язык. Если он не указан, то подразумевается английский. Можно указать несколько языков, разделённых знаком плюс. Tesseract использует 3-символьные коды языков ISO 639-2.

  • afr (африканские)
  • amh (амхарский)
  • ara (арабский)
  • asm (ассамский)
  • aze (азербайджанский)
  • aze_cyrl (азербайджанский — кириллица)
  • bel (белорусский)
  • ben (бенгальский)
  • bod (тибетский)
  • bos (боснийский)
  • bul (болгарский)
  • cat (каталанский; валенсийский)
  • ceb (кебуанский)
  • ces (чешский)
  • chi_sim (китайский упрощённый)
  • chi_tra (китайский традиционный)
  • chr (Cherokee)
  • cym (валлийский)
  • dan (датский)
  • dan_frak (датский — Fraktur)
  • deu (германский)
  • deu_frak (германский — Fraktur)
  • dzo (Dzongkha)
  • ell (греческий, современный (1453-))
  • eng (английский)
  • enm (английский, средние века (1100-1500))
  • epo (эсперанто)
  • equ (математика / модуль распознавания уровнений)
  • est (эстонский)
  • eus (баскский)
  • fas (перситский)
  • fin (финский)
  • fra (французский)
  • frk (франкский)
  • frm (французский, средние века (ca.1400-1600))
  • gle (ирландский)
  • glg (галисийский)
  • grc (чреческий, древний (до 1453))
  • guj (гуджаратский)
  • hat (гаитянский; гаитянский креольский)
  • heb (иврит)
  • hin (хинди)
  • hrv (хорватский)
  • hun (венгерский)
  • iku (язык инуктитут)
  • ind (индонезийский)
  • isl (исландский)
  • ita (итальянский)
  • ita_old (итальянский старый)
  • jav (яванский)
  • jpn (японский)
  • kan (язык каннада)
  • kat (грузинский)
  • kat_old (грузинский старый)
  • kaz (казахский)
  • khm (центральный кхмерский)
  • kir (киргизский)
  • kor (корейский)
  • kur (курдский)
  • lao (лаосский)
  • lat (латинский)
  • lav (латышский)
  • lit (литовский)
  • mal (малаялам)
  • mar (маратхи)
  • mkd (македонский)
  • mlt (мальтийский)
  • msa (малайский)
  • mya (бирманский)
  • nep (непальский)
  • nld (голландский, фламандский)
  • nor (норвежский)
  • ori (ория)
  • osd (модуль определения ориентации и скриптов)
  • pan (пенджабский)
  • pol (польский)
  • por (португальский)
  • pus (пушту; пушто)
  • ron (румынский, молдавский)
  • rus (русский)
  • san (санскит)
  • sin (сингаль, сингальский)
  • slk (словацкий)
  • slk_frak (словацкий — Fraktur)
  • slv (словенский)
  • spa (испанский, кастильский)
  • spa_old (испанский, кастильский — старые)
  • sqi (албанский)
  • srp (сербский)
  • srp_latn (сербский — латинский)
  • swa (суахили)
  • swe (шведский)
  • syr (сирийский)
  • tam (тамильский)
  • tel (телугу)
  • tgk (таджикский)
  • tgl (тагальский)
  • tha (тайский)
  • tir (тигринья)
  • tur (турецкий)
  • uig (уйгуро; уйгурский)
  • ukr (украинский)
  • urd (урду)
  • uzb (узбекский)
  • uzb_cyrl (узбекский — кириллица)
  • vie (вьетнамский)
  • yid (идиш)

Ocrad

GNU Ocrad это OCR (Optical Character Recognition — оптическое распознавание символов) программа, основывающаяся на методе извлечения признаков. Она считывает битовую карту изображения в формате pgm/pbm и выдаёт текств в байтовом (8-бит) или UTF-8 форматах.

Ocrad включает анализатор разметки, способный разделять столбцы или блоки текста, какие обычно бывают на печатных страницах.

Для лучшего результата символы должны быть по крайней мере 20 пикселей в высоту. Если они меньше, попробуйте опцию —scale. Сканированные изображения на 300 dpi обычно дают размер символов достаточно хорошего размера для ocrad.

Слитые, очень смелые или очень светлые (сломанные) символы обычно не распознаются правильно. Старайтесь избегать их.

Если файлы не указаны, то ocrad считывает изображения из стандартного ввода. Если опция -o не указана, ocrad отправляет текст в стандартный вывод.

Статусы выхода: 0 для нормального выхода, 1 при проблемах в среде (файл не найден, неверные флаги, ошибки ввода/вывода и т.д.), 2 говорит о повреждённом или неверном файле ввода, 3 для ошибки внутренней консистенции (например, баг), которая вызвала панику в ocrad.

gocr — это мультиплатформенная программа распознавания текстов (OCR). Она принимает файлы изображений pnm, pbm, pgm, ppm, some pcx и tga. В настоящее время программа должна быть способна хорошо работать со сканами, в которых есть текст в один столбец и нет таблиц. Поддерживается размер шрифта от 20 до 60 пикселей.

gocr [options] pnm_file_name # use — for stdin

Опции (больше подробностей в мануале man gocr):

Использовать файл jpeg переданный по трубе:

Cuneiform

Cuneiform — это многоязычная система OCR (распознавания текста). В дополнении к распознаванию текста, она также анализирует разметку и распознаёт формат текста.

Поддерживаются следующие языки: болгарский, хорватский, чешский, датский, голландский, английский, эстонский, французский, немецкий, венгерский, итальянский, латышский, литовский, польский, португальский, румынский, русский, сербский, словенский, испанский, шведский, турецкий и украинский.

Режим распознавания оптимизирован для текстов, напечатанных на принтерах с точечной матрицей

Использовать режим распознавания, оптимизированный для текстов, переданных по факсу.

—singlecolumn

Отключить анализ разметки страницы и исходить из того, что изображение состоит из одной колонки текста.

Выбрать формат вывода. Доступны следующие форматы:

  • html (HTML формат),
  • hocr (hOCR HTML формат),
  • native (родной формат Cuneiform 2000),
  • rtf (RTF формат),
  • smarttext (простой текст с TeX параграфами),
  • text (простой текст).

По умолчанию это plain text.

По умолчанию Cuneiform распознаёт английский текст. Для изменения языка используйте переключатель командной строки, после -l после которого следует код языка (обычно трёхбуквенный код ISO 639-2).

Поддерживаются следующие языки:

Если вы не указали файл вывода с переключателем -o, то Cuneiform запишет результаты в файл ‘cuneiform-out.format’. Расширение файла зависит от вашего формата вывода.

Форматы ввода

Cuneiform может обрабатывать любые изображения с единичной страницой, которые GraphicsMagick знает как открывать. Посмотрите мануала gm(1) для полного списка поддерживаемых форматов изображений.

ocropy

ocropy — это написанный на Python OCR пакет, использующий рекуррентные нейронные сети (ранее назывался OCRopus).

ocropy — это коллекция программ для анализа документов, это не простая OCR система, которая распознаёт тексты в графическом интерфейсе или с запуском одной команды. Функции ocropy разбиты на отдельные модули и, например, для простого распознавания текста может потребоваться ввести несколько команд для подготовки документа.

В дополнении к самим скриптам распознавания, имеется ряд скриптов для базового редактирования и коррекции, измерению процента ошибок, определению матриц путаницы и т. п.

Установка OCRFeeder в Arch Linux, BlackArch и их производные:

источник

Добавить комментарий