Меню Рубрики

Установка cuneiform для ubuntu

Установка cuneiform для ubuntu

YAGF — графическая оболочка для CuneiForm (оптическое распознавание отсканированного текста)

CuneiForm — это программа для оптического распознавания текста документов в редактируемый вид. Результаты работы программы можно редактировать в офисных программах и текстовых редакторах и сохранять в популярных форматах, проводить по ним полнотекстовый поиск. Однако для Linux имеется только консольная версия программы, поэтому гораздо удобнее пользоваться вместе с фронт-эндом YAGF.

Оболочка YAGF — Yet Another Graphical Front-end for CuneiForm предоставляет графический интерфейс для консольной программы распознавания текстов CuneiForm на платформе Linux. Кроме того, YAGF позволяет управлять сканированием изображений, их предварительной обработкой и собственно распознаванием из единого центра. Программа YAGF также упрощает последовательное распознавание большого числа сканированных страниц.

Программа CuneiForm имеется в стандартном репозитории Ubuntu, а вот для YAGF необходимо подключить один из дополнительных репозиториев:

и установить с помощью Центра приложений Ubuntu.

Для работы YAGF необходим пакет проверки орфографии aspell и словари соответствующих языков (aspell-en, aspell-ru и т.д.). Если вы хотите управлять сканированием изображений напрямую из YAGF, установите программу XSane. Для распознавания текста потребуется, естественно, программа CuneiForm.

Работа в YAGF состоит из нескольких этапов: получение изображения (серии изображений) страниц; подготовка к распознаванию (если необходимо); распознавание; сохранение результатов.

Получение изображений

Вы можете использовать файлы изображений, сохраненные на жестком диске, или отсканировать новое изображение. Для того чтобы загрузить изображение, воспользуйтесь командой Файл/Открыть (вы можете открыть несколько файлов сразу). Вы также можете перетащить графически файлы мышью на темную полосу в левой части главного окна программы, в результате чего они будут загружены в программу. YAGF поддерживает все основные растровые графические форматы (JPEG , PNG , BMP, TIFF , GIF , PNM, PPM, PBM и другие). Если имя открытого файла имеет вид nameXXX.ext, где XXX — последовательность цифр, вы можете переходить к предыдущему/следующему файлам с помощью кнопок перехода, расположенных на панели быстрого доступа. Например, если вы открыли файл MyPage001.jpg, то при щелчке кнопки перехода к следующему изображению программа попытается открыть файл MyPage002.jpg.

Вы можете получать изображения напрямую со сканера с помощью программы XSane. Находясь в YAGF, скомандуйте Файл/Сканировать. Будет запущена программа XSane. Настройте параметры сканирования в XSane и нажмите кнопку «Сканировать». По окончании сканирования в окне просмотра изображений YAGF появится отсканированное изображение. Если вам нужно отсканировать несколько изображений, выполняйте эти операции несколько раз (в окне просмотра изображений всегда будет открыто последнее отсканированное изображение, вы можете перейти к предыдущим изображениям, используя команды перемещения). Вы можете работать в YAGF, не закрывая окно XSane. Если вам нужно отсканировать очередное изображение, просто щелкните кнопку XSane «Сканировать». При выходе из YAGF открытое программой окно XSane будет закрыто автоматически. Для перехода к другим отсканированным изображениям пользуйтесь кнопками с панели быстрого доступа, как было описано выше. Все полученные изображения отображаются в уменьшенном виде на панели изображений в левой части главного окна программы. Вы можете сохранить эти изображения в отдельную директорию с помощью кнопки «Сохранить».

Подготовка изображений

В YAGF вы можете выполнять простые операции подготовки отсканированного изображения: выделение блока текста для распознавания и поворот. Если изображение ориентировано неправильно, его можно повернуть на 90 градусов по и против часовой стрелки или на 180 градусов. Делается это с помощью кнопок панели быстрого доступа в окне просмотра изображений. Если вы хотите передать на распознавание не все отсканированное изображение, а его часть, вы можете выделить мышью один или несколько прямоугольных блоков в окне просмотра изображений. Если щелкнуть левой кнопкой мыши по существующему блоку, его цвет изменится на розовый. Теперь размер выбранного блока можно изменить, «ухватившись» мышью за край блока. Если щелкнуть в окне изображения правой кнопкой мыши, появится контекстное меню, с помощью которого можно удалить все выделенные блоки, удалить выбранный блок, распознать текст выбранного блока. Для удобства выделения блоков вы можете уменьшить или увеличить размеры изображения в окне просмотра (эта операция не влияет на размеры изображения, передаваемого программе CuneiForm). Изменение видимых размеров изображения можно выполнить так же с помощью комбинаций клавиш Ctrl++ и Ctrl+- или вращая колесико мыши, удерживая при этом клавишу Ctrl (точно так же можно изменить размеры шрифта в окне просмотра текста).

Если в программе открыто несколько страниц и для каждой выбраны своя ориентация, свой масштаб и выделены свои блоки, YAGF запомнит эти параметры для каждой страницы.

Если страница отсканирована неровно, с наклоном, вы можете попробовать исправить наклон с помощью новой функции «Исправить наклон страницы». Для этого нажмите соответсвующую кнопку.

Распознавание

Приступая к распознаванию, вы должны выбрать подходящий язык распознавания (или пару языков, если распознаваемый документ написан на нескольких языках). Основная версия CuneiForm позволяет вам распознавать тексты почти на всех европейских языках, а также тексты, содержащие пару языков русский-английский.

Каждый новый распознанный фрагмент текста (выделенный блок или новая страница) добавляется в редактор распознанного текста в виде нового абзаца.

По умолчанию YAGF выполняет проверку орфографии распознанного текста с помощью libaspell. Обычно в вашей системе устанавливаются орфографические словари для «родной» локали система и английского. Если вы хотите проверять орфографию для текстов на других языках, установите соответствующие словари . Если YAGF не находит нужного словаря для проверки орфографии для заданного языка распознавания, программа предупреждает вас об этом. Отключите проверку орфографии, если не хотите получать такие предупреждения.

Читайте также:  Установка планок оперативной памяти с разным объемом

Если вам нужно распознать текст сразу с нескольких изображений, вы можете воспользоваться пакетным распознаванием. Для этого все изображения, которые требуется распознать, должны быть открыты на панели изображений (в левой части окна программы). Щелкните кнопку «Распознать все страницы». Все открытые изображения будут загружаться и распознаваться автоматически. При этом будет выведено диалоговое окно, отображающее прогресс распознавания. Вы можете остановить процесс пакетного распознавания, щелкнув кнопку «Прервать». Если на распознаваемых страницах выделены блоки, будет распознан только текст внутри блоков.

источник

Распознавание текста в Linux Ubuntu с помощью CuneiForm + YAGF

Распознавание текста в ОС Linux доступно любому пользователю. Чтобы с легкостью распознать текст в операционной системе Linux есть OCR-система CuneiForm, которая служит для преобразования графических файлов в редактируемый текст. CuneiForm работает только из консоли, что существенно ограничивает круг людей, которые могут использовать данную программу.

Чтобы это исправить была разработана, на данный момент, лучшая графическая оболочка — YAGF. YAGF полностью раскрывает все возможности OCR-системы CuneiForm.

Скриншоты

Описание

Сильные стороны CuneiForm + YAGF:

  • Комплекс программ абсолютно бесплатен.
  • Довольно неплохие результаты распознования текста.
  • Результаты распознавания текста можно сохранить в формат html или text.
  • Есть возможность автоматической проверки орфографии при установленоном пакете aspell.
  • Большое количество поддерживаемых языков.
  • Красивый и эргономичный интерфейс.
  • Работа со сканером организована посредством Sane + XSane.

Слабые стороны CuneiForm + YAGF:

  • Нельзя сохранить результаты работы в текстовом документе, формат которого поддерживает сохранение форматирования текста: doc, odt, rtf и т. д.
  • Распознование текста, в некоторых случаях, еще далеко от идеального.
  • Язык интерфейса: русский
  • Тип лицензии: BSD
  • Домашняя страница: CuneiForm — http://www.cuneiform.ru/

    Установка

    Во, отличная программа, под виндой был, помню, только ABBYY FineReader и то платный… =)

    А вместо этого # sudo apt-get install libmagick++1 aspell aspell-ru sane xsane sane-utils quiteinsane можно ссылки дать на оффлайн deb пакеты. Буду признателен.

    >Tavork
    Все эти пакеты доступны в официальных репозиториев Ubuntu.
    Если нет возможности скачать с них, то воспользуйтесь сайтом:
    http://packages.ubuntu.com/
    Там поиск. На нем можно найти все пакеты, входящие в официальную поставку дистрибутива Ubuntu

    Помоему правильная строчка вот такая (либмэджик не ++1, а ++10):

    sudo apt-get install libmagick++10 aspell aspell-ru sane xsane sane-utils quiteinsane

    Кстати кто-нибудь знает, где можно найти deb-пакеты cuneiform и YAGF под hardy?

    >Андрей
    Вы ошибаетесь ))) именно libmagick++1
    Про hardy к сожалению не подскажу

    Андрей не ошибается, просто они разные: libmagick++10 – squeeze, sid(karmic) ++2, для убунту 8.10-9.04 ++1 – тут уж если я не ошибаюсь 🙂

    При попытке распознать пишет:
    Ответ системы:cuneiform: error while loading shared libraries: libGraphicsMagick++.so.1: cannot open shared object file: No such file or directory
    при:
    sudo apt-get install libmagick++10 aspell aspell-ru sane xsane sane-utils quiteinsane
    Не удалось найти пакет libmagick++10
    при:
    libmagick++1 не найдены кандидаты на установку
    Я поставил libMagick++2 и libMagick++-dev
    Вот только не лечит
    Я мало понимаю что делаю может кто подскажет?

    Скорее всего Вы не подключили доп. репозитории.
    Зайдите в АДМИНИСТРИРОВАНИЕ/ИСТОЧНИКИ ПРИЛОЖЕНИЙ там поставте везде галки и обновите списки пакетов. Потом попробуйте по новому установить. Если у Вас ОС Ubuntu, то sudo apt-get install libmagick++1 aspell aspell-ru

    Да у меня Ubuntu 9.10 и дело видно в репозиториях так как при обновлении их пишет
    http://ppa.launchpad.net jaunty Release:
    Следующие подписи не могут быть проверены, так как недоступен открытый ключ:NO_PUBKEY 7D2C7A23BF810CD5 Ошибка: http://ppa.launchpad.net intrepid Release:Следующие подписи не могут быть проверены, так как недоступен открытый ключ: NO_PUBKEY FE8956A73C5EE1C9Не удалось
    получить cdrom://Ubuntu 9.04 Jaunty Jackalope – Release i386 (20090420.1)/dists/jaunty/main/binary-i386/Packages.gz
    Пожалуйста, используйте apt-cdrom, чтобы APT смог распознать данный CD. apt-get update не используется для добавления нового CD
    Не удалось получить cdrom://Ubuntu 9.04 Jaunty Jackalope – Release i386 (20090420.1)/dists/jaunty/restricted/binary-i386/Packages.gz Пожалуйста, используйте apt-cdrom, чтобы APT смог распознать данный CD. apt-get update не используется для добавления нового CD Некоторые индексные файлы не скачались, они были проигнорированы или вместо них были использованы старые версии
    А на сайте http://packages.ubuntu.com эта библиотека какраз в репах Jaunty я от туда ручками скачал 3 файла так как libmagick++1 требует libmagickcore1 тот в свою очередь libmagickwand1 а этот снова требует libmagickcore1 и как поставить теперь я их незнаю
    несмотря что deb-файлы – ведь получается что зависимости не удовлетворены.
    Может есть способ добыть ключи от неработающих репозиторий?

    Ключ можно найти вот так:
    http://itshaman.ru/articles/26/kak-naiti-klyuch-repozitoriya-v-ubuntu

    Спасибо за ссылку, ключи найдены и список обновлен теперь на:
    sudo apt-get install libmagick++1 aspell aspell-ru sane xsane sane-utils quiteinsane
    Пишет:
    Пакет libmagick++1 недоступен, но упомянут в списке зависимостей другого пакета. Это может означать, что пакет отсутствует, устарел, или доступен из источников, не упомянутых в sources.list
    Может ссылку создать с именем libGraphicsMagick++.so.1 на какой нить файл из пакета libMagick++2 только вот на какой и где создать?
    ЗЫ
    прошу прощения за флуд ну раз уж тема поднята….

    Проблему решил следующим образом
    В папке /usr/lib были найдены вот такие файлы:
    libGraphicsMagick++.so.3
    libGraphicsMagick.so.3
    Там же создал их копии и переименовал те в:
    libGraphicsMagick++.so.1
    libGraphicsMagick.so.1
    Все заработало вроде как без ошибок…

    Если что, пакет libmagick++1 тянется с оф. репа Ubuntu
    http://archive.ubuntu.com jaunty-updates/main

    Ребята я чайник) так что не судите строго. Подскажите как установить http://www.cuneiform.ru/downloads/(cuneiform) читал на форуме , но не нашел ( может проглядел, незнаю. ubuntu 9.04

    В статье же вроде написано.
    Качайте DEB -пакет cuneiform от сюда http://www.mediafire.com/alexp
    или с приведенной Вами ссылки, но там собирать руками придется

    Все разобрался)) Спасибо! Извините за глупость плохо посмотрел)))

    у меня при попытке установить yagf выдает ошибку: “Ошибка: Зависимость не может быть удовлетворена: cuneiform-linux|cuneiform” Что я опять не так сделал?

    Meison: у меня при попытке установить yagf выдает ошибку: “Ошибка: Зависимость не может быть удовлетворена: cuneiform-linux|cuneiform”

    Можете полный вывод команды.

    p.s. Можно попробовать установить с параметром -f

    Randomize: Проблему решил следующим образом
    В папке /usr/lib были найдены вот такие файлы:
    libGraphicsMagick++.so.3
    libGraphicsMagick.so.3
    Там же создал их копии и переименовал те в:
    libGraphicsMagick++.so.1
    libGraphicsMagick.so.1
    Все заработало вроде как без ошибок…

    Переименовал.
    А вот с таким результатом что делать :
    sudo apt-get install libmagick++1 aspell aspell-ru sane xsane sane-utils quiteinsane

    как можно распознать PDF не подскажете?

    Draco: как можно распознать PDF не подскажете?

    Сам это никогда не делал, но вроде есть конверторы в текст. Или копировать можно текст.

    а можно просто указать в менеджере загрузки ubuntu
    прогу —CuneiForm.и все загрузится.

    мммм: а можно просто указать в менеджере загрузки ubuntu прогу —CuneiForm.и все загрузится.

    Да Вы правы, но в оф. репозитории лежит не совсем последняя версия CuneiForm. Все же целесообразнее использовать последнюю доступную версию OCR -системы

    Люди хелп! Использую Ubuntu 9.10, при установке deb пакета пишет неверная архитектура! Программа очень нужна. Предлагать самому скомпилить или собрать не предлагать. С линуксом только вторую неделю общаюсь.

    N2: Люди хелп! Использую Ubuntu 9.10, при установке deb пакета пишет неверная архитектура! Программа очень нужна. Предлагать самому скомпилить или собрать не предлагать. С линуксом только вторую неделю общаюсь.

    Это скорее всего значит, что Вы скачали DEB пакет не для той архитектуры которую используете.
    Наберите в консоли:
    uname -a
    В выводе этой команды посмотрите упоминания о архитектуре: i386, i686, amd64 и так далее
    Если команда показала у Вас 2 первых значения, то у вас установлена 32-разрядная ОС и нужно качать пакеты где есть i386. amd64 – это 64-разряда и пакет должен быть соответственный.

    источник

    Распознавание текста в Linux Ubuntu с помощью CuneiForm + YAGF

    Распознавание текста в ОС Linux доступно любому пользователю. Чтобы с легкостью распознать текст в операционной системе Linux есть OCR-система CuneiForm, которая служит для преобразования графических файлов в редактируемый текст. CuneiForm работает только из консоли, что существенно ограничивает круг людей, которые могут использовать данную программу.

    Чтобы это исправить была разработана, на данный момент, лучшая графическая оболочка — YAGF. YAGF полностью раскрывает все возможности OCR-системы CuneiForm.

    Скриншоты

    Описание

    Сильные стороны CuneiForm + YAGF:

    • Комплекс программ абсолютно бесплатен.
    • Довольно неплохие результаты распознования текста.
    • Результаты распознавания текста можно сохранить в формат html или text.
    • Есть возможность автоматической проверки орфографии при установленоном пакете aspell.
    • Большое количество поддерживаемых языков.
    • Красивый и эргономичный интерфейс.
    • Работа со сканером организована посредством Sane + XSane.

    Слабые стороны CuneiForm + YAGF:

    • Нельзя сохранить результаты работы в текстовом документе, формат которого поддерживает сохранение форматирования текста: doc, odt, rtf и т. д.
    • Распознование текста, в некоторых случаях, еще далеко от идеального.
    • Язык интерфейса: русский
    • Тип лицензии: BSD
    • Домашняя страница: CuneiForm — http://www.cuneiform.ru/

      Установка

      Во, отличная программа, под виндой был, помню, только ABBYY FineReader и то платный… =)

      А вместо этого # sudo apt-get install libmagick++1 aspell aspell-ru sane xsane sane-utils quiteinsane можно ссылки дать на оффлайн deb пакеты. Буду признателен.

      >Tavork
      Все эти пакеты доступны в официальных репозиториев Ubuntu.
      Если нет возможности скачать с них, то воспользуйтесь сайтом:
      http://packages.ubuntu.com/
      Там поиск. На нем можно найти все пакеты, входящие в официальную поставку дистрибутива Ubuntu

      Помоему правильная строчка вот такая (либмэджик не ++1, а ++10):

      sudo apt-get install libmagick++10 aspell aspell-ru sane xsane sane-utils quiteinsane

      Кстати кто-нибудь знает, где можно найти deb-пакеты cuneiform и YAGF под hardy?

      >Андрей
      Вы ошибаетесь ))) именно libmagick++1
      Про hardy к сожалению не подскажу

      Андрей не ошибается, просто они разные: libmagick++10 – squeeze, sid(karmic) ++2, для убунту 8.10-9.04 ++1 – тут уж если я не ошибаюсь 🙂

      При попытке распознать пишет:
      Ответ системы:cuneiform: error while loading shared libraries: libGraphicsMagick++.so.1: cannot open shared object file: No such file or directory
      при:
      sudo apt-get install libmagick++10 aspell aspell-ru sane xsane sane-utils quiteinsane
      Не удалось найти пакет libmagick++10
      при:
      libmagick++1 не найдены кандидаты на установку
      Я поставил libMagick++2 и libMagick++-dev
      Вот только не лечит
      Я мало понимаю что делаю может кто подскажет?

      Скорее всего Вы не подключили доп. репозитории.
      Зайдите в АДМИНИСТРИРОВАНИЕ/ИСТОЧНИКИ ПРИЛОЖЕНИЙ там поставте везде галки и обновите списки пакетов. Потом попробуйте по новому установить. Если у Вас ОС Ubuntu, то sudo apt-get install libmagick++1 aspell aspell-ru

      Да у меня Ubuntu 9.10 и дело видно в репозиториях так как при обновлении их пишет
      http://ppa.launchpad.net jaunty Release:
      Следующие подписи не могут быть проверены, так как недоступен открытый ключ:NO_PUBKEY 7D2C7A23BF810CD5 Ошибка: http://ppa.launchpad.net intrepid Release:Следующие подписи не могут быть проверены, так как недоступен открытый ключ: NO_PUBKEY FE8956A73C5EE1C9Не удалось
      получить cdrom://Ubuntu 9.04 Jaunty Jackalope – Release i386 (20090420.1)/dists/jaunty/main/binary-i386/Packages.gz
      Пожалуйста, используйте apt-cdrom, чтобы APT смог распознать данный CD. apt-get update не используется для добавления нового CD
      Не удалось получить cdrom://Ubuntu 9.04 Jaunty Jackalope – Release i386 (20090420.1)/dists/jaunty/restricted/binary-i386/Packages.gz Пожалуйста, используйте apt-cdrom, чтобы APT смог распознать данный CD. apt-get update не используется для добавления нового CD Некоторые индексные файлы не скачались, они были проигнорированы или вместо них были использованы старые версии
      А на сайте http://packages.ubuntu.com эта библиотека какраз в репах Jaunty я от туда ручками скачал 3 файла так как libmagick++1 требует libmagickcore1 тот в свою очередь libmagickwand1 а этот снова требует libmagickcore1 и как поставить теперь я их незнаю
      несмотря что deb-файлы – ведь получается что зависимости не удовлетворены.
      Может есть способ добыть ключи от неработающих репозиторий?

      Ключ можно найти вот так:
      http://itshaman.ru/articles/26/kak-naiti-klyuch-repozitoriya-v-ubuntu

      Спасибо за ссылку, ключи найдены и список обновлен теперь на:
      sudo apt-get install libmagick++1 aspell aspell-ru sane xsane sane-utils quiteinsane
      Пишет:
      Пакет libmagick++1 недоступен, но упомянут в списке зависимостей другого пакета. Это может означать, что пакет отсутствует, устарел, или доступен из источников, не упомянутых в sources.list
      Может ссылку создать с именем libGraphicsMagick++.so.1 на какой нить файл из пакета libMagick++2 только вот на какой и где создать?
      ЗЫ
      прошу прощения за флуд ну раз уж тема поднята….

      Проблему решил следующим образом
      В папке /usr/lib были найдены вот такие файлы:
      libGraphicsMagick++.so.3
      libGraphicsMagick.so.3
      Там же создал их копии и переименовал те в:
      libGraphicsMagick++.so.1
      libGraphicsMagick.so.1
      Все заработало вроде как без ошибок…

      Если что, пакет libmagick++1 тянется с оф. репа Ubuntu
      http://archive.ubuntu.com jaunty-updates/main

      Ребята я чайник) так что не судите строго. Подскажите как установить http://www.cuneiform.ru/downloads/(cuneiform) читал на форуме , но не нашел ( может проглядел, незнаю. ubuntu 9.04

      В статье же вроде написано.
      Качайте DEB -пакет cuneiform от сюда http://www.mediafire.com/alexp
      или с приведенной Вами ссылки, но там собирать руками придется

      Все разобрался)) Спасибо! Извините за глупость плохо посмотрел)))

      у меня при попытке установить yagf выдает ошибку: “Ошибка: Зависимость не может быть удовлетворена: cuneiform-linux|cuneiform” Что я опять не так сделал?

      Meison: у меня при попытке установить yagf выдает ошибку: “Ошибка: Зависимость не может быть удовлетворена: cuneiform-linux|cuneiform”

      Можете полный вывод команды.

      p.s. Можно попробовать установить с параметром -f

      Randomize: Проблему решил следующим образом
      В папке /usr/lib были найдены вот такие файлы:
      libGraphicsMagick++.so.3
      libGraphicsMagick.so.3
      Там же создал их копии и переименовал те в:
      libGraphicsMagick++.so.1
      libGraphicsMagick.so.1
      Все заработало вроде как без ошибок…

      Переименовал.
      А вот с таким результатом что делать :
      sudo apt-get install libmagick++1 aspell aspell-ru sane xsane sane-utils quiteinsane

      как можно распознать PDF не подскажете?

      Draco: как можно распознать PDF не подскажете?

      Сам это никогда не делал, но вроде есть конверторы в текст. Или копировать можно текст.

      а можно просто указать в менеджере загрузки ubuntu
      прогу —CuneiForm.и все загрузится.

      мммм: а можно просто указать в менеджере загрузки ubuntu прогу —CuneiForm.и все загрузится.

      Да Вы правы, но в оф. репозитории лежит не совсем последняя версия CuneiForm. Все же целесообразнее использовать последнюю доступную версию OCR -системы

      Люди хелп! Использую Ubuntu 9.10, при установке deb пакета пишет неверная архитектура! Программа очень нужна. Предлагать самому скомпилить или собрать не предлагать. С линуксом только вторую неделю общаюсь.

      N2: Люди хелп! Использую Ubuntu 9.10, при установке deb пакета пишет неверная архитектура! Программа очень нужна. Предлагать самому скомпилить или собрать не предлагать. С линуксом только вторую неделю общаюсь.

      Это скорее всего значит, что Вы скачали DEB пакет не для той архитектуры которую используете.
      Наберите в консоли:
      uname -a
      В выводе этой команды посмотрите упоминания о архитектуре: i386, i686, amd64 и так далее
      Если команда показала у Вас 2 первых значения, то у вас установлена 32-разрядная ОС и нужно качать пакеты где есть i386. amd64 – это 64-разряда и пакет должен быть соответственный.

      источник

Добавить комментарий

Adblock
detector