Ласкаво просимо на форуми Linux Mint!

програма

[ВИРІШЕНО] Програма для редагування PDF-файлу та передачі його в OCR - редагований PDF/A

Модератори: tomeu, JCSenar

[ВИРІШЕНО] Програма для редагування PDF-файлу та передачі його в OCR - редагований PDF/A

Допис від матровська »Середа 05 лютого 2020 12:06 вечора

Я пробував різні утиліти, в тому числі в останньому посиланні EvaEva, на GScan2pdf, і немає можливості.

Іншою програмою, яку я на той час налаштував, був GImageReader (із залежностями також tesseract після підручника). Хороша річ цієї програми полягає в тому, що вона виявляє блоки тексту і навіть автоматично визначає розташування та обертає сторінки, які не є абсолютно прямими.

Тим не менш, я вважаю це на даний момент неможливим, оскільки існує кілька факторів, які впливають на обмеження програм та виявлення, та OCR, такі як складні відскановані адміністративні форми, з декількома полями та блоками

З урахуванням того, що OCR для цих форм, він не є оптимальним і має більше помилок, ніж випадків, ганьба.

Re: Програма для перетворення тексту OCR на текст, який можна редагувати. -

Допис від tomeu »Четвер, 06 лютого 2020 03:31

sudo apt встановити ocrmypdf - -

В з команд в терміналі, але він не тільки найкращий із них (на мій дуже скромний погляд), але і абсолютно ефективний.

Re: Програма для перетворення тексту OCR на текст, який можна редагувати. -

Допис від матровська »П'ятниця, 07 лютого 2020 р., 11:11

Параметри, які підходять для мене у цьому дослідженні, є:

Re: Програма для редагування PDF та перетворення його на OCR - редагований PDF/A

Допис від tomeu »Вівторок, 11 лютого 2020 р., 6:25 ранку

Я відокремив цю тему від попередньої, оскільки вважаю, що вона не стосується точно того самого, що стосується 2016 року.

Ми будемо продовжувати говорити про ocrmypdf, але оскільки ви цитуєте його веб-сайт, коментуйте лише зараз, коли я оновив версію 9.5 і якість стала кращою, і, перш за все, це не робить файли надмірною вагою, але це майже те саме.

Re: Програма для редагування PDF та перетворення його на OCR - редагований PDF/A

Допис від матровська »Вівторок, 11 лютого 2020 р., 07:43

Я встановив додаток CLI зі сховищ Linux Mint, який переходить на версію 6.1.2 (для Ubuntu 18.04 або вище відповідно до Інтернету).

Як я можу встановити згадану вами версію 9.5 із мого підпису Linux Mint?.

Re: Програма для редагування PDF та перетворення його на OCR - редагований PDF/A

Допис від tomeu »Вівторок, 11 лютого 2020 р., 8:06 ранку

відредаговано: блін! Я зробив усі кроки, які виконував, і відключився, через що повідомлення було втрачено.

Re: Програма для редагування PDF та перетворення його на OCR - редагований PDF/A

Допис від tomeu »Вівторок, 11 лютого 2020 р., 11:12

Я спробую відновити (але більш підсумовано):

1) У нас встановлено ocrmypdf з apt або синаптичний. Якщо у нас є L.Mint 19. * (ubuntu 18.04), ми отримаємо версію 6.1.4

2) Ми встановлюємо мовні файли, які ми збираємось використовувати:
tesseract-ocr та tesseract-ocr - *** де *** - це/є мовами, які ми хочемо або збираємось використовувати у своїх документах (spa, cat, eng.)

3) З додаткових пакетів я відмовляюся від jbig2enc, якого немає у сховищах, і встановлюю "pngquant" та "unpaper", оскільки вони знаходяться у необхідних версіях і можуть використовувати.

4) Ми встановлюємо нову версію pip:

Після перезапуску та подання команди ocrmypdf --version це повинно вийти: 9.5.0.post1 + g6f66232

Переваги версії 9.5 порівняно зі сховищем:

1. - Раніше, якщо PDF-документ міг частково редагувати, а частина ні, вам потрібно було додати команду --force-ocr, тепер він не запитував мене жодного разу .

2. - Покращилась якість результату.

3. - Перш ніж вам довелося поставити серію варіантів, залежно від документа, введіть:
ocrmypdf --мова spa --rotate-pages -deskew --force-ocr --clean-final document.pdf document-ocr.pdf
Тепер досить:
ocrmypdf document.pdf document-ocr.pdf

4. - Раніше документ із якісним результатом міг переходити зі 100 на 600 Мб, тепер документ на 100 Мб лише трохи важчий (приблизно 120 Мб)