Як редагувати PDF у різні способи
Це оглядова стаття, без порівняння усього різноманіття наявних програм для редагування документів у форматі PDF. Пройдемось по доступних безплатних варіантах, торкнемось безпеки даних, але спочатку окреслимо основні проблеми.
Сам формат PDF досить універсальний, в ньому як в контейнері можна зберігати багато різноманітної інформації: відео, растрові та векторні об'єкти, шрифти та навіть інші документи. PDF може мати цифровий підпис чи бути захищеним паролем. Також, залежно від потреби, документ може відображати прошарок з розпізнаним, або зі сканованим варіантом документа. А от що в ньому недоступно багатьом користувачам — це внесення змін.
Тестовий документ
Для демонстрації був знайдений файл Welcome_PDF.pdf. Він виглядає простим, має всього п’ять сторінок та займає 154 кілобайт. Але має насичене оформлення з картинками, які обрамлені текстом та використані внутрішні шрифти. Цей файл є привітанням при першому запуску Adobe Acrobat, тому можете вивчити його самі за нагоди.
Для опрацювання сканів друкуємо, скануємо оригінальний файл та отримуємо Welcome_PDF_scan.pdf. Просканований варіант з 600 DPI займає 20 мегабайтів. Це досить забагато як для текстового файлу, але тільки підкреслює проблему. Різноманітні БФП найчастіше пропонують зберігати документ з якістю 400-600 dpi у формати tiff або pdf. Ці формати можуть зберігати багато сторінок в одному файлі, але в обох випадках для подальших дій з документами потрібні специфічні інструменти. А на редагування просканованих документів є попит — це видалення пустих сторінок, сортування у потрібному порядку, або зменшення займаного місця (якщо треба подати скан документа у державний орган, де приймаються файли до 1-2 МБ).
IrfanView як швейцарський ніж
Програма безплатна для усіх, окрім комерційних організацій. Вона постійно розвивається, має багато додаткових плагінів, підтримує велику кількість графічних файлів та має гарні інструменти для автоматизації. З цією програмою можна:
- пакетно сканувати документи (по USB);
- розібрати pdf документ на окремі сторінки;
- відредагувати чи видалити деякі сторінки;
- підібрати контрастність, гамму, додати фільтри;
- пакетно зменшити розмір, збільшити різкість;
- зібрати окремі сторінки у pdf.
Було встановлено саму програму iview467_x64 та офіційні плагіни iview467_plugins.
Ще можна встановити модуль розпізнавання тексту Tesseract (при встановленні вибрати також потрібні мови).
Ще є такий додаток - GhostScript. З ним будуть швидко відкриватись усі векторні формати, а при конвертації pdf будете мати трошки кращу якість за стандартний плагін.
Після встановлення треба перейти до налаштувань і в [Plugins] > [Ghostscript Plugin Options] перевірити автоматично знайдений плагін. Якщо маєте обробляти документи насичені текстом, таблицями та графікою, то краще встановити параметр [Set DPI] як 120х120 чи навіть 160х160. Після цього заходимо до [PDF Options] та вимикаємо внутрішній плагін.
Відкриваємо Welcome_PDF_scan.pdf файл в irfanview та спочатку переходимо у вкладку [Edit Multipage PDF] для демонстрації швидкого та простого редагування pdf документу. Тут можна лише сортувати чи видаляти непотрібні листи.
Тепер переходимо у [Multipage Images]>[Extract all pages...] і бачимо досить лаконічне вікно експорту. У налаштуваннях jpg потрібно вибрати якість приблизно 85-90 одиниць. Прибираємо додаткові опції зберігання EXIF, IPTC, XMP для зменшення розміру внаслідок видалення можливої супроводжувальної інформації. Отримуємо сторінки у форматі jpg.
Тепер знову переходимо у [Multipage Images]>[Create Multipage PDF...], вибираємо потрібні сторінки, залишаємо Compression на рівні 95 одиниць. Отримуємо файл image.pdf розміром 497 кілобайтів.
Що ще можна зробити? Можна зменшити розмір через додаткові пакетні дії. Вибираємо [File]>[Batch Conversion/Rename...] та додаємо які файли треба обробляти. Потім, в Advanced можна виставити новий розмір, додати контрастність, обрізати та багато чого ще.
Можна навіть, якщо знайдете в інтернеті, додати якийсь з підтримуваних фільтрів та, наприклад, пакетно зменшити шум. Зберігаємо результат з якістю jpg на рівні 80, а при створенні pdf вибираємо compression на рівні 80 одиниць. Отримуємо файл image2.pdf розміром 335 кілобайтів.
Тепер порівняємо файли з оригіналом. Бачимо, що лівий клаптик більш контрастний, займає менше за всіх, але вже можна роздивитись артефакти. За ним йде вже досить схожий на просканований варіант. Потім йде скан, а за ним вже сам оригінальний документ. І це все досить швидко та з багатьма опціями для отримання бажаного розміру.
Firefox для рецензування pdf
Чим ще можна редагувати pdf файл? Візьмімо Firefox! Так, цей браузер може не тільки переглядати. Ідея редагування полягає у створенні прошарку над оригінальним документом. З одного боку, це не допоможе саме виправити помилку в тексті, або додати сторінку. З іншого — це універсальний спосіб, щоб рецензувати документ, додати малюнок чи замалювати непотрібний елемент.
Відкриваємо документ, скан та редагуємо обидва. Доступні такі інструменти:
«Маркер» - У випадку скану він як реальне підкреслювання, а от текстовий документ можна підкреслити довільно, або рівно по полю тексту.
«Текст» - можна вибрати розмір та колір тексту, але не шрифт.
«Олівець» - можна підібрати товщину, колір та прозорість.
«Додати зображення» - підтримуються навіть avif та webp. Додані зображення можна розтягувати.
При редагуванні нема можливості скасувати останню дію, але усі внесені зміни є окремими об’єктами, кожен з яких можна змістити або видалити.
Після збереження розмір файлів змінився на декілька кілобайтів, а після повторного відкриття у Firefox нові об'єкти вже не можна видаляти чи редагувати.
Adobe Acrobat як редактор
Якщо користуєтесь цією програмою багато років, то пам’ятаєте про деякі перейменування. Компанія Adobe раніше випускала безплатний переглядач як Adobe Reader, а платний редактор як Adobe Acrobat. Зараз переглядач називається Adobe Acrobat, а редактор Adobe Acrobat Pro. Парадигма знов змінилась і сам переглядач вже вміє трохи редагувати.
Встановимо Adobe Acrobat v24.2 та відкриємо два файли вже відредаговані у Firefox. Ми бачимо скільки правок було на кожній сторінці, ще й можемо вписати відповідь на кожну зміну. Також є можливість відредагувати або видалити раніше внесені зміни.
Сам Adobe Acrobat пропонує більше інструментів ніж Firefox. Є можливість заповнювати анкети (можна додати хрестик, галочку чи крапку). Ще можна додавати примітиви у вигляді лінії, кола, прямокутника. Ними можна замальовувати непотрібний текст, або створити імпровізовану таблицю. Але оригінальний текст редагувати, звісно, не можна.
Дратує, що за деякими інструментами ховається вікно активації платної версії. Ще здивувала відсутність додавання графічного об’єкта до документа, можливо лише прикріпити довільний файл у потрібному вам місці.
Після зберігання розмір файлів також змінюється на декілька кілобайтів, тобто можна не боятися отримати «роздутий» документ.
Повноцінне редагування pdf (майже)
Для тестів нам знадобиться тільки Welcome_PDF.pdf, бо редагувати скан документа не має майже ніякого сенсу.
LibreOffice
Встановлюємо LibreOffice v24.2. В цьому пакеті pdf файли відкриває LibreOffice Draw, який непогано справляється з редагуванням простих файлів. Через специфічну структуру pdf файлів ми не можемо виділити абзац, бо кожен рядок є окремим об’єктом. Але внести зміни в рядок ми можемо. Також можна переносити чи видаляти інші об’єкти.
Додаємо змін у документ та зберігаємо через [File] > [Export as PDF].
Microsoft Office
Тепер відкриємо файл у Microsoft Office 365, бачимо помилку, закриваємо.
Для тесту то не є великою проблемою, бо заздалегідь відомо що відбудеться далі. Обидва офісних пакети після редагування зберігають файл використовуючи свої власні шрифти. Тому, якщо ви скористалися ними для редагування — обов’язково передивіться результат у порівнянні з оригіналом у пошуках можливих проблем з форматуванням:
Що вміють онлайн-сервіси?
Різноманітних онлайн-сервісів велика купа, можна знайти безплатні варіанти для розпізнавання та перекладу, чи тільки конвертації в інші формати.
Якщо ви працівник великої компанії, то подібні сервіси у вас вже або заблоковані технічним чином, або заборонені для використання адміністративно. Для усіх інших хотілося б донести, що дані з ваших документів можуть бути використані проти вас, чи вашої компанії. При написанні статті не ставилась ціль сформувати рейтинг усіх сервісів по рівню небезпечності. Але автор стикався зі схемами, в яких, маючи багато інформації з документів оброблених онлайн — невідомі від імені партнеру чи банку дуже переконливо пропонували переказати гроші.
Stirling Tools
Розгляньмо один open-source сервіс, який можна встановити у компанії локально — це Stirling-Tools.
У сервісу є багато можливостей лише перелік яких займе окрему статтю. Він зосередив в собі майже усі можливі функції. Тут можна розпізнати текст, пронумерувати сторінки, перетворити в інші формати та багато іншого. Перетворімо pdf на doc і побачимо, що й у цьому сервісі є проблеми з форматуванням нашого документа. Але це відбувається не кожного разу та з іншими документами може бути все гаразд.
Google Docs
Для порівняння файли були відредаговані у сервісі Google Docs. Цей сервіс розпізнав Welcome_PDF_scan.pdf та переробив Welcome_PDF.pdf у формат odt, (бо створений формат docx не зміг відкрити Microsoft Word).
Що можна сказати? Форматування у створеному документі також не дуже гарне. Обійдемося без додавання скриншотів з усіма помилками, але уявіть собі документ, який з п'яти сторінок виріс до семи! Але, якщо обробляти документ без внутрішніх шрифтів та обтікання картинки текстом, то результат покращиться в усіх редакторах.
Як дістати лише текст без форматування?
Для текстового документа:
- LibreOffice DrawFile > Export. При зберіганні вибрати Htm. Відкрити у браузері, скопіювати текст.
- Adobe Acrobat[Menu] > [Save as …] > [save as *.txt], але це залежить від налаштувань безпеки файлу. Іноді можна просто виділити текст та зберегти в буфері обміну.
Для сканованого документа:
- Google DocsЗберегти скан у Google Drive та відкрити у Google Docs. Разом з Welcome_PDF_scan.pdf з’являється розпізнаний Welcome_PDF_scan
- TesseractЦей OCR інструмент можна приєднати до irfanview чи Stirling Tools. У irfanview він працює приблизно так:
Що маємо
Як бачите, браузер гарно підходить для рецензування, офіційний переглядач для заповнення анкет, а LibreOffice редагує навіть документи з прямою забороною на редагування. Сподіваємося, що ви дізнались щось нове та зможете зберегти свої дані у безпеці. Пишіть у коментарях про власні напрацювання та "життєзлами"!