Ako prelomiť ochranu PDF súborov

Článok o tom, ako prelomiť ochranu proti kopírovaniu textu z PDF súborov.

Včera sa mi pri pive posťažoval kamarát, že mu veľké inštitúcie skomplikovali život. PDF súbory, z ktorý potrebuje získavať informácie, ochránili proti kopírovaniu dát. Mojou povinnosťou je mu pomôcť vyriešiť tento nezmyselný problém.

Copy a Print nie je možné použiť, ale Search áno

"Ochrana"

PDF umožňuje okrem celkového zašifrovania, kedy človek bez znalosti hesla súbor vôbec neotvorí, ochrániť súbor čiastočne proti zmenám, kopírovaniu a tlači. Takýto súbor je možné čítať, text je možné označiť, no nie je možné ho skopírovať do schránky (ctrl+c).

Celá táto ochrana je smiešna pretože napríklad webové prehliadače cez kontextové menu ponúkajú rôzne funkcie pre prácu s označeným textom. Označený text môžeme napríklad poslať do vyhľadávača a odtiaľ si ho vykopírovať.

Pre dlhé texty je finta s prehliadačom nepoužiteľná.

Riešenie

Na tento problém sa hodí OCR softvér. Optical Character Recognition je počítačový program, ktorý slúži na rozpoznávanie a digitalizáciu textu z obrázkových súborov, ako sú napríklad skenované dokumenty, fotografie alebo snímky obrazovky. OCR softvér dokáže premeniť text, ktorý je zachytený na obrázku, na počítačový textový formát, ktorý je následne možné upravovať, kópiovať a vyhľadávať.

Ako prvý som otestoval Tesseract OCR. Nástroj spoľahlivo rozpoznal text na obrázku. Pretože nástroj nedokáže pracovať s PDF súborom, je nutné najprv previesť súbor na obrázok, napríklad export do obrázku, screenshot,...

brew install tesseract tesseract-lang

Inštalácia nástroja a jazykových balíkov

tesseract ziadost-1.png - -l slk
...
10)

Štátne občianstvo ku dňu podania žiadosti:

11)

Rodné číslo (pre potreby Sociálnej poisťovne). .........

12)

Príbuzenský vzťah: ........

Rozpoznaný text na obrázku, prepínač -l slk nastavuje jazyk

Hľadaním nástroja na konverziu PDF na obrázok som narazil na projekt s názvom Poppler. Poppler je knižnica napísaná v jazyku C++, ktorá umožňuje manipulovať s PDF súbormi. Poppler je tiež dostupný ako sada príkazov, ktorý umožňuje používateľom vykonávať rôzne operácie na PDF súboroch, ako je zobrazenie obsahu, konvertovanie súborov do rôznych formátov, orezanie strán atď.

brew install poppler

Inštalácia nástroja

pdfattach    pdfdetach    pdffonts     pdfimages    pdfinfo      pdfseparate  pdfsig       pdftocairo   pdftohtml    pdftoppm     pdftops      pdftotext    pdfunite

Je to skutočne sada nástrojov

pdftotext ziadost.pdf -
...
ÚPN spracúva osobné údaje žiadateľa v zmysle Nariadenia Európskeho parlamentu a Rady (EÚ) 2016/679 z 27. apríla 2016 o ochrane
fyzických osôb pri spracúvaní osobných údajov a o voľnom pohybe takýchto údajov, ktorým sa zrušuje smernica 95/46/ES (všeobecné
nariadenie o ochrane údajov); viac na www.upn.gov.sk.

6

Nástroj pdftotext nemá problém so slovenským jazykom

pdfimages -png ziadost.pdf img

Nástroj pdfimages vie vyextrahovať obrázky z dokumentu

Záver

Chrániť text proti kopírovaniu v PDF súbore je zbytočné. Bežný užívateľ si s tým zo začiatku neporadí. Časom však narazí na jednu z mnohých online služieb, ktoré dokážu "ochránené" PDF súbory odblokovať. Posielať dáta niekam do neznáma predstavuje bezpečnostné riziko pre organizáciu i pre jedinca.
Ukázal som, že jeden mocný nástroj dokáže túto komplikáciu jednoducho a bezpečne prekonať.

poppler

Tesseract documentation

Documentation

Tesseract OCR