Ako prelomiť ochranu PDF súborov
Článok o tom, ako prelomiť ochranu proti kopírovaniu textu z PDF súborov.
Včera sa mi pri pive posťažoval kamarát, že mu veľké inštitúcie skomplikovali život. PDF súbory, z ktorý potrebuje získavať informácie, ochránili proti kopírovaniu dát. Mojou povinnosťou je mu pomôcť vyriešiť tento nezmyselný problém.
"Ochrana"
PDF umožňuje okrem celkového zašifrovania, kedy človek bez znalosti hesla súbor vôbec neotvorí, ochrániť súbor čiastočne proti zmenám, kopírovaniu a tlači. Takýto súbor je možné čítať, text je možné označiť, no nie je možné ho skopírovať do schránky (ctrl+c).
Celá táto ochrana je smiešna pretože napríklad webové prehliadače cez kontextové menu ponúkajú rôzne funkcie pre prácu s označeným textom. Označený text môžeme napríklad poslať do vyhľadávača a odtiaľ si ho vykopírovať.
Pre dlhé texty je finta s prehliadačom nepoužiteľná.
Riešenie
Na tento problém sa hodí OCR softvér. Optical Character Recognition je počítačový program, ktorý slúži na rozpoznávanie a digitalizáciu textu z obrázkových súborov, ako sú napríklad skenované dokumenty, fotografie alebo snímky obrazovky. OCR softvér dokáže premeniť text, ktorý je zachytený na obrázku, na počítačový textový formát, ktorý je následne možné upravovať, kópiovať a vyhľadávať.
Ako prvý som otestoval Tesseract OCR. Nástroj spoľahlivo rozpoznal text na obrázku. Pretože nástroj nedokáže pracovať s PDF súborom, je nutné najprv previesť súbor na obrázok, napríklad export do obrázku, screenshot,...
Hľadaním nástroja na konverziu PDF na obrázok som narazil na projekt s názvom Poppler. Poppler je knižnica napísaná v jazyku C++, ktorá umožňuje manipulovať s PDF súbormi. Poppler je tiež dostupný ako sada príkazov, ktorý umožňuje používateľom vykonávať rôzne operácie na PDF súboroch, ako je zobrazenie obsahu, konvertovanie súborov do rôznych formátov, orezanie strán atď.
Záver
Chrániť text proti kopírovaniu v PDF súbore je zbytočné. Bežný užívateľ si s tým zo začiatku neporadí. Časom však narazí na jednu z mnohých online služieb, ktoré dokážu "ochránené" PDF súbory odblokovať. Posielať dáta niekam do neznáma predstavuje bezpečnostné riziko pre organizáciu i pre jedinca.
Ukázal som, že jeden mocný nástroj dokáže túto komplikáciu jednoducho a bezpečne prekonať.