Operační systémy jsou založeny na příkazových řádcích, které nám nabízejí více možností pro zvýšení distribučních schopností díky možnosti spouštět vyhledávání, administrační akce, podporu a mnoho dalšího.
Přesně jedna z těchto možností je spojena s možností vyhledávání určitých typů souborů v Linuxu a tedy snadného přístupu k jejich obsahu, a proto si dnes povíme o pdfgrepu, který je zaměřen na vyhledávání souborů PDF.
Co je pdfgrepPdfgrep je nástroj příkazového řádku k jednoduchému a funkčnímu vyhledávání textu v souborech PDF, což nám šetří čas při přístupu ke každému souboru a při hledání textu pomocí nástrojů PDF.
Některé z jeho charakteristik jsou:
- Kompatibilní s Grep, můžeme spustit mnoho parametrů grep jako -r, -i, -n nebo -c.
- Možnost vyhledávat text ve více souborech PDF
- Vybrané barvy, tato možnost barvy GNU Grep je ve výchozím nastavení podporována a povolena.
- Podporuje použití regulárních výrazů.
- Software zdarma
1. Nainstalujte Pdfgrep na Linux
Krok 1
V tomto případě použijeme Ubuntu, pro které stačí spustit následující řádek. Tam zadáme písmeno S, abychom přijali stahování a instalaci balíčků.
sudo apt nainstalovat pdfgrep
Krok 2
Další možnosti instalace jsou:
- Stáhněte si soubor .TAR.GZ na následujícím odkazu.
Krok 3
- Nebo spusťte následující příkaz:
klon git https://gitlab.com/pdfgrep/pdfgrep.gitKrok 4
Poté zadejte každý z následujících řádků v pořadí:
./configure make sudo make install
2. Použijte Pdfgrep na Linuxu
Krok 1
Jakmile je nainstalován pdfgrep, bude to tato syntaxe:
pdfgrep [MOŽNOST…] VZOR [SOUBOR]Krok 2
Každý z prvků je:
- Možnost: Udává atributy, které můžeme například přidat do vyhledávání -i nebo --ignorovat případ, které ignorují rozlišení velkých a malých písmen mezi vzorem, který jsme uvedli, a tím, který musí odpovídat souboru.
- Vzor: Označuje rozšířený regulární výraz.
- Soubor: Je to soubor PDF, ve kterém musí být provedeno vyhledávání.
Krok 3
Začneme jednoduchým hledáním, například budeme hledat slovo Solvetic v souboru Solvetic.pdf, k tomu provedeme následující:
pdfgrep Solvetic Solvetic.pdf
ZVĚTŠIT
Krok 4
V tomto případě tento termín existuje pouze jednou v uvedeném souboru, ale nyní budeme hledat termín Windows v oficiálním souboru Microsoft PDF a toto bude výsledek, který uvidíme:
ZVĚTŠIT
Krok 5
Vidíme, že hledané slovo je zvýrazněno, což usnadňuje jeho umístění. Nyní, pokud přidáme parametr -v, Výsledky bude možné zobrazit s číslem stránky, kde byl tento výraz detekován:
ZVĚTŠIT
Krok 6
Další možností, kterou můžeme použít s pdfgrep, je vypsat soubory PDF, které obsahují určitý výraz, proto provedeme následující:
pdfgrep Solvetic * pdfKrok 7
Tímto způsobem bude uveden soubor PDF obsahující výraz Solvetic:
ZVĚTŠIT
Krok 8
Pokud chceme otevřít soubor PDF, můžeme provést následující příkaz:
xdg-open (File.PDF)
ZVĚTŠIT
Krok 9
Obecné možnosti, které nám pdfgrep nabízí, jsou:
-i, --ignore-caseIgnorujte rozlišování malých a velkých písmen ve zdrojových i vstupních souborech.
-F, --fixované řetězceInterpretuje VZOR jako seznam pevných řetězců oddělených novými řádky.
--mezipamětiChcete -li urychlit operaci s velkými soubory, použijte mezipaměť pro vykreslený text.
-P, --perl-regexpInterpretuje PATTERN jako regulární výraz kompatibilní s Perlem (PCRE).
-H,-s názvem souboruVytiskněte název souboru pro každou shodu.
-h, --no-název_souboruPotlačí předponu názvu souboru ve výstupu.
-n, --číslo stránkyPřed každou shodu vložte číslo stránky, kde byl hledaný výraz nalezen.
-c, --početPotlačí normální výstup a místo toho vytiskne počet shod pro každý vstupní soubor.
-p, --page countVytiskněte počet shod na stránce. Znamená to -n.
--BarvaUmožňuje zvýraznit názvy souborů, čísla stránek a odpovídající text s různými sekvencemi a zobrazit je v terminálu barevně, některé z jeho možností jsou Vždy, na zátylku nebo automaticky.
-o, --pouze shodaVytiskněte pouze odpovídající část řádku bez okolního kontextu.
-r, --rekurzivníUmožňuje nám rekurzivně prohledávat všechny soubory (omezené --include a --exclude) v každém adresáři podle symbolických odkazů pouze v případě, že jsou na příkazovém řádku.
-R, --rekurzivní referenceStejné jako -r, ale sleduje všechny symbolické odkazy.
-klid nebo -qUmožňuje nám ukončit aplikaci.
S tímto pdfgrep se stává ideálním řešením při práci se soubory PDF v prostředí Linux.