Pdfgrep Příkazy pro vyhledávání souborů PDF Terminál Linux

Operační systémy jsou založeny na příkazových řádcích, které nám nabízejí více možností pro zvýšení distribučních schopností díky možnosti spouštět vyhledávání, administrační akce, podporu a mnoho dalšího.

Přesně jedna z těchto možností je spojena s možností vyhledávání určitých typů souborů v Linuxu a tedy snadného přístupu k jejich obsahu, a proto si dnes povíme o pdfgrepu, který je zaměřen na vyhledávání souborů PDF.

Co je pdfgrepPdfgrep je nástroj příkazového řádku k jednoduchému a funkčnímu vyhledávání textu v souborech PDF, což nám šetří čas při přístupu ke každému souboru a při hledání textu pomocí nástrojů PDF.
Některé z jeho charakteristik jsou:

  • Kompatibilní s Grep, můžeme spustit mnoho parametrů grep jako -r, -i, -n nebo -c.
  • Možnost vyhledávat text ve více souborech PDF
  • Vybrané barvy, tato možnost barvy GNU Grep je ve výchozím nastavení podporována a povolena.
  • Podporuje použití regulárních výrazů.
  • Software zdarma

1. Nainstalujte Pdfgrep na Linux

Krok 1
V tomto případě použijeme Ubuntu, pro které stačí spustit následující řádek. Tam zadáme písmeno S, abychom přijali stahování a instalaci balíčků.

 sudo apt nainstalovat pdfgrep

Krok 2
Další možnosti instalace jsou:

  • Stáhněte si soubor .TAR.GZ na následujícím odkazu.

Krok 3

  • Nebo spusťte následující příkaz:
 klon git https://gitlab.com/pdfgrep/pdfgrep.git
Krok 4
Poté zadejte každý z následujících řádků v pořadí:
 ./configure make sudo make install

2. Použijte Pdfgrep na Linuxu

Krok 1
Jakmile je nainstalován pdfgrep, bude to tato syntaxe:

 pdfgrep [MOŽNOST…] VZOR [SOUBOR]
Krok 2
Každý z prvků je:
  • Možnost: Udává atributy, které můžeme například přidat do vyhledávání -i nebo --ignorovat případ, které ignorují rozlišení velkých a malých písmen mezi vzorem, který jsme uvedli, a tím, který musí odpovídat souboru.
  • Vzor: Označuje rozšířený regulární výraz.
  • Soubor: Je to soubor PDF, ve kterém musí být provedeno vyhledávání.

Krok 3
Začneme jednoduchým hledáním, například budeme hledat slovo Solvetic v souboru Solvetic.pdf, k tomu provedeme následující:

 pdfgrep Solvetic Solvetic.pdf

ZVĚTŠIT

Krok 4
V tomto případě tento termín existuje pouze jednou v uvedeném souboru, ale nyní budeme hledat termín Windows v oficiálním souboru Microsoft PDF a toto bude výsledek, který uvidíme:

ZVĚTŠIT

Krok 5
Vidíme, že hledané slovo je zvýrazněno, což usnadňuje jeho umístění. Nyní, pokud přidáme parametr -v, Výsledky bude možné zobrazit s číslem stránky, kde byl tento výraz detekován:

ZVĚTŠIT

Krok 6
Další možností, kterou můžeme použít s pdfgrep, je vypsat soubory PDF, které obsahují určitý výraz, proto provedeme následující:

 pdfgrep Solvetic * pdf
Krok 7
Tímto způsobem bude uveden soubor PDF obsahující výraz Solvetic:

ZVĚTŠIT

Krok 8
Pokud chceme otevřít soubor PDF, můžeme provést následující příkaz:

 xdg-open (File.PDF)

ZVĚTŠIT

Krok 9
Obecné možnosti, které nám pdfgrep nabízí, jsou:

-i, --ignore-caseIgnorujte rozlišování malých a velkých písmen ve zdrojových i vstupních souborech.

-F, --fixované řetězceInterpretuje VZOR jako seznam pevných řetězců oddělených novými řádky.

--mezipamětiChcete -li urychlit operaci s velkými soubory, použijte mezipaměť pro vykreslený text.

-P, --perl-regexpInterpretuje PATTERN jako regulární výraz kompatibilní s Perlem (PCRE).

-H,-s názvem souboruVytiskněte název souboru pro každou shodu.

-h, --no-název_souboruPotlačí předponu názvu souboru ve výstupu.

-n, --číslo stránkyPřed každou shodu vložte číslo stránky, kde byl hledaný výraz nalezen.

-c, --početPotlačí normální výstup a místo toho vytiskne počet shod pro každý vstupní soubor.

-p, --page countVytiskněte počet shod na stránce. Znamená to -n.

--BarvaUmožňuje zvýraznit názvy souborů, čísla stránek a odpovídající text s různými sekvencemi a zobrazit je v terminálu barevně, některé z jeho možností jsou Vždy, na zátylku nebo automaticky.

-o, --pouze shodaVytiskněte pouze odpovídající část řádku bez okolního kontextu.

-r, --rekurzivníUmožňuje nám rekurzivně prohledávat všechny soubory (omezené --include a --exclude) v každém adresáři podle symbolických odkazů pouze v případě, že jsou na příkazovém řádku.

-R, --rekurzivní referenceStejné jako -r, ale sleduje všechny symbolické odkazy.

-klid nebo -qUmožňuje nám ukončit aplikaci.

S tímto pdfgrep se stává ideálním řešením při práci se soubory PDF v prostředí Linux.

wave wave wave wave wave