Jak extrahovat text z PDF v macOS Sierra

Obsah

Jedním z nejpoužívanějších současných formátů pro přenos informací je PDF (Portable Document Format - Portable Document Format), který byl vyvinut společností Adobe a nabízí nám řadu výhod, jako například:

  • Vyšší zabezpečení dokumentů
  • Zmenšení původní velikosti
  • Kompatibilita s více zařízeními
  • Chrání mimo jiné integritu uložených dat.

Jde o to, že v určitých časech a z více důvodů musíme výhradně extrahovat obsah textu ze souboru PDF bez zahrnutí dalších prvků, jako jsou obrázky nebo podpisy.

Solvetic bude analyzovat, jak tento proces snadno provést v macOS Sierra, aniž by se uchýlil k dalším nástrojům.

Krok 1
Otevření dokumentu: Prvním krokem je otevření dokumentu PDF uloženého lokálně v systému macOS Sierra, což se provede automaticky pomocí nástroje Náhled:

Je důležité objasnit, že pokud používáme různé nástroje, jako je Adobe Reader, soubor PDF se pomocí tohoto nástroje otevře.

Krok 2
Výběr textu: Nyní pokračujeme ke kopírování informací ze souboru PDF, což běžně provádíme pomocí myši, ale pokud máme několik souborů PDF, bude to časově náročný úkol.

Můžeme použít jednu z následujících metod, aby byl tento proces mnohem efektivnější:

  • Přejděte do nabídky Upravit a tam vyberte možnost Vybrat vše
  • Použijte kombinaci kláves ⌘ + A
.

Jakmile vybereme tuto možnost, zobrazí se nám vybraný text:

Krok 3
Zkopírujte a vložte obsah: Jakmile vyberete text v souboru PDF, přistoupíme ke kopírování pomocí jedné z následujících možností.

Zkopírujte text PDF

  • Přejděte do nabídky Upravit a tam vyberte Kopírovat
  • Použijte kombinaci kláves ⌘ + C

Jakmile budeme mít tyto informace ve schránce, otevřeme aplikaci TextEdit pomocí některé z následujících možností

  • Zadejte text slova do Spotlightu a tam vyberte TextEdit
  • Přejděte na cestu go / Aplikace a tam vyberte TextEdit

Zobrazí se následující okno. Tam vybereme tlačítko Nový dokument.

Krok 4
V novém okně přejdeme do nabídky Formát a tam vybereme možnost Převést na prostý text nebo můžeme použít kombinaci kláves ⇧ + ⌘ + T. Výsledkem bude následující:

Pomocí této jednoduché metody můžeme snadno extrahovat text z potřebných souborů PDF.

wave wave wave wave wave