Obsah
The Škrábání obrazovky nebo scraping obrazovky, nám umožňuje extrahovat informace z webové stránky stažením uvedené stránky a následným zpracováním pomocí programu; To je velmi užitečné, zejména když potřebujeme aktualizované informace z webu, který žádné nemá API k dispozici nebo některé Webová služba.Provést a Škrábání obrazovky„Musíme jednoduše stáhnout obsah a umět s ním manipulovat, abychom mohli extrahovat to, co nás zajímá. K tomu můžeme použít různé techniky, jako je použití regulárních výrazů, nebo si třeba pomoci jinými knihovnami, jako je Uklidit.
Co je Tidy?
Umět číst a HTML Musíme věřit její struktuře, protože protože nevíme přesně, jaký obsah má, alespoň víme, že pokud hledáme struktury HTML něco, co můžeme získat, ale ne vždy HTML je dobře vytvořen, buď kvůli chybě opomenutí, nebo proto, že programátor ví, že některé prohlížeče mají tendenci interpretovat HTML, i když existují nějaké nedostatky.
V tuto chvíli vstupuje do hry Uklidit, který není ničím jiným než nástrojem, který nám umožňuje opravit chybně formátovaný HTML, je vysoce konfigurovatelný a umožňuje nám přizpůsobit způsob, jakým by měl interpretovat opravy, které může provést. Tímto způsobem budeme s jistotou vědět, jaký typ dokumentu bude mít za následek nakonec.
Nejprve se podívejme na obrázek kódu HTML S mnoha chybami může tento kód interpretovat některý prohlížeč, ale nejedná se o správný kód při jeho tvorbě:
Jak vidíme, každý řádek má prakticky chybu, nejčastější je neuzavření tagů, poté vidíme tagy, které se zavírají na špatném místě atd.
Poté použijeme Uklidit a podívejme se na již opravený kód, tam si uvědomíme, jak důležitá je tato knihovna a veškerá pomoc, kterou nám může poskytnout:
Na obrázku vidíme, jak to bylo opraveno UkliditMusíme poznamenat, že ačkoli je Tidy velkou knihovnou, pravděpodobně nedokáže vyřešit všechny chyby HTMLHodně nám to však pomáhá, pokud jde o budování našeho dobře vytvořeného HTML.
Udělejte si pořádek
Existuje několik způsobů, jak získat Tidy prostřednictvím oficiální stránky http: / /tidy.sf.net. můžeme získat knihovnu, ale v tomto zdroji neexistuje způsob, jak ji integrovat Krajta musíme se tedy uchýlit k alternativnímu zdroji, proto máme dvě možnosti: u uklizeno dostupné na http: / /utidylib.berlios.de a mxTidy k dispozici na adrese http://egenix.com/files/python/mxTidy.html, uTidy se zdá být nejaktuálnějším z nich, ale instalace mxTidy je o něco jednodušší, je na každém, aby viděl, který z nich použít.
Podívejme se na příklad použití Uklidit Jakmile jej nainstalujeme, v následujícím kódu otevřeme HTML s chybami a přečteme ho pomocí Tidy, poté zobrazíme informace na obrazovce.
z importu podprocesu Popen, PIPE text = open ('messy.html'). read () tidy = Popen ('tidy', stdin = PIPE, stdout = PIPE, stderr = PIPE) tidy.stdin.write (text) tidy. stdin.close () tisk tidy.stdout.read ()
Jak vidíme, použití je celkem jednoduché UkliditJakmile tomu budeme dostatečně důvěřovat, když dobře známe chování knihovny, můžeme dosáhnout velmi zajímavých věcí.Líbil se vám tento návod a pomohl mu?Autora můžete odměnit stisknutím tohoto tlačítka, čímž mu dáte kladný bod