Python - HTMLParser

Obsah
Při práci s analyzátor v Krajta je doporučeno, pokud pracujeme s dokumenty HTML použijte standard XHTML, protože ten je přísnější, pokud jde o manipulaci s otevíracími a zavíracími značkami prvků, můžeme díky tomu usnadnit programy, které to dokážou interpretovat.
v Krajta máme k dispozici HTMLParser, to by nemělo být zaměňováno se třídou stejného názvu modulu htmllib, protože první je součástí standardní knihovny, když získáme dokument od Uklidit můžeme použít HMTLParser aby bylo možné procházet jeho obsah.
Použití HTMLParser
Použijte HTMLParser, opravdu to znamená podtřídy, abychom mohli metody přepsat podle svého uvážení a mohli tak splnit naše požadavky, podívejme se níže na seznam hlavních metod, které získáváme při používání HTMLParser.
  • handle_starttag (tag, attrs): Když je nalezena počáteční značka, attrs je sekvence párů (název, hodnota).
  • handle_startendtag (tag, attrs): Používá se pro prázdné štítky. Ve výchozím nastavení zpracovává spouštění a vypínání samostatně.
  • handle_endtag (tag): Používá se, když je nalezen uzavírací tag.
  • handle_data (data): Používá se, když najdeme textová data.
  • handle_charref (ref): Používá se při práci s odkazy na znaky ve formuláři & # ref;.
  • handle_entityref (název): Používáme ho, když máme odkazy na entity formuláře & name;.
  • handle_comment (data): Volá se pouze v případě, že je k dispozici komentář.
  • handle_decl (decl): Používá se pro deklarace formuláře.
  • handle_pi (data): Slouží ke zpracování pokynů.
Jakmile jsme viděli hlavní metody HTMLParserDále uvidíme obrázek s příkladem kódu a poté vysvětlíme, z čeho se skládá:

ZVĚTŠIT

První, čeho si všimneme, je, že kvůli tomu Škrábání obrazovky nebudeme používat UkliditDůvodem je, že HTML, které se chystáme zkontrolovat, není špatně vytvořeno, pak vidíme, že první věc, kterou deklarujeme, jsou některé booleovské proměnné, pomocí kterých budeme kontrolovat, zda jsme uvnitř prvku H4 nebo v elementu odkazu nebo odkazu.
S touto metodou máme něco konkrétního zpracovat_dataJelikož se nacházíme v prostředí skutečného života, musíme se připravit na nejsložitější scénáře, a tím myslíme, že jelikož je téměř jisté, že potřebné informace nezískáme při prvním hovoru, připravíme tuto metodu, abychom je mohli získat po částech, jakmile získáme vše, co děláme, spojíme data.
Akce našeho programu začíná voláním metody krmit () ke kterému předáme text, který je obsahem webové stránky, kterou metodou získáme urlopen () a když je toto vše zpracováno, přistoupíme k volání metody close ().
Nakonec jsme dosáhli programu Škrábání obrazovky čitelnější než používání regulárních výrazů a trochu robustnější v tom smyslu, že se neomezujeme pouze na pevné struktury, díky čemuž můžeme své informace získat správně.
Tímto dokončujeme náš tutoriál HTMLParser, jak vidíme, existuje mnoho způsobů, jak se k těmto řešením dostat, abychom získali informace z webové stránky.Líbil se vám tento návod a pomohl mu?Autora můžete odměnit stisknutím tohoto tlačítka, čímž mu dáte kladný bod
wave wave wave wave wave