Semalt: The HTML Scraping Guide - Nejlepší tipy

Webový obsah je většinou ve strukturovaných nebo HTML formátech. Každá stránka je uspořádána jedinečným způsobem v závislosti na druhu obsahu na ní. Pokud chce někdo získat informace o webu, má každý zájem o získání údajů strukturovaným a přehledným způsobem. Pomůže to ušetřit čas potřebný k prohlížení, analýze a organizaci dokumentu před jeho sdílením. Získání strukturovaného formátu však není snadné, protože většina webových stránek tuto možnost nenabízí, aby lidé nemohli extrahovat velké množství dat. Některé weby však poskytují API, která lidem poskytují možnost extrakce informací v rychlém a snadném procesu.

V takových událostech nebudete mít na výběr, ale budete používat pomoc softwarového programování známého jako škrábání. Jedná se o přístup, který využívá počítačový program, který pomáhá uživatelům shromažďovat informace v užitečném formátu a zachovává strukturu dat.

Lxml a žádost

Jedná se o rozsáhlou škrabací knihovnu, která pomáhá při rychlé analýze a vyhodnocení XML a HTML a šetří čas. Pomáhá také při řešení zmatených značek v procesu analýzy. V tomto postupu použijete požadavky Lxml spíše než vestavěný urllib2, protože je rychlejší, robustnější a snadno dostupný. Nainstalujte jej snadno pomocí pip install Lxml a pip install request.

Při škrábání HTML postupujte takto

Začněte importem - zde importujete HTML z Lxml a poté importujete požadavek. Použijte požadavek a poté sledujte webovou stránku obsahující data, která chcete extrahovat, analyzujte ji pomocí modulu HTML a uložte analyzovaná data do stromu.

Budete muset použít spíše obsah stránky než text, protože HTML očekává přijetí vstupu v bajtech. Strom, ve kterém jste uložili analyzovaná data, nyní obsahuje dokument HTML ve stromové struktuře. Můžete procházet stromovou strukturu různými přístupy, XPath a CSSelect.

XPath vám pomůže získat informace nebo je získat ve strukturovaném formátu, jako je HTML nebo XML. Existují různé způsoby, jak získat prvky XPath. Patří mezi ně Firebug pro Firefox nebo Chrome Inspector. Při používání prohlížeče Chrome je kontrola informací snadná, protože stačí kliknout pravým tlačítkem na prvek, který vyžaduje kontrolu, vyberte možnost Zkontrolovat prvek, zvýrazněte poskytnutý kód a poté klepněte pravým tlačítkem a vyberte kopii XPath. Tento proces vám pomůže zjistit, které prvky jsou na vaší stránce obsaženy, a odtud je snadné vytvořit správný dotaz XPath a správně použít Lxml XPath.

Provedením těchto kroků zajistíte, že jste seškrabali všechna data, která chcete extrahovat z konkrétního webu pomocí Lxml a požadavků. Informace budou uloženy do paměti dvou seznamů a nyní jsou připraveny k třídění. Můžete jej analyzovat pomocí programovacího jazyka, jako je Python, nebo jej uložit a sdílet. Před sdílením je také vhodné přepsat nebo upravit některé části informací.