Semalt: Vodnik po strganju HTML - Najboljši nasveti

Spletna vsebina je večinoma v strukturirani ali v HTML obliki. Vsaka stran je organizirana na svojstven način, odvisno od vrste vsebine v njej. Če želi nekdo izvleči spletne informacije, želi vsakdo pridobiti podatke na strukturiran in dobro organiziran način. To bo pomagalo prihraniti čas, potreben za pregled, analizo in organizacijo dokumenta, preden ga delite. Vendar strukturiran format ni enostaven, saj večina spletnih strani ne ponuja te možnosti, da bi ljudem preprečili pridobivanje velikih količin podatkov. Nekatera spletna mesta pa ponujajo API-je, ki ljudem omogočajo hitro pridobivanje informacij v hitrem in preprostem postopku.

V takšnih dogodkih ne boste imeli druge možnosti, kot da uporabite programsko opremo, znano kot strganje. Gre za pristop, ki uporablja računalniški program, ki uporabnikom pomaga zbirati informacije v uporabni obliki in ohranja strukturo podatkov.

Lxml in zahteva

To je obsežna knjižnica strganja, ki pomaga pri hitri analizi in oceni XML in HTML ter pomaga prihraniti čas. Koristno je tudi pri obravnavi zmešanih oznak v postopku analize. V tem postopku uporabljate zahteve Lxml namesto vgrajenega urllib2, saj je hitrejši, robustnejši in lahko na voljo. Namestiti ga je enostavno z uporabo datoteke pip install Lxml in zahtevkov za namestitev pip.

Za strganje HTML sledite tem korakom

Začnite z uvozom - tukaj uvozite HTML iz Lxml, nato pa zahtevo za uvoz. Uporabite zahtevo in sledite spletni strani, ki vsebuje podatke, ki jih želite izvleči, jih analizirajte z modulom HTML in nato shranite razčlenjene podatke v drevo.

Uporabiti boste morali vsebino strani in ne besedilo, saj HTML pričakuje, da bo prejel vhod v bajtih. Drevo, kamor ste shranili analizirane podatke, vsebuje dokument HTML v strukturi drevesa. Drevesno strukturo lahko prekašate v različnih pristopih, XPath in CSSelect.

XPath vam pomaga pri pridobivanju informacij ali pridobivanju v strukturirani obliki, kot sta HTML ali XML. Na različne načine lahko pridobite elemente XPath. Ti vključujejo Firebug za Firefox ali Chrome Inspector. Pri uporabi Chroma je pregled informacij preprost, saj morate samo "z desno miškino tipko" klikniti element, ki zahteva pregled, izberite "Pregled elementov", označite priloženo kodo in nato z desnim klikom in izberite kopiraj XPath. Ta postopek vam bo pomagal vedeti, kateri elementi so na vaši strani in od tam je enostavno ustvariti pravo poizvedbo XPath in pravilno uporabiti Lxml XPath.

Skozi te korake boste s pomočjo Lxml in Zahtev zbrisali vse podatke, ki ste jih želeli izvleči iz določenega spleta. Informacije boste imeli shranjene v pomnilniku z dvema seznama in zdaj je pripravljen za razvrščanje. Lahko ga analizirate z uporabo programskega jezika, kot je Python, ali ga shranite in delite. Preden jih delite, lahko del informacij ponovno napišete ali uredite.

send email