Semalt: Vađenje URL-ova s web stranica s prekrasnom juhom

Beautiful Soup je Python paket visoke razine koji se koristi za raščlanjivanje XML i HTML dokumenata. Beautiful Soup Python knjižnica stvara stablo raščlanjivanja koje se koristi za izvlačenje korisnih informacija iz HyperText Markup Language (HTML). Ova je knjižnica dostupna i za Python 2 i za Python 3 verzije.

U većini slučajeva nalazite da se ciljanim podacima može pristupiti i koristiti samo kao dio web stranice. U takvom slučaju trebate koristiti takvu tehniku mrežnog struganja koja može izvući podatke u formate koji se mogu analizirati. Ovdje dolazi knjižnica Beautiful Soup.

zahtjevi

Trebate prave module za upotrebu knjižnice Beautiful Soup. Za početak morate na svoj uređaj instalirati programski jezik Python 2.7. U ovom postu naučit ćete kako izbrisati web mjesto i izdvojiti sve URL-ove pomoću Zahtjeva i prekrasne juhe 4. HTML raščlanjivanje je zadatak "uradi sam", posebno uz tehničku pomoć Beautiful Soup-a.

Zašto koristiti prekrasnu juhu?

Beautiful Soup je najbolje rangirani Python paket koji se koristi za struganje web stranica i raščlanjivanje HTML oznaka od 2004. Nedavno je Beautiful Soup 4 zamijenio Beautiful Soup 3 u industriji. Imajte na umu da BS4 radi u obje verzije Pythona, dok BS3 radi samo na Python 2.7. Biblioteka se sastoji od sljedećih ugrađenih značajki:

  • Sposobnost kodiranja - Ne morate paničariti kodiranje nakon što na svoj uređaj instalirate potrebne prekrasne module Juha. Knjižnica je automatizirana za pretvaranje ulaza u Unicode i izlaza u UTF-8.
  • Mogućnost navigacije - Beautiful Soup nudi jednostavne metode za pretraživanje, navigaciju i izmjenu stabla.

Kako koristiti knjižnicu Beautiful Soup?

Nakon što instalirate Beautiful Soup na svoj stroj, možete početi koristiti knjižnicu. Za početak uvežite bs4 biblioteku na početku vašeg Python koda. Pronesite sadržaj ili URL na Beautiful Soup da biste stvorili objekt Juha. Međutim, knjižnica ne dohvaća ciljnu web stranicu na sebi. Ovdje taj zadatak morate dovršiti ručno. Preferirane web stranice također možete lako pronaći kombinacijom Python-a i Beautiful Soup-a.

Uloge knjižnice zahtjeva

Da biste stranicu izbrisali, prvo je morate preuzeti. Možete preuzeti web stranice pomoću knjižnice zahtjeva. Zahtijeva biblioteku postavljanjem "GET" zahtjeva na web poslužitelje, koji će zauzvrat preuzeti HTML sadržaj željene web stranice.

Izdvajanje URL-ova s web stranica

Sada imate detaljne informacije o knjižnici Beautiful Soup. Kombinacija BS4 knjižnice i Pythona pomoći će vam da brzo pronađete web stranicu. Da biste izvukli sve URL-ove sa svoje ciljne web stranice, koristite metodu "pronađi sve". Ova metoda će vam dati kompilaciju elemenata s oznakom. S bs4 uvezite i Beautiful Soup i zahtjeve. Pokrenite svoj kôd i unesite web mjesto ili web stranicu kako biste izvukli URL-ove.

mass gmail