Python爬蟲(chóng)怎么獲取網(wǎng)頁(yè)上的鏈接-創(chuàng)新互聯(lián)

創(chuàng)新互聯(lián)www.cdcxhl.cn八線動(dòng)態(tài)BGP香港云服務(wù)器提供商，新人活動(dòng)買(mǎi)多久送多久，劃算不套路！

尼勒克ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場(chǎng)景，ssl證書(shū)未來(lái)市場(chǎng)廣闊！成為成都創(chuàng)新互聯(lián)公司的ssl證書(shū)銷(xiāo)售渠道，可以享受市場(chǎng)價(jià)格4-6折優(yōu)惠！如果有意向歡迎電話聯(lián)系或者加微信：028-86922220（備注：SSL證書(shū)合作）期待與您的合作！

這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)?lái)有關(guān)Python爬蟲(chóng)怎么獲取網(wǎng)頁(yè)上的鏈接，文章內(nèi)容豐富且以專(zhuān)業(yè)的角度為大家分析和敘述，閱讀完這篇文章希望大家可以有所收獲。

Beautiful Soup是python的一個(gè)庫(kù)，最主要的功能是從網(wǎng)頁(yè)抓取數(shù)據(jù)。利用Beautiful Soup可以對(duì)網(wǎng)頁(yè)進(jìn)行解析，提取所有的超鏈接。

Beautiful Soup提供一些簡(jiǎn)單的、python式的函數(shù)用來(lái)處理導(dǎo)航、搜索、修改分析樹(shù)等功能。它是一個(gè)工具箱，通過(guò)解析文檔為用戶(hù)提供需要抓取的數(shù)據(jù)，因?yàn)楹?jiǎn)單，所以不需要多少代碼就可以寫(xiě)出一個(gè)完整的應(yīng)用程序。

Beautiful Soup自動(dòng)將輸入文檔轉(zhuǎn)換為Unicode編碼，輸出文檔轉(zhuǎn)換為utf-8編碼。你不需要考慮編碼方式，除非文檔沒(méi)有指定一個(gè)編碼方式，這時(shí)，Beautiful Soup就不能自動(dòng)識(shí)別編碼方式了。然后，你僅僅需要說(shuō)明一下原始編碼方式就可以了。

Beautiful Soup已成為和lxml、html6lib一樣出色的python解釋器，為用戶(hù)靈活地提供不同的解析策略或強(qiáng)勁的速度。

BeautifulSoup支持Python標(biāo)準(zhǔn)庫(kù)中的HTML解析器,還支持一些第三方的解析器，如果我們不安裝它，則 Python 會(huì)使用 Python默認(rèn)的解析器，lxml 解析器更加強(qiáng)大，速度更快，推薦使用lxml 解析器。

本文實(shí)例講述了python使用BeautifulSoup分頁(yè)網(wǎng)頁(yè)中超鏈接的方法。分享給大家供大家參考。具體如下：

python通過(guò)BeautifulSoup分析網(wǎng)頁(yè)中的超鏈接

from BeautifulSoup import BeautifulSoup
import urllib2
import re
url = urllib2.urlopen("http://www.bitsCN.com")
content = url.read()
soup = BeautifulSoup(content)
for a in soup.findAll('a',href=True):
  if re.findall('sharejs', a['href']):
    print "Found the URL:", a['href']

上述就是小編為大家分享的Python爬蟲(chóng)怎么獲取網(wǎng)頁(yè)上的鏈接了，如果剛好有類(lèi)似的疑惑，不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識(shí)，歡迎關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道。

分享名稱(chēng)：Python爬蟲(chóng)怎么獲取網(wǎng)頁(yè)上的鏈接-創(chuàng)新互聯(lián)
轉(zhuǎn)載來(lái)源：http://m.jiaotiyi.com/article/dojepo.html

網(wǎng)站建設(shè)知識(shí)

Python爬蟲(chóng)怎么獲取網(wǎng)頁(yè)上的鏈接-創(chuàng)新互聯(lián)

其他資訊