十年網(wǎng)站開發(fā)經(jīng)驗(yàn) + 多家企業(yè)客戶 + 靠譜的建站團(tuán)隊(duì)
量身定制 + 運(yùn)營(yíng)維護(hù)+專業(yè)推廣+無憂售后,網(wǎng)站問題一站解決
Python中怎么抓取網(wǎng)頁內(nèi)容,很多新手對(duì)此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來學(xué)習(xí)下,希望你能有所收獲。
在成都網(wǎng)站制作、成都做網(wǎng)站中從網(wǎng)站色彩、結(jié)構(gòu)布局、欄目設(shè)置、關(guān)鍵詞群組等細(xì)微處著手,突出企業(yè)的產(chǎn)品/服務(wù)/品牌,幫助企業(yè)鎖定精準(zhǔn)用戶,提高在線咨詢和轉(zhuǎn)化,使成都網(wǎng)站營(yíng)銷成為有效果、有回報(bào)的無錫營(yíng)銷推廣。創(chuàng)新互聯(lián)公司專業(yè)成都網(wǎng)站建設(shè)10多年了,客戶滿意度97.8%,歡迎成都創(chuàng)新互聯(lián)客戶聯(lián)系。
Python抓取網(wǎng)頁內(nèi)容方法一、用urllib2/sgmllib包,將目標(biāo)網(wǎng)頁的所有URL列出。
import urllib2 from sgmllib import SGMLParser class URLLister(SGMLParser): def reset(self): SGMLParser.reset(self) self.urls = [] def start_a(self, attrs): href = [v for k, v in attrs if k=='href'] if href: self.urls.extend(href) f = urllib2.urlopen("http://www.donews.com/") if f.code == 200: parser = URLLister() parser.feed(f.read()) f.close() for url in parser.urls: print url
Python抓取網(wǎng)頁內(nèi)容方法二、用python調(diào)用IE抓取目標(biāo)網(wǎng)頁(Require win32com, pythoncom)的所有圖像的url和大小
import win32com.client, pythoncom import time ie = win32com.client.DispatchEx('InternetExplorer.Application.1') ie.Visible = 1 ie.Navigate("http://news.sina.com.cn") while ie.Busy: time.sleep(0.05) doc = ie.Document for i in doc.images: print i.src, i.width, i.height
這種方法可以利用IE本身的Javascript. DHTML的支持,來做自動(dòng)提交Form,和處理Javascript。
看完上述內(nèi)容是否對(duì)您有幫助呢?如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章,請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝您對(duì)創(chuàng)新互聯(lián)的支持。