Python中怎么抓取網(wǎng)頁內(nèi)容

Python中怎么抓取網(wǎng)頁內(nèi)容，很多新手對(duì)此不是很清楚，為了幫助大家解決這個(gè)難題，下面小編將為大家詳細(xì)講解，有這方面需求的人可以來學(xué)習(xí)下，希望你能有所收獲。

在成都網(wǎng)站制作、成都做網(wǎng)站中從網(wǎng)站色彩、結(jié)構(gòu)布局、欄目設(shè)置、關(guān)鍵詞群組等細(xì)微處著手，突出企業(yè)的產(chǎn)品/服務(wù)/品牌，幫助企業(yè)鎖定精準(zhǔn)用戶，提高在線咨詢和轉(zhuǎn)化，使成都網(wǎng)站營(yíng)銷成為有效果、有回報(bào)的無錫營(yíng)銷推廣。創(chuàng)新互聯(lián)公司專業(yè)成都網(wǎng)站建設(shè)10多年了，客戶滿意度97.8%，歡迎成都創(chuàng)新互聯(lián)客戶聯(lián)系。

Python抓取網(wǎng)頁內(nèi)容方法一、用urllib2/sgmllib包，將目標(biāo)網(wǎng)頁的所有URL列出。

import urllib2  from sgmllib import SGMLParser   class URLLister(SGMLParser):  def reset(self):   SGMLParser.reset(self)  self.urls = []  def start_a(self, attrs):   href = [v for k, v in attrs if k=='href']   if href:  self.urls.extend(href)  f = urllib2.urlopen("http://www.donews.com/")  if f.code == 200:  parser = URLLister()  parser.feed(f.read())  f.close()  for url in parser.urls: print url

Python抓取網(wǎng)頁內(nèi)容方法二、用python調(diào)用IE抓取目標(biāo)網(wǎng)頁（Require win32com, pythoncom）的所有圖像的url和大小

import win32com.client, pythoncom  import time  ie = win32com.client.DispatchEx('InternetExplorer.Application.1')  ie.Visible = 1 ie.Navigate("http://news.sina.com.cn")  while ie.Busy:  time.sleep(0.05)  doc = ie.Document  for i in doc.images:  print i.src, i.width, i.height

這種方法可以利用IE本身的Javascript. DHTML的支持，來做自動(dòng)提交Form,和處理Javascript。

看完上述內(nèi)容是否對(duì)您有幫助呢？如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章，請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道，感謝您對(duì)創(chuàng)新互聯(lián)的支持。

新聞標(biāo)題：Python中怎么抓取網(wǎng)頁內(nèi)容
本文網(wǎng)址：http://m.jiaotiyi.com/article/jdphcc.html

網(wǎng)站建設(shè)知識(shí)

Python中怎么抓取網(wǎng)頁內(nèi)容

其他資訊