十年網(wǎng)站開發(fā)經(jīng)驗 + 多家企業(yè)客戶 + 靠譜的建站團(tuán)隊
量身定制 + 運營維護(hù)+專業(yè)推廣+無憂售后,網(wǎng)站問題一站解決
這篇文章主要講解了“爬蟲怎么使用ip代理池”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“爬蟲怎么使用ip代理池”吧!
為靜安等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計制作服務(wù),及靜安網(wǎng)站建設(shè)行業(yè)解決方案。主營業(yè)務(wù)為成都網(wǎng)站建設(shè)、成都網(wǎng)站設(shè)計、靜安網(wǎng)站設(shè)計,以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會得到認(rèn)可,從而選擇與我們長期合作。這樣,我們也可以走得更遠(yuǎn)!
1、利用IP代理池技術(shù),每次從IP代理池中隨機(jī)選擇一個IP代理來爬取數(shù)據(jù)。
import urllib.request import random #構(gòu)建IP代理池 ip_pool = [ '58.221.55.58:808', '120.198.248.26:8088', '221.229.166.55:8080', '139.196.214.67:8080' ] def ip(ip_pool, url): #從IP代理池中隨機(jī)選一個IP代理 ip = random.choice(ip_pool) print(ip) #格式化IP代理格 proxy = urllib.request.ProxyHandler({'http': ip}) #裝入IP代理 opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler) return urllib.request.urlopen(url).read().decode('utf-8', 'ignore') data = ip(ip_pool, 'https://www.baidu.com/?tn=98010089_dg&ch=15') print(data)
2、使用IP代理池和用戶代理的組合來增加訪問量,更安全。利用ip代理的動態(tài)ip構(gòu)建自己的代理ip池,可以保證ip的質(zhì)量,因為ip代理的ip資源是獨立有效的。
import urllib.request import random import urllib.error #自定義UA_IP類,用來隨機(jī)得到 def UA_IP(thisUrl): #構(gòu)建用戶代理池 ua_pool = [ 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.89 Safari/537.36', 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.41 Safari/535.1 QQBrowser/6.9.11079.201', 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E)', 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0' ] #構(gòu)建ip代理池 ip_pool = [ '139.196.196.74', '112.124.47.21', '61.129.70.109', '221.229.166.55' ] thisUA = random.choice(ua_pool) #從用戶代理池中隨機(jī)選擇一個用戶代理 thisIP = random.choice(ip_pool) #從IP代理池中隨機(jī)選擇一個IP代理 headers = ('User-Agent', thisUA) #構(gòu)造報頭 #將IP格式化 proxy = urllib.request.ProxyHandler({'http': thisIP}) #裝入IP代理 opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler) #裝入代理 opener.addheaders = [headers] #將opener設(shè)置為全局 urllib.request.install_opener(opener) #從網(wǎng)頁爬取信息 data = urllib.request.urlopen(thisUrl).read().decode('utf-8', 'gnore') return data #網(wǎng)頁池,后面從網(wǎng)頁池中選擇一個進(jìn)行該網(wǎng)頁信息的爬取 urls = [ 'https://mp.csdn.net/mdeditor/88323361#', 'https://mp.csdn.net/mdeditor/88144295#', 'https://mp.csdn.net/mdeditor/88144295#', 'https://mp.csdn.net/mdeditor/88081609#' ] #爬取1000次 for i in range(0, 1000): try: thisUrl = random.choice(urls) data = UA_IP(thisUrl) print(len(data)) except urllib.error.HTTPError as e: if hasattr(e, 'code'): print(e.code) if hasattr(e, 'reason'): print(e.reason)
感謝各位的閱讀,以上就是“爬蟲怎么使用ip代理池”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對爬蟲怎么使用ip代理池這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識點的文章,歡迎關(guān)注!