十年網(wǎng)站開發(fā)經(jīng)驗 + 多家企業(yè)客戶 + 靠譜的建站團隊
量身定制 + 運營維護+專業(yè)推廣+無憂售后,網(wǎng)站問題一站解決
這篇文章給大家分享的是有關(guān)python爬蟲實例之Duplication Filter怎樣進行篩重的內(nèi)容。小編覺得挺實用的,因此分享給大家做個參考。一起跟隨小編過來看看吧。
Duplication Filter
Scrapy中用集合實現(xiàn)這個request去重功能,Scrapy中把已經(jīng)發(fā)送的request指紋放入到一個集合中,把下一個request的指紋拿到集合中比對,如果該指紋存在于集合中,說明這個request發(fā)送過了,如果沒有則繼續(xù)操作。這個核心的判重功能是這樣實現(xiàn)的:
def request_seen(self, request): # self.request_figerprints就是一個指紋集合 fp = self.request_fingerprint(request) # 這就是判重的核心操作 if fp in self.fingerprints: return True self.fingerprints.add(fp) if self.file: self.file.write(fp + os.linesep)
在scrapy-redis中去重是由Duplication Filter組件來實現(xiàn)的,它通過redis的set 不重復的特性,巧妙的實現(xiàn)了Duplication Filter去重。scrapy-redis調(diào)度器從引擎接受request,將request的指紋存?redis的set檢查是否重復,并將不重復的request push寫?redis的 request queue。
引擎請求request(Spider發(fā)出的)時,調(diào)度器從redis的request queue隊列?里根據(jù)優(yōu)先級pop 出?個request 返回給引擎,引擎將此request發(fā)給spider處理。
有了Duplication Filter組件,對于爬蟲找回的數(shù)據(jù)就可以提供有效的爬取意見,也不用擔心爬蟲會因為重復的數(shù)據(jù)而耽誤獲取的時間和進度了。
感謝各位的閱讀!關(guān)于python爬蟲實例之Duplication Filter怎樣進行篩重就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,讓大家可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!