python爬蟲實例之DuplicationFilter怎樣進行篩重-創(chuàng)新互聯(lián)

這篇文章給大家分享的是有關(guān)python爬蟲實例之Duplication Filter怎樣進行篩重的內(nèi)容。小編覺得挺實用的，因此分享給大家做個參考。一起跟隨小編過來看看吧。

創(chuàng)新互聯(lián)公司是一家集網(wǎng)站建設,高安企業(yè)網(wǎng)站建設,高安品牌網(wǎng)站建設,網(wǎng)站定制,高安網(wǎng)站建設報價,網(wǎng)絡營銷,網(wǎng)絡優(yōu)化,高安網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè)，幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強企業(yè)競爭力?？沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時我們時刻保持專業(yè)、時尚、前沿，時刻以成就客戶成長自我，堅持不斷學習、思考、沉淀、凈化自己，讓我們?yōu)楦嗟钠髽I(yè)打造出實用型網(wǎng)站。

Duplication Filter

Scrapy中用集合實現(xiàn)這個request去重功能，Scrapy中把已經(jīng)發(fā)送的request指紋放入到一個集合中，把下一個request的指紋拿到集合中比對，如果該指紋存在于集合中，說明這個request發(fā)送過了，如果沒有則繼續(xù)操作。這個核心的判重功能是這樣實現(xiàn)的：

def request_seen(self, request):
        # self.request_figerprints就是一個指紋集合  
        fp = self.request_fingerprint(request)
 
        # 這就是判重的核心操作  
        if fp in self.fingerprints:
            return True
        self.fingerprints.add(fp)
        if self.file:
            self.file.write(fp + os.linesep)

在scrapy-redis中去重是由Duplication Filter組件來實現(xiàn)的，它通過redis的set 不重復的特性，巧妙的實現(xiàn)了Duplication Filter去重。scrapy-redis調(diào)度器從引擎接受request，將request的指紋存?redis的set檢查是否重復，并將不重復的request push寫?redis的 request queue。

引擎請求request(Spider發(fā)出的）時，調(diào)度器從redis的request queue隊列?里根據(jù)優(yōu)先級pop 出?個request 返回給引擎，引擎將此request發(fā)給spider處理。

有了Duplication Filter組件，對于爬蟲找回的數(shù)據(jù)就可以提供有效的爬取意見，也不用擔心爬蟲會因為重復的數(shù)據(jù)而耽誤獲取的時間和進度了。

感謝各位的閱讀！關(guān)于python爬蟲實例之Duplication Filter怎樣進行篩重就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，讓大家可以學到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到吧！

本文名稱：python爬蟲實例之DuplicationFilter怎樣進行篩重-創(chuàng)新互聯(lián)
網(wǎng)頁路徑：http://m.jiaotiyi.com/article/cejgje.html

網(wǎng)站建設知識

python爬蟲實例之DuplicationFilter怎樣進行篩重-創(chuàng)新互聯(lián)

其他資訊