十年網(wǎng)站開發(fā)經(jīng)驗 + 多家企業(yè)客戶 + 靠譜的建站團隊
量身定制 + 運營維護+專業(yè)推廣+無憂售后,網(wǎng)站問題一站解決
今天就跟大家聊聊有關(guān)使用python爬蟲怎么獲取表情包,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。
我們提供的服務(wù)有:成都網(wǎng)站制作、成都網(wǎng)站設(shè)計、外貿(mào)營銷網(wǎng)站建設(shè)、微信公眾號開發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認證、固原ssl等。為上千多家企事業(yè)單位解決了網(wǎng)站和推廣的問題。提供周到的售前咨詢和貼心的售后服務(wù),是有科學(xué)管理、有技術(shù)的固原網(wǎng)站制作公司
1、創(chuàng)建請求頭,也被稱為偽裝瀏覽器
如果不添加請求頭的話,可能會出現(xiàn)當(dāng)前網(wǎng)站沒有訪問權(quán)限。
2、使用requests 網(wǎng)絡(luò)請求庫完成網(wǎng)站數(shù)據(jù)請求
3、獲取數(shù)據(jù)后使用bs4對頁面數(shù)據(jù)進行提取
需要用到一個非常好用的第三方包:bs4。
4、實例
import os import requests from bs4 import BeautifulSoup if not os.path.exists('./images/'): os.mkdir('./images/') headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36' } url = 'https://fabiaoqing.com/biaoqing/lists/page/1.html' response = requests.get(url, headers=headers).text ''' lxml: html解析庫,因為python和html兩者沒有關(guān)系 python沒有辦法直接控制html代碼 我們就需要使用lxml這個庫將html代碼轉(zhuǎn)成python對象 需要大家去下載 pip install lxml ''' soup = BeautifulSoup(response, 'lxml') img_list = soup.find_all('img', class_='ui image lazy') for img in img_list: img_url = img['data-original'] img_title = img['title'] print(img_url, img_title) try: with open('./images/' + img_title + os.path.splitext(img_url)[-1], 'wb') as f: ''' 因為一張圖片是二進制數(shù)據(jù) 如果我們使用text文本形式返回 會對文件造成破壞 使用content去返回原始數(shù)據(jù) ''' image = requests.get(img_url, headers=headers).content # 寫入二進制數(shù)據(jù) image這個變量是存儲requests返回的二進制數(shù)據(jù)的 f.write(image) print('保存成功:', img_title) except: pass
python的數(shù)據(jù)類型:1. 數(shù)字類型,包括int(整型)、long(長整型)和float(浮點型)。2.字符串,分別是str類型和unicode類型。3.布爾型,Python布爾類型也是用于邏輯運算,有兩個值:True(真)和False(假)。4.列表,列表是Python中使用最頻繁的數(shù)據(jù)類型,集合中可以放任何數(shù)據(jù)類型。5. 元組,元組用”()”標(biāo)識,內(nèi)部元素用逗號隔開。6. 字典,字典是一種鍵值對的集合。7. 集合,集合是一個無序的、不重復(fù)的數(shù)據(jù)組合。
看完上述內(nèi)容,你們對使用python爬蟲怎么獲取表情包有進一步的了解嗎?如果還想了解更多知識或者相關(guān)內(nèi)容,請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝大家的支持。