十年網(wǎng)站開發(fā)經(jīng)驗(yàn) + 多家企業(yè)客戶 + 靠譜的建站團(tuán)隊(duì)
量身定制 + 運(yùn)營(yíng)維護(hù)+專業(yè)推廣+無憂售后,網(wǎng)站問題一站解決
本篇內(nèi)容介紹了“常用數(shù)據(jù)科學(xué)Python庫有哪些”的有關(guān)知識(shí),在實(shí)際案例的操作過程中,不少人都會(huì)遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
創(chuàng)新互聯(lián)專注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)、寬城網(wǎng)絡(luò)推廣、小程序設(shè)計(jì)、寬城網(wǎng)絡(luò)營(yíng)銷、寬城企業(yè)策劃、寬城品牌公關(guān)、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運(yùn)營(yíng)等,從售前售中售后,我們都將竭誠(chéng)為您服務(wù),您的肯定,是我們最大的嘉獎(jiǎng);創(chuàng)新互聯(lián)為所有大學(xué)生創(chuàng)業(yè)者提供寬城建站搭建服務(wù),24小時(shí)服務(wù)熱線:028-86922220,官方網(wǎng)址:www.cdcxhl.com
Pandas
Pandas庫[3]對(duì)于致力于探索性數(shù)據(jù)分析的數(shù)據(jù)科學(xué)家來說是一個(gè)必不可少的庫。顧名思義,它使用pandas來分析你的數(shù)據(jù),或者更具體地說,pandas數(shù)據(jù)幀。
以下是一些你可以從HTML報(bào)表中訪問和查看的功能:
類型推斷
唯一值
缺少值
分位數(shù)統(tǒng)計(jì)(例如,中位數(shù))
描述性統(tǒng)計(jì)
直方圖
相關(guān)性(如皮爾遜)
文本分析
如何安裝?
使用pip:
pip install -U pandas-profiling[notebook] jupyter nbextension enable --py widgetsnbextension 這種方式對(duì)我也很管用: pip install pandas-profiling import pandas_profiling
例子:
下面是我們可以從profile report功能訪問的可視化示例之一??梢钥吹揭粋€(gè)易于理解的彩色的相關(guān)性可視化圖。

局限性:
如果有一個(gè)大的數(shù)據(jù)集,這個(gè)概要報(bào)告可能需要相當(dāng)長(zhǎng)的時(shí)間。我的解決方案是要么簡(jiǎn)單地使用較小的數(shù)據(jù)集,要么對(duì)整個(gè)數(shù)據(jù)集進(jìn)行采樣。
NLTK
通常與nltk相關(guān)的術(shù)語是NLP,或者自然語言處理,它是數(shù)據(jù)科學(xué)(和其他學(xué)科)的一個(gè)分支,它更容易地包含對(duì)文本的處理。導(dǎo)入nltk之后,你可以更輕松地分析文本。
以下是你可以使用nltk訪問的一些功能:
標(biāo)記化文本(例如,[“標(biāo)記化”,“文本”])
詞性標(biāo)記
詞干提取和詞形還原
如何安裝:
pip install nltk import nltk
例子:
import nltk thing_to_tokenize = “a long sentence with words” tokens = nltk.word_tokenize(thing_to_tokenize) tokens returns: [“a”, “l(fā)ong”, “sentence”, “with”, “words”]
我們需分開每個(gè)單詞,以便對(duì)其進(jìn)行分析。
在某些情況下需要分隔單詞。然后它們可以被標(biāo)記、計(jì)數(shù),機(jī)器學(xué)習(xí)算法的新指標(biāo)可以使用這些輸入來創(chuàng)建預(yù)測(cè)。利用nltk的另一個(gè)有用的特性是文本可以用于情感分析。情感分析在很多企業(yè)中都很重要,尤其是那些有客戶評(píng)論的企業(yè)。現(xiàn)在我們討論情感分析,讓我們看看另一個(gè)有助于快速情感分析的庫。
TextBlob
TextBlob[8]與nltk有很多相同的優(yōu)點(diǎn),但是它的情感分析功能非常出色。除了分析之外,它還具有利用樸素貝葉斯和決策樹支持分類的功能。
以下是你可以使用TextBlob訪問的一些功能:
標(biāo)記化
詞性標(biāo)注
分類
拼寫更正
情感分析
如何安裝:
pip install textblob from textblob import TextBlob
例子:
情感分析:
review = TextBlob(“here is a great text blob about wonderful Data Science”) review.sentiment returns: Sentiment(polarity=0.80, subjectivity = 0.44)
正常浮點(diǎn)范圍為[-1.0,1.0],而積極情感介于[0.0,1.0]之間。
分類:
from textblob.classifiers import NaiveBayesClassifier training_data = [(‘sentence example good one’, ‘pos’), (‘sentence example great two’, ‘pos’), (‘sentence example bad three’, ‘neg’), (‘sentence example worse four’, ‘neg’)] testing_data = [(‘sentence example good’, ‘pos’), (‘sentence example great’, ‘pos’)] cl = NaiveBayesClassifier(training_data)
你可以使用這個(gè)分類器對(duì)文本進(jìn)行分類,該分類器將返回“pos”或“neg”輸出。
這些來自textblob的簡(jiǎn)單代碼提供了非常強(qiáng)大和有用的情感分析和分類。
pyLDAvis
另一個(gè)使用NLP的工具是pyLDAvis[10]。它是一個(gè)交互式主題模型可視化工具的庫。例如,當(dāng)我使用LDA(潛Dirichlet分布)執(zhí)行主題模型時(shí),我通常會(huì)看到單元格中的主題輸出,這可能很難閱讀。然而當(dāng)它出現(xiàn)在一個(gè)很好的視覺總結(jié)中時(shí),它會(huì)更有益,也更容易消化,就像pyLDAvis一樣。
以下是你可以使用pyLDAvis訪問的一些功能:
顯示了前30個(gè)最突出的術(shù)語
有一個(gè)交互式調(diào)整器,允許你滑動(dòng)相關(guān)性度量
顯示x軸上的PC1和y軸上的PC2的熱門主題
顯示與大小對(duì)應(yīng)的主題
總的來說,這是一種讓人印象深刻的主題可視化方式,這是其他任何庫都無法做到的。
如何安裝:
pip install pyldavis import pyldavis
例子:
為了看到最好的例子,這里有一個(gè)Jupyter Notebook[11]參考資料,它展示了這個(gè)數(shù)據(jù)科學(xué)庫的許多獨(dú)特和有益的特性: https://nbviewer.jupyter.org/github/bmabey/pyLDAvis/blob/master/notebooks/pyLDAvis_overview.ipynb
NetworkX
這個(gè)數(shù)據(jù)科學(xué)包NetworkX[13],將其優(yōu)勢(shì)集中在生物、社會(huì)和基礎(chǔ)設(shè)施網(wǎng)絡(luò)可視化上。
以下是你可以使用NetworkX訪問的一些功能:
創(chuàng)建圖形、節(jié)點(diǎn)和邊
檢驗(yàn)圖的元素
圖結(jié)構(gòu)
圖的屬性
多重圖
圖形生成器和操作
如何安裝:
pip install networkx import networkx
例子:
創(chuàng)建圖形
import networkx graph = networkx.Graph()
你可以與其他庫協(xié)作,例如matplotlib.pyplot也可以創(chuàng)建圖形的可視化(以數(shù)據(jù)科學(xué)家習(xí)慣于看到的方式)。
“常用數(shù)據(jù)科學(xué)Python庫有哪些”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!