十年網(wǎng)站開發(fā)經(jīng)驗(yàn) + 多家企業(yè)客戶 + 靠譜的建站團(tuán)隊(duì)
量身定制 + 運(yùn)營維護(hù)+專業(yè)推廣+無憂售后,網(wǎng)站問題一站解決
文章來源
大數(shù)據(jù)微職位~林同學(xué)的個(gè)人中心(https://blog.51cto.com/battosai/1962958)

黃梅網(wǎng)站制作公司哪家好,找創(chuàng)新互聯(lián)公司!從網(wǎng)頁設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、APP開發(fā)、成都響應(yīng)式網(wǎng)站建設(shè)公司等網(wǎng)站項(xiàng)目制作,到程序開發(fā),運(yùn)營維護(hù)。創(chuàng)新互聯(lián)公司于2013年創(chuàng)立到現(xiàn)在10年的時(shí)間,我們擁有了豐富的建站經(jīng)驗(yàn)和運(yùn)維經(jīng)驗(yàn),來保證我們的工作的順利進(jìn)行。專注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)公司。
隨著各行各業(yè)的數(shù)據(jù)量快速增長,無論是從對數(shù)據(jù)的存儲、分析、處理和挖掘等方面提出了越來越高的要求。IT行業(yè)正在逐漸向“DT”行業(yè)轉(zhuǎn)變,未來是以數(shù)據(jù)為驅(qū)動的。所以我認(rèn)為大數(shù)據(jù)是未來一個(gè)主流方向,了解和學(xué)習(xí)大數(shù)據(jù)對我們以后的工作和生活都有一定幫助。
近期我個(gè)人學(xué)習(xí)了大數(shù)據(jù)工程師微職位這門課,并且已經(jīng)通過了所有的考核。下面切入正題,分享一下我的學(xué)習(xí)心得,因?yàn)槠P(guān)系,不涉及具體知識點(diǎn)。
因?yàn)檫@門課是偏大數(shù)據(jù)分析的,基本上不涉及大數(shù)據(jù)組件的開發(fā),所以這門課撇開了冗長的java課程。另外,因?yàn)樯婕暗酱髷?shù)據(jù)平臺的搭建,需要一定的Linux基礎(chǔ),而這部分基礎(chǔ)其實(shí)可以快速掌握,因此不需要說系統(tǒng)地學(xué)完一整套的Linux之后才開始學(xué)大數(shù)據(jù)。當(dāng)然,如果本身有java或者oracle的基礎(chǔ)的話,學(xué)起來是有一定的效率加成的。
1.大數(shù)據(jù)平臺搭建。我們可以重點(diǎn)掌握Linux的內(nèi)存結(jié)構(gòu)是怎么運(yùn)作的,可以和jvm的特性結(jié)合起來。一些文件系統(tǒng)的相關(guān)命令參數(shù)要熟知,后面可以類比于HDFS。另外,Linux環(huán)境變量加載順序和時(shí)間配置也需要掌握。
2.MapReduce。大家可以了解它的計(jì)算框架,比如MapReduce和YARN的資源調(diào)度和處理過程是怎樣的,如何去執(zhí)行一個(gè)MapReduce程序,以及reducer和partitioner等等這些中間過程做了什么動作。
3.HDFS。有必要去弄明白HDFS分布式文件系統(tǒng)的架構(gòu),搞清楚數(shù)據(jù)和元數(shù)據(jù)的關(guān)系以及安全模式,要去掌握一下HDFS+zookeeper實(shí)現(xiàn)HA的方式。hadoop集群的搭建,包括系統(tǒng)準(zhǔn)備與初始化、硬件的選擇、參數(shù)配置、集群故障的診斷等,最后可以了解一下HDFS組件的優(yōu)化。
4.Hbase??赡芎芏嗥髽I(yè)不會具體用到Hbase,而這個(gè)要視具體場景而定。我們可以先系統(tǒng)的學(xué)習(xí)概念和一些基礎(chǔ)的操作,同時(shí)了解NOSQL以及分布式數(shù)據(jù)庫的數(shù)據(jù)模型以及特性,和一些典型應(yīng)用場景。
5.Flume和Kafka。流式計(jì)算我們聽得比較多了,而可能并不清楚具體內(nèi)容。這里我們可以去了解流式計(jì)算的計(jì)算框架,通過實(shí)例我們可以比較容易明白flume和kafka如何一起配合來實(shí)現(xiàn)一個(gè)應(yīng)用日志實(shí)時(shí)分析系統(tǒng),同時(shí)我們在學(xué)習(xí)spark streaming的時(shí)候也可以去類比和Storm/Flink真正的流式計(jì)算的區(qū)別在哪里,應(yīng)用場景和各自的優(yōu)缺點(diǎn)是什么。
6.Hive。了解一下hive的產(chǎn)生動機(jī)。和傳統(tǒng)sql語句使用上的對比。hive的函數(shù)有哪些,有哪些復(fù)雜數(shù)據(jù)類型。怎么使用hive進(jìn)行查詢和分析,比如創(chuàng)建庫表,怎么將hdfs上的數(shù)據(jù)load到hive里面查看,怎么通過sqoop將MySQL的數(shù)據(jù)導(dǎo)入到hive表中等等。需要掌握分區(qū)表怎么使用,怎么去優(yōu)化和擴(kuò)展hive的使用。
7.spark。了解spark sql的出現(xiàn)動機(jī),spark背后的RDD原理。單機(jī)版和集群版的部署。RDD、DataFrame和DataSet的關(guān)系以及如何演變的??梢灾攸c(diǎn)關(guān)注spark程序的運(yùn)行流程,包括并行處理和數(shù)據(jù)本地化的概念。最后要掌握spark性能優(yōu)化的常用方法廣播變量和累加器。8.數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)。這里還是需要一定的統(tǒng)計(jì)學(xué)、概率論、線性代數(shù)等數(shù)學(xué)基礎(chǔ)??梢哉莆諜C(jī)器學(xué)習(xí)里面的3C,推薦系統(tǒng)的原理等,如何通過spark的組件spark Mlib去輔助推薦系統(tǒng)等。這里你會真切感受到學(xué)好數(shù)學(xué)多么地重要...
建議大家邊學(xué)習(xí)邊做筆記,要不然知識點(diǎn)太分散不容易記住。然后演示中的操作自己多動手實(shí)踐,畢竟數(shù)據(jù)分析還要多動手才能鞏固。另外,很多知識點(diǎn)的修行還要靠個(gè)人的持續(xù)才行,畢竟更新速度都比較快,不能完全依賴?yán)蠋煹闹v解,最好是去多去看看官方文檔,多了解新舊特性和應(yīng)用場景。
寫得比較粗糙,希望能給大家的學(xué)習(xí)帶來那么一點(diǎn)兒的助攻~最后,祝大家學(xué)習(xí)完這門課程都能有所收獲~~