大數(shù)據(jù)工程師微職位學(xué)習(xí)分享

文章來源
大數(shù)據(jù)微職位~林同學(xué)的個(gè)人中心(https://blog.51cto.com/battosai/1962958)

黃梅網(wǎng)站制作公司哪家好，找創(chuàng)新互聯(lián)公司！從網(wǎng)頁設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、APP開發(fā)、成都響應(yīng)式網(wǎng)站建設(shè)公司等網(wǎng)站項(xiàng)目制作，到程序開發(fā)，運(yùn)營維護(hù)。創(chuàng)新互聯(lián)公司于2013年創(chuàng)立到現(xiàn)在10年的時(shí)間，我們擁有了豐富的建站經(jīng)驗(yàn)和運(yùn)維經(jīng)驗(yàn)，來保證我們的工作的順利進(jìn)行。專注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)公司。

隨著各行各業(yè)的數(shù)據(jù)量快速增長，無論是從對數(shù)據(jù)的存儲、分析、處理和挖掘等方面提出了越來越高的要求。IT行業(yè)正在逐漸向“DT”行業(yè)轉(zhuǎn)變，未來是以數(shù)據(jù)為驅(qū)動的。所以我認(rèn)為大數(shù)據(jù)是未來一個(gè)主流方向，了解和學(xué)習(xí)大數(shù)據(jù)對我們以后的工作和生活都有一定幫助。

近期我個(gè)人學(xué)習(xí)了大數(shù)據(jù)工程師微職位這門課，并且已經(jīng)通過了所有的考核。下面切入正題，分享一下我的學(xué)習(xí)心得，因?yàn)槠P(guān)系，不涉及具體知識點(diǎn)。

因?yàn)檫@門課是偏大數(shù)據(jù)分析的，基本上不涉及大數(shù)據(jù)組件的開發(fā)，所以這門課撇開了冗長的java課程。另外，因?yàn)樯婕暗酱髷?shù)據(jù)平臺的搭建，需要一定的Linux基礎(chǔ)，而這部分基礎(chǔ)其實(shí)可以快速掌握，因此不需要說系統(tǒng)地學(xué)完一整套的Linux之后才開始學(xué)大數(shù)據(jù)。當(dāng)然，如果本身有java或者oracle的基礎(chǔ)的話，學(xué)起來是有一定的效率加成的。

1.大數(shù)據(jù)平臺搭建。我們可以重點(diǎn)掌握Linux的內(nèi)存結(jié)構(gòu)是怎么運(yùn)作的，可以和jvm的特性結(jié)合起來。一些文件系統(tǒng)的相關(guān)命令參數(shù)要熟知，后面可以類比于HDFS。另外，Linux環(huán)境變量加載順序和時(shí)間配置也需要掌握。

2.MapReduce。大家可以了解它的計(jì)算框架，比如MapReduce和YARN的資源調(diào)度和處理過程是怎樣的，如何去執(zhí)行一個(gè)MapReduce程序，以及reducer和partitioner等等這些中間過程做了什么動作。

3.HDFS。有必要去弄明白HDFS分布式文件系統(tǒng)的架構(gòu)，搞清楚數(shù)據(jù)和元數(shù)據(jù)的關(guān)系以及安全模式，要去掌握一下HDFS+zookeeper實(shí)現(xiàn)HA的方式。hadoop集群的搭建，包括系統(tǒng)準(zhǔn)備與初始化

、硬件的選擇、參數(shù)配置、集群故障的診斷等，最后可以了解一下HDFS組件的優(yōu)化。

4.Hbase?？赡芎芏嗥髽I(yè)不會具體用到Hbase，而這個(gè)要視具體場景而定。我們可以先系統(tǒng)的學(xué)習(xí)概念和一些基礎(chǔ)的操作，同時(shí)了解NOSQL以及分布式數(shù)據(jù)庫的數(shù)據(jù)模型以及特性，和一些典型應(yīng)用場景。

5.Flume和Kafka。流式計(jì)算我們聽得比較多了，而可能并不清楚具體內(nèi)容。這里我們可以去了解流式計(jì)算的計(jì)算框架，通過實(shí)例我們可以比較容易明白flume和kafka如何一起配合來實(shí)現(xiàn)一個(gè)應(yīng)用日志實(shí)時(shí)分析系統(tǒng)，同時(shí)我們在學(xué)習(xí)spark streaming的時(shí)候也可以去類比和Storm/Flink真正的流式計(jì)算的區(qū)別在哪里，應(yīng)用場景和各自的優(yōu)缺點(diǎn)是什么。

6.Hive。了解一下hive的產(chǎn)生動機(jī)。和傳統(tǒng)sql語句使用上的對比。hive的函數(shù)有哪些，有哪些復(fù)雜數(shù)據(jù)類型。怎么使用hive進(jìn)行查詢和分析，比如創(chuàng)建庫表，怎么將hdfs上的數(shù)據(jù)load到hive里面查看，怎么通過sqoop將MySQL的數(shù)據(jù)導(dǎo)入到hive表中等等。需要掌握分區(qū)表怎么使用，怎么去優(yōu)化和擴(kuò)展hive的使用。

7.spark。了解spark sql的出現(xiàn)動機(jī)，spark背后的RDD原理。單機(jī)版和集群版的部署。RDD、DataFrame和DataSet的關(guān)系以及如何演變的?？梢灾攸c(diǎn)關(guān)注spark程序的運(yùn)行流程，包括并行處理和數(shù)據(jù)本地化的概念。最后要掌握spark性能優(yōu)化的常用方法廣播變量和累加器。

8.數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)。這里還是需要一定的統(tǒng)計(jì)學(xué)、概率論、線性代數(shù)等數(shù)學(xué)基礎(chǔ)?？梢哉莆諜C(jī)器學(xué)習(xí)里面的3C，推薦系統(tǒng)的原理等，如何通過spark的組件spark Mlib去輔助推薦系統(tǒng)等。這里你會真切感受到學(xué)好數(shù)學(xué)多么地重要...

建議大家邊學(xué)習(xí)邊做筆記，要不然知識點(diǎn)太分散不容易記住。然后演示中的操作自己多動手實(shí)踐，畢竟數(shù)據(jù)分析還要多動手才能鞏固。另外，很多知識點(diǎn)的修行還要靠個(gè)人的持續(xù)才行，畢竟更新速度都比較快，不能完全依賴?yán)蠋煹闹v解，最好是去多去看看官方文檔，多了解新舊特性和應(yīng)用場景。

寫得比較粗糙，希望能給大家的學(xué)習(xí)帶來那么一點(diǎn)兒的助攻~最后，祝大家學(xué)習(xí)完這門課程都能有所收獲~~

當(dāng)前題目：大數(shù)據(jù)工程師微職位學(xué)習(xí)分享
新聞來源：http://m.jiaotiyi.com/article/iggccd.html

網(wǎng)站建設(shè)知識

大數(shù)據(jù)工程師微職位學(xué)習(xí)分享

其他資訊