十年網(wǎng)站開發(fā)經(jīng)驗 + 多家企業(yè)客戶 + 靠譜的建站團隊
量身定制 + 運營維護+專業(yè)推廣+無憂售后,網(wǎng)站問題一站解決
這篇文章主要講解了“為什么要用Hadoop”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“為什么要用Hadoop”吧!
為寶興等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計制作服務(wù),及寶興網(wǎng)站建設(shè)行業(yè)解決方案。主營業(yè)務(wù)為成都網(wǎng)站設(shè)計、成都網(wǎng)站制作、寶興網(wǎng)站設(shè)計,以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務(wù)。我們深信只要達到每一位用戶的要求,就會得到認可,從而選擇與我們長期合作。這樣,我們也可以走得更遠!
Hadoop 是由很多技術(shù)項目組成的一個生態(tài)系統(tǒng)。狹義的 Hadoop 有三個框架:
以上狹義的 Hadoop 最擅長的僅僅是做海量離線日志分析,廣義的 Hadoop 包含很多組件,現(xiàn)在可以做非常多的事情,應(yīng)用場景非常廣,包括實時計算等。
大數(shù)據(jù)計算的核心是移動計算而不是移動數(shù)據(jù):將運算程序分發(fā)到分布式的數(shù)據(jù)集上運行,而不是移動數(shù)據(jù)。
數(shù)據(jù)量不斷增大,單節(jié)點無法應(yīng)對海量數(shù)據(jù)的處理,需要使用分布式架構(gòu),需要考慮的復(fù)雜情況非常多,如:任務(wù)監(jiān)控、節(jié)點存活監(jiān)控、數(shù)據(jù)如何共享、中間數(shù)據(jù)如何傳遞等。Hadoop 作為分布式框架,已經(jīng)為我們解決了這些問題,使用它極大降低了海量數(shù)據(jù)下的公共數(shù)據(jù)處理問題。
首先了解一下什么是 NFS,NFS 網(wǎng)絡(luò)文件系統(tǒng)將文件掛載到不同的機器上,通過一臺服務(wù)器(NFS Server)作為統(tǒng)一的入口,其他客戶端訪問 Server,Server 將從目標機器上取文件給客戶端。簡單理解為有一個文件服務(wù)器在遠端,叫 NFS Server,上面有共享文件,可以將它掛載到你本地的機器上,訪問 NFS Server 就像訪問自己電腦的某一個磁盤一樣(比如 C 盤)。
HDFS 是有 NameNode 和 DataNode 的概念,最基本的模型是一臺 NameNode,多臺 DataNode。NameNode 存儲元信息,如某個文件存放在哪臺服務(wù)器上,有幾份備份等。DataNode 存儲數(shù)據(jù),數(shù)據(jù)文件被切分成塊(block),每一塊存儲在多個節(jié)點上,互為備份,默認是 3 份,可以在同一個機架,一般為了保證高可用,會放在不同機架上。
HDFS 和 NFS 的主要區(qū)別:
海量數(shù)據(jù)的計算關(guān)鍵是移動計算而不是移動數(shù)據(jù)。
假設(shè)有特別多的數(shù)據(jù)需要計算,只用一臺機器是無法實現(xiàn)的,因為數(shù)據(jù)無法一次讀取完,會對內(nèi)存造成特別大的壓力,需要讀取很多次,會受網(wǎng)絡(luò)的限制。
Hadoop 通過 MapReduce 實現(xiàn)海量數(shù)據(jù)的計算,數(shù)據(jù)存儲在多個 DataNode 上,Map 階段將計算程序分發(fā)到每個 DataNode 上,將每個節(jié)點上的計算結(jié)果通過網(wǎng)絡(luò)發(fā)送到某一臺做 Reduce 計算的機器,Reduce 將結(jié)果進行匯總輸出。
感謝各位的閱讀,以上就是“為什么要用Hadoop”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對為什么要用Hadoop這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識點的文章,歡迎關(guān)注!