為什么要用Hadoop

這篇文章主要講解了“為什么要用Hadoop”，文中的講解內(nèi)容簡單清晰，易于學(xué)習(xí)與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學(xué)習(xí)“為什么要用Hadoop”吧！

為寶興等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計制作服務(wù)，及寶興網(wǎng)站建設(shè)行業(yè)解決方案。主營業(yè)務(wù)為成都網(wǎng)站設(shè)計、成都網(wǎng)站制作、寶興網(wǎng)站設(shè)計，以傳統(tǒng)方式定制建設(shè)網(wǎng)站，并提供域名空間備案等一條龍服務(wù)，秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務(wù)。我們深信只要達到每一位用戶的要求，就會得到認可，從而選擇與我們長期合作。這樣，我們也可以走得更遠！

什么是 Hadoop

Hadoop 是由很多技術(shù)項目組成的一個生態(tài)系統(tǒng)。狹義的 Hadoop 有三個框架：

海量數(shù)據(jù)的存儲 - HDFS（Hadoop Distributed File System）
海量數(shù)據(jù)的分析 - MapReduce
資源管理調(diào)度 - YARN（Yet Another Resouce Negotiator）

以上狹義的 Hadoop 最擅長的僅僅是做海量離線日志分析，廣義的 Hadoop 包含很多組件，現(xiàn)在可以做非常多的事情，應(yīng)用場景非常廣，包括實時計算等。

大數(shù)據(jù)計算的核心是移動計算而不是移動數(shù)據(jù)：將運算程序分發(fā)到分布式的數(shù)據(jù)集上運行，而不是移動數(shù)據(jù)。

為什么要使用 Hadoop

數(shù)據(jù)量不斷增大，單節(jié)點無法應(yīng)對海量數(shù)據(jù)的處理，需要使用分布式架構(gòu)，需要考慮的復(fù)雜情況非常多，如：任務(wù)監(jiān)控、節(jié)點存活監(jiān)控、數(shù)據(jù)如何共享、中間數(shù)據(jù)如何傳遞等。Hadoop 作為分布式框架，已經(jīng)為我們解決了這些問題，使用它極大降低了海量數(shù)據(jù)下的公共數(shù)據(jù)處理問題。

如何解決海量數(shù)據(jù)的存儲

首先了解一下什么是 NFS，NFS 網(wǎng)絡(luò)文件系統(tǒng)將文件掛載到不同的機器上，通過一臺服務(wù)器（NFS Server）作為統(tǒng)一的入口，其他客戶端訪問 Server，Server 將從目標機器上取文件給客戶端。簡單理解為有一個文件服務(wù)器在遠端，叫 NFS Server，上面有共享文件，可以將它掛載到你本地的機器上，訪問 NFS Server 就像訪問自己電腦的某一個磁盤一樣（比如 C 盤）。

HDFS 是有 NameNode 和 DataNode 的概念，最基本的模型是一臺 NameNode，多臺 DataNode。NameNode 存儲元信息，如某個文件存放在哪臺服務(wù)器上，有幾份備份等。DataNode 存儲數(shù)據(jù)，數(shù)據(jù)文件被切分成塊（block），每一塊存儲在多個節(jié)點上，互為備份，默認是 3 份，可以在同一個機架，一般為了保證高可用，會放在不同機架上。

HDFS 和 NFS 的主要區(qū)別：

HDFS 數(shù)據(jù)冗余，具有容錯性，而 NFS 只存儲一份；
HDFS 數(shù)據(jù)多副本解決單點瓶頸，讀取性能會比 NFS 更好；

如何解決海量數(shù)據(jù)的計算

海量數(shù)據(jù)的計算關(guān)鍵是移動計算而不是移動數(shù)據(jù)。

假設(shè)有特別多的數(shù)據(jù)需要計算，只用一臺機器是無法實現(xiàn)的，因為數(shù)據(jù)無法一次讀取完，會對內(nèi)存造成特別大的壓力，需要讀取很多次，會受網(wǎng)絡(luò)的限制。

Hadoop 通過 MapReduce 實現(xiàn)海量數(shù)據(jù)的計算，數(shù)據(jù)存儲在多個 DataNode 上，Map 階段將計算程序分發(fā)到每個 DataNode 上，將每個節(jié)點上的計算結(jié)果通過網(wǎng)絡(luò)發(fā)送到某一臺做 Reduce 計算的機器，Reduce 將結(jié)果進行匯總輸出。

感謝各位的閱讀，以上就是“為什么要用Hadoop”的內(nèi)容了，經(jīng)過本文的學(xué)習(xí)后，相信大家對為什么要用Hadoop這一問題有了更深刻的體會，具體使用情況還需要大家實踐驗證。這里是創(chuàng)新互聯(lián)，小編將為大家推送更多相關(guān)知識點的文章，歡迎關(guān)注！

本文題目：為什么要用Hadoop
文章轉(zhuǎn)載：http://m.jiaotiyi.com/article/gheigd.html

網(wǎng)站建設(shè)知識

為什么要用Hadoop

什么是 Hadoop

為什么要使用 Hadoop

如何解決海量數(shù)據(jù)的存儲

如何解決海量數(shù)據(jù)的計算

其他資訊