Hadoop采用64M的分塊有什么優(yōu)勢(shì)

小編給大家分享一下Hadoop采用64M的分塊有什么優(yōu)勢(shì)，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

創(chuàng)新互聯(lián)公司成立以來(lái)不斷整合自身及行業(yè)資源、不斷突破觀念以使企業(yè)策略得到完善和成熟，建立了一套“以技術(shù)為基點(diǎn)，以客戶需求中心、市場(chǎng)為導(dǎo)向”的快速反應(yīng)體系。對(duì)公司的主營(yíng)項(xiàng)目，如中高端企業(yè)網(wǎng)站企劃 / 設(shè)計(jì)、行業(yè) / 企業(yè)門(mén)戶設(shè)計(jì)推廣、行業(yè)門(mén)戶平臺(tái)運(yùn)營(yíng)、手機(jī)APP定制開(kāi)發(fā)、手機(jī)網(wǎng)站制作、微信網(wǎng)站制作、軟件開(kāi)發(fā)、德陽(yáng)機(jī)房服務(wù)器托管等實(shí)行標(biāo)準(zhǔn)化操作，讓客戶可以直觀的預(yù)知到從創(chuàng)新互聯(lián)公司可以獲得的服務(wù)效果。

減少硬盤(pán)尋道時(shí)間(disk seek time)

HDFS設(shè)計(jì)前提是支持大容量的流式數(shù)據(jù)操作，所以即使是一般的數(shù)據(jù)讀寫(xiě)操作，涉及到的數(shù)據(jù)量都是比較大的。假如數(shù)據(jù)塊設(shè)置過(guò)少，那需要讀取的數(shù)據(jù)塊就比較多，由于數(shù)據(jù)塊在硬盤(pán)上非連續(xù)存儲(chǔ)，普通硬盤(pán)因?yàn)樾枰苿?dòng)磁頭，所以隨機(jī)尋址較慢，讀越多的數(shù)據(jù)塊就增大了總的硬盤(pán)尋道時(shí)間。當(dāng)硬盤(pán)尋道時(shí)間比io時(shí)間還要長(zhǎng)的多時(shí)，那么硬盤(pán)尋道時(shí)間就成了系統(tǒng)的一個(gè)瓶頸。 合適的塊大小有助于減少硬盤(pán)尋道時(shí)間，提高系統(tǒng)吞吐量。

減少Namenode內(nèi)存消耗

對(duì)于HDFS，他只有一個(gè)Namenode節(jié)點(diǎn)，他的內(nèi)存相對(duì)于Datanode來(lái)說(shuō)，是極其有限的。然而，namenode需要在其內(nèi)存FSImage文件中中記錄在Datanode中的數(shù)據(jù)塊信息，假如數(shù)據(jù)塊大小設(shè)置過(guò)少，而需要維護(hù)的數(shù)據(jù)塊信息就會(huì)過(guò)多，那Namenode的內(nèi)存可能就會(huì)傷不起了。

為什么不能遠(yuǎn)大于64MB(或128MB或256MB)

這里主要從上層的MapReduce框架來(lái)討論

Map崩潰問(wèn)題：

系統(tǒng)需要重新啟動(dòng)，啟動(dòng)過(guò)程需要重新加載數(shù)據(jù)，數(shù)據(jù)塊越大，數(shù)據(jù)加載時(shí)間越長(zhǎng)，系統(tǒng)恢復(fù)過(guò)程越長(zhǎng)。

監(jiān)管時(shí)間問(wèn)題：

主節(jié)點(diǎn)監(jiān)管其他節(jié)點(diǎn)的情況，每個(gè)節(jié)點(diǎn)會(huì)周期性的把完成的工作和狀態(tài)的更新報(bào)告回來(lái)。如果一個(gè)節(jié)點(diǎn)保持沉默超過(guò)一個(gè)預(yù)設(shè)的時(shí)間間隔，主節(jié)點(diǎn)記錄下這個(gè)節(jié)點(diǎn)狀態(tài)為死亡，并把分配給這個(gè)節(jié)點(diǎn)的數(shù)據(jù)發(fā)到別的節(jié)點(diǎn)。對(duì)于這個(gè)“預(yù)設(shè)的時(shí)間間隔”，這是從數(shù)據(jù)塊的角度大概估算的。假如是對(duì)于64MB的數(shù)據(jù)塊，我可以假設(shè)你10分鐘之內(nèi)無(wú)論如何也能解決了吧，超過(guò)10分鐘也沒(méi)反應(yīng)，那就是死了?？蓪?duì)于640MB或是1G以上的數(shù)據(jù)，我應(yīng)該要估算個(gè)多長(zhǎng)的時(shí)間內(nèi)？估算的時(shí)間短了，那就誤判死亡了，分分鐘更壞的情況是所有節(jié)點(diǎn)都會(huì)被判死亡。估算的時(shí)間長(zhǎng)了，那等待的時(shí)間就過(guò)長(zhǎng)了。所以對(duì)于過(guò)大的數(shù)據(jù)塊，這個(gè)“預(yù)設(shè)的時(shí)間間隔”不好估算。

問(wèn)題分解問(wèn)題：

數(shù)據(jù)量大小是問(wèn)題解決的復(fù)雜度是成線性關(guān)系的。對(duì)于同個(gè)算法，處理的數(shù)據(jù)量越大，它的時(shí)間復(fù)雜度也就越大。

約束Map輸出：

在Map Reduce框架里，Map之后的數(shù)據(jù)是要經(jīng)過(guò)排序才執(zhí)行Reduce操作的。想想歸并排序算法的思想，對(duì)小文件進(jìn)行排序，然后將小文件歸并成大文件的思想，然后就會(huì)懂這點(diǎn)了....

以上是“Hadoop采用64M的分塊有什么優(yōu)勢(shì)”這篇文章的所有內(nèi)容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內(nèi)容對(duì)大家有所幫助，如果還想學(xué)習(xí)更多知識(shí)，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道！

網(wǎng)頁(yè)標(biāo)題：Hadoop采用64M的分塊有什么優(yōu)勢(shì)
文章出自：http://m.jiaotiyi.com/article/geopsj.html

網(wǎng)站建設(shè)知識(shí)

Hadoop采用64M的分塊有什么優(yōu)勢(shì)

減少硬盤(pán)尋道時(shí)間(disk seek time)

減少Namenode內(nèi)存消耗

為什么不能遠(yuǎn)大于64MB(或128MB或256MB)

Map崩潰問(wèn)題：

監(jiān)管時(shí)間問(wèn)題：

問(wèn)題分解問(wèn)題：

約束Map輸出：

其他資訊