十年網(wǎng)站開(kāi)發(fā)經(jīng)驗(yàn) + 多家企業(yè)客戶 + 靠譜的建站團(tuán)隊(duì)
量身定制 + 運(yùn)營(yíng)維護(hù)+專業(yè)推廣+無(wú)憂售后,網(wǎng)站問(wèn)題一站解決
小編給大家分享一下Hadoop采用64M的分塊有什么優(yōu)勢(shì),相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

創(chuàng)新互聯(lián)公司成立以來(lái)不斷整合自身及行業(yè)資源、不斷突破觀念以使企業(yè)策略得到完善和成熟,建立了一套“以技術(shù)為基點(diǎn),以客戶需求中心、市場(chǎng)為導(dǎo)向”的快速反應(yīng)體系。對(duì)公司的主營(yíng)項(xiàng)目,如中高端企業(yè)網(wǎng)站企劃 / 設(shè)計(jì)、行業(yè) / 企業(yè)門(mén)戶設(shè)計(jì)推廣、行業(yè)門(mén)戶平臺(tái)運(yùn)營(yíng)、手機(jī)APP定制開(kāi)發(fā)、手機(jī)網(wǎng)站制作、微信網(wǎng)站制作、軟件開(kāi)發(fā)、德陽(yáng)機(jī)房服務(wù)器托管等實(shí)行標(biāo)準(zhǔn)化操作,讓客戶可以直觀的預(yù)知到從創(chuàng)新互聯(lián)公司可以獲得的服務(wù)效果。
HDFS設(shè)計(jì)前提是支持大容量的流式數(shù)據(jù)操作,所以即使是一般的數(shù)據(jù)讀寫(xiě)操作,涉及到的數(shù)據(jù)量都是比較大的。假如數(shù)據(jù)塊設(shè)置過(guò)少,那需要讀取的數(shù)據(jù)塊就比較多,由于數(shù)據(jù)塊在硬盤(pán)上非連續(xù)存儲(chǔ),普通硬盤(pán)因?yàn)樾枰苿?dòng)磁頭,所以隨機(jī)尋址較慢,讀越多的數(shù)據(jù)塊就增大了總的硬盤(pán)尋道時(shí)間。當(dāng)硬盤(pán)尋道時(shí)間比io時(shí)間還要長(zhǎng)的多時(shí),那么硬盤(pán)尋道時(shí)間就成了系統(tǒng)的一個(gè)瓶頸。 合適的塊大小有助于減少硬盤(pán)尋道時(shí)間,提高系統(tǒng)吞吐量。
對(duì)于HDFS,他只有一個(gè)Namenode節(jié)點(diǎn),他的內(nèi)存相對(duì)于Datanode來(lái)說(shuō),是極其有限的。然而,namenode需要在其內(nèi)存FSImage文件中中記錄在Datanode中的數(shù)據(jù)塊信息,假如數(shù)據(jù)塊大小設(shè)置過(guò)少,而需要維護(hù)的數(shù)據(jù)塊信息就會(huì)過(guò)多,那Namenode的內(nèi)存可能就會(huì)傷不起了。
這里主要從上層的MapReduce框架來(lái)討論
系統(tǒng)需要重新啟動(dòng),啟動(dòng)過(guò)程需要重新加載數(shù)據(jù),數(shù)據(jù)塊越大,數(shù)據(jù)加載時(shí)間越長(zhǎng),系統(tǒng)恢復(fù)過(guò)程越長(zhǎng)。
主節(jié)點(diǎn)監(jiān)管其他節(jié)點(diǎn)的情況,每個(gè)節(jié)點(diǎn)會(huì)周期性的把完成的工作和狀態(tài)的更新報(bào)告回來(lái)。如果一個(gè)節(jié)點(diǎn)保持沉默超過(guò)一個(gè)預(yù)設(shè)的時(shí)間間隔,主節(jié)點(diǎn)記錄下這個(gè)節(jié)點(diǎn)狀態(tài)為死亡,并把分配給這個(gè)節(jié)點(diǎn)的數(shù)據(jù)發(fā)到別的節(jié)點(diǎn)。對(duì)于這個(gè)“預(yù)設(shè)的時(shí)間間隔”,這是從數(shù)據(jù)塊的角度大概估算的。假如是對(duì)于64MB的數(shù)據(jù)塊,我可以假設(shè)你10分鐘之內(nèi)無(wú)論如何也能解決了吧,超過(guò)10分鐘也沒(méi)反應(yīng),那就是死了??蓪?duì)于640MB或是1G以上的數(shù)據(jù),我應(yīng)該要估算個(gè)多長(zhǎng)的時(shí)間內(nèi)?估算的時(shí)間短了,那就誤判死亡了,分分鐘更壞的情況是所有節(jié)點(diǎn)都會(huì)被判死亡。估算的時(shí)間長(zhǎng)了,那等待的時(shí)間就過(guò)長(zhǎng)了。所以對(duì)于過(guò)大的數(shù)據(jù)塊,這個(gè)“預(yù)設(shè)的時(shí)間間隔”不好估算。
數(shù)據(jù)量大小是問(wèn)題解決的復(fù)雜度是成線性關(guān)系的。對(duì)于同個(gè)算法,處理的數(shù)據(jù)量越大,它的時(shí)間復(fù)雜度也就越大。
在Map Reduce框架里,Map之后的數(shù)據(jù)是要經(jīng)過(guò)排序才執(zhí)行Reduce操作的。想想歸并排序算法的思想,對(duì)小文件進(jìn)行排序,然后將小文件歸并成大文件的思想,然后就會(huì)懂這點(diǎn)了....
以上是“Hadoop采用64M的分塊有什么優(yōu)勢(shì)”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!