十年網(wǎng)站開(kāi)發(fā)經(jīng)驗(yàn) + 多家企業(yè)客戶 + 靠譜的建站團(tuán)隊(duì)
量身定制 + 運(yùn)營(yíng)維護(hù)+專業(yè)推廣+無(wú)憂售后,網(wǎng)站問(wèn)題一站解決
1、為何不用RAID
HDFS所提供的節(jié)點(diǎn)間數(shù)據(jù)復(fù)制技術(shù)已可滿足數(shù)據(jù)備份需求,無(wú)需使用RAID冗余機(jī)制。
RAID 0速度比JBOD(Just a Bunch Of Disks)慢,JBOD在所有磁盤之間循環(huán)調(diào)度HDFS塊。RAID 0的讀寫操作受限于磁盤陣列中最慢盤片的速度,而JBOD的磁盤操作均獨(dú)立,因而篇平均讀寫速度高于最慢盤片的讀寫速度。
2、服務(wù)是否可以放在一臺(tái)服務(wù)器上
對(duì)于一個(gè)小集群(幾十個(gè)節(jié)點(diǎn))而言,在一臺(tái)master機(jī)器上同時(shí)運(yùn)行namenode和jobtracker通常沒(méi)有問(wèn)題(需確保至少一份namenode的元數(shù)據(jù)被另存在遠(yuǎn)程文件系統(tǒng)中)。但是隨著HDFS中的集群和文件數(shù)不斷增長(zhǎng),namenode需要使用更多的內(nèi)存,那么namenode和jobtracker最好分別放到不同的機(jī)器中。
輔助namenode可以和namenode一起運(yùn)行在同一臺(tái)機(jī)器之中,但是同樣由于內(nèi)存使用的原因(輔助namenode和主namenode的內(nèi)存需求相同),二者最好運(yùn)行在獨(dú)立的服務(wù)器上;對(duì)于大規(guī)模集群來(lái)說(shuō)更是如此。
3、hadoop配置文件
hadoop集群的每個(gè)節(jié)點(diǎn)各自保存自己的配置文件,并沒(méi)有放在一個(gè)單獨(dú)的全局位置,由管理員去完成配置文件的同步。hadoop提供一個(gè)基本工具來(lái)進(jìn)行同步,即rsync。此外,dsh或pdsh等并行shell工具也可完成該任務(wù)。
hadoop也支持為所有的master機(jī)器和worker機(jī)器采用同一套配置文件。這個(gè)做法的大優(yōu)勢(shì)就是簡(jiǎn)單。但是,這種一體適用的配置模型并不適合某些集群。以擴(kuò)展集群為例,當(dāng)試圖為集群添加新機(jī)器,且新機(jī)器的硬件規(guī)格與現(xiàn)有機(jī)器不同時(shí),則需要新建一套配置文件,以充分利用新硬件的額外資源。
在這種情況下,需要引入“機(jī)器類”的概念,為每一個(gè)機(jī)器類維護(hù)單獨(dú)的配置文件。hadoop沒(méi)有提供這個(gè)操作的工具,需要借助外部工具來(lái)執(zhí)行該配置操作。
4、獨(dú)立安裝MapReduce和HDFS的好處
分開(kāi)兩個(gè)服務(wù)的前提條件是兼容性限制放寬,這樣有利于升級(jí),例如,可以一邊便捷的升級(jí)MapReduce(可能打一個(gè)補(bǔ)丁),一邊仍然運(yùn)行HDFS。
需要注意的是即使獨(dú)立安裝了HDFS和MapReduce,它們?nèi)稳豢梢怨蚕砼渲眯畔ⅲ浞椒ㄊ鞘褂?-config選項(xiàng)(啟動(dòng)守護(hù)進(jìn)程時(shí)),指向同一個(gè)配置目錄。鑒于它們所產(chǎn)生的日志文件的名稱不同,不會(huì)導(dǎo)致沖突,因此任然可以將日志輸出到同一個(gè)目錄中。
5、masters節(jié)點(diǎn)
為了運(yùn)行hadoop內(nèi)置腳本來(lái)操作集群服務(wù)和守護(hù)進(jìn)程的啟停,需要預(yù)先知道集群內(nèi)的所有機(jī)器。兩個(gè)文件可以達(dá)成這個(gè)目標(biāo),即masers和slaves。各文件逐行記錄一些機(jī)器的名稱或IP地址。masters文件的名稱有點(diǎn)誤導(dǎo)人,它主要記錄的是擬運(yùn)行輔助namenode的所有機(jī)器。
namenode在內(nèi)存中保存整個(gè)命名空間中的所有元數(shù)據(jù)和塊元數(shù)據(jù),其內(nèi)存需求很大。輔助namenode在大部分時(shí)間里是空閑的,但是它在創(chuàng)建檢查點(diǎn)時(shí)的內(nèi)存需求與namenode是差不多的。一旦文件系統(tǒng)包含大量文件,單臺(tái)機(jī)器的物理內(nèi)存便無(wú)法同時(shí)運(yùn)行主namenode和輔助namenode。
輔助namenode保存一份最新的檢查點(diǎn),記錄它創(chuàng)建的文件系統(tǒng)的元數(shù)據(jù)。將這些歷史信息備份到其他節(jié)點(diǎn)上,有助于數(shù)據(jù)丟失(或系統(tǒng)崩潰)的情況下恢復(fù)namenode的元數(shù)據(jù)文件。
在一個(gè)運(yùn)行大量MapReduce作業(yè)的高負(fù)載集群上,jobtracker會(huì)占用大量?jī)?nèi)存和CPU資源,因此它最好運(yùn)行在一個(gè)專用節(jié)點(diǎn)上。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。