十年網(wǎng)站開(kāi)發(fā)經(jīng)驗(yàn) + 多家企業(yè)客戶 + 靠譜的建站團(tuán)隊(duì)
量身定制 + 運(yùn)營(yíng)維護(hù)+專業(yè)推廣+無(wú)憂售后,網(wǎng)站問(wèn)題一站解決
報(bào)錯(cuò):
成都創(chuàng)新互聯(lián)公司專注于正藍(lán)企業(yè)網(wǎng)站建設(shè),響應(yīng)式網(wǎng)站設(shè)計(jì),商城網(wǎng)站開(kāi)發(fā)。正藍(lán)網(wǎng)站建設(shè)公司,為正藍(lán)等地區(qū)提供建站服務(wù)。全流程按需定制開(kāi)發(fā),專業(yè)設(shè)計(jì),全程項(xiàng)目跟蹤,成都創(chuàng)新互聯(lián)公司專業(yè)和態(tài)度為您提供的服務(wù)
master.HMaster: Failed to become active master
環(huán)境:
OS: CENTOS6.5
Hadoop: 2.7.1
Hbase: 1.0.4
ZooKeeper: 3.4.6
動(dòng)作:
Hbase 升級(jí)版本1.0.4 --> 1.2.4
下午接到老朋友電話,說(shuō)Hbase Master開(kāi)不起來(lái),因?yàn)槭巧a(chǎn)環(huán)境,所以異常著急。事發(fā)在凌晨4點(diǎn)多,有一個(gè)服務(wù)器的硬盤壞了,導(dǎo)致該服務(wù)器的Hadoop服務(wù)異常了,Hbase也受到了影響,應(yīng)該是程式正在寫(xiě)hbase的進(jìn)程受到影響,隨之Hbase集群掛掉了。管理員接到產(chǎn)線電話后,×××連接到服務(wù)器重啟服務(wù),hadoop開(kāi)啟是正常的,可是Hbase的Master一直無(wú)法重啟。并報(bào)錯(cuò),如下:
參考了很多很多的文章,一直無(wú)法解決此問(wèn)題,一般Hbase的問(wèn)題解決就是2個(gè)思路,要么內(nèi)存分配有問(wèn)題,要么就是參數(shù)異常,這次顯然并不簡(jiǎn)單,我們有懷疑過(guò)是不是Zookeeper異常,導(dǎo)致一直無(wú)法獲得ClusterID,可是如果Zookeeper異常的話hadoop不可能開(kāi)得起來(lái),所以排除Zookeeper異常造成。
最后看到google上有提到,是bug的影響。最終,定出2種方案,要么升級(jí)Hbase版本,要么數(shù)據(jù)清除重構(gòu)。相對(duì)之下,更新Hbase版本比較快和安全,因?yàn)镠base的數(shù)據(jù)是存儲(chǔ)在Hadoop里的,Hadoop的數(shù)據(jù)沒(méi)有問(wèn)題,所以升級(jí)Hbase不會(huì)對(duì)Hadoop的數(shù)據(jù)產(chǎn)生影響。
由于接近吃飯時(shí)間了,我就去外面打個(gè)飯,還沒(méi)有打包完,就接到好消息,說(shuō)數(shù)據(jù)庫(kù)集群開(kāi)起來(lái)了,而且數(shù)據(jù)沒(méi)有丟,一切正常。
整個(gè)解決過(guò)程接近4個(gè)小時(shí),花了很多時(shí)間去研究問(wèn)題,也嘗試了很多的方法,最終要升級(jí)數(shù)據(jù)庫(kù)集群版本,這還是第一次。Bug這種東西,不會(huì)經(jīng)常遇到,可是遇到的時(shí)候就是最郁悶的時(shí)候,要么繞過(guò),要么迎面解決。這次我們是迎面解決了問(wèn)題。Yeah.