十年網(wǎng)站開發(fā)經(jīng)驗 + 多家企業(yè)客戶 + 靠譜的建站團(tuán)隊
量身定制 + 運營維護(hù)+專業(yè)推廣+無憂售后,網(wǎng)站問題一站解決
隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算的興起,以及移動智能終端的快速普及,數(shù)據(jù)信息將成為企業(yè)戰(zhàn)略資產(chǎn),對內(nèi)可服務(wù)于市場精確營銷、網(wǎng)絡(luò)保障優(yōu)化、企業(yè)經(jīng)營決策,對外可提供數(shù)據(jù)服務(wù)。
目前,大數(shù)據(jù)運維存在短板:一方面,數(shù)據(jù)時效性難滿足企業(yè)對業(yè)務(wù)實時監(jiān)控的需求,多廠家產(chǎn)品制式不統(tǒng)一,難以統(tǒng)一運維;另一方面,查詢和分析用戶訪問日志、定位故障原因主要依賴于登錄節(jié)點服務(wù)器,效率偏低。本文從數(shù)據(jù)采集、匯聚、清洗、應(yīng)用全程實現(xiàn)業(yè)務(wù)數(shù)據(jù)運營方面分析,以期降低系統(tǒng)建設(shè)和運營成本。
研究概述
數(shù)據(jù)采集
數(shù)據(jù)采集智能優(yōu)化如圖1所示,從數(shù)據(jù)源方面來看,可以從DPI、3A、NAT、DNS、綜合資管、軟探針六類數(shù)據(jù)源采集大數(shù)據(jù),接口方式為FTP。其中,DPI、NAT以準(zhǔn)實時的方式接入,時延小于1分鐘,3A數(shù)據(jù)以15分鐘粒度接入。利用智能掃描變化日志,實現(xiàn)智能傳送,解決傳統(tǒng)文件對接時延過高問題。
圖1 數(shù)據(jù)采集智能優(yōu)化
數(shù)據(jù)稽核
數(shù)據(jù)清洗核查與整改思路如圖2所示,本文設(shè)計了數(shù)據(jù)先清洗入庫,再核查整改的機(jī)制。通過程序自動化稽查,確保數(shù)據(jù)采集的準(zhǔn)確性。
圖2 數(shù)據(jù)清洗核查與整改思路
數(shù)據(jù)清洗規(guī)則樣例如圖3所示,基于標(biāo)準(zhǔn)的正則語法進(jìn)行后臺配置和管理,可動態(tài)配置。
圖3 數(shù)據(jù)清洗規(guī)則樣例
數(shù)據(jù)稽核過程如圖4所示,數(shù)據(jù)文件稽核即對文件傳輸數(shù)據(jù)粒度、文件名稱、文件大小進(jìn)行稽核,防止異常數(shù)據(jù)入庫、關(guān)鍵數(shù)據(jù)文件丟失。數(shù)據(jù)內(nèi)容有效性稽核即對文件的空字段進(jìn)行標(biāo)識,以及對字段數(shù)值異常超限進(jìn)行判識。
圖4 數(shù)據(jù)稽核過程
數(shù)據(jù)建模與存儲
通過分析大數(shù)據(jù)的特點,對數(shù)據(jù)進(jìn)行分層存儲。數(shù)據(jù)存儲設(shè)計如圖5所示,包括原始數(shù)據(jù)層、基礎(chǔ)數(shù)據(jù)層、輕度匯總層、應(yīng)用數(shù)據(jù)層。根據(jù)每一層相應(yīng)的數(shù)據(jù)特點,設(shè)置不同的存儲周期。對每一層設(shè)定相應(yīng)的命名規(guī)范,如原始數(shù)據(jù)層的命名規(guī)范是:業(yè)務(wù)域_數(shù)據(jù)系統(tǒng)_協(xié)議類型_STD,輕度匯總層的命名規(guī)范是:SD_協(xié)議類型_匯總粒度,以此對表進(jìn)行統(tǒng)一而規(guī)范的管理。
圖5 數(shù)據(jù)存儲設(shè)計
數(shù)據(jù)存儲的規(guī)則如下:在原始數(shù)據(jù)層,存儲和采集層完全一樣的數(shù)據(jù),便于數(shù)據(jù)的溯源;在基礎(chǔ)數(shù)據(jù)層,存儲了由原始數(shù)據(jù)層進(jìn)行簡單數(shù)據(jù)清洗后剩余的標(biāo)準(zhǔn)數(shù)據(jù),幾乎保留全量數(shù)據(jù);在輕度匯總層,采用大寬表的設(shè)計思路,關(guān)聯(lián)不同來源的數(shù)據(jù),保留盡量多的維度信息,這樣做的優(yōu)點是建模數(shù)據(jù)可共享,匯總維度通用性高,節(jié)省了計算和存儲資源;應(yīng)用數(shù)據(jù)層是根據(jù)不同的業(yè)務(wù)需求,存儲不同維度、不同粒度的數(shù)據(jù),供應(yīng)用層直接使用。
數(shù)據(jù)應(yīng)用
利用搜索引擎、統(tǒng)一規(guī)范、異步處理技術(shù)實現(xiàn)數(shù)據(jù)應(yīng)用。首先,利用搜索引擎進(jìn)行內(nèi)存查詢,可以提升數(shù)據(jù)處理效率;其次,規(guī)范統(tǒng)一管理多廠家數(shù)據(jù),有利于對日志規(guī)范字段、統(tǒng)一歸檔處理、統(tǒng)一呈現(xiàn),并解決多廠家的集中管理問題;最后,利用消息隊列kafka集群實現(xiàn)異步日志消費,完成海量日志數(shù)據(jù)的處理。
建立多租戶管理機(jī)制
建立多租戶管理機(jī)制有助于實現(xiàn)多人共同開發(fā),資源相互隔離。例如,吉林移動對接了多種不同的大數(shù)據(jù)源,支撐“家寬”端到端性能管理、DNS日志分析等多套不同的上層應(yīng)用,需要多人同時基于大數(shù)據(jù)平臺進(jìn)行數(shù)據(jù)處理流程的開發(fā)?;贖adoop的組件Ranger建立了多租戶管理機(jī)制,給不同的租戶分配不同的存儲資源以及計算資源。同時,同一項目組下的用戶可以共同開發(fā)相同的數(shù)據(jù)處理流程,且不同的項目之間資源隔離,包括存儲資源和計算資源。
應(yīng)用案例
目前,吉林省大數(shù)據(jù)平臺中集群規(guī)模有90個節(jié)點,擁有大數(shù)據(jù)批處理與流處理的能力,可以完成日均10T的多種數(shù)據(jù)源的接入,以及不同數(shù)據(jù)源的數(shù)據(jù)清洗、數(shù)據(jù)核查、數(shù)據(jù)存儲、數(shù)據(jù)分析、寬表合成、維表計算等多種工作。合成了用戶賬號級別的詳細(xì)話單,分別以小時粒度及日粒度出具各種維表,滿足業(yè)務(wù)性能分析的要求。
家寬端到端數(shù)據(jù)分析
大數(shù)據(jù)平臺實現(xiàn)了家寬數(shù)據(jù)的集中管理與統(tǒng)一分析。實現(xiàn)用戶溯源功能,質(zhì)差網(wǎng)元、質(zhì)差小區(qū)、質(zhì)差內(nèi)容源的分析功能,出口數(shù)據(jù)分析以及內(nèi)容運營數(shù)據(jù)分析功能。
面向省市兩級,在“家寬”發(fā)展、場景保障、日常監(jiān)控、資源考核等方面提供了強(qiáng)有力的支撐。
在“家寬”全景視圖場景中,可以實時監(jiān)控活躍用戶數(shù)及分布、“家寬”服務(wù)大比率,以及累計用戶數(shù)量、昨日開戶數(shù)、退網(wǎng)數(shù),并分析3A認(rèn)證失敗原因等。
在綜合業(yè)務(wù)區(qū)接入視圖方面,基于GIS地圖實現(xiàn)匯聚機(jī)房、光交箱、管道路由、綜合業(yè)務(wù)接入?yún)^(qū)的圖層呈現(xiàn);觀測每個居民小區(qū)“家寬”用戶開通情況。
保障視圖則是基于GIS地圖呈現(xiàn)傳輸光纜段(一干、二干、本地骨干、本地匯聚、本地接入),實時呈現(xiàn)基站退服及傳輸網(wǎng)元告警,并通過地圖圈選功能劃定因光纜中斷影響的基站范圍。
跨專業(yè)運維支撐
大數(shù)據(jù)平臺支持跨專業(yè)運維,可以為無線專業(yè)、核心網(wǎng)專業(yè)、地市運維、互聯(lián)網(wǎng)專業(yè)、IP專業(yè)等人員提供網(wǎng)元側(cè)問題排查的數(shù)據(jù),快速定位問題。同時,可以提升業(yè)務(wù)感知,針對用戶投訴、訪問質(zhì)量等問題,利用數(shù)據(jù)支撐各專業(yè)人員進(jìn)行問題排查。
大數(shù)據(jù)平臺能實現(xiàn)集中性能分析,主要通過話單的規(guī)則判定質(zhì)差,涉及無線、核心網(wǎng)等多個專業(yè),通過數(shù)據(jù)分析支撐各專業(yè)的問題處理。例如,某核心網(wǎng)元的咪咕閱讀業(yè)務(wù)HTTP成功率低,排查核心網(wǎng)設(shè)備問題后,需獲取業(yè)務(wù)的性能數(shù)據(jù),最終,利用DNS日志、投訴分析、資源管理等模塊,對服務(wù)器、域名分析進(jìn)行核查,查到了問題所在。