十年網(wǎng)站開發(fā)經(jīng)驗(yàn) + 多家企業(yè)客戶 + 靠譜的建站團(tuán)隊(duì)
量身定制 + 運(yùn)營(yíng)維護(hù)+專業(yè)推廣+無(wú)憂售后,網(wǎng)站問題一站解決
創(chuàng)新互聯(lián)堅(jiān)持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:成都做網(wǎng)站、網(wǎng)站建設(shè)、外貿(mào)營(yíng)銷網(wǎng)站建設(shè)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿足客戶于互聯(lián)網(wǎng)時(shí)代的周至網(wǎng)站設(shè)計(jì)、移動(dòng)媒體設(shè)計(jì)的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!
數(shù)據(jù)融合是把不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為企業(yè)提供全面的數(shù)據(jù)共享。
企業(yè)數(shù)據(jù)融合平臺(tái),通常的表現(xiàn)形態(tài)為運(yùn)行著大量數(shù)據(jù)同步和轉(zhuǎn)換任務(wù)的分布式系統(tǒng)。其源端一般為各類偏實(shí)時(shí)的業(yè)務(wù)數(shù)據(jù)存儲(chǔ)系統(tǒng),目的端為各類數(shù)據(jù)倉(cāng)庫(kù)/對(duì)象存儲(chǔ)。
下圖為數(shù)據(jù)融合平臺(tái)的典型架構(gòu),源端是不同的數(shù)據(jù)存儲(chǔ)系統(tǒng),另一端是各種類型的數(shù)據(jù)倉(cāng)庫(kù),關(guān)系型數(shù)據(jù)庫(kù)或者文件存儲(chǔ)等。中間為數(shù)據(jù)融合平臺(tái)的簡(jiǎn)單架構(gòu),組件Source connectors負(fù)責(zé)做數(shù)據(jù)的采集。
將數(shù)據(jù)采集之后,會(huì)將其做成格式化數(shù)據(jù)放到Transport Channel,Transport Channel一般會(huì)用Source隊(duì)列或其它流式數(shù)據(jù)框架,負(fù)責(zé)做中間的緩存,包括分布式的支持,數(shù)據(jù)的分發(fā), sink connectors去負(fù)責(zé)把數(shù)據(jù)分別寫入不同的數(shù)據(jù)目的地。
面臨繁瑣的數(shù)據(jù)源和目的地適配以及異構(gòu)數(shù)據(jù)源的轉(zhuǎn)換問題。
數(shù)據(jù)源結(jié)構(gòu)會(huì)隨時(shí)發(fā)生變化,造成下游寫入失敗。當(dāng)數(shù)據(jù)結(jié)構(gòu)發(fā)生改變時(shí),需要保證數(shù)據(jù)像正常一樣,不會(huì)出現(xiàn)任何問題。
需要根據(jù)業(yè)務(wù)驅(qū)動(dòng)做水平拓展,甚至需應(yīng)對(duì)一對(duì)多的分發(fā)要求,另外也需要處理和解決多任務(wù)并行的QoS。
在任何情況下都需要保證數(shù)據(jù)是一致的,這也是在生產(chǎn)過程中需要保證的問題。
首先是解耦,消息隊(duì)列可以將源端的數(shù)據(jù)采集跟移動(dòng)端的數(shù)據(jù)完全進(jìn)行解耦。如果數(shù)據(jù)寫入端出現(xiàn)任何問題,不會(huì)影響數(shù)據(jù)采集的穩(wěn)定型。
Schema Mapping幫助我們做到了數(shù)據(jù)源和目的地結(jié)構(gòu)的解耦,減少開發(fā)新的connector的復(fù)雜度。
同時(shí)消息隊(duì)列提供了水平拓展和高可用的性質(zhì),當(dāng)需要接入更多數(shù)據(jù)且系統(tǒng)不能支撐時(shí),我們可以輕易的做水平拓展,支持更大的數(shù)據(jù)量。
另外,對(duì)消息隊(duì)列和數(shù)據(jù)同步一致性的問題做了保證,至少能保證數(shù)據(jù)同步的順序性。
下圖為DataPipeline基于Kafka connect消息隊(duì)列所做的架構(gòu),Kafka本身是一個(gè)非常成熟的消息隊(duì)列,Kafka connect是其下面的一個(gè)子項(xiàng)目,相當(dāng)于給kafka consumer 和 kafka producer提供了一個(gè)封裝,它實(shí)現(xiàn)了分布式和高可用,同時(shí)幫助我們負(fù)責(zé)和kakfa進(jìn)行交互。
消費(fèi)者會(huì)有一個(gè)offset的概念,用來(lái)記錄消費(fèi)進(jìn)度,Kafka connect會(huì)自動(dòng)化地做消息offset的管理,它可以等我們消費(fèi)完一些數(shù)據(jù)之后,自動(dòng)提交消費(fèi)進(jìn)度,然后在Kafka中做存儲(chǔ)。
在讀取數(shù)據(jù)的時(shí)候, connector會(huì)將數(shù)據(jù)從數(shù)據(jù)源抽取出來(lái)寫到data topic,用來(lái)做數(shù)據(jù)中間的緩存。同時(shí)connector在同步過程中也會(huì)周期性的將offset提交到offset Topic,相當(dāng)于每讀取一段時(shí)間,存一個(gè)存檔點(diǎn)。
周期性的offset提交如果失敗的話,會(huì)導(dǎo)致數(shù)據(jù)任務(wù)重啟恢復(fù)時(shí)無(wú)法完全恢復(fù)到最后寫入的offset點(diǎn)。這種情況就會(huì)導(dǎo)致數(shù)據(jù)的重復(fù)讀取和重復(fù)寫入,會(huì)出現(xiàn)數(shù)據(jù)一致性的問題,以下解決方案可以從一定程度上避免這個(gè)問題:
依賴目的地的特性進(jìn)行去重達(dá)到數(shù)據(jù)的最終一致性,例如: RDBMS用主鍵進(jìn)行去重。
依賴消息隊(duì)列的事務(wù)信息避免源端重復(fù),保證數(shù)據(jù)寫入和offset寫入的事務(wù)性提交。
目的端在寫入后記錄單獨(dú)的offset到redis緩存,并在任務(wù)恢復(fù)之后根據(jù)offset進(jìn)行過濾,避免重復(fù)寫入。減少offset rewind帶來(lái)的數(shù)據(jù)重復(fù),但是由于寫入數(shù)據(jù)和記錄offset并不是事務(wù)操作,所以也不保證exactly once delivery。