DataPipeline丨新型企業(yè)數(shù)據(jù)融合平臺(tái)的探索與實(shí)踐

創(chuàng)新互聯(lián)堅(jiān)持“要么做到，要么別承諾”的工作理念，服務(wù)領(lǐng)域包括：成都做網(wǎng)站、網(wǎng)站建設(shè)、外貿(mào)營(yíng)銷網(wǎng)站建設(shè)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣等服務(wù)，滿足客戶于互聯(lián)網(wǎng)時(shí)代的周至網(wǎng)站設(shè)計(jì)、移動(dòng)媒體設(shè)計(jì)的需求，幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴！

一、關(guān)于數(shù)據(jù)融合和企業(yè)數(shù)據(jù)融合平臺(tái)

數(shù)據(jù)融合是把不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中，從而為企業(yè)提供全面的數(shù)據(jù)共享。

企業(yè)數(shù)據(jù)融合平臺(tái)，通常的表現(xiàn)形態(tài)為運(yùn)行著大量數(shù)據(jù)同步和轉(zhuǎn)換任務(wù)的分布式系統(tǒng)。其源端一般為各類偏實(shí)時(shí)的業(yè)務(wù)數(shù)據(jù)存儲(chǔ)系統(tǒng)，目的端為各類數(shù)據(jù)倉(cāng)庫(kù)/對(duì)象存儲(chǔ)。

二、企業(yè)數(shù)據(jù)融合平臺(tái)的典型架構(gòu)

下圖為數(shù)據(jù)融合平臺(tái)的典型架構(gòu)，源端是不同的數(shù)據(jù)存儲(chǔ)系統(tǒng)，另一端是各種類型的數(shù)據(jù)倉(cāng)庫(kù)，關(guān)系型數(shù)據(jù)庫(kù)或者文件存儲(chǔ)等。中間為數(shù)據(jù)融合平臺(tái)的簡(jiǎn)單架構(gòu)，組件Source connectors負(fù)責(zé)做數(shù)據(jù)的采集。

將數(shù)據(jù)采集之后，會(huì)將其做成格式化數(shù)據(jù)放到Transport Channel，Transport Channel一般會(huì)用Source隊(duì)列或其它流式數(shù)據(jù)框架，負(fù)責(zé)做中間的緩存，包括分布式的支持，數(shù)據(jù)的分發(fā)， sink connectors去負(fù)責(zé)把數(shù)據(jù)分別寫入不同的數(shù)據(jù)目的地。

DataPipeline丨新型企業(yè)數(shù)據(jù)融合平臺(tái)的探索與實(shí)踐

三、企業(yè)數(shù)據(jù)融合需要解決的關(guān)鍵問題

數(shù)據(jù)異構(gòu)問題

面臨繁瑣的數(shù)據(jù)源和目的地適配以及異構(gòu)數(shù)據(jù)源的轉(zhuǎn)換問題。

隨時(shí)變化的數(shù)據(jù)結(jié)構(gòu)

數(shù)據(jù)源結(jié)構(gòu)會(huì)隨時(shí)發(fā)生變化，造成下游寫入失敗。當(dāng)數(shù)據(jù)結(jié)構(gòu)發(fā)生改變時(shí)，需要保證數(shù)據(jù)像正常一樣，不會(huì)出現(xiàn)任何問題。

數(shù)據(jù)平臺(tái)的擴(kuò)展性

需要根據(jù)業(yè)務(wù)驅(qū)動(dòng)做水平拓展，甚至需應(yīng)對(duì)一對(duì)多的分發(fā)要求，另外也需要處理和解決多任務(wù)并行的QoS。

數(shù)據(jù)一致性

在任何情況下都需要保證數(shù)據(jù)是一致的，這也是在生產(chǎn)過程中需要保證的問題。

四、消息隊(duì)列在數(shù)據(jù)融合平臺(tái)的作用

首先是解耦，消息隊(duì)列可以將源端的數(shù)據(jù)采集跟移動(dòng)端的數(shù)據(jù)完全進(jìn)行解耦。如果數(shù)據(jù)寫入端出現(xiàn)任何問題，不會(huì)影響數(shù)據(jù)采集的穩(wěn)定型。

Schema Mapping幫助我們做到了數(shù)據(jù)源和目的地結(jié)構(gòu)的解耦，減少開發(fā)新的connector的復(fù)雜度。

同時(shí)消息隊(duì)列提供了水平拓展和高可用的性質(zhì)，當(dāng)需要接入更多數(shù)據(jù)且系統(tǒng)不能支撐時(shí)，我們可以輕易的做水平拓展，支持更大的數(shù)據(jù)量。

另外，對(duì)消息隊(duì)列和數(shù)據(jù)同步一致性的問題做了保證，至少能保證數(shù)據(jù)同步的順序性。

DataPipeline丨新型企業(yè)數(shù)據(jù)融合平臺(tái)的探索與實(shí)踐

五、DataPipeline現(xiàn)有架構(gòu)

下圖為DataPipeline基于Kafka connect消息隊(duì)列所做的架構(gòu)，Kafka本身是一個(gè)非常成熟的消息隊(duì)列，Kafka connect是其下面的一個(gè)子項(xiàng)目，相當(dāng)于給kafka consumer 和 kafka producer提供了一個(gè)封裝，它實(shí)現(xiàn)了分布式和高可用，同時(shí)幫助我們負(fù)責(zé)和kakfa進(jìn)行交互。

DataPipeline丨新型企業(yè)數(shù)據(jù)融合平臺(tái)的探索與實(shí)踐

六、Kafka connect-offset管理

消費(fèi)者會(huì)有一個(gè)offset的概念，用來(lái)記錄消費(fèi)進(jìn)度，Kafka connect會(huì)自動(dòng)化地做消息offset的管理，它可以等我們消費(fèi)完一些數(shù)據(jù)之后，自動(dòng)提交消費(fèi)進(jìn)度，然后在Kafka中做存儲(chǔ)。

在讀取數(shù)據(jù)的時(shí)候， connector會(huì)將數(shù)據(jù)從數(shù)據(jù)源抽取出來(lái)寫到data topic，用來(lái)做數(shù)據(jù)中間的緩存。同時(shí)connector在同步過程中也會(huì)周期性的將offset提交到offset Topic，相當(dāng)于每讀取一段時(shí)間，存一個(gè)存檔點(diǎn)。

DataPipeline丨新型企業(yè)數(shù)據(jù)融合平臺(tái)的探索與實(shí)踐

周期性的offset提交如果失敗的話，會(huì)導(dǎo)致數(shù)據(jù)任務(wù)重啟恢復(fù)時(shí)無(wú)法完全恢復(fù)到最后寫入的offset點(diǎn)。這種情況就會(huì)導(dǎo)致數(shù)據(jù)的重復(fù)讀取和重復(fù)寫入，會(huì)出現(xiàn)數(shù)據(jù)一致性的問題，以下解決方案可以從一定程度上避免這個(gè)問題：

依賴目的地的特性進(jìn)行去重達(dá)到數(shù)據(jù)的最終一致性，例如: RDBMS用主鍵進(jìn)行去重。
依賴消息隊(duì)列的事務(wù)信息避免源端重復(fù)，保證數(shù)據(jù)寫入和offset寫入的事務(wù)性提交。
目的端在寫入后記錄單獨(dú)的offset到redis緩存，并在任務(wù)恢復(fù)之后根據(jù)offset進(jìn)行過濾，避免重復(fù)寫入。減少offset rewind帶來(lái)的數(shù)據(jù)重復(fù)，但是由于寫入數(shù)據(jù)和記錄offset并不是事務(wù)操作，所以也不保證exactly once delivery。
依賴目的地的事務(wù)性，在目的地建立臨時(shí)空間記錄寫入的offset，并在任務(wù)恢復(fù)之后根據(jù)offset進(jìn)行過濾，避免重復(fù)寫入，可以保證exactly once delivery。但是要求目的地可以支持事務(wù)性，并且會(huì)在目的地有額外的數(shù)據(jù)存儲(chǔ)。

網(wǎng)頁(yè)題目：DataPipeline丨新型企業(yè)數(shù)據(jù)融合平臺(tái)的探索與實(shí)踐
標(biāo)題網(wǎng)址：http://m.jiaotiyi.com/article/gogipd.html

網(wǎng)站建設(shè)知識(shí)

DataPipeline丨新型企業(yè)數(shù)據(jù)融合平臺(tái)的探索與實(shí)踐

一、關(guān)于數(shù)據(jù)融合和企業(yè)數(shù)據(jù)融合平臺(tái)

二、企業(yè)數(shù)據(jù)融合平臺(tái)的典型架構(gòu)

三、企業(yè)數(shù)據(jù)融合需要解決的關(guān)鍵問題

四、消息隊(duì)列在數(shù)據(jù)融合平臺(tái)的作用

五、DataPipeline現(xiàn)有架構(gòu)

六、Kafka connect-offset管理

其他資訊

網(wǎng)站建設(shè)知識(shí)

DataPipeline丨新型企業(yè)數(shù)據(jù)融合平臺(tái)的探索與實(shí)踐

一、關(guān)于數(shù)據(jù)融合和企業(yè)數(shù)據(jù)融合平臺(tái)

二、企業(yè)數(shù)據(jù)融合平臺(tái)的典型架構(gòu)

三、企業(yè)數(shù)據(jù)融合需要解決的關(guān)鍵問題

四、消息隊(duì)列在數(shù)據(jù)融合平臺(tái)的作用

五、DataPipeline現(xiàn)有架構(gòu)

六、Kafka connect-offset管理

其他資訊

一、關(guān)于數(shù)據(jù)融合和企業(yè)數(shù)據(jù)融合平臺(tái)

二、企業(yè)數(shù)據(jù)融合平臺(tái)的典型架構(gòu)

三、企業(yè)數(shù)據(jù)融合需要解決的關(guān)鍵問題

四、消息隊(duì)列在數(shù)據(jù)融合平臺(tái)的作用

五、DataPipeline現(xiàn)有架構(gòu)

六、Kafka connect-offset管理