數據平臺數據處理流程圖

成都創(chuàng)新互聯公司是一家集網站建設,圖木舒克企業(yè)網站建設,圖木舒克品牌網站建設,網站定制,圖木舒克網站建設報價,網絡營銷,網絡優(yōu)化,
圖木舒克網站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統企業(yè)提升企業(yè)形象加強企業(yè)競爭力??沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯網需求。同時我們時刻保持專業(yè)、時尚、前沿,時刻以成就客戶成長自我,堅持不斷學習、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實用型網站。
- 數據準備:
主要分為幾個來源:FTP數據來源,合作方推送的數據,從攜程對外開放的API接口獲取數據,酒店管理系統日志數據以及在線旅行社網站的數據源。 - 數據接入:
針對數據多來源的特性開發(fā)針對特定場景的數據接入方式。
a.FTP來源的數據:采用shel腳本開發(fā),包括檢查數據是否準備就緒、開始下載、解密解包、lzop壓縮、put方式上傳文件到HDFS
b.合作方推送的數據:搭建簡單的web服務,接受攜程推送的請求,利用Nginx完成請求負載,并利用Nginx記錄請求中的數據,寫入文件。后續(xù)通過日志收集系統獲取數據(其實可以從合作方直接將數據推送Kafka的)
c.合作方API接口數據:開發(fā)程序形成生產者消費者模式,生產者將任務寫入隊列,消費者從隊列中獲取任務并利用線程池并發(fā)從合作方API接口獲取數據
d.PMS日志數據:主要由開源Flume組件完成
e.網站數據:利用爬蟲抓取網站數據
3.數據存儲:
分為實時和離線數據存儲兩種方式,分別通過Kafka和HDFS進行存儲
4.數據處理:
在數據處理環(huán)節(jié),主要利用MapReduce和Spark進行數據處理任務的開發(fā)。
5、數據查詢:
將Hive定義在數據查詢這一流程,用戶在使用數據平臺過程中,通過Hive對數據進行查詢。

另外有需要云服務器可以了解下創(chuàng)新互聯scvps.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。
分享文章:多來源數據采集、處理的數據流程-創(chuàng)新互聯
本文網址:
http://m.jiaotiyi.com/article/dcppip.html