十年網(wǎng)站開發(fā)經(jīng)驗(yàn) + 多家企業(yè)客戶 + 靠譜的建站團(tuán)隊
量身定制 + 運(yùn)營維護(hù)+專業(yè)推廣+無憂售后,網(wǎng)站問題一站解決
1.可視化分析
公司專注于為企業(yè)提供成都網(wǎng)站設(shè)計、網(wǎng)站建設(shè)、微信公眾號開發(fā)、商城系統(tǒng)網(wǎng)站開發(fā),重慶小程序開發(fā)公司,軟件按需定制等一站式互聯(lián)網(wǎng)企業(yè)服務(wù)。憑借多年豐富的經(jīng)驗(yàn),我們會仔細(xì)了解各客戶的需求而做出多方面的分析、設(shè)計、整合,為客戶設(shè)計出具風(fēng)格及創(chuàng)意性的商業(yè)解決方案,創(chuàng)新互聯(lián)建站更提供一系列網(wǎng)站制作和網(wǎng)站推廣的服務(wù)。
大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家,同時還有普通用戶,但是他們二者對于大數(shù)據(jù)分析最基本的要求就是可視化分析,因?yàn)榭梢暬治瞿軌蛑庇^的呈現(xiàn)大數(shù)據(jù)特點(diǎn),同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。
2. 數(shù)據(jù)挖掘算法
大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘算法,各種數(shù)據(jù)挖掘的算法基于不同的數(shù)據(jù)類型和格式才能更加科學(xué)的呈現(xiàn)出數(shù)據(jù)本身具備的特點(diǎn),也正是因?yàn)檫@些被全世界統(tǒng)計 學(xué)家所公認(rèn)的各種統(tǒng)計方法(可以稱之為真理)才能深入數(shù)據(jù)內(nèi)部,挖掘出公認(rèn)的價值。另外一個方面也是因?yàn)橛羞@些數(shù)據(jù)挖掘的算法才能更快速的處理大數(shù)據(jù),如 果一個算法得花上好幾年才能得出結(jié)論,那大數(shù)據(jù)的價值也就無從說起了。
3. 預(yù)測性分析
大數(shù)據(jù)分析最終要的應(yīng)用領(lǐng)域之一就是預(yù)測性分析,從大數(shù)據(jù)中挖掘出特點(diǎn),通過科學(xué)的建立模型,之后便可以通過模型帶入新的數(shù)據(jù),從而預(yù)測未來的數(shù)據(jù)。
4. 語義引擎
非結(jié)構(gòu)化數(shù)據(jù)的多元化給數(shù)據(jù)分析帶來新的挑戰(zhàn),我們需要一套工具系統(tǒng)的去分析,提煉數(shù)據(jù)。語義引擎需要設(shè)計到有足夠的人工智能以足以從數(shù)據(jù)中主動地提取信息。
5.數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。 大數(shù)據(jù)分析離不開數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理,無論是在學(xué)術(shù)研究還是在商業(yè)應(yīng)用領(lǐng)域,都能夠保證分析結(jié)果的真實(shí)和有價值。
大數(shù)據(jù)分析的基礎(chǔ)就是以上五個方面,當(dāng)然更加深入大數(shù)據(jù)分析的話,還有很多很多更加有特點(diǎn)的、更加深入的、更加專業(yè)的大數(shù)據(jù)分析方法。
大數(shù)據(jù)的技術(shù)
數(shù)據(jù)采集: ETL工具負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。
數(shù)據(jù)存取: 關(guān)系數(shù)據(jù)庫、NOSQL、SQL等。
基礎(chǔ)架構(gòu): 云存儲、分布式文件存儲等。
數(shù)據(jù)處理: 自然語言處理(NLP,Natural Language Processing)是研究人與計算機(jī)交互的語言問題的一門學(xué)科。處理自然語言的關(guān)鍵是要讓計算機(jī)”理解”自然語言,所以自然語言處理又叫做自然語言理解也稱為計算語言學(xué)。一方面它是語言信息處理的一個分支,另一方面它是人工智能的核心課題之一。
統(tǒng)計分析: 假設(shè)檢驗(yàn)、顯著性檢驗(yàn)、差異分析、相關(guān)分析、T檢驗(yàn)、 方差分析 、 卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預(yù)測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、 因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應(yīng)分析、多元對應(yīng)分析(最優(yōu)尺度分析)、bootstrap技術(shù)等等。
數(shù)據(jù)挖掘: 分類 (Classification)、估計(Estimation)、預(yù)測(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預(yù)測 :預(yù)測模型、機(jī)器學(xué)習(xí)、建模仿真。
結(jié)果呈現(xiàn): 云計算、標(biāo)簽云、關(guān)系圖等。
大數(shù)據(jù)的處理
1. 大數(shù)據(jù)處理之一:采集
大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或者傳感器形式等)的 數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù),除 此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。
在大數(shù)據(jù)的采集過程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r有可能會有成千上萬的用戶 來進(jìn)行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時達(dá)到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間 進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計。
2. 大數(shù)據(jù)處理之二:導(dǎo)入/預(yù)處理
雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這 些來自前端的數(shù)據(jù)導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。也有一些用戶會在導(dǎo)入時使 用來自Twitter的Storm來對數(shù)據(jù)進(jìn)行流式計算,來滿足部分業(yè)務(wù)的實(shí)時計算需求。
導(dǎo)入與預(yù)處理過程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會達(dá)到百兆,甚至千兆級別。
3. 大數(shù)據(jù)處理之三:統(tǒng)計/分析
統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通 的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實(shí)時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于 MySQL的列式存儲Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。
統(tǒng)計與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。
4. 大數(shù)據(jù)處理之四:挖掘
與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù) 據(jù)上面進(jìn)行基于各種算法的計算,從而起到預(yù)測(Predict)的效果,從而實(shí)現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于 統(tǒng)計學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并 且計算涉及的數(shù)據(jù)量和計算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。
整個大數(shù)據(jù)處理的普遍流程至少應(yīng)該滿足這四個方面的步驟,才能算得上是一個比較完整的大數(shù)據(jù)處理。
1970 年,關(guān)系型數(shù)據(jù)庫之父 E.F.Codd 發(fā)表《用于大型共享數(shù)據(jù)庫的關(guān)系數(shù)據(jù)模型》論文,正式拉開數(shù)據(jù)庫技術(shù)發(fā)展序幕。以 Oracle、DB2、SQL Server 為代表的三大商業(yè)數(shù)據(jù)庫產(chǎn)品獨(dú)占鰲頭,隨后涌現(xiàn)出 MySQL、PostgreSQL 等為代表的開源數(shù)據(jù)庫 ,和以 Amazon RDS 等為代表的云數(shù)據(jù)庫,拉開百花齊放的數(shù)據(jù)庫新序幕。
我們知道,云計算十年為產(chǎn)業(yè)轉(zhuǎn)型升級提供了 歷史 性契機(jī),但變革仍在進(jìn)行,隨著云計算的普及,數(shù)據(jù)庫市場發(fā)生根本性改變,云廠商打破傳統(tǒng)商業(yè)數(shù)據(jù)庫的堡壘,成為數(shù)據(jù)庫領(lǐng)域全新力量。其中以連續(xù)六年入選 Gartner 領(lǐng)導(dǎo)者象限的亞馬遜云 科技 為代表,我們一起探討:為什么亞馬遜云 科技 能始終保持其創(chuàng)新性?縱觀云原生時代下,亞馬遜云 科技 數(shù)據(jù)庫未來還有哪些更多的可能性?
01 面對四大數(shù)據(jù)庫發(fā)展趨勢,亞馬遜云 科技 打造五大數(shù)據(jù)庫理念
后疫情時代下,加速了不少行業(yè)的業(yè)務(wù)在線化和數(shù)字化運(yùn)營,企業(yè)對數(shù)據(jù)價值挖掘的需求越發(fā)強(qiáng)烈,亞馬遜云 科技 大中華區(qū)產(chǎn)品部總經(jīng)理顧凡詳細(xì)介紹其中四大趨勢:
一是伴隨互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)的發(fā)展,電商、視頻、社交、出行等新應(yīng)用場景的興起,不僅數(shù)據(jù)量大,對數(shù)據(jù)實(shí)時性要求極高,傳統(tǒng)關(guān)系型數(shù)據(jù)庫無法滿足需求,因此驅(qū)動云原生數(shù)據(jù)庫的出現(xiàn)。
二是開源數(shù)據(jù)庫的廣泛應(yīng)用。
三是應(yīng)用程序現(xiàn)代化對數(shù)據(jù)庫提出更高要求,期待數(shù)據(jù)庫擁有更高的性能、可擴(kuò)展性、可用性以及降低成本,讓開發(fā)人員專注于核心業(yè)務(wù)的應(yīng)用開發(fā),不用關(guān)注和核心業(yè)務(wù)無關(guān)的代碼。
四是軟件架構(gòu)歷經(jīng) PC、互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng),再到如今的萬物互聯(lián)時代,其中的迭代和轉(zhuǎn)型正在驅(qū)動數(shù)據(jù)庫選型的變化。
在此四大趨勢下,伴隨企業(yè)的業(yè)務(wù)量越來越大、越來越復(fù)雜,對數(shù)據(jù)庫的要求越來越高。亞馬遜云 科技 洞察客戶需求,在打造云上數(shù)據(jù)庫產(chǎn)品時提出五大理念:
一是專庫專用,極致性能;二是無服務(wù)器,敏捷創(chuàng)新;第三是全球架構(gòu),一鍵部署;第四是平滑遷移,加速上云;第五是 AI 賦能,深度集成。
02 歷經(jīng)真實(shí)錘煉,五大數(shù)據(jù)庫理念,持續(xù)賦能企業(yè)數(shù)智轉(zhuǎn)型
顧凡表示,隨著數(shù)據(jù)爆炸式增長,微服務(wù)架構(gòu)與 DevOps 愈發(fā)流行的今天,一個數(shù)據(jù)庫打天下的時代已然過去。我們需要在不同的應(yīng)用場景下,針對不同的數(shù)據(jù)類型和不同的數(shù)據(jù)訪問特點(diǎn),為開發(fā)者和企業(yè)提供專門構(gòu)建的工具。
所以亞馬遜云 科技 提出 第一個核心數(shù)據(jù)庫理念:專庫專用 。在此理念下,推出針對關(guān)系數(shù)據(jù)、鍵值數(shù)據(jù)、文檔數(shù)據(jù)、內(nèi)存數(shù)據(jù)、圖數(shù)據(jù)、時許數(shù)據(jù)、分類賬數(shù)據(jù)、寬列等專門構(gòu)建數(shù)據(jù)庫的產(chǎn)品家族。
這些數(shù)據(jù)庫產(chǎn)品均經(jīng)歷過亞馬遜內(nèi)部核心業(yè)務(wù)的真實(shí)錘煉,成績斐然:
亞馬遜電商當(dāng)年是 Oracle 的客戶之一,隨著亞馬遜電商的應(yīng)用重構(gòu)和業(yè)務(wù)體量發(fā)展,亞馬遜電商決定將業(yè)務(wù)遷移到亞馬遜云 科技 里。100 多個團(tuán)隊參與這龐大的遷移工作中,將亞馬遜電商采購、目錄管理、訂單執(zhí)行、廣告、財務(wù)系統(tǒng)、錢包、視頻流等關(guān)鍵系統(tǒng)全部從 Oracle 遷出來。2019 年,亞馬遜將存儲近 7500 個Oracle 數(shù)據(jù)庫中的 75 PB 內(nèi)部數(shù)據(jù)遷移到多項(xiàng)亞馬遜云 科技 的數(shù)據(jù)庫服務(wù)中,包括 Amazon DynamoDB、Amazon Aurora、Amazon ElastiCache,于是亞馬遜電商成為亞馬遜云 科技 在全球的“第一大客戶”。
從 Oracle 切換到亞馬遜云 科技 后,亞馬遜電商節(jié)省了 60% 成本,面向消費(fèi)者端的應(yīng)用程序延遲降低 40%,數(shù)據(jù)庫管理支出減少 70%。
以被譽(yù)為“亞馬遜云 科技 歷史 上用戶數(shù)量增速最快的云服務(wù)”Amazon Aurora 為例,其擁有科媲美高端商業(yè)數(shù)據(jù)庫的速度和可用性,還擁有開源數(shù)據(jù)庫的簡單性與成本效益,Amazon Aurora 讓客戶滿足“魚和熊掌兼得”需求。
據(jù)顧凡介紹,Amazon Aurora 可提供 5 倍于標(biāo)準(zhǔn) MySQL 性能,3 倍于 PostgreSQL 吞吐量。同時提供高可用,可用區(qū)(AZ)+1的高可用,Global Databases 可完成跨區(qū)域?yàn)?zāi)備。可擴(kuò)展到 15 個只讀副本,成本只有商業(yè)數(shù)據(jù)庫的 1/10。
醫(yī)藥企業(yè)九州通為藥廠、供應(yīng)商,搭建藥廠、供應(yīng)商、消費(fèi)者提供供應(yīng)鏈鏈條。其 B2B 系統(tǒng)的業(yè)務(wù)特點(diǎn)是讀多寫少,受促銷活動、工作時間等影響,經(jīng)常會出現(xiàn)波峰波谷落差較大的情況,讀寫比例在 7:2 或者 8:3。九州通采用 Amazon Aurora 后實(shí)現(xiàn)讀寫分離和按需擴(kuò)展,整體數(shù)據(jù)庫性能提升 5 倍,TCO 降低 50%。實(shí)現(xiàn)了跨可用區(qū)部署、負(fù)載均衡、自動故障轉(zhuǎn)移、精細(xì)監(jiān)控、按需自動伸縮等。
據(jù)權(quán)威機(jī)構(gòu)預(yù)測,到 2022 年,75% 數(shù)據(jù)庫將被部署或遷移至云平臺。在這個過程中,亞馬遜云 科技 是如何通過技術(shù)來幫助客戶加速應(yīng)用上云的?這離不開除了上述的“專庫專用”外,以下四大理念:
第二個理念是無服務(wù)器、敏捷創(chuàng)新。 亞馬遜云 科技 大中華區(qū)產(chǎn)品部數(shù)據(jù)類產(chǎn)品高級經(jīng)理王曉野表示,企業(yè)業(yè)務(wù)總有波峰波谷之時,如何按照企業(yè) 80-90% 的業(yè)務(wù)峰值來規(guī)劃數(shù)據(jù)庫的存儲容量和計算資源的話,將給應(yīng)用帶來一定的業(yè)務(wù)連續(xù)性的妥協(xié)和挑戰(zhàn)。因此大多數(shù)企業(yè)都是按照峰值留有余地來選擇數(shù)據(jù)庫的計算資源,這將造成成本上的浪費(fèi)。而 Serverless 數(shù)據(jù)庫服務(wù)可完成無差別的繁復(fù)工作和自動化擴(kuò)展。
Amazon DynamoDB 是亞馬遜云 科技 自研 Serverless 數(shù)據(jù)庫,其誕生最早可追溯到 2004 年,當(dāng)時亞馬遜電商作為 Oracle 的客戶,盡管對于關(guān)系型數(shù)據(jù)庫在零售場景的需求并不頻繁,70% 均是鍵值類操作,此時倒逼亞馬遜電商思考:為什么要把關(guān)系型數(shù)據(jù)庫這么重得使用?我們可以設(shè)計一款支持讀寫、可橫向擴(kuò)展的分布式數(shù)據(jù)庫嗎?后來的故事大家都知道了,這款數(shù)據(jù)庫就是 Amazon DynamoDB,并在 2007 年發(fā)表論文,掀起業(yè)界 NoSQL 分布式數(shù)據(jù)庫技術(shù)創(chuàng)新大潮。
Amazon DynamoDB 可為大規(guī)模應(yīng)用提供支持,支撐亞馬遜自身多個高流量網(wǎng)站和系統(tǒng),如亞馬遜電商網(wǎng)站、亞馬遜全球 442 個物流中心等。在亞馬遜電商一年一度 Prime Day,光是針對DynamoDB API 的調(diào)用達(dá)到數(shù)萬億次,最高峰值請求達(dá)到每秒 8920 萬次。由此可見,DynamoDB 擁有高吞吐、擴(kuò)展性、一致性、可預(yù)測響應(yīng)延遲、高可用等優(yōu)勢。
智能可穿戴設(shè)備廠商華米 科技 ,在全球 70 多個國家擁有近 1 億用戶。僅 2020 年上半年,其手表出貨量超 174 萬臺,截止到 2021 年 2 月,華米 科技 的可穿戴設(shè)備累計記錄步數(shù)是 151 萬步,累計記錄的睡眠時間是 128 億個夜晚,記錄心率總時長達(dá) 1208 億個小時。如此龐大的數(shù)據(jù)同時必須保證極高的安全性和低延遲相應(yīng),如何保證穩(wěn)定性是巨大的挑戰(zhàn)。
DynamoDB 幫助華米 科技 在任何規(guī)模下都能提供延遲不超過 10 毫秒的一致響應(yīng)時間。華米 科技 健康 云的 P0 和 P1 級別故障減少了約 30%,總體服務(wù)可用性提升了 0.25%,系統(tǒng)可用性指標(biāo)達(dá)到 99.99%,為華為 科技 全球化擴(kuò)展提供了有力的支撐。
最新無服務(wù)數(shù)據(jù)庫產(chǎn)品是 Amazon Aurora Serverless V2 提供瞬間擴(kuò)展能力,真正把擴(kuò)展能力發(fā)揮到極致,在不到一秒的時間內(nèi),將幾百個事務(wù)擴(kuò)展到數(shù)十萬的級別。同時在擴(kuò)展時每一次調(diào)整的增量都是非常精細(xì)化的去管理,如果按照峰值來規(guī)劃數(shù)據(jù)庫資源,可實(shí)現(xiàn)大概90%的成本節(jié)省。目前 Amazon Aurora Serverless V2 在全球?qū)崿F(xiàn)預(yù)覽。
第三個理念是全球架構(gòu)、一鍵部署。 在全球化的今天,如何支撐全球客戶的業(yè)務(wù)擴(kuò)展連續(xù)性、一致性、以最低延遲帶給到終端客戶上,對數(shù)據(jù)庫提出新的挑戰(zhàn)。
亞馬遜云 科技 提供 Amazon Aurora 關(guān)系型數(shù)據(jù)庫Global Database、Amazon DynamoDB、Amazon ElastiCache 內(nèi)存數(shù)據(jù)庫、Amazon DocumentDB 文檔數(shù)據(jù)庫都能利用亞馬遜云 科技 的骨干網(wǎng)絡(luò)提供比互聯(lián)網(wǎng)更穩(wěn)定的網(wǎng)絡(luò)支撐,以一鍵部署的方式,幫助客戶實(shí)現(xiàn)幾千公里跨區(qū)域數(shù)據(jù)庫災(zāi)備,故障恢復(fù)大概能在一分鐘之內(nèi)完成,同時跨區(qū)域的數(shù)據(jù)復(fù)制延遲通常小于一秒。
第四個理念是平滑遷移、加速上云。 目前,450000+ 數(shù)據(jù)庫通過亞馬遜云 科技 數(shù)據(jù)庫遷移服務(wù)遷移到亞馬遜云 科技 中,這個數(shù)字每年都在不斷增長。亞馬遜云 科技 提供 Amazon DMS、Amazon Database Migration Service 等工具讓開發(fā)者和企業(yè)進(jìn)行自助式云遷移。另外,對于遷移過程中可能會需要的支持,可通過專業(yè)服務(wù)團(tuán)隊和合作伙伴網(wǎng)絡(luò)成員,為客戶提供專業(yè)支持,還通過 Database Freedom 項(xiàng)目幫助客戶降低他們的顧慮。
今年 11 月,最新產(chǎn)品 Babelfish for Amazon Aurora PostgreSQL 在全球和中國兩個區(qū)域正式可用,可加速企業(yè)上云的遷移,實(shí)現(xiàn)讓企業(yè)可以利用原有的技術(shù)棧、原有的 SQL Server T-SQL的人員可以利用到云數(shù)據(jù)庫進(jìn)行創(chuàng)新。
第五個理念是 AI賦能,深度集成。 我們觀察到,ML 技術(shù)賦能數(shù)據(jù)庫開發(fā)者,開發(fā)者無需具備機(jī)器學(xué)習(xí)專業(yè)知識,就可進(jìn)行機(jī)器學(xué)習(xí)操作。在此潮流下,亞馬遜云 科技 推出 Amazon Neptune,借由 Deep Graph Library 和 Amazon SageMaker 驅(qū)動圖神經(jīng)網(wǎng)絡(luò)。
今年 8 月,Neptune ML 在中國正式可用,允許數(shù)據(jù)工程師不需要掌握機(jī)器學(xué)習(xí)的技能直接從圖數(shù)據(jù)庫里導(dǎo)出數(shù)據(jù)、轉(zhuǎn)換格式、訓(xùn)練模型并發(fā)布,用 gremlin 語句調(diào)用訓(xùn)練成的模型在數(shù)據(jù)庫里實(shí)現(xiàn)推理,進(jìn)行欺詐檢測,推薦物品。
目前,亞馬遜云 科技 加速在中國區(qū)域服務(wù)落地,2021年至今新發(fā)布 60 多個數(shù)據(jù)庫服務(wù)與功能。亞馬遜云 科技 正是通過上述五大數(shù)據(jù)庫理念,打造豐富的數(shù)據(jù)庫產(chǎn)品家族,在全球智能化發(fā)展趨勢下,為企業(yè)提供更快更好的數(shù)智服務(wù),釋放數(shù)據(jù)價值,并連續(xù)六年入選 Gartner 領(lǐng)導(dǎo)者象限,得到業(yè)界和客戶的深度認(rèn)可。
大數(shù)據(jù)的分析與處理方法解讀
越來越多的應(yīng)用涉及到大數(shù)據(jù),這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性,所以,大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素?;诖?,大數(shù)據(jù)分析的方法理論有哪些呢?
大數(shù)據(jù)分析的五個基本方面
PredictiveAnalyticCapabilities(預(yù)測性分析能力)
數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測性的判斷。
DataQualityandMasterDataManagement(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)
數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過標(biāo)準(zhǔn)化的流程和工具對數(shù)據(jù)進(jìn)行處理可以保證一個預(yù)先定義好的高質(zhì)量的分析結(jié)果。
AnalyticVisualizations(可視化分析)
不管是對數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果。
SemanticEngines(語義引擎)
我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語義引擎需要被設(shè)計成能夠從“文檔”中智能提取信息。
DataMiningAlgorithms(數(shù)據(jù)挖掘算法)
可視化是給人看的,數(shù)據(jù)挖掘就是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。
假如大數(shù)據(jù)真的是下一個重要的技術(shù)革新的話,我們最好把精力關(guān)注在大數(shù)據(jù)能給我們帶來的好處,而不僅僅是挑戰(zhàn)。
大數(shù)據(jù)處理
大數(shù)據(jù)處理數(shù)據(jù)時代理念的三大轉(zhuǎn)變:要全體不要抽樣,要效率不要絕對精確,要相關(guān)不要因果。具體的大數(shù)據(jù)處理方法其實(shí)有很多,但是根據(jù)長時間的實(shí)踐,筆者總結(jié)了一個基本的大數(shù)據(jù)處理流程,并且這個流程應(yīng)該能夠?qū)Υ蠹依眄槾髷?shù)據(jù)的處理有所幫助。整個處理流程可以概括為四步,分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計和分析,以及挖掘。
采集
大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。
在大數(shù)據(jù)的采集過程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r有可能會有成千上萬的用戶來進(jìn)行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時達(dá)到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計。
統(tǒng)計/分析
統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實(shí)時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。
導(dǎo)入/預(yù)處理
雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些來自前端的數(shù)據(jù)導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。也有一些用戶會在導(dǎo)入時使用來自Twitter的Storm來對數(shù)據(jù)進(jìn)行流式計算,來滿足部分業(yè)務(wù)的實(shí)時計算需求。導(dǎo)入與預(yù)處理過程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會達(dá)到百兆,甚至千兆級別。
挖掘
與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計算,從而起到預(yù)測的效果,從而實(shí)現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的K-Means、用于統(tǒng)計學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計算涉及的數(shù)據(jù)量和計算量都很大,還有,常用數(shù)據(jù)挖掘算法都以單線程為主。
關(guān)系數(shù)據(jù)庫經(jīng)過幾十年的發(fā)展,已經(jīng)非常成熟,但同時也存在不足:
表結(jié)構(gòu)是強(qiáng)約束的,業(yè)務(wù)變更時擴(kuò)充很麻煩。
如果對大數(shù)據(jù)量的表進(jìn)行統(tǒng)計運(yùn)算,I/O會很高,因?yàn)榧词怪会槍δ沉羞M(jìn)行運(yùn)算,也需要將整行數(shù)據(jù)讀入內(nèi)存。
全文搜索只能使用 Like 進(jìn)行整表掃描,性能非常低。
針對這些不足,產(chǎn)生了不同的 NoSQL 解決方案,在某些場景下比關(guān)系數(shù)據(jù)庫更有優(yōu)勢,但同時也犧牲了某些特性,所以不能片面的迷信某種方案,應(yīng)將其作為 SQL 的有利補(bǔ)充。
NoSQL != No SQL,而是:
NoSQL = Not Only SQL
典型的 NoSQL 方案分為4類:
Redis 是典型,其 value 是具體的數(shù)據(jù)結(jié)構(gòu),包括 string, hash, list, set, sorted set, bitmap, hyperloglog,常被稱為數(shù)據(jù)結(jié)構(gòu)服務(wù)器。
以 list 為例:
LPOP key 是移除并返回隊列左邊的第一個元素。
如果用關(guān)系數(shù)據(jù)庫就比較麻煩了,需要操作:
Redis 的缺點(diǎn)主要體現(xiàn)在不支持完成的ACID事務(wù),只能保證隔離性和一致性,無法保證原子性和持久性。
最大的特點(diǎn)是 no-schema,無需在使用前定義字段,讀取一個不存在的字段也不會導(dǎo)致語法錯誤。
特點(diǎn):
以電商為例,不同商品的屬性差異很大,如冰箱和電腦,這種差異性在關(guān)系數(shù)據(jù)庫中會有很大的麻煩,而使用文檔數(shù)據(jù)庫則非常方便。
文檔數(shù)據(jù)庫的主要缺點(diǎn):
關(guān)系數(shù)據(jù)庫是按行來存儲的,列式數(shù)據(jù)庫是按照列來存儲數(shù)據(jù)。
按行存儲的優(yōu)勢:
在某些場景下,這些優(yōu)勢就成為劣勢了,例如,計算超重人員的數(shù)據(jù),只需要讀取體重這一列進(jìn)行統(tǒng)計即可,但行式存儲會將整行數(shù)據(jù)讀取到內(nèi)存中,很浪費(fèi)。
而列式存儲中,只需要讀取體重這列的數(shù)據(jù)即可,I/O 將大大減少。
除了節(jié)省I/O,列式存儲還有更高的壓縮比,可以節(jié)省存儲空間。普通行式數(shù)據(jù)庫的壓縮比在 3:1 到 5:1 左右,列式數(shù)據(jù)庫在 8:1 到 30:1,因?yàn)閱蝹€列的數(shù)據(jù)相似度更高。
列式存儲的隨機(jī)寫效率遠(yuǎn)低于行式存儲,因?yàn)樾惺酱鎯r同一行多個列都存儲在連續(xù)空間中,而列式存儲將不同列存儲在不連續(xù)的空間。
一般將列式存儲應(yīng)用在離線大數(shù)據(jù)分析統(tǒng)計場景,因?yàn)檫@時主要針對部分列進(jìn)行操作,而且數(shù)據(jù)寫入后無須更新。
關(guān)系數(shù)據(jù)庫通過索引進(jìn)行快速查詢,但在全文搜索的情景下,索引就不夠了,因?yàn)椋?/p>
假設(shè)有一個交友網(wǎng)站,信息表如下:
需要匹配性別、地點(diǎn)、語言列。
需要匹配性別、地點(diǎn)、愛好列。
實(shí)際搜索中,各種排列組合非常多,關(guān)系數(shù)據(jù)庫很難支持。
全文搜索引擎是使用 倒排索引 技術(shù),建立單詞到文檔的索引,例如上面的表信息建立倒排索引:
所以特別適合根據(jù)關(guān)鍵詞來查詢文檔內(nèi)容。
上面介紹了幾種典型的NoSQL方案,及各自的適用場景和特點(diǎn),您可以根據(jù)實(shí)際需求進(jìn)行選擇。