十年網(wǎng)站開發(fā)經(jīng)驗(yàn) + 多家企業(yè)客戶 + 靠譜的建站團(tuán)隊(duì)
量身定制 + 運(yùn)營維護(hù)+專業(yè)推廣+無憂售后,網(wǎng)站問題一站解決
通常來說,當(dāng)數(shù)據(jù)多、并發(fā)量大的時(shí)候,架構(gòu)中可以引入Redis,幫助提升架構(gòu)的整體性能,減少M(fèi)ysql(或其他數(shù)據(jù)庫)的壓力,但不是使用Redis,就不用MySQL。
創(chuàng)新互聯(lián)是一家專業(yè)提供紅安企業(yè)網(wǎng)站建設(shè),專注與網(wǎng)站設(shè)計(jì)制作、網(wǎng)站制作、成都h5網(wǎng)站建設(shè)、小程序制作等業(yè)務(wù)。10年已為紅安眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站建設(shè)公司優(yōu)惠進(jìn)行中。
因?yàn)镽edis的性能十分優(yōu)越,可以支持每秒十幾萬此的讀/寫操作,并且它還支持持久化、集群部署、分布式、主從同步等,Redis在高并發(fā)的場景下數(shù)據(jù)的安全和一致性,所以它經(jīng)常用于兩個(gè)場景:
緩存
判斷數(shù)據(jù)是否適合緩存到Redis中,可以從幾個(gè)方面考慮: 會(huì)經(jīng)常查詢么?命中率如何?寫操作多么?數(shù)據(jù)大???
我們經(jīng)常采用這樣的方式將數(shù)據(jù)刷到Redis中:查詢的請(qǐng)求過來,現(xiàn)在Redis中查詢,如果查詢不到,就查詢數(shù)據(jù)庫拿到數(shù)據(jù),再放到緩存中,這樣第二次相同的查詢請(qǐng)求過來,就可以直接在Redis中拿到數(shù)據(jù);不過要注意【緩存穿透】的問題。
緩存的刷新會(huì)比較復(fù)雜,通常是修改完數(shù)據(jù)庫之后,還需要對(duì)Redis中的數(shù)據(jù)進(jìn)行操作;代碼很簡單,但是需要保證這兩步為同一事務(wù),或最終的事務(wù)一致性。
高速讀寫
常見的就是計(jì)數(shù)器,比如一篇文章的閱讀量,不可能每一次閱讀就在數(shù)據(jù)庫里面update一次。
高并發(fā)的場景很適合使用Redis,比如雙11秒殺,庫存一共就一千件,到了秒殺的時(shí)間,通常會(huì)在極為短暫的時(shí)間內(nèi),有數(shù)萬級(jí)的請(qǐng)求達(dá)到服務(wù)器,如果使用數(shù)據(jù)庫的話,很可能在這一瞬間造成數(shù)據(jù)庫的崩潰,所以通常會(huì)使用Redis(秒殺的場景會(huì)比較復(fù)雜,Redis只是其中之一,例如如果請(qǐng)求超過某個(gè)數(shù)量的時(shí)候,多余的請(qǐng)求就會(huì)被限流)。
這種高并發(fā)的場景,是當(dāng)請(qǐng)求達(dá)到服務(wù)器的時(shí)候,直接在Redis上讀寫,請(qǐng)求不會(huì)訪問到數(shù)據(jù)庫;程序會(huì)在合適的時(shí)間,比如一千件庫存都被秒殺,再將數(shù)據(jù)批量寫到數(shù)據(jù)庫中。
所以通常來說,在必要的時(shí)候引入Redis,可以減少M(fèi)ySQL(或其他)數(shù)據(jù)庫的壓力,兩者不是替代的關(guān)系 。
我將持續(xù)分享Java開發(fā)、架構(gòu)設(shè)計(jì)、程序員職業(yè)發(fā)展等方面的見解,希望能得到你的關(guān)注。
Redis和MySQL的應(yīng)用場景是不同的。
通常來說,沒有說用Redis就不用MySQL的這種情況。
因?yàn)镽edis是一種非關(guān)系型數(shù)據(jù)庫(NoSQL),而MySQL是一種關(guān)系型數(shù)據(jù)庫。
和Redis同類的數(shù)據(jù)庫還有MongoDB和Memchache(其實(shí)并沒有持久化數(shù)據(jù))
那關(guān)系型數(shù)據(jù)庫現(xiàn)在常用的一般有MySQL,SQL Server,Oracle。
我們先來了解一下關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫的區(qū)別吧。
1.存儲(chǔ)方式
關(guān)系型數(shù)據(jù)庫是表格式的,因此存儲(chǔ)在表的行和列中。他們之間很容易關(guān)聯(lián)協(xié)作存儲(chǔ),提取數(shù)據(jù)很方便。而Nosql數(shù)據(jù)庫則與其相反,他是大塊的組合在一起。通常存儲(chǔ)在數(shù)據(jù)集中,就像文檔、鍵值對(duì)或者圖結(jié)構(gòu)。
2.存儲(chǔ)結(jié)構(gòu)
關(guān)系型數(shù)據(jù)庫對(duì)應(yīng)的是結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)表都預(yù)先定義了結(jié)構(gòu)(列的定義),結(jié)構(gòu)描述了數(shù)據(jù)的形式和內(nèi)容。這一點(diǎn)對(duì)數(shù)據(jù)建模至關(guān)重要,雖然預(yù)定義結(jié)構(gòu)帶來了可靠性和穩(wěn)定性,但是修改這些數(shù)據(jù)比較困難。而Nosql數(shù)據(jù)庫基于動(dòng)態(tài)結(jié)構(gòu),使用與非結(jié)構(gòu)化數(shù)據(jù)。因?yàn)镹osql數(shù)據(jù)庫是動(dòng)態(tài)結(jié)構(gòu),可以很容易適應(yīng)數(shù)據(jù)類型和結(jié)構(gòu)的變化。
3.存儲(chǔ)規(guī)范
關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)存儲(chǔ)為了更高的規(guī)范性,把數(shù)據(jù)分割為最小的關(guān)系表以避免重復(fù),獲得精簡的空間利用。雖然管理起來很清晰,但是單個(gè)操作設(shè)計(jì)到多張表的時(shí)候,數(shù)據(jù)管理就顯得有點(diǎn)麻煩。而Nosql數(shù)據(jù)存儲(chǔ)在平面數(shù)據(jù)集中,數(shù)據(jù)經(jīng)??赡軙?huì)重復(fù)。單個(gè)數(shù)據(jù)庫很少被分隔開,而是存儲(chǔ)成了一個(gè)整體,這樣整塊數(shù)據(jù)更加便于讀寫
4.存儲(chǔ)擴(kuò)展
這可能是兩者之間最大的區(qū)別,關(guān)系型數(shù)據(jù)庫是縱向擴(kuò)展,也就是說想要提高處理能力,要使用速度更快的計(jì)算機(jī)。因?yàn)閿?shù)據(jù)存儲(chǔ)在關(guān)系表中,操作的性能瓶頸可能涉及到多個(gè)表,需要通過提升計(jì)算機(jī)性能來克服。雖然有很大的擴(kuò)展空間,但是最終會(huì)達(dá)到縱向擴(kuò)展的上限。而Nosql數(shù)據(jù)庫是橫向擴(kuò)展的,它的存儲(chǔ)天然就是分布式的,可以通過給資源池添加更多的普通數(shù)據(jù)庫服務(wù)器來分擔(dān)負(fù)載。
5.查詢方式
關(guān)系型數(shù)據(jù)庫通過結(jié)構(gòu)化查詢語言來操作數(shù)據(jù)庫(就是我們通常說的SQL)。SQL支持?jǐn)?shù)據(jù)庫CURD操作的功能非常強(qiáng)大,是業(yè)界的標(biāo)準(zhǔn)用法。而Nosql查詢以塊為單元操作數(shù)據(jù),使用的是非結(jié)構(gòu)化查詢語言(UnQl),它是沒有標(biāo)準(zhǔn)的。關(guān)系型數(shù)據(jù)庫表中主鍵的概念對(duì)應(yīng)Nosql中存儲(chǔ)文檔的ID。關(guān)系型數(shù)據(jù)庫使用預(yù)定義優(yōu)化方式(比如索引)來加快查詢操作,而Nosql更簡單更精確的數(shù)據(jù)訪問模式。
6.事務(wù)
關(guān)系型數(shù)據(jù)庫遵循ACID規(guī)則(原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)),而Nosql數(shù)據(jù)庫遵循BASE原則(基本可用(Basically Availble)、軟/柔性事務(wù)(Soft-state )、最終一致性(Eventual Consistency))。由于關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)強(qiáng)一致性,所以對(duì)事務(wù)的支持很好。關(guān)系型數(shù)據(jù)庫支持對(duì)事務(wù)原子性細(xì)粒度控制,并且易于回滾事務(wù)。而Nosql數(shù)據(jù)庫是在CAP(一致性、可用性、分區(qū)容忍度)中任選兩項(xiàng),因?yàn)榛诠?jié)點(diǎn)的分布式系統(tǒng)中,很難全部滿足,所以對(duì)事務(wù)的支持不是很好,雖然也可以使用事務(wù),但是并不是Nosql的閃光點(diǎn)。
7.性能
關(guān)系型數(shù)據(jù)庫為了維護(hù)數(shù)據(jù)的一致性付出了巨大的代價(jià),讀寫性能比較差。在面對(duì)高并發(fā)讀寫性能非常差,面對(duì)海量數(shù)據(jù)的時(shí)候效率非常低。而Nosql存儲(chǔ)的格式都是key-value類型的,并且存儲(chǔ)在內(nèi)存中,非常容易存儲(chǔ),而且對(duì)于數(shù)據(jù)的 一致性是 弱要求。Nosql無需sql的解析,提高了讀寫性能。
8.授權(quán)方式
大多數(shù)的關(guān)系型數(shù)據(jù)庫都是付費(fèi)的并且價(jià)格昂貴,成本較大(MySQL是開源的,所以應(yīng)用的場景最多),而Nosql數(shù)據(jù)庫通常都是開源的。
所以,在實(shí)際的應(yīng)用環(huán)境中,我們一般會(huì)使用MySQL存儲(chǔ)我們的業(yè)務(wù)過程中的數(shù)據(jù),因?yàn)檫@些數(shù)據(jù)之間的關(guān)系比較復(fù)雜,我們常常會(huì)需要在查詢一個(gè)表的數(shù)據(jù)時(shí)候,將其他關(guān)系表的數(shù)據(jù)查詢出來,例如,查詢某個(gè)用戶的訂單,那至少是需要用戶表和訂單表的數(shù)據(jù)。
查詢某個(gè)商品的銷售數(shù)據(jù),那可能就會(huì)需要用戶表,訂單表,訂單明細(xì)表,商品表等等。
而在這樣的使用場景中,我們使用Redis來存儲(chǔ)的話,也就是KeyValue形式存儲(chǔ)的話,其實(shí)并不能滿足我們的需要。
即使Redis的讀取效率再高,我們也沒法用。
但,對(duì)于某些沒有關(guān)聯(lián)少,且需要高頻率讀寫,我們使用Redis就能夠很好的提高整個(gè)體統(tǒng)的并發(fā)能力。
例如商品的庫存信息,我們雖然在MySQL中會(huì)有這樣的字段,但是我們并不想MySQL的數(shù)據(jù)庫被高頻的讀寫,因?yàn)槭褂眠@樣會(huì)導(dǎo)致我的商品表或者庫存表IO非常高,從而影響整個(gè)體統(tǒng)的效率。
所以,對(duì)于這樣的數(shù)據(jù),且有沒有什么復(fù)雜邏輯關(guān)系(就只是隸屬于SKU)的數(shù)據(jù),我們就可以放在Redis里面,下單直接在Redis中減掉庫存,這樣,我們的訂單的并發(fā)能力就能夠提高了。
個(gè)人覺得應(yīng)該站出來更正一下,相反的數(shù)據(jù)量大,更不應(yīng)該用redis。
為什么?
因?yàn)閞edis是內(nèi)存型數(shù)據(jù)庫啊,是放在內(nèi)存里的。
設(shè)想一下,假如你的電腦100G的資料,都用redis來存儲(chǔ),那么你需要100G以上的內(nèi)存!
使用場景
Redis最明顯的用例之一是將其用作緩存。只是保存熱數(shù)據(jù),或者具有過期的cache。
例如facebook,使用Memcached來作為其會(huì)話緩存。
總之,沒有見過哪個(gè)大公司數(shù)據(jù)量大了,換掉mysql用redis的。
題主你錯(cuò)了,不是用redis代替MySQL,而是引入redis來優(yōu)化。
BAT里越來越多的項(xiàng)目組已經(jīng)采用了redis+MySQL的架構(gòu)來開發(fā)平臺(tái)工具。
如題主所說,當(dāng)數(shù)據(jù)多的時(shí)候,MySQL的查詢效率會(huì)大打折扣。我們通常默認(rèn)如果查詢的字段包含索引的話,返回是毫秒級(jí)別的。但是在實(shí)際工作中,我曾經(jīng)遇到過一張包含10個(gè)字段的表,1800萬+條數(shù)據(jù),當(dāng)某種場景下,我們不得不根據(jù)一個(gè)未加索引的字段進(jìn)行精確查詢的時(shí)候,單條sql語句的執(zhí)行時(shí)長有時(shí)能夠達(dá)到2min以上,就更別提如果用like這種模糊查詢的話,其效率將會(huì)多么低下。
我們最開始是希望能夠通過增加索引的方式解決,但是面對(duì)千萬級(jí)別的數(shù)據(jù)量,我們也不敢貿(mào)然加索引,因?yàn)橐坏?shù)據(jù)庫hang住,期間的所有數(shù)據(jù)庫寫入請(qǐng)求都會(huì)被放到等待隊(duì)列中,如果請(qǐng)求是通過http請(qǐng)求發(fā)過來的,很有可能導(dǎo)致服務(wù)發(fā)生分鐘級(jí)別的超時(shí)不響應(yīng)。
經(jīng)過一番調(diào)研,最終敲定的解決方案是引入redis作為緩存。redis具有運(yùn)行效率高,數(shù)據(jù)查詢速度快,支持多種存儲(chǔ)類型以及事務(wù)等優(yōu)勢,我們把經(jīng)常讀取,而不經(jīng)常改動(dòng)的數(shù)據(jù)放入redis中,服務(wù)器讀取這類數(shù)據(jù)的時(shí)候時(shí)候,直接與redis通信,極大的緩解了MySQL的壓力。
然而,我在上面也說了,是redis+MySQL結(jié)合的方式,而不是替代。原因就是redis雖然讀寫很快,但是不適合做數(shù)據(jù)持久層,主要原因是使用redis做數(shù)據(jù)落盤是要以效率作為代價(jià)的,即每隔制定的時(shí)間,redis就要去進(jìn)行數(shù)據(jù)備份/落盤,這對(duì)于單線程的它來說,勢必會(huì)因“分心”而影響效率,結(jié)果得不償失。
樓主你好,首先糾正下,數(shù)據(jù)多并不是一定就用Redis,Redis歸屬于NoSQL數(shù)據(jù)庫中,其特點(diǎn)擁有高性能讀寫數(shù)據(jù)速度,主要解決業(yè)務(wù)效率瓶頸。下面就詳細(xì)說下Redis的相比MySQL優(yōu)點(diǎn)。( 關(guān)于Redis詳細(xì)了解參見我近期文章: )
讀寫異???/p>
Redis非???,每秒可執(zhí)行大約10萬次的讀寫速度。
豐富的數(shù)據(jù)類型
Redis支持豐富的數(shù)據(jù)類型,有二進(jìn)制字符串、列表、集合、排序集和散列等等。這使得Redis很容易被用來解決各種問題,因?yàn)槲覀冎滥男﹩栴}可以更好使用地哪些數(shù)據(jù)類型來處理解決。
原子性
Redis的所有操作都是原子操作,這確保如果兩個(gè)客戶端并發(fā)訪問,Redis服務(wù)器能接收更新的值。
豐富實(shí)用工具 支持異機(jī)主從復(fù)制
Redis支持主從復(fù)制的配置,它可以實(shí)現(xiàn)主服務(wù)器的完全拷貝。
以上為開發(fā)者青睞Redis的主要幾個(gè)可取之處。但是,請(qǐng)注意實(shí)際生產(chǎn)環(huán)境中企業(yè)都是結(jié)合Redis和MySQL的特定進(jìn)行不同應(yīng)用場景的取舍。 如緩存——熱數(shù)據(jù)、計(jì)數(shù)器、消息隊(duì)列(與ActiveMQ,RocketMQ等工具類似)、位操作(大數(shù)據(jù)處理)、分布式鎖與單線程機(jī)制、最新列表(如新聞列表頁面最新的新聞列表)以及排行榜等等 可以看見Redis大顯身手的場景??墒菍?duì)于嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)準(zhǔn)確度和復(fù)雜的關(guān)系型應(yīng)用MySQL等關(guān)系型數(shù)據(jù)庫依然不可替。
web應(yīng)用中一般采用MySQL+Redis的方式,web應(yīng)用每次先訪問Redis,如果沒有找到數(shù)據(jù),才去訪問MySQL。
本質(zhì)區(qū)別
1、mysql:數(shù)據(jù)放在磁盤 redis:數(shù)據(jù)放在內(nèi)存。
首先要知道m(xù)ysql存儲(chǔ)在磁盤里,redis存儲(chǔ)在內(nèi)存里,redis既可以用來做持久存儲(chǔ),也可以做緩存,而目前大多數(shù)公司的存儲(chǔ)都是mysql + redis,mysql作為主存儲(chǔ),redis作為輔助存儲(chǔ)被用作緩存,加快訪問讀取的速度,提高性能。
使用場景區(qū)別
1、mysql支持sql查詢,可以實(shí)現(xiàn)一些關(guān)聯(lián)的查詢以及統(tǒng)計(jì);
2、redis對(duì)內(nèi)存要求比較高,在有限的條件下不能把所有數(shù)據(jù)都放在redis;
3、mysql偏向于存數(shù)據(jù),redis偏向于快速取數(shù)據(jù),但redis查詢復(fù)雜的表關(guān)系時(shí)不如mysql,所以可以把熱門的數(shù)據(jù)放redis,mysql存基本數(shù)據(jù)。
mysql的運(yùn)行機(jī)制
mysql作為持久化存儲(chǔ)的關(guān)系型數(shù)據(jù)庫,相對(duì)薄弱的地方在于每次請(qǐng)求訪問數(shù)據(jù)庫時(shí),都存在著I/O操作,如果反復(fù)頻繁的訪問數(shù)據(jù)庫。第一:會(huì)在反復(fù)鏈接數(shù)據(jù)庫上花費(fèi)大量時(shí)間,從而導(dǎo)致運(yùn)行效率過慢;第二:反復(fù)地訪問數(shù)據(jù)庫也會(huì)導(dǎo)致數(shù)據(jù)庫的負(fù)載過高,那么此時(shí)緩存的概念就衍生了出來。
Redis持久化
由于Redis的數(shù)據(jù)都存放在內(nèi)存中,如果沒有配置持久化,redis重啟后數(shù)據(jù)就全丟失了,于是需要開啟redis的持久化功能,將數(shù)據(jù)保存到磁盤上,當(dāng)redis重啟后,可以從磁盤中恢復(fù)數(shù)據(jù)。redis提供兩種方式進(jìn)行持久化,一種是RDB持久化(原理是將Reids在內(nèi)存中的數(shù)據(jù)庫記錄定時(shí)dump到磁盤上的RDB持久化),另外一種是AOF(append only file)持久化(原理是將Reids的操作日志以追加的方式寫入文件)。
redis是放在內(nèi)存的~!
數(shù)據(jù)量多少絕對(duì)不是選擇redis和mysql的準(zhǔn)則,因?yàn)闊o論是mysql和redis都可以集群擴(kuò)展,約束它們的只是硬件(即你有沒有那么多錢搭建上千個(gè)組成的集群),我個(gè)人覺得數(shù)據(jù)讀取的快慢可能是選擇的標(biāo)準(zhǔn)之一,另外工作中往往是兩者同是使用,因?yàn)閙ysql存儲(chǔ)在硬盤,做持久化存儲(chǔ),而redis存儲(chǔ)在內(nèi)存中做緩存提升效率。
關(guān)系型數(shù)據(jù)庫是必不可少的,因?yàn)橹挥嘘P(guān)系型數(shù)據(jù)庫才能提供給你各種各樣的查詢方式。如果有一系列的數(shù)據(jù)會(huì)頻繁的查詢,那么就用redis進(jìn)行非持久化的存儲(chǔ),以供查詢使用,是解決并發(fā)性能問題的其中一個(gè)手段
分表是分散數(shù)據(jù)庫壓力的好方法。
分表,最直白的意思,就是將一個(gè)表結(jié)構(gòu)分為多個(gè)表,然后,可以再同一個(gè)庫里,也可以放到不同的庫。
當(dāng)然,首先要知道什么情況下,才需要分表。個(gè)人覺得單表記錄條數(shù)達(dá)到百萬到千萬級(jí)別時(shí)就要使用分表了。
分表的分類
**1、縱向分表**
將本來可以在同一個(gè)表的內(nèi)容,人為劃分為多個(gè)表。(所謂的本來,是指按照關(guān)系型數(shù)據(jù)庫的第三范式要求,是應(yīng)該在同一個(gè)表的。)
分表理由:根據(jù)數(shù)據(jù)的活躍度進(jìn)行分離,(因?yàn)椴煌钴S的數(shù)據(jù),處理方式是不同的)
案例:
對(duì)于一個(gè)博客系統(tǒng),文章標(biāo)題,作者,分類,創(chuàng)建時(shí)間等,是變化頻率慢,查詢次數(shù)多,而且最好有很好的實(shí)時(shí)性的數(shù)據(jù),我們把它叫做冷數(shù)據(jù)。而博客的瀏覽量,回復(fù)數(shù)等,類似的統(tǒng)計(jì)信息,或者別的變化頻率比較高的數(shù)據(jù),我們把它叫做活躍數(shù)據(jù)。所以,在進(jìn)行數(shù)據(jù)庫結(jié)構(gòu)設(shè)計(jì)的時(shí)候,就應(yīng)該考慮分表,首先是縱向分表的處理。
這樣縱向分表后:
首先存儲(chǔ)引擎的使用不同,冷數(shù)據(jù)使用MyIsam 可以有更好的查詢數(shù)據(jù)。活躍數(shù)據(jù),可以使用Innodb ,可以有更好的更新速度。
其次,對(duì)冷數(shù)據(jù)進(jìn)行更多的從庫配置,因?yàn)楦嗟牟僮鲿r(shí)查詢,這樣來加快查詢速度。對(duì)熱數(shù)據(jù),可以相對(duì)有更多的主庫的橫向分表處理。
其實(shí),對(duì)于一些特殊的活躍數(shù)據(jù),也可以考慮使用memcache ,redis之類的緩存,等累計(jì)到一定量再去更新數(shù)據(jù)庫?;蛘適ongodb 一類的nosql 數(shù)據(jù)庫,這里只是舉例,就先不說這個(gè)。
**2、橫向分表**
字面意思,就可以看出來,是把大的表結(jié)構(gòu),橫向切割為同樣結(jié)構(gòu)的不同表,如,用戶信息表,user_1,user_2等。表結(jié)構(gòu)是完全一樣,但是,根據(jù)某些特定的規(guī)則來劃分的表,如根據(jù)用戶ID來取模劃分。
分表理由:根據(jù)數(shù)據(jù)量的規(guī)模來劃分,保證單表的容量不會(huì)太大,從而來保證單表的查詢等處理能力。
案例:同上面的例子,博客系統(tǒng)。當(dāng)博客的量達(dá)到很大時(shí)候,就應(yīng)該采取橫向分割來降低每個(gè)單表的壓力,來提升性能。例如博客的冷數(shù)據(jù)表,假如分為100個(gè)表,當(dāng)同時(shí)有100萬個(gè)用戶在瀏覽時(shí),如果是單表的話,會(huì)進(jìn)行100萬次請(qǐng)求,而現(xiàn)在分表后,就可能是每個(gè)表進(jìn)行1萬個(gè)數(shù)據(jù)的請(qǐng)求(因?yàn)?,不可能絕對(duì)的平均,只是假設(shè)),這樣壓力就降低了很多很多。
延伸:為什么要分表和分區(qū)?
日常開發(fā)中我們經(jīng)常會(huì)遇到大表的情況,所謂的大表是指存儲(chǔ)了百萬級(jí)乃至千萬級(jí)條記錄的表。這樣的表過于龐大,導(dǎo)致數(shù)據(jù)庫在查詢和插入的時(shí)候耗時(shí)太長,性能低下,如果涉及聯(lián)合查詢的情況,性能會(huì)更加糟糕。分表和表分區(qū)的目的就是減少數(shù)據(jù)庫的負(fù)擔(dān),提高數(shù)據(jù)庫的效率,通常點(diǎn)來講就是提高表的增刪改查效率。
什么是分表?
分表是將一個(gè)大表按照一定的規(guī)則分解成多張具有獨(dú)立存儲(chǔ)空間的實(shí)體表,我們可以稱為子表,每個(gè)表都對(duì)應(yīng)三個(gè)文件,MYD數(shù)據(jù)文件,.MYI索引文件,.frm表結(jié)構(gòu)文件。這些子表可以分布在同一塊磁盤上,也可以在不同的機(jī)器上。app讀寫的時(shí)候根據(jù)事先定義好的規(guī)則得到對(duì)應(yīng)的子表名,然后去操作它。
什么是分區(qū)?
分區(qū)和分表相似,都是按照規(guī)則分解表。不同在于分表將大表分解為若干個(gè)獨(dú)立的實(shí)體表,而分區(qū)是將數(shù)據(jù)分段劃分在多個(gè)位置存放,可以是同一塊磁盤也可以在不同的機(jī)器。分區(qū)后,表面上還是一張表,但數(shù)據(jù)散列到多個(gè)位置了。app讀寫的時(shí)候操作的還是大表名字,db自動(dòng)去組織分區(qū)的數(shù)據(jù)。
**MySQL分表和分區(qū)有什么聯(lián)系呢?**
1、都能提高mysql的性高,在高并發(fā)狀態(tài)下都有一個(gè)良好的表現(xiàn)。
2、分表和分區(qū)不矛盾,可以相互配合的,對(duì)于那些大訪問量,并且表數(shù)據(jù)比較多的表,我們可以采取分表和分區(qū)結(jié)合的方式(如果merge這種分表方式,不能和分區(qū)配合的話,可以用其他的分表試),訪問量不大,但是表數(shù)據(jù)很多的表,我們可以采取分區(qū)的方式等。
3、分表技術(shù)是比較麻煩的,需要手動(dòng)去創(chuàng)建子表,app服務(wù)端讀寫時(shí)候需要計(jì)算子表名。采用merge好一些,但也要?jiǎng)?chuàng)建子表和配置子表間的union關(guān)系。
4、表分區(qū)相對(duì)于分表,操作方便,不需要?jiǎng)?chuàng)建子表。
我們知道對(duì)于大型的互聯(lián)網(wǎng)應(yīng)用,數(shù)據(jù)庫單表的數(shù)據(jù)量可能達(dá)到千萬甚至上億級(jí)別,同時(shí)面臨這高并發(fā)的壓力。Master-Slave結(jié)構(gòu)只能對(duì)數(shù)據(jù)庫的讀能力進(jìn)行擴(kuò)展,寫操作還是集中在Master中,Master并不能無限制的掛接Slave庫,如果需要對(duì)數(shù)據(jù)庫的吞吐能力進(jìn)行進(jìn)一步的擴(kuò)展,可以考慮采用分庫分表的策略。
**1、分表**
在分表之前,首先要選中合適的分表策略(以哪個(gè)字典為分表字段,需要將數(shù)據(jù)分為多少張表),使數(shù)據(jù)能夠均衡的分布在多張表中,并且不影響正常的查詢。在企業(yè)級(jí)應(yīng)用中,往往使用org_id(組織主鍵)做為分表字段,在互聯(lián)網(wǎng)應(yīng)用中往往是userid。在確定分表策略后,當(dāng)數(shù)據(jù)進(jìn)行存儲(chǔ)及查詢時(shí),需要確定到哪張表里去查找數(shù)據(jù),
數(shù)據(jù)存放的數(shù)據(jù)表 = 分表字段的內(nèi)容 % 分表數(shù)量
**2、分庫**
分表能夠解決單表數(shù)據(jù)量過大帶來的查詢效率下降的問題,但是不能給數(shù)據(jù)庫的并發(fā)訪問帶來質(zhì)的提升,面對(duì)高并發(fā)的寫訪問,當(dāng)Master無法承擔(dān)高并發(fā)的寫入請(qǐng)求時(shí),不管如何擴(kuò)展Slave服務(wù)器,都沒有意義了。我們通過對(duì)數(shù)據(jù)庫進(jìn)行拆分,來提高數(shù)據(jù)庫的寫入能力,即所謂的分庫。分庫采用對(duì)關(guān)鍵字取模的方式,對(duì)數(shù)據(jù)庫進(jìn)行路由。
數(shù)據(jù)存放的數(shù)據(jù)庫=分庫字段的內(nèi)容%數(shù)據(jù)庫的數(shù)量
**3、即分表又分庫**
數(shù)據(jù)庫分表可以解決單表海量數(shù)據(jù)的查詢性能問題,分庫可以解決單臺(tái)數(shù)據(jù)庫的并發(fā)訪問壓力問題。
當(dāng)數(shù)據(jù)庫同時(shí)面臨海量數(shù)據(jù)存儲(chǔ)和高并發(fā)訪問的時(shí)候,需要同時(shí)采取分表和分庫策略。一般分表分庫策略如下:
中間變量 = 關(guān)鍵字%(數(shù)據(jù)庫數(shù)量*單庫數(shù)據(jù)表數(shù)量)
庫 = 取整(中間變量/單庫數(shù)據(jù)表數(shù)量)
表 = (中間變量%單庫數(shù)據(jù)表數(shù)量)
實(shí)例:
1、分庫分表
很明顯,一個(gè)主表(也就是很重要的表,例如用戶表)無限制的增長勢必嚴(yán)重影響性能,分庫與分表是一個(gè)很不錯(cuò)的解決途徑,也就是性能優(yōu)化途徑,現(xiàn)在的案例是我們有一個(gè)1000多萬條記錄的用戶表members,查詢起來非常之慢,同事的做法是將其散列到100個(gè)表中,分別從members0到members99,然后根據(jù)mid分發(fā)記錄到這些表中,牛逼的代碼大概是這樣子:
復(fù)制代碼 代碼如下:
?php
for($i=0;$i 100; $i++ ){
//echo "CREATE TABLE db2.members{$i} LIKE db1.members
";
echo "INSERT INTO members{$i} SELECT * FROM members WHERE mid%100={$i}
";
}
?
2、不停機(jī)修改mysql表結(jié)構(gòu)
同樣還是members表,前期設(shè)計(jì)的表結(jié)構(gòu)不盡合理,隨著數(shù)據(jù)庫不斷運(yùn)行,其冗余數(shù)據(jù)也是增長巨大,同事使用了下面的方法來處理:
先創(chuàng)建一個(gè)臨時(shí)表:
/*創(chuàng)建臨時(shí)表*/
CREATE TABLE members_tmp LIKE members
然后修改members_tmp的表結(jié)構(gòu)為新結(jié)構(gòu),接著使用上面那個(gè)for循環(huán)來導(dǎo)出數(shù)據(jù),因?yàn)?000萬的數(shù)據(jù)一次性導(dǎo)出是不對(duì)的,mid是主鍵,一個(gè)區(qū)間一個(gè)區(qū)間的導(dǎo),基本是一次導(dǎo)出5萬條吧,這里略去了
接著重命名將新表替換上去:
/*這是個(gè)頗為經(jīng)典的語句哈*/
RENAME TABLE members TO members_bak,members_tmp TO members;
就是這樣,基本可以做到無損失,無需停機(jī)更新表結(jié)構(gòu),但實(shí)際上RENAME期間表是被鎖死的,所以選擇在線少的時(shí)候操作是一個(gè)技巧。經(jīng)過這個(gè)操作,使得原先8G多的表,一下子變成了2G多。
NoSQL薄弱的安全性會(huì)給企業(yè)帶來負(fù)面影響 。Imperva公司創(chuàng)始人兼CTO Amichai Shulman如是說。在新的一年中,無疑會(huì)有更多企業(yè)開始或籌劃部署NoSQL。方案落實(shí)后就會(huì)逐漸發(fā)現(xiàn)種種安全問題,因此早做準(zhǔn)備才是正確的選擇。 作為傳統(tǒng)關(guān)系型數(shù)據(jù)庫的替代方案,NoSQL在查詢中并不使用SQL語言,而且允許用戶隨時(shí)變更數(shù)據(jù)屬性。此類數(shù)據(jù)庫以擴(kuò)展性良好著稱,并能夠在需要大量應(yīng)用程序與數(shù)據(jù)庫本身進(jìn)行實(shí)時(shí)交互的交易處理任務(wù)中發(fā)揮性能優(yōu)勢,Couchbase創(chuàng)始人兼產(chǎn)品部門高級(jí)副總裁James Phillips解釋稱:NoSQL以交易業(yè)務(wù)為核心。它更注重實(shí)時(shí)處理能力并且擅長直接對(duì)數(shù)據(jù)進(jìn)行操作,大幅度促進(jìn)了交互型軟件系統(tǒng)的發(fā)展。Phillips指出。其中最大的優(yōu)勢之一是能夠隨時(shí)改變(在屬性方面),由于結(jié)構(gòu)性的弱化,修改過程非常便捷。 NoSQL最大優(yōu)勢影響其安全性 NoSQL的關(guān)鍵性特色之一是其動(dòng)態(tài)的數(shù)據(jù)模型,Shulman解釋道。我可以在其運(yùn)作過程中加入新的屬性記錄。因此與這種結(jié)構(gòu)相匹配的安全模型必須具備一定的前瞻性規(guī)劃。也就是說,它必須能夠了解數(shù)據(jù)庫引入的新屬性將引發(fā)哪些改變,以及新加入的屬性擁有哪些權(quán)限。然而這個(gè)層面上的安全概念目前尚不存在,根本沒有這樣的解決方案。 根據(jù)Phillips的說法,某些NoSQL開發(fā)商已經(jīng)開始著手研發(fā)安全機(jī)制,至少在嘗試保護(hù)數(shù)據(jù)的完整性。在關(guān)系型數(shù)據(jù)庫領(lǐng)域,如果我們的數(shù)據(jù)組成不正確,那么它將無法與結(jié)構(gòu)并行運(yùn)作,換言之?dāng)?shù)據(jù)插入操作整體將宣告失敗。目前各種驗(yàn)證規(guī)則與完整性檢查已經(jīng)比較完善,而事實(shí)證明這些驗(yàn)證機(jī)制都能在NoSQL中發(fā)揮作用。我們與其他人所推出的解決方案類似,都會(huì)在插入一條新記錄或是文檔型規(guī)則時(shí)觸發(fā),并在執(zhí)行過程中確保插入數(shù)據(jù)的正確性。 Shulman預(yù)計(jì)新用戶很快將在配置方面捅出大婁子,這并非因?yàn)镮T工作人員的玩忽職守,實(shí)際上主要原因是NoSQL作為一項(xiàng)新技術(shù)導(dǎo)致大多數(shù)人對(duì)其缺乏足夠的知識(shí)基礎(chǔ)。Application Security研發(fā)部門TeamSHATTER的經(jīng)理Alex Rothacker對(duì)上述觀點(diǎn)表示贊同。他指出,培訓(xùn)的一大問題在于,大多數(shù)NoSQL的從業(yè)者往往屬于新生代IT人士,他們對(duì)于技術(shù)了解較多,但往往缺乏足夠的安全管理經(jīng)驗(yàn)。 如果他們從傳統(tǒng)關(guān)系型數(shù)據(jù)庫入手,那么由于強(qiáng)制性安全機(jī)制的完備,他們可以在使用中學(xué)習(xí)。但NoSQL,只有行家才能通過觀察得出正確結(jié)論,并在大量研究工作后找到一套完備的安全解決方案。因此可能有90%的從業(yè)者由于知識(shí)儲(chǔ)備、安全經(jīng)驗(yàn)或是工作時(shí)間的局限而無法做到這一點(diǎn)。 NoSQL需在安全性方面進(jìn)行優(yōu)化 盡管Phillips認(rèn)同新技術(shù)與舊經(jīng)驗(yàn)之間存在差異,但企業(yè)在推廣NoSQL時(shí)加大對(duì)安全性的關(guān)注會(huì)起到很大程度的積極作用。他認(rèn)為此類數(shù)據(jù)存儲(chǔ)機(jī)制與傳統(tǒng)關(guān)系類數(shù)據(jù)庫相比,其中包含著的敏感類信息更少,而且與企業(yè)網(wǎng)絡(luò)內(nèi)部其它應(yīng)用程序的接觸機(jī)會(huì)也小得多。 他們并不把這項(xiàng)新技術(shù)完全當(dāng)成數(shù)據(jù)庫使用,正如我們?cè)谑占泶罅縼碜云渌鼞?yīng)用程序的業(yè)務(wù)類數(shù)據(jù)時(shí),往往也會(huì)考慮將其作為企業(yè)數(shù)據(jù)存儲(chǔ)機(jī)制一樣,他補(bǔ)充道。當(dāng)然,如果我打算研發(fā)一套具備某種特定功能的社交網(wǎng)絡(luò)、社交游戲或是某種特殊web應(yīng)用程序,也很可能會(huì)將其部署于防火墻之下。這樣一來它不僅與應(yīng)用程序緊密結(jié)合,也不會(huì)被企業(yè)中的其它部門所觸及。 但Rothacker同時(shí)表示,這種過度依賴周邊安全機(jī)制的數(shù)據(jù)庫系統(tǒng)也存在著極其危險(xiǎn)的漏洞。一旦系統(tǒng)完全依附于周邊安全模型,那么驗(yàn)證機(jī)制就必須相對(duì)薄弱,而且缺乏多用戶管理及數(shù)據(jù)訪問方面的安全保護(hù)。只要擁有高權(quán)限賬戶,我們幾乎能訪問存儲(chǔ)機(jī)制中的一切數(shù)據(jù)。舉例來說,Brian Sullivan就在去年的黑帽大會(huì)上演示了如何在完全不清楚數(shù)據(jù)具體內(nèi)容的情況下,將其信息羅列出來甚至導(dǎo)出。 而根據(jù)nCircle公司CTO Tim ‘TK’ Keanini的觀點(diǎn),即使是與有限的應(yīng)用程序相關(guān)聯(lián),NoSQL也很有可能被暴露在互聯(lián)網(wǎng)上。在缺少嚴(yán)密網(wǎng)絡(luò)劃分的情況下,它可能成為攻擊者窺探存儲(chǔ)數(shù)據(jù)的薄弱環(huán)節(jié)。因?yàn)镹oSQL在設(shè)計(jì)上主要用于互聯(lián)網(wǎng)規(guī)模的部署,所以它很可能被直接連接到互聯(lián)網(wǎng)中,進(jìn)而面臨大量攻擊行為。 其中發(fā)生機(jī)率最高的攻擊行為就是注入式攻擊,這也是一直以來肆虐于關(guān)系類數(shù)據(jù)庫領(lǐng)域的頭號(hào)公敵。盡管NoSQL沒有將SQL作為查詢語言,也并不代表它能夠免受注入式攻擊的威脅。雖然不少人宣稱SQL注入在NoSQL這邊不起作用,但其中的原理是完全一致的。攻擊者需要做的只是改變自己注入內(nèi)容的語法形式,Rothacker解釋稱。也就是說雖然SQL注入不會(huì)出現(xiàn),但JavaScript注入或者JSON注入同樣能威脅安全。 此外,攻擊者在籌劃對(duì)這類數(shù)據(jù)庫展開侵襲時(shí),也很可能進(jìn)一步優(yōu)化自己的工具。不成熟的安全技術(shù)往往帶來這樣的窘境:需要花費(fèi)大量時(shí)間學(xué)習(xí)如何保障其安全,但幾乎每個(gè)IT人士都能迅速掌握攻擊活動(dòng)的組織方法。因此我認(rèn)為攻擊者將會(huì)始終走在安全部署的前面,Shulman說道。遺憾的是搞破壞總比防范工作更容易,而我們已經(jīng)看到不少NoSQL技術(shù)方面的公開漏洞,尤其是目前引起熱議的、以JSON注入為載體的攻擊方式。 NoSQL安全性并非其阻礙 然而,這一切都不應(yīng)該成為企業(yè)使用NoSQL的阻礙,他總結(jié)道。我認(rèn)為歸根結(jié)底,這應(yīng)該算是企業(yè)的一種商業(yè)決策。只要這種選擇能夠帶來吸引力巨大的商業(yè)機(jī)遇,就要承擔(dān)一定風(fēng)險(xiǎn),Shulman解釋道。但應(yīng)該采取一定措施以盡量弱化這種風(fēng)險(xiǎn)。 舉例來說,鑒于數(shù)據(jù)庫對(duì)外部安全機(jī)制的依賴性,Rothacker建議企業(yè)積極考慮引入加密方案。他警告稱,企業(yè)必須對(duì)與NoSQL相對(duì)接的應(yīng)用程序代碼仔細(xì)檢查。換言之,企業(yè)必須嚴(yán)格挑選負(fù)責(zé)此類項(xiàng)目部署的人選,確保將最好的人才用于這方面事務(wù),Shulman表示。當(dāng)大家以NoSQL為基礎(chǔ)編寫應(yīng)用程序時(shí),必須啟用有經(jīng)驗(yàn)的編程人員,因?yàn)榭蛻舳塑浖堑謸醢踩珕栴}的第一道屏障。切實(shí)為額外緩沖區(qū)的部署留出時(shí)間與預(yù)算,這能夠讓員工有閑暇反思自己的工作內(nèi)容并盡量多顧及安全考量多想一點(diǎn)就是進(jìn)步。綜上所述,這可能與部署傳統(tǒng)的關(guān)系類數(shù)據(jù)庫也沒什么不同。 具有諷刺意味的是,近年來數(shù)據(jù)庫應(yīng)用程序在安全性方面的提升基本都跟數(shù)據(jù)庫本身沒什么關(guān)系,nCircle公司安全研究及開發(fā)部門總監(jiān)Oliver Lavery如是說。
在大數(shù)據(jù)時(shí)代,“多種架構(gòu)支持多類應(yīng)用”成為數(shù)據(jù)庫行業(yè)應(yīng)對(duì)大數(shù)據(jù)的基本思路,數(shù)據(jù)庫行業(yè)出現(xiàn)互為補(bǔ)充的三大陣營,適用于事務(wù)處理應(yīng)用的OldSQL、適用于數(shù)據(jù)分析應(yīng)用的NewSQL和適用于互聯(lián)網(wǎng)應(yīng)用的NoSQL。但在一些復(fù)雜的應(yīng)用場景中,單一數(shù)據(jù)庫架構(gòu)都不能完全滿足應(yīng)用場景對(duì)海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)管理、復(fù)雜分析、關(guān)聯(lián)查詢、實(shí)時(shí)性處理和控制建設(shè)成本等多方面的需要,因此不同架構(gòu)數(shù)據(jù)庫混合部署應(yīng)用成為滿足復(fù)雜應(yīng)用的必然選擇。不同架構(gòu)數(shù)據(jù)庫混合使用的模式可以概括為:OldSQL+NewSQL、OldSQL+NoSQL、NewSQL+NoSQL三種主要模式。下面通過三個(gè)案例對(duì)不同架構(gòu)數(shù)據(jù)庫的混合應(yīng)用部署進(jìn)行介紹。
OldSQL+NewSQL 在數(shù)據(jù)中心類應(yīng)用中混合部署
采用OldSQL+NewSQL模式構(gòu)建數(shù)據(jù)中心,在充分發(fā)揮OldSQL數(shù)據(jù)庫的事務(wù)處理能力的同時(shí),借助NewSQL在實(shí)時(shí)性、復(fù)雜分析、即席查詢等方面的獨(dú)特優(yōu)勢,以及面對(duì)海量數(shù)據(jù)時(shí)較強(qiáng)的擴(kuò)展能力,滿足數(shù)據(jù)中心對(duì)當(dāng)前“熱”數(shù)據(jù)事務(wù)型處理和海量歷史“冷”數(shù)據(jù)分析兩方面的需求。OldSQL+NewSQL模式在數(shù)據(jù)中心類應(yīng)用中的互補(bǔ)作用體現(xiàn)在,OldSQL彌補(bǔ)了NewSQL不適合事務(wù)處理的不足,NewSQL彌補(bǔ)了OldSQL在海量數(shù)據(jù)存儲(chǔ)能力和處理性能方面的缺陷。
商業(yè)銀行數(shù)據(jù)中心采用OldSQL+NewSQL混合部署方式搭建,OldSQL數(shù)據(jù)庫滿足各業(yè)務(wù)系統(tǒng)數(shù)據(jù)的歸檔備份和事務(wù)型應(yīng)用,NewSQL MPP數(shù)據(jù)庫集群對(duì)即席查詢、多維分析等應(yīng)用提供高性能支持,并且通過MPP集群架構(gòu)實(shí)現(xiàn)應(yīng)對(duì)海量數(shù)據(jù)存儲(chǔ)的擴(kuò)展能力。
商業(yè)銀行數(shù)據(jù)中心存儲(chǔ)架構(gòu)
與傳統(tǒng)的OldSQL模式相比,商業(yè)銀行數(shù)據(jù)中心采用OldSQL+NewSQL混合搭建模式,數(shù)據(jù)加載性能提升3倍以上,即席查詢和統(tǒng)計(jì)分析性能提升6倍以上。NewSQL MPP的高可擴(kuò)展性能夠應(yīng)對(duì)新的業(yè)務(wù)需求,可隨著數(shù)據(jù)量的增長采用集群方式構(gòu)建存儲(chǔ)容量更大的數(shù)據(jù)中心。
OldSQL+NoSQL 在互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用中混合部署
在互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用中采用OldSQL+NoSQL混合模式,能夠很好的解決互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用對(duì)海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲(chǔ)和快速處理的需求。在諸如大型電子商務(wù)平臺(tái)、大型SNS平臺(tái)等互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用場景中,OldSQL在應(yīng)用中負(fù)責(zé)高價(jià)值密度結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和事務(wù)型處理,NoSQL在應(yīng)用中負(fù)責(zé)存儲(chǔ)和處理海量非結(jié)構(gòu)化的數(shù)據(jù)和低價(jià)值密度結(jié)構(gòu)化數(shù)據(jù)。OldSQL+NoSQL模式在互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用中的互補(bǔ)作用體現(xiàn)在,OldSQL彌補(bǔ)了NoSQL在ACID特性和復(fù)雜關(guān)聯(lián)運(yùn)算方面的不足,NoSQL彌補(bǔ)了OldSQL在海量數(shù)據(jù)存儲(chǔ)和非結(jié)構(gòu)化數(shù)據(jù)處理方面的缺陷。
數(shù)據(jù)魔方是淘寶網(wǎng)的一款數(shù)據(jù)產(chǎn)品,主要提供行業(yè)數(shù)據(jù)分析、店鋪數(shù)據(jù)分析。淘寶數(shù)據(jù)產(chǎn)品在存儲(chǔ)層采用OldSQL+NoSQL混合模式,由基于MySQL的分布式關(guān)系型數(shù)據(jù)庫集群MyFOX和基于HBase的NoSQL存儲(chǔ)集群Prom組成。由于OldSQL強(qiáng)大的語義和關(guān)系表達(dá)能力,在應(yīng)用中仍然占據(jù)著重要地位,目前存儲(chǔ)在MyFOX中的統(tǒng)計(jì)結(jié)果數(shù)據(jù)已經(jīng)達(dá)到10TB,占據(jù)著數(shù)據(jù)魔方總數(shù)據(jù)量的95%以上。另一方面,NoSQL作為SQL的有益補(bǔ)充,解決了OldSQL數(shù)據(jù)庫無法解決的全屬性選擇器等問題。
淘寶海量數(shù)據(jù)產(chǎn)品技術(shù)架構(gòu)
基于OldSQL+NoSQL混合架構(gòu)的特點(diǎn),數(shù)據(jù)魔方目前已經(jīng)能夠提供壓縮前80TB的數(shù)據(jù)存儲(chǔ)空間,支持每天4000萬的查詢請(qǐng)求,平均響應(yīng)時(shí)間在28毫秒,足以滿足未來一段時(shí)間內(nèi)的業(yè)務(wù)增長需求。
NewSQL+NoSQL 在行業(yè)大數(shù)據(jù)應(yīng)用中混合部署
行業(yè)大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)的區(qū)別在于行業(yè)大數(shù)據(jù)的價(jià)值密度更高,并且對(duì)結(jié)構(gòu)化數(shù)據(jù)的實(shí)時(shí)處理、復(fù)雜的多表關(guān)聯(lián)分析、即席查詢、數(shù)據(jù)強(qiáng)一致性等都比互聯(lián)網(wǎng)大數(shù)據(jù)有更高的要求。行業(yè)大數(shù)據(jù)應(yīng)用場景主要是分析類應(yīng)用,如:電信、金融、政務(wù)、能源等行業(yè)的決策輔助、預(yù)測預(yù)警、統(tǒng)計(jì)分析、經(jīng)營分析等。
在行業(yè)大數(shù)據(jù)應(yīng)用中采用NewSQL+NoSQL混合模式,充分利用NewSQL在結(jié)構(gòu)化數(shù)據(jù)分析處理方面的優(yōu)勢,以及NoSQL在非結(jié)構(gòu)數(shù)據(jù)處理方面的優(yōu)勢,實(shí)現(xiàn)NewSQL與NoSQL的功能互補(bǔ),解決行業(yè)大數(shù)據(jù)應(yīng)用對(duì)高價(jià)值結(jié)構(gòu)化數(shù)據(jù)的實(shí)時(shí)處理、復(fù)雜的多表關(guān)聯(lián)分析、即席查詢、數(shù)據(jù)強(qiáng)一致性等要求,以及對(duì)海量非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和精確查詢的要求。在應(yīng)用中,NewSQL承擔(dān)高價(jià)值密度結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和分析處理工作,NoSQL承擔(dān)存儲(chǔ)和處理海量非結(jié)構(gòu)化數(shù)據(jù)和不需要關(guān)聯(lián)分析、Ad-hoc查詢較少的低價(jià)值密度結(jié)構(gòu)化數(shù)據(jù)的工作。
當(dāng)前電信運(yùn)營商在集中化BI系統(tǒng)建設(shè)過程中面臨著數(shù)據(jù)規(guī)模大、數(shù)據(jù)處理類型多等問題,并且需要應(yīng)對(duì)大量的固定應(yīng)用,以及占統(tǒng)計(jì)總數(shù)80%以上的突發(fā)性臨時(shí)統(tǒng)計(jì)(ad-hoc)需求。在集中化BI系統(tǒng)的建設(shè)中采用NewSQL+NoSQL混搭的模式,充分利用NewSQL在復(fù)雜分析、即席查詢等方面處理性能的優(yōu)勢,及NoSQL在非結(jié)構(gòu)化數(shù)據(jù)處理和海量數(shù)據(jù)存儲(chǔ)方面的優(yōu)勢,實(shí)現(xiàn)高效低成本。
集中化BI系統(tǒng)數(shù)據(jù)存儲(chǔ)架構(gòu)
集中化BI系統(tǒng)按照數(shù)據(jù)類型和處理方式的不同,將結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)分別存儲(chǔ)在不同的系統(tǒng)中:非結(jié)構(gòu)化數(shù)據(jù)在Hadoop平臺(tái)上存儲(chǔ)與處理;結(jié)構(gòu)化、不需要關(guān)聯(lián)分析、Ad-hoc查詢較少的數(shù)據(jù)保存在NoSQL數(shù)據(jù)庫或Hadoop平臺(tái);結(jié)構(gòu)化、需要關(guān)聯(lián)分析或經(jīng)常ad-hoc查詢的數(shù)據(jù),保存在NewSQL MPP數(shù)據(jù)庫中,短期高價(jià)值數(shù)據(jù)放在高性能平臺(tái),中長期放在低成本產(chǎn)品中。
結(jié)語
當(dāng)前信息化應(yīng)用的多樣性、復(fù)雜性,以及三種數(shù)據(jù)庫架構(gòu)各自所具有的優(yōu)勢和局限性,造成任何一種架構(gòu)的數(shù)據(jù)庫都不能完全滿足應(yīng)用需求,因此不同架構(gòu)數(shù)據(jù)庫混合使用,從而彌補(bǔ)其他架構(gòu)的不足成為必然選擇。根據(jù)應(yīng)用場景采用不同架構(gòu)數(shù)據(jù)庫進(jìn)行組合搭配,充分發(fā)揮每種架構(gòu)數(shù)據(jù)庫的特點(diǎn)和優(yōu)勢,并且與其他架構(gòu)數(shù)據(jù)庫形成互補(bǔ),完全涵蓋應(yīng)用需求,保證數(shù)據(jù)資源的最優(yōu)化利用,將成為未來一段時(shí)期內(nèi)信息化應(yīng)用主要采用的解決方式。
目前在國內(nèi)市場上,OldSQL主要為Oracle、IBM等國外數(shù)據(jù)庫廠商所壟斷,達(dá)夢(mèng)、金倉等國產(chǎn)廠商仍處于追趕狀態(tài);南大通用憑借國產(chǎn)新型數(shù)據(jù)庫GBase 8a異軍突起,與EMC的Greenplum和HP的Vertica躋身NewSQL市場三強(qiáng);NoSQL方面用戶則大多采用Hadoop開源方案。