nosql數(shù)據(jù)壓縮的簡單介紹

高性能 NoSQL

關系數(shù)據(jù)庫經過幾十年的發(fā)展，已經非常成熟，但同時也存在不足：

十載的甌海網站建設經驗，針對設計、前端、開發(fā)、售后、文案、推廣等六對一服務，響應快，48小時及時工作處理。全網整合營銷推廣的優(yōu)勢是能夠根據(jù)用戶設備顯示端的尺寸不同，自動調整甌海建站的顯示方式，使網站能夠適用不同顯示終端，在瀏覽器中調整網站的寬度，無論在任何一種瀏覽器上瀏覽網站，都能展現(xiàn)優(yōu)雅布局與設計，從而大程度地提升瀏覽體驗。創(chuàng)新互聯(lián)從事“甌海網站設計”,“甌海網站推廣”以來，每個客戶項目都認真落實執(zhí)行。

表結構是強約束的，業(yè)務變更時擴充很麻煩。

如果對大數(shù)據(jù)量的表進行統(tǒng)計運算，I/O會很高，因為即使只針對某列進行運算，也需要將整行數(shù)據(jù)讀入內存。

全文搜索只能使用 Like 進行整表掃描，性能非常低。

針對這些不足，產生了不同的 NoSQL 解決方案，在某些場景下比關系數(shù)據(jù)庫更有優(yōu)勢，但同時也犧牲了某些特性，所以不能片面的迷信某種方案，應將其作為 SQL 的有利補充。

NoSQL != No SQL，而是：

NoSQL = Not Only SQL

典型的 NoSQL 方案分為4類：

Redis 是典型，其 value 是具體的數(shù)據(jù)結構，包括 string, hash, list, set, sorted set, bitmap, hyperloglog，常被稱為數(shù)據(jù)結構服務器。

以 list 為例：

LPOP key 是移除并返回隊列左邊的第一個元素。

如果用關系數(shù)據(jù)庫就比較麻煩了，需要操作：

Redis 的缺點主要體現(xiàn)在不支持完成的ACID事務，只能保證隔離性和一致性，無法保證原子性和持久性。

最大的特點是 no-schema，無需在使用前定義字段，讀取一個不存在的字段也不會導致語法錯誤。

特點：

以電商為例，不同商品的屬性差異很大，如冰箱和電腦，這種差異性在關系數(shù)據(jù)庫中會有很大的麻煩，而使用文檔數(shù)據(jù)庫則非常方便。

文檔數(shù)據(jù)庫的主要缺點：

關系數(shù)據(jù)庫是按行來存儲的，列式數(shù)據(jù)庫是按照列來存儲數(shù)據(jù)。

按行存儲的優(yōu)勢：

在某些場景下，這些優(yōu)勢就成為劣勢了，例如，計算超重人員的數(shù)據(jù)，只需要讀取體重這一列進行統(tǒng)計即可，但行式存儲會將整行數(shù)據(jù)讀取到內存中，很浪費。

而列式存儲中，只需要讀取體重這列的數(shù)據(jù)即可，I/O 將大大減少。

除了節(jié)省I/O，列式存儲還有更高的壓縮比，可以節(jié)省存儲空間。普通行式數(shù)據(jù)庫的壓縮比在 3:1 到 5:1 左右，列式數(shù)據(jù)庫在 8:1 到 30:1，因為單個列的數(shù)據(jù)相似度更高。

列式存儲的隨機寫效率遠低于行式存儲，因為行式存儲時同一行多個列都存儲在連續(xù)空間中，而列式存儲將不同列存儲在不連續(xù)的空間。

一般將列式存儲應用在離線大數(shù)據(jù)分析統(tǒng)計場景，因為這時主要針對部分列進行操作，而且數(shù)據(jù)寫入后無須更新。

關系數(shù)據(jù)庫通過索引進行快速查詢，但在全文搜索的情景下，索引就不夠了，因為：

假設有一個交友網站，信息表如下：

需要匹配性別、地點、語言列。

需要匹配性別、地點、愛好列。

實際搜索中，各種排列組合非常多，關系數(shù)據(jù)庫很難支持。

全文搜索引擎是使用倒排索引技術，建立單詞到文檔的索引，例如上面的表信息建立倒排索引：

所以特別適合根據(jù)關鍵詞來查詢文檔內容。

上面介紹了幾種典型的NoSQL方案，及各自的適用場景和特點，您可以根據(jù)實際需求進行選擇。

什么是NoSQL數(shù)據(jù)庫？

“NoSQL,指的是非關系型的數(shù)據(jù)庫。NoSQL有時也稱作Not Only SQL的縮寫,是對不同于傳統(tǒng)的關系型數(shù)據(jù)庫的數(shù)據(jù)庫管理系統(tǒng)的統(tǒng)稱。NoSQL用于超大規(guī)模數(shù)據(jù)的存儲。這些類型的數(shù)據(jù)存儲不需要固定的模式,無需多余操作就可以橫向擴展?！?/p>

幾種nosql的淺談

1、性能

都比較高，性能對我們來說應該都不是瓶頸。

總體來講，TPS 方面 redis 和 memcache 差不多，要大于 mongodb。

2、操作的便利性

memcache 數(shù)據(jù)結構單一。（key-value）

redis 豐富一些，數(shù)據(jù)操作方面，redis 更好一些，較少的網絡 IO 次數(shù)，同時還提供 list，set，

hash 等數(shù)據(jù)結構的存儲。

mongodb 支持豐富的數(shù)據(jù)表達，索引，最類似關系型數(shù)據(jù)庫，支持的查詢語言非常豐富。

3、內存空間的大小和數(shù)據(jù)量的大小

redis 在 2.0 版本后增加了自己的 VM 特性，突破物理內存的限制；可以對 key value 設置過

期時間（類似 memcache）

memcache 可以修改最大可用內存,采用 LRU 算法。Memcached 代理軟件 magent，比如建立

10 臺 4G 的 Memcache 集群，就相當于有了 40G。 magent -s 10.1.2.1 -s 10.1.2.2:11211 -b

10.1.2.3:14000 mongoDB 適合大數(shù)據(jù)量的存儲，依賴操作系統(tǒng) VM 做內存管理，吃內存也比較厲害，服務

不要和別的服務在一起。

4、可用性（單點問題）

對于單點問題，

redis，依賴客戶端來實現(xiàn)分布式讀寫；主從復制時，每次從節(jié)點重新連接主節(jié)點都要依賴整

個快照,無增量復制，因性能和效率問題，

所以單點問題比較復雜；不支持自動 sharding,需要依賴程序設定一致 hash 機制。

一種替代方案是，不用 redis 本身的復制機制，采用自己做主動復制（多份存儲），或者改成

增量復制的方式（需要自己實現(xiàn)），一致性問題和性能的權衡

Memcache 本身沒有數(shù)據(jù)冗余機制，也沒必要；對于故障預防，采用依賴成熟的 hash 或者環(huán)

狀的算法，解決單點故障引起的抖動問題。

mongoDB 支持 master-slave,replicaset（內部采用 paxos 選舉算法，自動故障恢復）,auto sharding 機制，對客戶端屏蔽了故障轉移和切分機制。

5、可靠性（持久化）

對于數(shù)據(jù)持久化和數(shù)據(jù)恢復，

redis 支持（快照、AOF）：依賴快照進行持久化，aof 增強了可靠性的同時，對性能有所影

響

memcache 不支持，通常用在做緩存,提升性能；

MongoDB 從 1.8 版本開始采用 binlog 方式支持持久化的可靠性

6、數(shù)據(jù)一致性（事務支持）

Memcache 在并發(fā)場景下，用 cas 保證一致性redis 事務支持比較弱，只能保證事務中的每個操作連續(xù)執(zhí)行

mongoDB 不支持事務

7、數(shù)據(jù)分析

mongoDB 內置了數(shù)據(jù)分析的功能(mapreduce),其他不支持

8、應用場景

redis：數(shù)據(jù)量較小的更性能操作和運算上

memcache：用于在動態(tài)系統(tǒng)中減少數(shù)據(jù)庫負載，提升性能;做緩存，提高性能（適合讀多寫

少，對于數(shù)據(jù)量比較大，可以采用 sharding）

MongoDB:主要解決海量數(shù)據(jù)的訪問效率問題。

表格比較：

memcache redis 類型內存數(shù)據(jù)庫內存數(shù)據(jù)庫

數(shù)據(jù)類型在定義 value 時就要固定數(shù)據(jù)類型不需要

有字符串，鏈表，集合和有序集合

虛擬內存不支持支持

過期策略支持支持

分布式 magent master-slave，一主一從或一主多從

存儲數(shù)據(jù)安全不支持使用 save 存儲到 dump.rdb 中

災難恢復不支持 append only file(aof)用于數(shù)據(jù)恢復

性能

1、類型——memcache 和 redis 都是將數(shù)據(jù)存放在內存，所以是內存數(shù)據(jù)庫。當然，memcache 也可用于緩存其他東西，例如圖片等等。

2、數(shù)據(jù)類型——Memcache 在添加數(shù)據(jù)時就要指定數(shù)據(jù)的字節(jié)長度,而 redis 不需要。

3、虛擬內存——當物理內存用完時，可以將一些很久沒用到的 value 交換到磁盤。

4、過期策略——memcache 在 set 時就指定，例如 set key1 0 0 8,即永不過期。Redis 可以通

過例如 expire 設定，例如 expire name 10。

5、分布式——設定 memcache 集群，利用 magent 做一主多從;redis 可以做一主多從。都可

以一主一從。

6、存儲數(shù)據(jù)安全——memcache 斷電就斷了，數(shù)據(jù)沒了；redis 可以定期 save 到磁盤。

7、災難恢復——memcache 同上，redis 丟了后可以通過 aof 恢復。

Memecache 端口 11211

yum -y install memcached

yum -y install php-pecl-memcache

/etc/init.d/memcached start memcached -d -p 11211 -u memcached -m 64 -c 1024 -P /var/run/memcached/memcached.pid

-d 啟動一個守護進程

-p 端口

-m 分配的內存是 M

-c 最大運行并發(fā)數(shù)-P memcache 的 pid

//0 壓縮（是否 MEMCACHE_COMPRESSED） 30 秒失效時間

//delete 5 是 timeout

NoSQL自動生成上千萬的數(shù)據(jù)可以有哪些方法

1. CouchDB

所用語言： Erlang

特點：DB一致性，易于使用

使用許可： Apache

協(xié)議： HTTP/REST

雙向數(shù)據(jù)復制，

持續(xù)進行或臨時處理，

處理時帶沖突檢查，

因此，采用的是master-master復制（見編注2）

MVCC – 寫操作不阻塞讀操作

可保存文件之前的版本

Crash-only（可靠的）設計

需要不時地進行數(shù)據(jù)壓縮

視圖：嵌入式映射/減少

格式化視圖：列表顯示

支持進行服務器端文檔驗證

支持認證

根據(jù)變化實時更新

支持附件處理

因此， CouchApps（獨立的 js應用程序）

需要 jQuery程序庫

最佳應用場景：適用于數(shù)據(jù)變化較少，執(zhí)行預定義查詢，進行數(shù)據(jù)統(tǒng)計的應用程序。適用于需要提供數(shù)據(jù)版本支持的應用程序。

例如： CRM、CMS系統(tǒng)。 master-master復制對于多站點部署是非常有用的。

（編注2：master-master復制：是一種數(shù)據(jù)庫同步方法，允許數(shù)據(jù)在一組計算機之間共享數(shù)據(jù)，并且可以通過小組中任意成員在組內進行數(shù)據(jù)更新。）

2. Redis

所用語言：C/C++

特點：運行異?？?/p>

使用許可： BSD

協(xié)議：類 Telnet

有硬盤存儲支持的內存數(shù)據(jù)庫，

但自2.0版本以后可以將數(shù)據(jù)交換到硬盤（注意， 2.4以后版本不支持該特性?。?/p>

Master-slave復制（見編注3）

雖然采用簡單數(shù)據(jù)或以鍵值索引的哈希表，但也支持復雜操作，例如 ZREVRANGEBYSCORE。

INCR co （適合計算極限值或統(tǒng)計數(shù)據(jù)）

支持 sets（同時也支持 union/diff/inter）

支持列表（同時也支持隊列；阻塞式 pop操作）

支持哈希表（帶有多個域的對象）

支持排序 sets（高得分表，適用于范圍查詢）

Redis支持事務

支持將數(shù)據(jù)設置成過期數(shù)據(jù)（類似快速緩沖區(qū)設計）

Pub/Sub允許用戶實現(xiàn)消息機制

最佳應用場景：適用于數(shù)據(jù)變化快且數(shù)據(jù)庫大小可遇見（適合內存容量）的應用程序。

例如：股票價格、數(shù)據(jù)分析、實時數(shù)據(jù)搜集、實時通訊。

（編注3：Master-slave復制：如果同一時刻只有一臺服務器處理所有的復制請求，這被稱為

Master-slave復制，通常應用在需要提供高可用性的服務器集群。）

3. MongoDB

所用語言：C++

特點：保留了SQL一些友好的特性（查詢，索引）。

使用許可： AGPL（發(fā)起者： Apache）

協(xié)議： Custom, binary（ BSON）

Master/slave復制（支持自動錯誤恢復，使用 sets 復制）

內建分片機制

支持 javascript表達式查詢

可在服務器端執(zhí)行任意的 javascript函數(shù)

update-in-place支持比CouchDB更好

在數(shù)據(jù)存儲時采用內存到文件映射

對性能的關注超過對功能的要求

建議最好打開日志功能（參數(shù) –journal）

在32位操作系統(tǒng)上，數(shù)據(jù)庫大小限制在約2.5Gb

空數(shù)據(jù)庫大約占 192Mb

采用 GridFS存儲大數(shù)據(jù)或元數(shù)據(jù)（不是真正的文件系統(tǒng)）

最佳應用場景：適用于需要動態(tài)查詢支持；需要使用索引而不是 map/reduce功能；需要對大數(shù)據(jù)庫有性能要求；需要使用

CouchDB但因為數(shù)據(jù)改變太頻繁而占滿內存的應用程序。

例如：你本打算采用 MySQL或 PostgreSQL，但因為它們本身自帶的預定義欄讓你望而卻步。

4. Riak

所用語言：Erlang和C，以及一些Javascript

特點：具備容錯能力

使用許可： Apache

協(xié)議： HTTP/REST或者 custom binary

可調節(jié)的分發(fā)及復制(N, R, W)

用 JavaScript or Erlang在操作前或操作后進行驗證和安全支持。

使用JavaScript或Erlang進行 Map/reduce

連接及連接遍歷：可作為圖形數(shù)據(jù)庫使用

索引：輸入元數(shù)據(jù)進行搜索（1.0版本即將支持）

大數(shù)據(jù)對象支持（ Luwak）

提供“開源”和“企業(yè)”兩個版本

全文本搜索，索引，通過 Riak搜索服務器查詢（ beta版）

支持Masterless多站點復制及商業(yè)許可的 SNMP監(jiān)控

最佳應用場景：適用于想使用類似 Cassandra（類似Dynamo）數(shù)據(jù)庫但無法處理

bloat及復雜性的情況。適用于你打算做多站點復制，但又需要對單個站點的擴展性，可用性及出錯處理有要求的情況。

例如：銷售數(shù)據(jù)搜集，工廠控制系統(tǒng)；對宕機時間有嚴格要求；可以作為易于更新的 web服務器使用。

5. Membase

所用語言： Erlang和C

特點：兼容 Memcache，但同時兼具持久化和支持集群

使用許可： Apache 2.0

協(xié)議：分布式緩存及擴展

非常快速（200k+/秒），通過鍵值索引數(shù)據(jù)

可持久化存儲到硬盤

所有節(jié)點都是唯一的（ master-master復制）

在內存中同樣支持類似分布式緩存的緩存單元

寫數(shù)據(jù)時通過去除重復數(shù)據(jù)來減少 IO

提供非常好的集群管理 web界面

更新軟件時軟無需停止數(shù)據(jù)庫服務

支持連接池和多路復用的連接代理

最佳應用場景：適用于需要低延遲數(shù)據(jù)訪問，高并發(fā)支持以及高可用性的應用程序

例如：低延遲數(shù)據(jù)訪問比如以廣告為目標的應用，高并發(fā)的 web 應用比如網絡游戲（例如 Zynga）

6. Neo4j

所用語言： Java

特點：基于關系的圖形數(shù)據(jù)庫

使用許可： GPL，其中一些特性使用 AGPL/商業(yè)許可

協(xié)議： HTTP/REST（或嵌入在 Java中）

可獨立使用或嵌入到 Java應用程序

圖形的節(jié)點和邊都可以帶有元數(shù)據(jù)

很好的自帶web管理功能

使用多種算法支持路徑搜索

使用鍵值和關系進行索引

為讀操作進行優(yōu)化

支持事務（用 Java api）

使用 Gremlin圖形遍歷語言

支持 Groovy腳本

支持在線備份，高級監(jiān)控及高可靠性支持使用 AGPL/商業(yè)許可

最佳應用場景：適用于圖形一類數(shù)據(jù)。這是 Neo4j與其他nosql數(shù)據(jù)庫的最顯著區(qū)別

例如：社會關系，公共交通網絡，地圖及網絡拓譜

7. Cassandra

所用語言： Java

特點：對大型表格和 Dynamo支持得最好

使用許可： Apache

協(xié)議： Custom, binary (節(jié)約型)

可調節(jié)的分發(fā)及復制(N, R, W)

支持以某個范圍的鍵值通過列查詢

類似大表格的功能：列，某個特性的列集合

寫操作比讀操作更快

基于 Apache分布式平臺盡可能地 Map/reduce

我承認對 Cassandra有偏見，一部分是因為它本身的臃腫和復雜性，也因為 Java的問題（配置，出現(xiàn)異常，等等）

最佳應用場景：當使用寫操作多過讀操作（記錄日志）如果每個系統(tǒng)組建都必須用 Java編寫（沒有人因為選用

Apache的軟件被解雇）

例如：銀行業(yè)，金融業(yè)（雖然對于金融交易不是必須的，但這些產業(yè)對數(shù)據(jù)庫的要求會比它們更大）寫比讀更快，所以一個自然的特性就是實時數(shù)據(jù)分析

8. HBase

（配合 ghshephard使用）

所用語言： Java

特點：支持數(shù)十億行X上百萬列

使用許可： Apache

協(xié)議：HTTP/REST （支持 Thrift，見編注4）

在 BigTable之后建模

采用分布式架構 Map/reduce

對實時查詢進行優(yōu)化

高性能 Thrift網關

通過在server端掃描及過濾實現(xiàn)對查詢操作預判

支持 XML, Protobuf, 和binary的HTTP

Cascading, hive, and pig source and sink modules

基于 Jruby（ JIRB）的shell

對配置改變和較小的升級都會重新回滾

不會出現(xiàn)單點故障

堪比MySQL的隨機訪問性能

最佳應用場景：適用于偏好BigTable:)并且需要對大數(shù)據(jù)進行隨機、實時訪問的場合。

例如： Facebook消息數(shù)據(jù)庫（更多通用的用例即將出現(xiàn)）

編注4：Thrift

是一種接口定義語言，為多種其他語言提供定義和創(chuàng)建服務，由Facebook開發(fā)并開源。

當然，所有的系統(tǒng)都不只具有上面列出的這些特性。這里我僅僅根據(jù)自己的觀點列出一些我認為的重要特性。與此同時，技術進步是飛速的，所以上述的內容肯定需要不斷更新。我會盡我所能地更新這個列表。

文章題目：nosql數(shù)據(jù)壓縮的簡單介紹
分享URL：http://m.jiaotiyi.com/article/dsicgsp.html

網站建設知識

nosql數(shù)據(jù)壓縮的簡單介紹

高性能 NoSQL

什么是NoSQL數(shù)據(jù)庫？

幾種nosql的淺談

NoSQL自動生成上千萬的數(shù)據(jù)可以有哪些方法

其他資訊

網站建設知識

nosql數(shù)據(jù)壓縮的簡單介紹

高性能 NoSQL

什么是NoSQL數(shù)據(jù)庫？

幾種nosql的淺談

NoSQL自動生成上千萬的數(shù)據(jù)可以有哪些方法

其他資訊

什么是NoSQL數(shù)據(jù)庫？