NoSql的对比以及键值对的存储方式(为什么速度特别快) 什么是NoSql
NoSQL(Not Only SQL),泛指非关系型的数据库,是对不同于传统的关系型数据库的数据库管理系统的统称,强调Key-Value Stores和文档数据库的优点。为了解决大规模数据集合多重数据种类带来的挑战而兴起的数据库。有着模式自由,逆规范化,多分区存储,弹性可扩展,多副本异步复制,软事务等特点。NoSQL用于超大规模数据的存储。NoSQL数据库的四大分类:键 – 值对存储,列存储,文档存储,图形数据库 优点: 高可扩展性,分布式计算,低成本,架构的灵活性,半结构化数据,没有复杂的关系
1.Redis Redis是一个开源的,临时性键值对存储的内存/硬盘型数据库,他可以做数据库,缓存和消息的中间件,支持多种数据结构,以及DB消息队列,适用于数据变化快且数据库大小可遇见(适合内存容量)的应用程序。例如:股票价格、数据分析、实时数据搜集、实时通讯。
2.Memcached Memcached是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载。 通过在内存中缓存数据和对象来减少读取数据库的次数,从而提供动态、数据库驱动网站的速度 Memcached基于一个存储键值对的hashmap。其守护进程(daemon )是用C写的,但是客户端可以用任何语言来编写,并通过memcached协议与守护进程通信。
3.MongoDB 面向无需定义表结构的文档数据,具有非常快的处理速度,保留了一些友好的SQL特征(查询,索引),支持JavaScript表达式查询,硬盘型数据库,在32位的操作系统上,数据库限制大小约2.5Gb, 适用于需要动态查询支持;需要使用索引而不是 map/reduce功能;需要对大数据库有性能要求;需要使用 CouchDB但因为数据改变太频繁而占满内存的应用程序
使用对比以及优缺点
从以下几个维度,对 redis、memcache、mongoDB 做了对比。
1、性能
都比较高,性能对我们来说应该都不是瓶颈。
总体来讲,TPS 方面 redis 和 memcache 差不多,要大于 mongodb。
2、操作的便利性
memcache 数据结构单一。(key-value)
redis 丰富一些,数据操作方面,redis 更好一些,较少的网络 IO 次数,同时还提供 list,set,
hash 等数据结构的存储。
mongodb 支持丰富的数据表达,索引,最类似关系型数据库,支持的查询语言非常丰富。
3、内存空间的大小和数据量的大小
redis 在 2.0 版本后增加了自己的 VM 特性,突破物理内存的限制;可以对 key value 设置过
期时间(类似 memcache)
memcache 可以修改最大可用内存,采用 LRU 算法。Memcached 代理软件 magent,比如建立
10 台 4G 的 Memcache 集群,就相当于有了 40G。 magent -s 10.1.2.1 -s 10.1.2.2:11211 -b
10.1.2.3:14000 mongoDB 适合大数据量的存储,依赖操作系统 VM 做内存管理,吃内存也比较厉害,服务
不要和别的服务在一起。
4、可用性(单点问题)
对于单点问题,
redis,依赖客户端来实现分布式读写;主从复制时,每次从节点重新连接主节点都要依赖整
个快照,无增量复制,因性能和效率问题,
所以单点问题比较复杂;不支持自动 sharding,需要依赖程序设定一致 hash 机制。
一种替代方案是,不用 redis 本身的复制机制,采用自己做主动复制(多份存储),或者改成
增量复制的方式(需要自己实现),一致性问题和性能的权衡
Memcache 本身没有数据冗余机制,也没必要;对于故障预防,采用依赖成熟的 hash 或者环
状的算法,解决单点故障引起的抖动问题。
mongoDB 支持 master-slave,replicaset(内部采用 paxos 选举算法,自动故障恢复),auto sharding 机制,对客户端屏蔽了故障转移和切分机制。
5、可靠性(持久化)
对于数据持久化和数据恢复,
redis 支持(快照、AOF):依赖快照进行持久化,aof 增强了可靠性的同时,对性能有所影
响
memcache 不支持,通常用在做缓存,提升性能;
MongoDB 从 1.8 版本开始采用 binlog 方式支持持久化的可靠性
6、数据一致性(事务支持)
Memcache 在并发场景下,用 cas 保证一致性redis 事务支持比较弱,只能保证事务中的每个操作连续执行
mongoDB 不支持事务
7、数据分析
mongoDB 内置了数据分析的功能(mapreduce),其他不支持
8、应用场景
redis:数据量较小的更性能操作和运算上
memcache:用于在动态系统中减少数据库负载,提升性能;做缓存,提高性能(适合读多写
少,对于数据量比较大,可以采用 sharding)
MongoDB:主要解决海量数据的访问效率问题。
表格比较:
数据库 memcache redis
类型 内存数据库 内存数据库
数据类型 在定义value时就要固定数据类型 不需要
虚拟内存 不支持 支持
过期策略 支持 支持
存储数据安全 不支持 使用 save 存储到 dump.rdb 中
灾难恢复 不支持 append only file(aof)用于数据恢复
性能
1、类型——memcache 和 redis 都是将数据存放在内存,所以是内存数据库。当然,memcache 也可用于缓存其他东西,例如图片等等。
2、 数据类型——Memcache 在添加数据时就要指定数据的字节长度,而 redis 不需要。
3、 虚拟内存——当物理内存用完时,可以将一些很久没用到的 value 交换到磁盘。
4、 过期策略——memcache 在 set 时就指定,例如 set key1 0 0 8,即永不过期。Redis 可以通 过例如 expire 设定,例如 expire name 10。
5、 分布式——设定 memcache 集群,利用 magent 做一主多从;redis 可以做一主多从。都可 以一主一从。
6、 存储数据安全——memcache 断电就断了,数据没了;redis 可以定期 save 到磁盘。
7、 灾难恢复——memcache 同上,redis 丢了后可以通过 aof 恢复。
延伸及扩展问题回答参考
问题:redis的存储方式(键值对的存储方式)
答:现在比较常用的是键值对的存储方式,说到存储方式,需用从哈希算法说起,hash算法将对象转换为一个散列①,我们在使用的时候会将这个散列转换为一个大数,这就是hashcode,而hashmap高度依赖于hash和hashcode hashtable默认会开辟4个存储空间,将获取到的hashcode求磨,算出下标志②。也就是说hashtable是键值对的存储方式, 我们一般会用Hashmap分表分库,hashmap的原理和hashtable相似,他们之间的区别在这里就不细说了,hashmap分表分库也是对hashcode求魔然后找下标值,但是下标值里存在数据的话,会自动生成链路(在hashmap中的是倒链③)
注释:
①:HashMap 之所以速度快,因为他使用的是散列表,根据 key 的 hashcode 值生成数组下标(通过内存地址直接查找,没有任何判断),时间复杂度完美情况下可以达到 n1(和数组相同,但是比数组用着爽多了,但是需要多出很多内存,相当于以空间换时间)
②:假若hashcode为112,hashtable为4个空间,那么这个数据存储的下标值为 112%4=0,也就是说存在了下标为0的空间
③:链表存储是不连续的,查询慢,插入块。数组是连续的,查询快,插入慢