BeansDB设计与实现

继续预热Qcon Beijing 2011,下面是豆瓣的Key-value存储BeansDB,作者是刘洪清,详情请参照Qcon Beijing 2011。

这里有一个作者发布的slide:http://www.slideshare.net/DaviesLiu/inside-beansdb

简介

BeansDB 是一个主要针对大数据量、高可用性的分布式KeyValue存储系统,采用HashTree和简化的版本号来快速同步保证最终一致性(弱),一个简化版的Dynamo。

它采用类似memcached的去中心化结构,在客户端实现数据路由。目前只提供了Python版本的客户端,其它语言的客户端可以由memcached的客户端稍加改造得到。

Google Group:?http://groups.google.com/group/beandb/

更新

2010.12.24 0.5.2, 有比较大的改进,?http://www.douban.com/note/122507891/ 2009.12.29 第一个公开版本 0.3

特性

  • 高可用:通过多个可读写的用于备份实现高可用
  • 最终一致性:通过哈希树实现快速完整数据同步(短时间内数据可能不一致)
  • 容易扩展:可以在不中断服务的情况下进行容量扩展。
  • 高性能:异步网络IO, 日志结构的存储方式Bitcask.
  • 简单协议:Memcache兼容协议,大量可用客户端

客户端

目前只提供了Python版本的客户端,在python目录中,该目录中各文件的左右如下:

dbclient.py BeansDB的客户端,由memcached的客户端简单封装而成

status.py 查看BeansDB的状态,各个节点的数据分布,以及同步状态

sync.py 同步各节点

httpd.py HTTP方式访问BeansDB的内容(目前只有GET方式)

代码示例:

from dbclient import Beansdb

# three beansdb nodes on localhost
BEANSDBCFG = {
? ? "localhost:7901": range(16),
? ? "localhost:7902": range(16),
? ? "localhost:7903": range(16),
}

db = Beansdb(BEANSDBCFG, 16)

db.set('hello', 'world')
db.get('hello')
db.delete('hello')

性能

在小数据集上,它跟memcached一样快:

 $ beansdb -d
 $ memstorm -s localhost:7900 -n 1000000 -k 10 -l 100 

  ----
  Num of Records : 1000000
  Non-Blocking IO : 0
  TCP No-Delay : 0 

  Successful [SET] : 1000000
  Failed [SET] : 0
  Total Time [SET] : 51.77594s
  Average Time [SET] : 0.00005s 

  Successful [GET] : 1000000
  Failed [GET] : 0
  Total Time [GET] : 40.93667s
  Average Time [GET] : 0.00004s

实际部署情况下的性能(Proxy处测量)。

anyShare分享此文章的同学,将有机会送我iphone5!
          

无觅相关文章插件,快速提升流量

分类 NoSQL杂谈 · tag