SpiderDuck与NoSQL – Twitter实时URL抓取服务架构

最近Twitter开发者博客上发表了一篇文章,向大家介绍了Twitter的URL抓取服务SpiderDuck,其中用到了Cassadra,Hadoop和Memcached作为存储部件。是一个了解NoSQL使用方法的好例子。

Hoop:Hadoop HDFS的RESTFul封装

Hoop是对Hadoop HDFS Proxy 的改良重写,为Hadoop HDFS提供了HTTP(S)的访问接口。使用Hoop,你可以通过标准的HTTP协议访问你的HDFS系统、在运行不同版本的HDFS之间进行数据交换、将对HDFS的操作置于防火墙的保护下。

How Digg is Built:讲述Digg背后的技术

虽然最近业界有所下滑,而且也出现了一些技术故障,但Digg作为首屈一指的社会化新闻网站,其背后的技术还是值得一探,最近Digg工程师 Dave Beckett 的一篇名为《How Digg is Built》的文章,非常系统地将Digg背后的技术展现给大家,非常值得一看。NoSQLFan 简要翻译如下:

海量数据处理之 SMAQ 架构-Storage、MapReduce And Query

SMAQ 是 Storage、MapReduce And Query 的缩写,意思是利用分布式存储,MapReduce并提供基础查询来实现对海量数据的存储和处理。下面是一篇关于SMAQ的非常全面精辟的论述文章(实在很经典,希望有时间来进行翻译):