SpiderDuck与NoSQL – Twitter实时URL抓取服务架构

最近Twitter开发者博客上发表了一篇文章,向大家介绍了Twitter的URL抓取服务SpiderDuck,其中用到了Cassadra,Hadoop和Memcached作为存储部件。是一个了解NoSQL使用方法的好例子。

Hadoop的五个典型应用场景

Hadoop作为大数据存储及计算领域的一颗明星,目前已经得到越来越广泛的应用。下面PPT主要分析了Hadoop的一些典型应用场景,并对其进行了深入分析。

HBase中文官方文档

HBase – Hadoop Database,是一个构建在Apache Hadoop上的列数据。Hbase有很好的扩展性,被认为是BigTable的一个克隆,可以存储数以亿计的行。在HBase的官网,我们看到一篇很好的官方文档。我花了很长的时间,把他汉化了。

淘宝Hadoop数据分析实践

下面PPT来自淘宝技术嘉年华,淘宝和百度目前可能是国内最大的两个Hadoop使用者,之前NoSQLFan的文章已经对百度的Hadoop集群有过介绍(见:百度Hadoop分布式系统揭秘:4000节点集群)。本文主要是关于淘宝对Hadoop的应用实战经验。

大象的崛起!Hadoop七年发展风雨录

从初创到现在,Hadoop经过了至少7年的积累,现在的Hadoop不仅是当年的老二Yahoo的专用产品了,从Hadoop长长的用户名单中,可以看到Facebook、Linkedin、Amazon,可以看到EMC、eBay、Twitter、IBM、Microsoft,、Apple、HP…国内的公司有淘宝、百度等等。

Red Hat正考虑发力NoSQL/Hadoop

前两天InternetNews.com对Red Hat 的 CEO Jim Whitehurst 进行了一次访谈,期间问到了一个问题“Is Red Hat Interested in the Database Market?”(Red Hat是否有意涉足数据库市场?)Whitehurst 的回答是肯定的,并且表示其涉足的话,会是在NoSQL领域。

DataStax Brisk:用Cassandra构建更强大的Hadoop

下面是一个Slide,来自著名数据开源软件公司DataStax,其中介绍了其开发的开源系统Brisk。Brisk本质上是一个使用Cassandra构建的CassandraFS来替换掉Hadoop的HDFS存储的一个产品。

Hoop:Hadoop HDFS的RESTFul封装

Hoop是对Hadoop HDFS Proxy 的改良重写,为Hadoop HDFS提供了HTTP(S)的访问接口。使用Hoop,你可以通过标准的HTTP协议访问你的HDFS系统、在运行不同版本的HDFS之间进行数据交换、将对HDFS的操作置于防火墙的保护下。

Hadoop调优与实践的Cheat Sheets

本文要推荐的是一张大图。虽然只有一张图,但是内容却非常丰富,可以说是Hadoop调优的Cheat Sheets。

论文:Hadoop在Facebook的实时应用

Facebook在其最新的消息系统中使用了HBase,这已经不是什么新闻了,而HBase与其基础设施HDFS也因此越来越受追捧,下面是Facebook在SIGMOD 2011大会上发表的论文,描述了Hadoop系列工具在Facebook中的应用情况。

共 4 页1234