SpiderDuck与NoSQL – Twitter实时URL抓取服务架构

最近Twitter开发者博客上发表了一篇文章,向大家介绍了Twitter的URL抓取服务SpiderDuck,其中用到了Cassadra,Hadoop和Memcached作为存储部件。是一个了解NoSQL使用方法的好例子。

Hadoop的五个典型应用场景

Hadoop作为大数据存储及计算领域的一颗明星,目前已经得到越来越广泛的应用。下面PPT主要分析了Hadoop的一些典型应用场景,并对其进行了深入分析。

HBase中文官方文档

HBase – Hadoop Database,是一个构建在Apache Hadoop上的列数据。Hbase有很好的扩展性,被认为是BigTable的一个克隆,可以存储数以亿计的行。在HBase的官网,我们看到一篇很好的官方文档。我花了很长的时间,把他汉化了。

HBase运维实战:disable table失败的处理

相信每一个维护hbase集群的运维人员一定碰到过disable失败,陷入无穷的”Region has been PENDING_CLOSE for too long…”状态,此时没有什么好的办法处理。经常需要重启集群。
这个问题产生的原因非常讨厌,经过一段时间的分析和验证,得到了根本原因。

淘宝Hadoop数据分析实践

下面PPT来自淘宝技术嘉年华,淘宝和百度目前可能是国内最大的两个Hadoop使用者,之前NoSQLFan的文章已经对百度的Hadoop集群有过介绍(见:百度Hadoop分布式系统揭秘:4000节点集群)。本文主要是关于淘宝对Hadoop的应用实战经验。

大象的崛起!Hadoop七年发展风雨录

从初创到现在,Hadoop经过了至少7年的积累,现在的Hadoop不仅是当年的老二Yahoo的专用产品了,从Hadoop长长的用户名单中,可以看到Facebook、Linkedin、Amazon,可以看到EMC、eBay、Twitter、IBM、Microsoft,、Apple、HP…国内的公司有淘宝、百度等等。

HBase 增量备份和还原工具

HBase自带的export/import机制可以实现Backup Restore功能。而且可以实现增量备份。下面设增量备份的python脚本,在这个脚本中,每天做增量备份,每个月15日做全备份。

Red Hat正考虑发力NoSQL/Hadoop

前两天InternetNews.com对Red Hat 的 CEO Jim Whitehurst 进行了一次访谈,期间问到了一个问题“Is Red Hat Interested in the Database Market?”(Red Hat是否有意涉足数据库市场?)Whitehurst 的回答是肯定的,并且表示其涉足的话,会是在NoSQL领域。

HBase随机读写性能测试

本文转载自淘宝网BlueDavy同学的博客,文章基于淘宝对HBase的大量应用,给出了一个HBase的随机读写性能测试结果,对测试环境、配置及性能参数分析都有较详细的描述,推荐给各位NoSQL Fans。

DataStax Brisk:用Cassandra构建更强大的Hadoop

下面是一个Slide,来自著名数据开源软件公司DataStax,其中介绍了其开发的开源系统Brisk。Brisk本质上是一个使用Cassandra构建的CassandraFS来替换掉Hadoop的HDFS存储的一个产品。

共 5 页12345