MongoDB集成Hadoop进行统计计算

MongoDB 本身可以做一些简单的统计工作,包括其内置的基于 Javascript 的 MapReduce 框架,也包括在MongoDB 2.2版本中引入的新的统计框架。除此之外,MongoDB 还提供了对外部统计工具的接口,这就是本文要说的MongoDB-Hadoop的数据中间件。

MongoDB Hadoop Connector发布

10gen刚刚发布了MongoDB Hadoop Connector的1.0版本,MongoDB Hadoop Connector 是一个中间件产品,用于将MongoDB和Hadoop连接起来,让MongoDB可以方便的使用Hadoop的分布式计算能力。

Sqoop成为Apache顶级项目

Sqoop是一个Hadoop的周边工具,它的主要作用是在结构化数据存储与Hadoop之间进行数据交换,通过Sqoop,你可以批量将你关系型数据库中的数据导入到Hadoop中,也可以将Hadoop中的数据导出到其它结构化存储中。

mrcc:基于MapReduce的分布式C语言编译器

这年头什么都讲分布式了,分布式存储,分布式计算。下面要介绍的是一个分布式C语言编译器:mrcc,它基于MapReduce 原理进行并行化编译。听起来实在太疯狂了,但是,它确实是这么干的。

Hadoop Namenode HA 合并到主干

Hadoop 的 Namenode 单点问题一直广受诟病,而这个问题最近将会得到解决,对Namenode 的HA方案已经完成实施并合并到主干,经过严格的测试后将会在后续版本中发布。

HBase在淘宝的应用和优化小结

本文来自于本站联合作者@koven2049,他在淘宝从事Hadoop及HBase相关的应用和优化。对Hadoop、HBase都有深入的了解,本文就是其在工作中对HBase的应用优化小结,分享给大家。

Hadoop生态图谱

当下Hadoop已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少Hadoop的身影,下面是一个Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具。

SQL? Hadoop? 使用什么工具来处理数据?

最近Aaron Cordova在其博客上发表了一张流程图,对不同数据场景下,如何选择正确的数据存储处理工具的问题,进行了详尽的描述。具体看下图:

SpiderDuck与NoSQL – Twitter实时URL抓取服务架构

最近Twitter开发者博客上发表了一篇文章,向大家介绍了Twitter的URL抓取服务SpiderDuck,其中用到了Cassadra,Hadoop和Memcached作为存储部件。是一个了解NoSQL使用方法的好例子。

Hadoop的五个典型应用场景

Hadoop作为大数据存储及计算领域的一颗明星,目前已经得到越来越广泛的应用。下面PPT主要分析了Hadoop的一些典型应用场景,并对其进行了深入分析。

下一页 »