MongoDB+Hadoop构建MapReduce运算系统

Hadoop 是一个开源的分布式的并行计算系统,其Map/Reduce 运算功能被广泛地应用在数据分析领域。mongo-hadoop 是一个将MongoDB 与Hadoop 相整合的开源工具。工具作者是10gen 的工程师,本文即是其作者对这一工具的思想及使用的介绍。

项目地址:https://github.com/mongodb/mongo-hadoop

文中关于为何不直接利用MongoDB的Map/Reduce 功能的回答:

  • 必须Javascript语法(个人认为这个无所谓,JS通俗易懂)
  • Javascript引擎的实现导致一个实例只能运行一个Map/Reduce线程
  • 除非使用Sharding,否则MongoDB无法进行真正的并行Map/Reduce运算

下面是完整slide:

anyShare赠人玫瑰,手有余香,分享知识,德艺双馨!
          

无觅相关文章插件,快速提升流量

  1. 我觉得作者推出Mongo-hadoop还是因为MongoDB自带的MapReduce速度不行,使用的是单线程js engine