mrcc:基于MapReduce的分布式C语言编译器

这年头什么都讲分布式了,分布式存储,分布式计算。下面要介绍的是一个分布式C语言编译器:mrcc,它基于MapReduce 原理进行并行化编译。听起来实在太疯狂了,但是,它确实是这么干的。

使用 NoSQL 数据库分析大规模数据

本文转自IBM的developerWorks,主题是关于使用NoSQL存储和处理大规模数据,文章列举了一些循序渐进的学习资料,包括了视频音频和文字材料,是一个很不错的了解、学习NoSQL的知识向导。

Riak与MongoDB的对比

本文来自Riak所属的Basho公司的技术WiKi,文章从几个方面对Riak和MongoDB进行了对比,这不是一篇PK文章,NoSQLFan翻译给大家,希望本文能让您对Riak和MongoDB有更多的了解。

CouchDB 最佳 App 大奖得主 blitz.io 技术架构剖析

Blitz是一家提供压力测试服务的公司,最近它获得了在CouchConf上评选的最佳CouchDB App大奖,本文就是讲述Blitz的CouchDB使用架构。他们何以能被评为最佳CouchDB App的,其具体技术架构都将在本文中为大家呈现。

下一代Hadoop MapReduce

本文来自Hadoop Summit大会的一个演讲稿,主讲是Hadoop核心开发团队的Arun C Murthy (@acmurthy),同时他也是Yahoo!刚刚剥离的Hadoop独立公司Hortonworks的 Founder和架构师。演讲中他讲述了现在的Hadoop存在的一些问题和集群上限,并展望了下一代Hadoop和其MapReduce将会得到的巨大提升。

来自Berlin Buzzwords 大会的Hadoop介绍PPT

下面Slide来自Berlin Buzzwords大会,Berlin Buzzwords大会是一个对开源软件应用与开发者的大会,主要关注分布式搜索、数据分析、云计算与NoSQL相关的技术。Slide作者是Cloudera的Kai Voigt,主要对Hadoop的分布式存储方式,MapReduce运作方式及Hadoop的一些典型应用场景做了描述。内容图文并茂,让人印象深刻。

Riak Pipe:Riak的任务管道功能

Riak Pipe是Riak刚刚发布的一项新功能,目前在Beta版。Riak Pipe简单的说就是一个类似于UNIX 管道的东西,不同之处在于Riak Pipe还定义了输入将在何处(哪一个机器节点)被接收执行,这一功能通过类似于一致性hash算法的手段,能够尽量将任务在集群中进行平均分配。

Hadoop Map-Reduce 实例的 Ruby 实现

下面是一个非常完整的实例,描述了在 Amazon EC2 上搭建 Hadoop 集群并进行 MapReduce 计算的过程。其步骤完整,过程清晰,是非常好的学习材料。

主要内容如下:

Fire-Up Your Hadoop Cluster 搭建一个 Hadoop 集群
Setting Up Your Local Hadoop Client 配置 Hadoop 客户端
Defining The Map-Reduce Task 定义 Map-Reduce 任务
Uploading Your Data To HDFS (Hadoop Distributed FileSystem) 往HDFS中添加数据
Coding Your Map And Reduce Scripts in Ruby 用 Ruby 完成对 Map 及 Reduce 函数的编写
Running The Hadoop Job 运行 Hadoop 的 MapReduce 任务
The Results 得出运行结果
Conclusion 结果分析与总结
Resources 参考资料列表

mincemeat.py-最精简的MapReduce引擎实现

现在MapReduce貌似已经开始变成标配了,当然还有一种说法就是已经烂大街了。今天要提到这个是一个纯python编写的MapReduce引擎,整个引擎只有一个python文件。使用例子见下,只需要import一个名即可。

海量数据处理之 SMAQ 架构-Storage、MapReduce And Query

SMAQ 是 Storage、MapReduce And Query 的缩写,意思是利用分布式存储,MapReduce并提供基础查询来实现对海量数据的存储和处理。下面是一篇关于SMAQ的非常全面精辟的论述文章(实在很经典,希望有时间来进行翻译):

下一页 »