海量数据处理之 SMAQ 架构-Storage、MapReduce And Query

SMAQStorage、MapReduce And Query 的缩写,意思是利用分布式存储,MapReduce并提供基础查询来实现对海量数据的存储和处理。下面是一篇关于SMAQ的非常全面精辟的论述文章(实在很经典,希望有时间来进行翻译):

原文地址:《the SMAQ stack for big data

文中分别就这几方面进行说明:

分布式存储:

首先是要求分布式,可横向扩展,其次是非关系型( 也就是我们NoSQL的宗旨 )。文中主要列举了HDFS,HBase,HiveCassandraHypertable。并论述了一些将关系型数据库整合进来的数据存储方案。

MapReduce:

利用MapReduce思想来实现数据的批量并行处理。文中介绍了MapReduce 原理,并配有原理图和 Hadoop MapReduce 的代码实例。

Query:

很多时候我们只需要最简单直接的查询,并不需要写如 MapReduce 那么复杂的处理过程,这时候需要一个简单方便的Query实现方案。文中举例Pig,Hive,Cascading 和实现全文索引的 Solr 等来描述通过对底层的MapReduce 进行包装的方法实现简单易用的Query接口。

anyShare据说看到好文章不转的人,服务器容易宕机!
          

无觅相关文章插件,快速提升流量