下一代Apache Hadoop MapReduce
下一代Apache Hadoop MapReduce
回顾
海量数据业务中,使用数量少规模大的集群比使用数量多规模小集群的成本低。规模大的集群能处理大数据集,同时也能支持更多的任务和用户。
Apache Hadoop MapReduce框架大约能够支持4000台机器。下一代的Apache Hadoop MapReduce框架会纳入一个通用的资源调度器,用户可以自定义每一个应用程序的执行。相比早期,故障时间在大规模高可靠性的集群中代价更高,更大规模的集群上保证安全性和多重用户才能支持大规模的用户。新的架构要加强它的创新性,灵活性和硬件使用。
图形化理解 HBase 数据写操作、压缩操作过程
HBase 写数据的过程是:先写到内存中(memstore),当内存中的数据达到一定大小,将内存中的数据一次性flush到磁盘上形成数据文件。期间对每一次写操作,都会记一个持久化的日志。那些 flush 到磁盘上的文件,会定时进行压缩。下图形像地说明这一系列过程:
Hadoop 数据类型与文件结构剖析 Sequence, Map, Set, Array, BloomMap Files
今天要推荐的一篇文章发表在知名云存储提供商 Cloudera 的博客,本文细致且图文并茂地讲解了 Hadoop 的几种典型文件结构及他们之前的关系。NoSQLFan 将主要内容翻译整理如下(如有错漏,欢迎指正):
在NoSQL上构建你的搜索服务
将搜索引擎与NoSQL结合起来?感觉还不错,下面是三个案例:
Solandra ( Solr + Cassandra)
Riak Search 基于 Riak 的全文搜索引擎,具体特性请点链接查看。
HSearch 基于HBase的搜索引擎
Wordnik 的 MongoDB 使用经历
Wordnik 是一个在线辞典和语言库,他提供Web页面并开放有相应的API接口,在他们的官方博客中,记录了他们的一些技术实践及相应的效果,他们后端存储经历了从 MySQL 到 MongoDB 的转变,下面是相关的文章:
1.What has technology done for words lately? 最近的技术改进
2.12 Months with MongoDB 使用 MongoDB 12个月的经历
3.下面是一个Wordnik的同学做的一个PPT,讲述了Wordnik从MySQL 迁移到 MongoDB 的一些心得:
4.下面这个PPT是Wordnik的MongoDB运维经验
5.MongoDB Admin Tools
6.Wordnik Bypasses Processing Bottleneck with Hadoop
HBase 文件结构图
HFile 是 HBase 的数据文件结构,下图是对HFile 的数据组织结构描述,是理解 HBase 数据存储的绝佳教材。
Hadoop Map-Reduce 实例的 Ruby 实现
下面是一个非常完整的实例,描述了在 Amazon EC2 上搭建 Hadoop 集群并进行 MapReduce 计算的过程。其步骤完整,过程清晰,是非常好的学习材料。
主要内容如下:
Fire-Up Your Hadoop Cluster 搭建一个 Hadoop 集群
Setting Up Your Local Hadoop Client 配置 Hadoop 客户端
Defining The Map-Reduce Task 定义 Map-Reduce 任务
Uploading Your Data To HDFS (Hadoop Distributed FileSystem) 往HDFS中添加数据
Coding Your Map And Reduce Scripts in Ruby 用 Ruby 完成对 Map 及 Reduce 函数的编写
Running The Hadoop Job 运行 Hadoop 的 MapReduce 任务
The Results 得出运行结果
Conclusion 结果分析与总结
Resources 参考资料列表
详解HBase Compaction
HBase 中有一种数据行为叫Compaction,从字面的意思就是数据文件合并,本文对Compaction的目的,控制方法,具体实施过程等几个方面对HBase 的 Compaction 行为进行了介绍。
百度Hadoop分布式系统揭秘:4000节点集群
在 NoSQL 方面,之前了解到百度对 Hadoop 和 hypertable 都有使用,而且 hypertable 方面是作为主要赞助商之一,但之前和百度的一些朋友了解到百度内部对 hypertable 倒是使用不多,相反在 Hadoop 方面倒是有比较大的应用实例。下面一篇文章正好作为一个证实,描述了百度内部4000个结点的 Hadoop 集群的一些技术细节。
用Solr和Hadoop搭建大规模数据下的实时搜索服务
自有twitter以来,实时搜索开始从臆想变为现实。而很多搜索引擎也可以进行实时搜索方面的探索。比如sphinx从1.10.1版本开始支持准实时搜索。而很多公司也开始思考构建自己的实时搜索服务,以让用户最快的得到感兴趣的信息。下面PPT是利用Solr(一个基于Lucene的搜索服务器)和Hadoop进行实时搜索搭建的架构,供大家参考:

