Hadoop 数据类型与文件结构剖析 Sequence, Map, Set, Array, BloomMap Files
今天要推荐的一篇文章发表在知名云存储提供商 Cloudera 的博客,本文细致且图文并茂地讲解了 Hadoop 的几种典型文件结构及他们之前的关系。NoSQLFan 将主要内容翻译整理如下(如有错漏,欢迎指正):
Wordnik 的 MongoDB 使用经历
Wordnik 是一个在线辞典和语言库,他提供Web页面并开放有相应的API接口,在他们的官方博客中,记录了他们的一些技术实践及相应的效果,他们后端存储经历了从 MySQL 到 MongoDB 的转变,下面是相关的文章:
1.What has technology done for words lately? 最近的技术改进
2.12 Months with MongoDB 使用 MongoDB 12个月的经历
3.下面是一个Wordnik的同学做的一个PPT,讲述了Wordnik从MySQL 迁移到 MongoDB 的一些心得:
4.下面这个PPT是Wordnik的MongoDB运维经验
5.MongoDB Admin Tools
6.Wordnik Bypasses Processing Bottleneck with Hadoop
HBase 文件结构图
HFile 是 HBase 的数据文件结构,下图是对HFile 的数据组织结构描述,是理解 HBase 数据存储的绝佳教材。
Hadoop Map-Reduce 实例的 Ruby 实现
下面是一个非常完整的实例,描述了在 Amazon EC2 上搭建 Hadoop 集群并进行 MapReduce 计算的过程。其步骤完整,过程清晰,是非常好的学习材料。
主要内容如下:
Fire-Up Your Hadoop Cluster 搭建一个 Hadoop 集群
Setting Up Your Local Hadoop Client 配置 Hadoop 客户端
Defining The Map-Reduce Task 定义 Map-Reduce 任务
Uploading Your Data To HDFS (Hadoop Distributed FileSystem) 往HDFS中添加数据
Coding Your Map And Reduce Scripts in Ruby 用 Ruby 完成对 Map 及 Reduce 函数的编写
Running The Hadoop Job 运行 Hadoop 的 MapReduce 任务
The Results 得出运行结果
Conclusion 结果分析与总结
Resources 参考资料列表
百度Hadoop分布式系统揭秘:4000节点集群
在 NoSQL 方面,之前了解到百度对 Hadoop 和 hypertable 都有使用,而且 hypertable 方面是作为主要赞助商之一,但之前和百度的一些朋友了解到百度内部对 hypertable 倒是使用不多,相反在 Hadoop 方面倒是有比较大的应用实例。下面一篇文章正好作为一个证实,描述了百度内部4000个结点的 Hadoop 集群的一些技术细节。
Hadoop and Voldemort @ LinkedIn
LinkedIn的SNA架构团队围绕Hadoop、Key-value存储以及搜索做了一整套生态系统。非常值得借鉴。
用Solr和Hadoop搭建大规模数据下的实时搜索服务
自有twitter以来,实时搜索开始从臆想变为现实。而很多搜索引擎也可以进行实时搜索方面的探索。比如sphinx从1.10.1版本开始支持准实时搜索。而很多公司也开始思考构建自己的实时搜索服务,以让用户最快的得到感兴趣的信息。下面PPT是利用Solr(一个基于Lucene的搜索服务器)和Hadoop进行实时搜索搭建的架构,供大家参考:
HUG-NYC会议精彩主题:HBase安全性探讨
HUG-NYC(HBase User Group in New York City)是一个在纽约举行的HBase应用者聚会。下面是其间关于HBase安全性主题的PPT。
NoSQL产品的安全性不高一直备受各路反对者的诟病,但事实是,很多NoSQL产品还是提供了足够的安全支持,如下面说到的HBase。
海量数据处理之 SMAQ 架构-Storage、MapReduce And Query
SMAQ 是 Storage、MapReduce And Query 的缩写,意思是利用分布式存储,MapReduce并提供基础查询来实现对海量数据的存储和处理。下面是一篇关于SMAQ的非常全面精辟的论述文章(实在很经典,希望有时间来进行翻译):
大规模集群的硬件选择
Cloudera公司是商用的Hadoop支持提供商,是一个云服务提供者,下面是Cloudera的博客上的一篇文章,主要内容是为我们在大规模集群搭建中对硬件的选择提供一个指导。

