Hadoop入门培训：Hadoop的起缘和发展史

文章来源：更新时间:2016/7/13 15:49:49

在线老师点击咨询：

最新学讯：近期OCP认证正在报名中，因考试人员较多请尽快报名获取最近考试时间，报名费用请联系在线老师，甲骨文官方认证，报名从速！

我要咨询

1.1　缘于搜索的小象

追本溯源，Hadoop起源于Nutch，因此学习Hadoop就有必要了解一下这种渊源及Hadoop的发展简史。

1.1.1　Hadoop的身世

首先我们介绍一下Nutch的发展情况，Nutch是一个以Lucene为基础实现的搜索引擎系统，Lucene为Nutch提供了文本检索和索引的API，Nutch不仅仅有检索的功能，还有网页数据采集的功能。Mike Cafarella和Doug Cutting在2002年开始研发Nutch系统，然而他们很快发现他们的架构很难扩展到数十亿级别的网页规模，因为这样规模的搜索引擎系统要涉及网页的分布式存储问题及分布式建立索引的问题。恰在此时，Google公布了支撑其搜索引擎服务的文件系统架构设计——Google's Distributed Filesystem，这种被称为GFS的基础架构很快引起了他们的注意，并被成功引入Nutch系统中，在Nutch中被命名为Nutch分布式文件系统——NDFS，正是NDFS解决了Nutch搜索引擎系统中网页等海量数据的存储问题。

2004年，Google又公布了一种并行计算模型MapReduce的设计论文，紧接着在2005年Nutch就已经实现了这种高效的并行计算模型来解决数十亿级别以上网页的分布式采集及索引构建。很快他们就发现这种NDFS和MapReduce模型不仅可以用来解决搜索引擎中的海量网页问题，同时还具有通用性，可以用来构建一种分布式的集群系统，然后在2006年这两个模块就从Nutch中独立出来，并被命名为Hadoop，因此在Nutch-0.8.0版本之前，Hadoop其实还属于Nutch的一部分，而从Nutch-0.8.0开始，将其实现的NDFS和MapReduce剥离出来成立一个新的开源项目，这就是我们目前所熟知的Hadoop平台。