云计算 频道

云计算技术介绍:神奇的小飞象Hadoop

  1. 引言——Hadoop 从何而来

  自从Google工程师Jeffrey Dean提出MapReduce编程思想,MapReduce便在Google的各种Web应用中释放着魔力。然而,也许出于技术保密的目的,Google公司并没有透露其MapReduce的实现细节。

  幸运的是,Doug Cutting开发的Hadoop作为MapReduce开源实现,让MapReduce这么平易近人地走到了我们面前。2006年1月,Doug Cutting因其在开源项目Nutch和Lucene的卓越表现受邀加入Yahoo公司,专职在Hadoop项目上进行开发。现在,Doug Cutting大牛已经加盟Cloudera(一家从事Hadoop产品商业化及技术支持的公司)。注:Hadoop 名称的来历——Hadoop 原本是小Doug Cutting 的大象玩具。

  作为Google MapReduce技术的开源实现,Hadoop理所当然地借鉴了Google的Google File System文件系统、MapReduce并行算法以及BigTable。因此,Hadoop也是一个能够分布式处理大规模海量数据的软件框架,这一点不足为奇。当然,这一切都是在可靠、高效、可扩展的基础上。Hadoop的可靠性——因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。

  Hadoop的高效性——在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。Hadoop的可扩展——依赖于部署Hadoop软件框架计算集群的规模,Hadoop的运算是可扩展的,具有处理PB级数据的能力。

  虽然Hadoop自身由Java语言开发,但它除了使用Java语言进行编程外,同样支持多种编程语言,如C++。

  Hadoop的长期目标是提供世界级的分布式计算工具,也是对下一代业务(如搜索结果分析等)提供支持的Web扩展(web-scale)服务。

0
相关文章