【IT168 调查报告】 Hadoop的发展基本上经历了这样一个过程:从一个开源的Apache基金会项目,随着越来越多的用户的加入,不断地使用、贡献和完善,形成一个强大的生态系统,从2009年开始,随着云计算和大数据的发展,Hadoop作为海量数据分析的非常好的解决方案,开始受到许多IT厂商的关注,从而出现了许多Hadoop的商业版以及支持Hadoop的产品,包括软件和硬件。
一、 Hadoop应用调查背景
2011年被称为是Hadoop的商业化元年,因为随着Hadoop的应用日渐广泛,越来越多的商业公司加入到这个领域,提供商业化的工具和服务,为Hadoop在企业内部的应用注入了一剂强心剂。为了进一步了解Hadoop在国内的应用现状,了解国内用户对于Hadoop的需求,从而推动Hadoop在中国的应用和发展,IT168网站做了本次调查。
二、 调查方法
2011年12月,由中国科学院技术研究所主办,IT168协办的第五届Hadoop in China大会在北京会议中心隆重召开,大会首次邀请到了Hadoop创始人Doug Cutting亲临会场助阵,也吸引了来自世界各地的Hadoop的开发者、用户来到了现场,IT168在大会现场对用户进行了调查,得到了与会嘉宾和用户的极大关注和积极参与。
当然,由于本次调查的对象仅限于参加大会的用户,故存在一定的局限性,结论仅供参考。
三、 报告正文
1、 参与调查的用户分析
1.1职务分布
关注Hadoop的人群主要是软件开发工程师,占总人数的1/4(25%),其次是在校学生,占总人数的17%,排名第三、第四的依次是系统架构师和技术经理,大约分别占总人数的14%、12%。
1.2行业分布
从参会人群的行业分布来看,计算机软件行业、互联网/电子商务行业的用户分别都占了25%,计算机硬件/网络设备行业占了15%,接下来便是大专院校/科研机构,占总人数的13%。
一方面,Hadoop已经受到了计算机软件、计算机硬件/网络设备等厂商的关注,这也反映了近日越来越多的软件厂商、硬件厂商开始加入到改生态圈,纷纷推出了与Hadoop兼容的或者是预装了Hadoop设备;另一方面,可以看出,除了Hadoop风靡的互联网行业之外,通讯、政府、金融、能源等行业都开始关注到Hadoop的应用,这也预示着Hadoop的发展将突破互联网行业,受到其他行业的关注。
1.3关注Hadoop的用户还关注哪些领域?
从上图可见,在关注Hadoop的人群中,云计算、编程开发是最受欢迎的两大块,不难理解,关注Hadoop的人群与编程开发人群的重合,因为,关注Hadoop的人群其中有很大一部分都是软件开发工程师。而Hadoop人群与云计算人群的高度重合,一方面是因为,云计算已经在IT业界备受关注,另一方面,Hadoop作为一个开源的分布式数据存储和处理框架,跟云计算有着天然的内在联系。
1.4所在企业规模
一方面,人数位于1000以上的企业所占的比例达到了将近一半(45%),这意味着,Hadoop应用在大型企业占多数;但是,从另一个角度看,人数位于100-249之间的中小型企业占有28%的比例,这表明,Hadoop的应用已经不再只是大型企业的专利,许多中小型的企业也已经开始关注Hadoop。
2.用户开始学习和使用Hadoop的时间?
调查结果显示,绝大部分(超过80%)的调查对象表
示,学习和使用Hadoop的时间不超过一年,这意味着,Hadoop发展在过去一年内有了很大的进步。大量用户的关注,必将在不久的将来引爆一场Hadoop技术和应用的热潮。
3、 Hadoop在企业内部的应用现状
3.1 贵单位平均每月有多少新增加的数据?
调查表明,28%的企业每月有500GB的新增数据,11%的企业每月新增数据量在100GB到500GB之间,这也说明了企业的数据量的增长速度十分迅速,急需一个海量数据解决方案,这也促使企业开始思考,如何从企业固有的数据中去挖掘新的价值。
3.2 贵公司是否在使用或者考虑使用Hadoop来做大规模数据分析处理?
在参与调查的用户中,有超过半数(51%)的用户已经在使用Hadoop,有将近1/3的人计划在半年或一年之内部署Hadoop,这表明,Hadoop的市场需求很大,这也必将导致越来越多的厂商加入到Hadoop的市场竞争中,从而逐步完善Hadoop的商业圈。
3.3 贵单位的Hadoop集群有多少个节点?
调查表明,集群数在100个企业以上的占了21%,Ha
doop集群呈现大规模的趋势,表明Hadoop的应用在大型企业的应用比较多。30%的受调查者所在企业的Hadoop集群数不超过5个,这其中包含了没有Hadoop集群的企业,而这部分人都在关注着Hadoop,这意味着,Hadoop未来的发展空间十分值得期待。
3.4 贵单位有多少开发人员在使用Hadoop?
企业使用Hadoop集群的开发人员10人以上的超过了1/3,绝大部分企业的Hadoop的开发人员都在4人或以上,这从一个角度反映了Hadoop应用所需要的成本,尤其是人力成本,是企业所必须要考虑到的因素。
3.5 贵单位每天有多少个Hadoop任务在运行?
运行在Hadoop上面的任务数量基本上(62%)都在10个以内,但也有部分(29%)的企业每天有50个以上的Hadoop任务在运行。
3.6 贵单位有多少数据存储在Hadoop集群中?
5000GB以上的占了26%,这意味着,Hadoop对于数据量巨大的企业来说是一个很好的选择,数据量越大,Hadoop相比企业平台的效率越高。
3.7 贵公司使用Hadoop的主要用途是什么?
调查表明,企业使用Hadoop最主要的目的是数据挖掘和改善商业智能分析,有一半以上的企业使用Hadoop的主要目的之一是数据挖掘和改善商业智能分析;其次是日志分析、WEB搜索,以及降低数据分析成本,所占的比例分别为38%和31%,同时,还有26%的企业使用Hadoop的目的之一是半结构化/非结构化数据处理与分析。
综上所述,商业智能和数据挖掘、半结构化/非结构化数据分析与处理是推动Hadoop在企业内应用的两大重要的动力。
3.8 贵单位已经使用了哪些Hadoop相关技术活工具?
调查表明,HDFS、MapReduce是企业企业在使用Hadoop架构的两种最主要的技术,其使用率分别占了74%和69%,这意味着基本上使用了Hadoop框架的企业都使用了这两种技术,这也反映了国内对于这两种技术的使用已经达到了一个比较高的水准;同时,Hbase、Hive都有超过三分之一的企业在使用。
4、 Hadoop的发展趋势
4.1 您是否看好Hadoop在国内的应用前景?
调查表明,94%的人都看好Hadoop在国内的应用前景,只有极少数人不看好Hadoop在国内的发展前景。这表明,Hadoop在中国用户的心中的认可度还是很高的,有了这些用户的支持和关注,相信Hadoop的发展会更好。
4.2 未来1年内,贵单位计划使用多大规模的Hadoop集群?
调查显示,有26%的受调查者表示一年内,所在公司的集群数将超过100,10%的用户表示所在公司的集群数达到50~100个。从上述结果可见,相比目前的集群节点数(如图9)来说,数目有所提升。
5、 用户对Hadoop的需求
5.1 您最看重Hadoop的哪些优点?
调查表明,开源代码,容易修改,便于做二次开发,以及处理大数据时很实用,效率高是用户最看重的Haoop的两大优点,分别有67%、53%的人都看重这两点。
由此可见,随着企业数据量的暴涨,企业用户逐渐意识到对大数据进行分析处理对企业来说是很有必要的一件事情,而hadoop作为一种开源的处理框架,由于其子项目的代码都是开源的,容易修改,便于企业进行二次开发,因而受到许多企业的重视。所以,在大数据时代,数据处理时的高效和开源这两大优势让Hadoop风靡企业数据中心。
5.2 您主要关注Hadoop的哪些方面?
调查显示,Hadoop功能开发、Hadoop数据处理分析是用户最关注的Hadoop的内容,分别有50%和49%的人都关注这两个方面。Hadoop功能开发可以进一步完善Hadoop的功能,更好地满足企业的需求,用Hadoop进行数据处理分析可以帮助企业更好地发现机遇,实现发展。
5.3 您在学习和使用Hadoop的过程中,碰到了哪些困难?
调查表明,缺少活动的中文社区是中国的Hadoop用户在学习和使用Hadoop的过程中的最大的困难,有超过1/3的人都选择了此项;其次,是商业化工具和服务不够,33%的人认为Hadoop商业化工具和服务不够;第三,是人才难招。其他的困难还有技术学习难度大、部署和使用太复杂等等。
根据上述结果,为了进一步推动Hadoop在中国的发展,我们需要一些活动的中文社区,以便国内的开发人员和用户进行交流与互相学习。同时,在商业化工具和服务方面,鼓励厂商加入到Hadoop商业化工具和服务的队伍中去,为用户提供更多更好的商业化工具和服务。当然,在人才培养方面,这就需要整个社会一起努力,为Hadoop学习提供一个良好的氛围,无论是从教育机构方面,还是从企业方面,都可以提供更多的机会和资源,培养出更多的Hadoop精英。