云计算 频道

数据改写未来!专访雅虎研发中心韩轶平

        【IT168 厂商动态】  “雅虎有90%以上的价值由数据驱动”——雅虎北京研发中心高级经理韩轶平

  谈到数据的时候,韩轶平颇显激动,他告诉记者,在雅虎内部,数据的概念已经深入人心。我们的工程师不是软件工程师,而是数据工程师;我们几乎所有的产品都是以数据驱动的;雅虎90%以上的价值由数据驱动。

  90%以上的价值由数据驱动?这样的数字足以让某些仍然无视数据存在的企业感到一阵恐慌。为进一步了解雅虎究竟是如何利用数据创造价值,雅虎的“数据平台化”进展,以及企业应该如何利用Hadoop实现数据价值的挖掘,IT168记者采访了雅虎北京高级研发经理、第五届Hadoop中国云计算大会(http://Hadoop.it168.com)的程序委员会联合主席韩轶平。

  一、 Hadoop现状“方兴未艾”前景更深更广

  对于Hadoop的前景,业界的看法不尽相同,而在韩轶平看来,就是八个字——方兴未艾、更广更深。

  IT168:你如何看待Hadoop的发展现状以及未来的应用前景?

  韩轶平:Hadoop现状可以用一个很恰当的词去形容,那就是“方兴未艾”。

  从我们最早在中国做Hadoop沙龙到今年第五届Hadoop in China这个会,也差不多是四年多将近五年的时间了。08年的沙龙,只是一些爱好者或者说感兴趣的人来参加,到09年第一次办大会的时候,唱主角的基本上就是雅虎、Facebook这几个美国的大公司。国内当然也有百度、中国移动这样开始做这些工作。那么到去年很多公司已经出现了,名字基本上报不过来了,基本上中国的互联网公司,比较大的公司都已经在用了,甚至包括其他行业的公司小公司。从今年报名的情况来看,今年将会有更多的公司加入进来。

  我们也看到,就是说最早期的时候,很多公司只是来了解一下情况,了解一下什么是Hadoop,大概干吗的。到之后慢慢的越来越多的公司是过来,就是了解具体到底我该怎么用,到底怎么样,我可以开始使用Hadoop,我可以参与。到现在更多是,通过使用以后,越来越多公司的人提出大家的一些想法,在使用中遇到的问题和经验,然后要求怎么样去改进Hadoop。

  所以,我为什么说方兴未艾呢?尽管这几年下来,Hadoop已经有了很大的发展,但是可以说,未来的市场会更大,有更多的公司将会参与进来,已经在使用的公司也需要有更多更深入的使用。

  Hadoop的应用前景可以分成几个方向:第一个方向是从横向来看,我们会有更多的应用,越来越多的应用,例如雅虎已经从最开始的搜索使用Hadoop,发展到现在雅虎大部分产品都在使用Hadoop。

  从纵向的来讲,一方面,未来除了互联网企业之外,会有更多的行业进入到。在美国现在已经有很多银行已经使用Hadoop。在中国我也听到有很多银行业、电力行业、通信行业等数据密集型的企业,他们也开始了解使用Hadoop,我想这是一个方向;另一方面,Hadoop的应用也会变得越来越深入。从最开始大家做一些简单的实验、离线数据处理,慢慢变成大规模的数据处理、线上产品的数据分析等。

  IT168:现在很多商业的公司都加入到Hadoop的圈子,有一些公司推出商业的版本,这是否意味着Hadoop的发展进入了一个新的阶段?是不是已经从学术届开始走入商业圈?这对开源社区的发展是否会有一定的影响呢?

  韩轶平:首先,Hadoop从来就不仅仅是一个学术性的东西。Hadoop的起源就是作为一个商业应用开始的,最早Doug开始做Hadoop,很快就加入了雅虎,Hadoop的最初开发工作,就是围绕着一个很重要的商业应用——雅虎的网页搜索而进行的,然后慢慢的有其他公司的实际应用进入,它从来不是一个研究性的项目,一直就是一个很商业化的,很实用性的一个项目。

  一些公司从2009年甚至更早就开始做一些商业化的版本,更多的是做一些,比如说辅助工具、包装、解决方案、培训知识等等这些东西。这些东西起对于帮助Hadoop的普及起到了很大的效果,因为最初Hadoop的应用需要很多时间对Hadoop的相关知识进行学习,甚至需要很多对系统、分布计算等很多知识知识才能够做它的开发和部署。

  这些商业版本的出现使得Hadoop的应用大大简化,这使得很多没有很强技术背景的公司有能力去应用。更重要的是,在他们出现问题的时候,尤其是一些相对比较简单的问题,会有人直接给他们提供一些支持,这一点特别重要。这些商业版本可以说是让Hadoop从一个技术变成了一个商品。

  这对于对社区发展来还是具有很正面的作用,因为有更多的用户,就能意味着这个东西有更多的发展的机会,也能得到更多的反馈。

  另一方面,有专门的人去做或支持Hadoop,使得它本身推广中的一些问题,都能得到更好地解决,比如推广过程中没有人回答问题、没有足够的文档等。

  二、 企业用户的共鸣和诉求——“海量数据掘宝”

  第五届Hadoop中国云计算大会将会议的主题定为“海量数据掘宝”,最重要的原因是因为Big Data已经成为许多企业关注的重点。韩轶平表示,如何从数据中挖掘价值是一个挑战,这次会议将让参会者直面Haodop创始人——Doug Cutting,见到更多的应用的实例,同时与对Hadoop有深入研究的专家进行交流。

  IT168:作为第五届Hadoop中国云计算大会的程序委员会联合主席,您如何理解本次大会的主题——“海量数据掘宝”?

  韩轶平:这个想法是我提的, 题目是查理查老师组织的。为什么提大数据呢?我觉有两点:

  第一,大数据是今年或最近一段时间业界比较热的一个话题。从我自己的观察,在中国,我们确实进入了大数据的时代。我们的这几个互联网公司手中积累的数据规模在不断的扩大,而且规模都已经达到了一定的水平,比如说百度、阿里、淘宝等都手上有很多很多数据。

  第二,大家都已经意识到了从数据中挖掘价值的重要性,有了数据以后如何从数据中去挖掘价值,这个是很多企业都要解决的问题和强烈的需求。

  “如何从数据中挖掘价值”是一个挑战,也是很多企业都想做的事情,所以基于此,我们今年就以Big Data为主题,并且把它具体的分成了几个方向,比如说NoSQL等。

  采访人:对参会者而言,您觉得本次大会有哪些值得期待的地方?

  被采访人:我们把Hadoop创始人DougCutting请来了,这是大会历史上的第一次,我们真的请到那个创始人过来。这也证明了一点,事实上这个事情是双向的,因为我跟Doug一提这个事情,他就反而变得很积极了,给他提完了以后,后面的事情都是他在主动提。

  另一方面我觉得值得期待的地方,我们会看到很多Hadoop应用的实例,也会看到很多我们对Hadoop的改进,也会见到很多在这方面有相当深的研究经验的专家,大家可以做一些近距离的交流,这是特别值得期待的。

  三、90%以上的价值来源于数据——雅虎的“数据平台化”革命

  谈到数据的时候,韩轶平颇显激动,他告诉记者,在雅虎内部,数据的概念已经深入人心。我们的工程师不仅是软件工程师,而是数据工程师;我们大部分的产品都是以数据驱动的;雅虎90%以上的价值由数据驱动。

  IT168:能不能介绍一下雅虎现在基于数据已经创造和正在创造哪些价值?

  数据在雅虎中已经是一个贯彻人心的思想。我跟每个工程师都说,你们是数据工程师,而不仅是软件工程师,我们做了所有的产品,脑子里先想到的是数据。数据不仅是数据,更重要的是数据的处理和挖掘。

  我经常说的一句开玩笑的话,如果把电信、石油、交管局甚至电网手中的数据交到我们手上,会创造无穷的价值。

  首先,今天雅虎大部分产品,都是由数据驱动,所以要说创造价值,那可以说,雅虎几乎绝大多数价值都是由数据支撑和创造的。

  具体的来讲,雅虎最核心的几个产品,基本上都是完全数据驱动的,比如说搜索几乎是一个纯数据驱动的产品。

  现在我们的存储量大概是200个P左右吧,数据量压缩以后大概是30几个P,就是核心数据,不包括延伸数据。

  我们接下来的重心可能会放在怎么让数据变少以及如何有效地进行挖掘。怎么样能够把那些干扰性的数据都去掉,并对有效的数据进行挖掘整理,最后把有效数据保留下来,这是重点。所以从我的观点来看,我们不会一味的去追求数据能够不断的变得越来越大,而是怎么样有效的去挖掘,这是我的一个个人理念。

  另一方面就是怎么样数据更好的流通和应用,因为对雅虎来说,一个特点就是产品线现在很长、很广。这就有问题了:每个部门都有创造数据,每个产品都产生数据、搜集数据、处理数据,这些数据之间怎么样让他们流通起来,以便在新闻里边能够用搜索的数据,在搜索里能够用广告的数据?怎么样能让数据处理变得统一而有效?一个人处理了是不是别人还要处理呢?接下去有两个方向我觉得很重要,一个方向就是让“数据平台化”。我们过去讲是技术平台、系统平台、产品平台都有,现在我们要提的是“数据平台”,怎么让数据变成平台,以便所有的应用都可以直接使用这个数据平台上的数据以及数据挖掘的结果。

  IT168:“数据平台化”现在有一些思路了吗?

  韩轶平:我们现在很多工作作做,比如说雅虎现在一个基本做法就是针对不同的应用,或者不同的数据类型开发一些数据平台,并提供给整个公司来使用。举个例子来说,有一个项目“个性化平台”,这个平台的任务就是把雅虎所有用户的数据进行整理、分析、挖掘,包括建模也就是我们要做的机器学习和数据挖掘。然后最后把这个结果统一的处理完的结果变成一个全公司的产品去使用,相当于是数据平台的服务。

  举个例子,比如我们要为手机做一个个性化的音乐播放器,我们需要知道这个人到底喜欢听什么样的音乐,这样的数据我们就可以到这个数据平台直接去申请,不需要去拿原始的数据去分析,数据平台已经完成了这些处理。

  IT168:要提供这样一个面向应用的数据平台,就是底层的话肯定需要一些分析的平台,能否介绍一下雅虎的数据处理平台?

  韩轶平:你这些问题问得还挺到位的。这个东西说起来比较复杂了,大致地讲,我们底层数据分析处理基本上还是以Hadoop为核心,Hadoop上面,存储使用HDFS,运算部分是Pig、Hive,这是最主要的。Hbase我们也在开始使用,但是还是一个比较谨慎的阶段,上面的服务其实还不多。

  四、企业如何确定自己的业务是否适合使用Hadoop?

  在看到越来越多的用户开始使用Hadoop进行数据价值的挖掘时,一些企业也开始蠢蠢欲动,然而,究竟怎样的应用适合放到Hadoop上?韩轶平从应用和数据的角度上进行了分析。

  IT168:Hadoop对于业务的针对性还是比较强的,如果我是一个用户的话,怎么才能确定我的应用是不是适合放到Hadoop平台?

  韩轶平:第一点,Hadoop直到今天,它都不是一个实时的在线系统,它更多的还是针对离线的、大规模的、批量的数据处理。虽然我们基于Hadoop做了很多的新的技术和优化,已经让等待时间变得很短,Facebook已经做到大概10秒左右,雅虎也能做到这种近实时的,但即使是这样,我们还是要认清一点,Hadoop一是个离线的、批量的数据处理系统。

  第二点,从数据处理的角度来讲,数据处理的业务要有很大的并行性,能够适应MapReduce这个模型,这也是一个潜在的、必须的要求。在数据存储的角度,HDFS是针对大文件的,也有比较长的等待时间,它并不能做到很高速的随即读写,文件不可改写,有这些基本的性质在那儿,所以从企业来讲,也必须抓住这些基本点,看看你的应用到底是不是需要大量小文件读写,是不是需要频繁地改写文件。真正要做到一个很对的判别,很好的方法就是找一些专家进行咨询和交流。

  以金融行业为例,用Hadoop来做实时的银行业务的处理,未必很合适,因为Hadoop没有很好的实时性,它的安全性目前来讲还是跟商业数据还是没法比的,但是另一方面,如果要做批量的数据处理,比如每天晚上的日常的数据处理工作,进行一些用户信息的挖掘,这就很适合使用Hadoop。

  回到我们今年大会主题——海量数据掘宝,“掘宝”这两个字很重要,海量数据是一方面,Hadoop确实能帮助你存储海量数据,那另一方面掘宝是一个核心,你用Hadoop可以做很多的数据挖掘、数据整理的工作,从中发现一些的价值,这个我觉得是最合适的。

  IT168:对于数据量不是很大的企业,是不是不太适合使用Hadoop呢?

  韩轶平:从小企业来讲,第一点,要看清楚自己的发展前景,尤其是数据的发展前景,数据是活的东西,它会增长。所以你如果能够预测到将来的数据,很可能有很大的增长,比如说今天处理1个G的数据,将来有可能会变成100个T,在这种情况下,你是不是就可以考虑使用类似于Hadoop这样的技术。

  第二点,Hadoop的部署、开发、学习成本都会比较低,从这些方面上,Hadoop也有自己的优势。

  第三点,今天的Hadoop跟我们最早的Hadoop是两个不同的概念了。其实Hadoop现在已经演变成一个庞大的生态系统了,不同的技术有不同的用途,我们可以根据自己的需求来使用其中的技术。例如,Zookeeper这个Hadoop的子项目,现在已经被广泛的用于各种非Hadoop的分布式系统中。

  六、雅虎与Hadoop的未解之缘

  与其说开源是一种技术,不如说开源是一种精神。从Hadoop诞生之初开始,雅虎便与Hadoop这只神奇的飞象结下了不解之缘,然而前不久雅虎把自己的Hadoop研发团队脱离出来成立一个独立运营的公司,这让许多人捏了一把冷汗。

  IT168:雅虎把Hadoop的开发团队独立出来,成立一个独立运营的公司——Hortonworks,这是不是意味着雅虎对于Hadoop开源社区的支持力度会减弱?能不能谈一谈雅虎未来在Hadoop方面的支持计划?

  韩轶平:其实我觉得从我这个角度来看,恰恰显示出来雅虎对Hadoop和开源社区的支持。Hadoop一直以来都是雅虎的一项重要战略投资,现在雅虎把Hortonworks给独立出来了其实是非常自然的一步,因为让一个独立的商业实体来引领Hadoop的研究,就能够保证Hadoop社区建立在一个稳定和企业级的技术平台之上,并拥有充满活力的研发生态系统。包括雅虎在内的全球相关机构都会从这样的一个结构中受益。所以,从这一点来看,我觉得其实都应该说是雅虎对Hadoop开源化的一个支持。

0
相关文章