三、90%以上的价值来源于数据——雅虎的“数据平台化”革命
谈到数据的时候,韩轶平颇显激动,他告诉记者,在雅虎内部,数据的概念已经深入人心。我们的工程师不仅是软件工程师,而是数据工程师;我们大部分的产品都是以数据驱动的;雅虎90%以上的价值由数据驱动。
IT168:能不能介绍一下雅虎现在基于数据已经创造和正在创造哪些价值?
韩轶平:数据在雅虎中已经是一个贯彻人心的思想。我跟每个工程师都说,你们是数据工程师,而不仅是软件工程师,我们做了所有的产品,脑子里先想到的是数据。数据不仅是数据,更重要的是数据的处理和挖掘。
我经常说的一句开玩笑的话,如果把电信、石油、交管局甚至电网手中的数据交到我们手上,会创造无穷的价值。
首先,今天雅虎大部分产品,都是由数据驱动,所以要说创造价值,那可以说,雅虎几乎绝大多数价值都是由数据支撑和创造的。
具体的来讲,雅虎最核心的几个产品,基本上都是完全数据驱动的,比如说搜索几乎是一个纯数据驱动的产品。
现在我们的存储量大概是200个P左右吧,数据量压缩以后大概是30几个P,就是核心数据,不包括延伸数据。
我们接下来的重心可能会放在怎么让数据变少以及如何有效地进行挖掘。怎么样能够把那些干扰性的数据都去掉,并对有效的数据进行挖掘整理,最后把有效数据保留下来,这是重点。所以从我的观点来看,我们不会一味的去追求数据能够不断的变得越来越大,而是怎么样有效的去挖掘,这是我的一个个人理念。
另一方面就是怎么样数据更好的流通和应用,因为对雅虎来说,一个特点就是产品线现在很长、很广。这就有问题了:每个部门都有创造数据,每个产品都产生数据、搜集数据、处理数据,这些数据之间怎么样让他们流通起来,以便在新闻里边能够用搜索的数据,在搜索里能够用广告的数据?怎么样能让数据处理变得统一而有效?一个人处理了是不是别人还要处理呢?接下去有两个方向我觉得很重要,一个方向就是让“数据平台化”。我们过去讲是技术平台、系统平台、产品平台都有,现在我们要提的是“数据平台”,怎么让数据变成平台,以便所有的应用都可以直接使用这个数据平台上的数据以及数据挖掘的结果。
IT168:“数据平台化”现在有一些思路了吗?
韩轶平:我们现在很多工作作做,比如说雅虎现在一个基本做法就是针对不同的应用,或者不同的数据类型开发一些数据平台,并提供给整个公司来使用。举个例子来说,有一个项目“个性化平台”,这个平台的任务就是把雅虎所有用户的数据进行整理、分析、挖掘,包括建模也就是我们要做的机器学习和数据挖掘。然后最后把这个结果统一的处理完的结果变成一个全公司的产品去使用,相当于是数据平台的服务。
举个例子,比如我们要为手机做一个个性化的音乐播放器,我们需要知道这个人到底喜欢听什么样的音乐,这样的数据我们就可以到这个数据平台直接去申请,不需要去拿原始的数据去分析,数据平台已经完成了这些处理。
IT168:要提供这样一个面向应用的数据平台,就是底层的话肯定需要一些分析的平台,能否介绍一下雅虎的数据处理平台?
韩轶平:你这些问题问得还挺到位的。这个东西说起来比较复杂了,大致地讲,我们底层数据分析处理基本上还是以Hadoop为核心,Hadoop上面,存储使用HDFS,运算部分是Pig、Hive,这是最主要的。Hbase我们也在开始使用,但是还是一个比较谨慎的阶段,上面的服务其实还不多。