向巨头学习：如何应对海量数据的挑战？-云计算专区

向巨头学习：如何应对海量数据的挑战？

作者：唐蓉编辑：唐蓉 2011-05-24 00:58 IT168网站原创

　　如何存储并利用这些海量的数据?

　　如此海量的数据，如何进行存储、分析、处理?并基于海量数据的挖掘，为企业创造更大的商业价值?针对海量数据的挖掘的技术架构，几位专家分别介绍了自己的法宝。

　　SAP杜涛从两个方面介绍SAP的海量数据处理方法，“一方面，在SAP的数据中心，采用了标准的云计算所用的虚拟化和分布式存储;另一方面，针对单独的企业，SAP在4月16号在德国发生了内存计算技术。海量数据的读取和分析，在传统的架构下，基于磁盘的IO是以毫秒级来计算的，而在内存RAM中处理时间是nm级的。所以SAP把客户的数据经过压缩的处理放到内存中去，进行读取和分析，把之前在应用层的分析放到内存里面去做，提升性能，帮助用户充分利用他们的数据。”

　　Yahoo!的云计算的体系是以Hadoop为中心的，周轶平介绍到，并从数据采集(HDFS)、数据存储和处理、数据服务三个层面入手，介绍了雅虎的海量数据处理的方案。数据采集方面，yahoo建立了Data Have负责从雅虎遍布全球数据中心中的几十万台机器上实时收集数据，它有2个干道，主干道负责把数据以很高的一致性经过各种过滤清理以后，放到Hadoop的平台上。但是这样的处理方法实时性不是很高，为了满足实时性的需求，还有一个旁道系统，能够在秒级直接将数据源导入到Hadoop上。雅虎的数据处理都是基于Hadoop的实时的服务，同时Yahoop还有一套很大的不同业务逻辑所需求的服务系统，超过一半的数据处理都是使用Hadoop Pig数据引擎。

　　百度威廉.张表示，面对互联网的云计算，大搜索是基于索引的，如何对数据进行实时地快速的更新，就需要进行一些优化。比如说根据数据更新的频率，建立在更新系统快或是更新系统慢的系统之上，根据地域的登录跟重要性的登录把它放到南方或者是北方的机房里，也就是说，主要是根据数据的应用来策略。机器学习的算法，内存里面的数据进行高复杂度的计算，可能要花费很长的时间，这在百度的环境中是不行的，无论是判断用户的需求、从用户行为中得知需要推荐什么内容和什么广告，这些都需要非常高的时效性和极规模的机器学习。

第1页：各巨头的数据量级大曝光第2页：如何存储并利用这些海量的数据?

关注我们