云计算 频道

初识Hadoop-《Hadoop权威指南》连载

  初识Hadoop

  【图书连载】古代,人们用牛来拉重物。当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛。同样,我们也不需要尝试开发超级计算机,而应试着结合使用更多计算机系统。

  ——格蕾斯·霍珀

  数据!数据!

  我们生活在数据时代!很难估计全球以电子方式存储的数据总量有多少,但IDC的一项预测曾指出,“数字宇宙”(digital universe) 项目统计得出,2006年的数据总量为0.18 ZB,并预测在2011年,数据量将达到1.8 ZB。[1] 1 ZB 等于1021 字节,或等于1000 EB,1 000 000 PB,或是大家更熟悉的10亿TB 的数据!这相当于世界上每人一个磁盘驱动器所能容纳数据的数量级。

  数据“洪流”有很多来源。以下面列出的部分为例。[2]

  纽约证券交易所每天产生1 TB 的交易数据。

  Facebook存储着约100 亿张照片,约1 PB 存储容量。

  Ancestry.com,一个家谱网站,存储着2.5 PB 数据。

  The Internet Archive(互联网档案馆)存储着约2 PB 的数据,并以每月至少

  20 TB的速度增长。

   瑞士日内瓦附近的大型强子对撞机每年产生约15 PB 的数据。

  此外还有大量数据。但是你可能会想它对自己有何影响。大部分数据严密保存(locked up)在一些大型互联网公司(如搜索引擎公司),或科学机构,或金融机构,难道不是吗?难道所谓的“大数据”的出现会影响到较小的组织或个人?

  我认为是这样的。以照片为例,我妻子的祖父是一个狂热的摄影爱好者。成年之后,他经常拍照片。整个照片集,包括普通胶片、幻灯片、35 mm胶片,在扫描成高解析度图片之后,大约有10 GB。相比之下,2008年我家用数码相机拍摄的 照片就有5 GB。我家照片数据的生成速度是我妻子祖父的35 倍!并且,这个速度还在不断增加,因为拍摄照片变得越来越容易了。

  更一般的情况是,个人数据的产生量正在快速地增长。微软研究院的MyLifeBits项目(http://research.microsoft.com/en-us/projects/mylifebits/default.aspx)显示,在不久的将来,将普及个人信息档案。MyLifeBits是这样的一个实验:获取并存储个人与外界的联系情况(电话、邮件和文件),以供后期访问。收集的数据中包括每分钟拍摄的照片等,其数据量达到每月1 GB左右。当存储成本下降得足够多,以至于可以存储连续音频和视频时,未来MyLifeBits项目所存储的数据量将是现在的许多倍。

  目前的趋势是保存每个人成长过程中产生的所有数据,但更重要的是,计算机产生的数据可能比个人产生的更多。机器日志、RFID检测器、传感器网络、车载GPS 和零售交易数据等——所有这些都将使数据量显著增加。

  公开发布的数据量也在逐年增加。组织或企业,不仅需要管理好自己的数据,更需要从其他组织或企业的数据中获取有价值的信息,以便在未来获得更大的成功。

  这方面的先锋,如Public Data Sets on Amazon Web Services、Infochimps.org和theinfo.org,正在培育“信息共享系统”(information commons),任何人都可以在此自由下载和分析这些数据(例如通过AWS 平台实现共享,并以合理的价格收费)。不同来源的信息混合处理后,将带来意外的效果和今天难以想象的应用。

  以Astrometry.net项目为例,这是一个观察和分析Flickr网站上天文小组所拍星空照片的项目。该项目分析每一张照片,并辨别出该图片是天空或其他天体(例如恒星和银河系等)的哪一部分。该项目表明,如果可用的数据足够多(在本例中,为加有标签的图片数据),这些数据可用于数据创建者也想象不到的一些应用(例如,图片分析)。

  曾有这么一句话:“大量的数据胜于好的算法。” 意思是说对于某些应用 (譬如基于先前偏好进行电影和音乐推荐),不论你的算法有多好,大量可用的数据总能带来更好的推荐效果。[3]

  现在,我们已经有了大量的数据,这对我们来说是个好消息。不幸的是,我们当下正纠结于存储和分析这些数据。

  [1] 来自Gantz等所写的文章“The Diverse and Exploding Digital Universe”(March 2008),网址为http://www.emc.com/collateral/analyst-reports/diverse-exploding-digital- universe.pdf。

  [2] 来源为http://www.intelligententerprise.com/showArticle.jhtml?articleID=207800705,http://mashable.com/2008/10/15/facebook-10-billion-photos/,http://blog.familytreemagazine. com/insider/Inside+Ancestrycoms+TopSecret+Data+Center.aspx,http://www.archive.org/ about/faqs.php和http://www.interactions.org/cms/?pid=1027032。

  [3] 引自Anand Rajaraman的文章“Netflix Challenge”(http://anand.typepad.com/datawocky/ 2008/03/ more-data-usual.html)。Alon Halevy,Peter Norvig和 Fernando Pereira在他们的文章中也给出了相似的观点,文章标题为“The Unreasonable Effectiveness of Data”(IEEE Intelligent Systems, March/April 2009)。

0
相关文章