【IT168 资讯】2012年4月13日第三届“数据库技术大会”将在北京召开,本次大会是IT168、ITPUB、IXPUB、ChinaUnix联合主办。在过去两年里我们举办的前两届数据库技术大会都取得了很大的成功,参加会议的人员规模超过了800人。大会聚集了国内最优异的数据库专家,是国内数据库工程师、架构师们一年一度的盛会。
这次我来给大家介绍一个会议中海量数据处理与Hadoop应用专场,帮助大家提前了解一下情况。
当前,数字信息急剧膨胀。根据IDC的研究结果,2011年创造的信息数量达到1800EB,每年产生的数字信息量还在以60%的速度高速增长,到2020年,全球每年产生的数字信息将达到35ZB。面对海量数据处理的需求,“大数据”这一新的概念应运而生。关于大数据的定义,目前还没有标准的说法。通常认为,大数据要满足“三个V”,即多样性(variety)、体量(volume)和速度(velocity)。有人又加了第4个“V”,即value(价值)。
大数据最先发生在视频渲染、基因测试、金融分析、社交媒体、医疗影像等领域。目前大数据是高性能计算领域最热门的趋势。大数据处理的特点是:我们需要实时采集、分析、传递海量的信息,数据集以PB甚至ZB(1百万PB)为单位,数据中心的架构需要改变,云计算将成为解决大数据问题的关键,而作为关键部件的服务器和存储设备,也必须“加速”,才能适应新一代数据中心的要求。同时谈到了大数据,就不能不说hadoop。
Hadoop的发展基本上经历了这样一个过程:从一个开源的Apache基金会项目,随着越来越多的用户的加入,不断地使用、贡献和完善,形成一个强大的生态系统,从2009年开始,随着云计算和大数据的发展,Hadoop作为海量数据分析的非常好的解决方案,开始受到许多IT厂商的关注,从而出现了许多Hadoop的商业版以及支持Hadoop的产品,包括软件和硬件。
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用,从而应用到各种行业中。
这次海量数据处理与Hadoop应用专场中,我们将会给大家带来《百度Hadoop海量系统最新应用心得》以及邀请多位专家进行Hadoop海量处理探讨,给观众带来一场大数据的盛宴。下面是次会议专场的具体介绍。
时间:四月十五日上午9点-11点50
地点:喜来登大酒店
主持人:百度资深数据库架构师 马如悦
主题:海量数据处理与Hadoop应用