云计算 频道

IDF2012 hadoop构建全新大数据处理标准

        【IT168 技术】英特尔信息技术峰会(IDF)是全球久负盛名的信息技术行业峰会之一,2012 IDF将于4月11日、12日在北京国家会议中心隆重举行,这也是自2007年以来连续第6年在中国首发。本届IDF将以“未来在我‘芯’”为主题,前瞻IT产业的发展与计算体验的变革,共迎个性化计算时代的到来。

IDF2012 hadoop构建全新大数据处理标准
IDF2012 英特尔信息技术峰会

  Hadoop 具备出色的大数据集处理能力,在获取、存储、管理和分析数据方面远远超越传统的数据库软件工具。随着来自各种来源的数据日益增长,如何有效地利用这一信息成为了很多组织面临的一个难题。Hadoop 经常在构建大数据解决方案时被用作基础构架软件。

IDF2012 hadoop构建全新大数据处理标准
大数据:是通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据概念可以从四个维度去解,即三个V和一个C。三个V分别指的是数据量大、数据种类多和数据增长速度快,最后一个C指的是处理、升级或利用大数据的分析手段比处理结构化数据要复杂的多。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

IDF2012 hadoop构建全新大数据处理标准
大数据的多样性和复杂性让现在的关系型数据库无法适应大数据带来的挑战,关系型数据库由于自身架构的局限性,不能进行横向扩展,一味的向上扩展只会降低节点的工作效率。

IDF2012 hadoop构建全新大数据处理标准
大数据需要的是横向扩展,无分享的架构。利用大规模的分布式软件运行在上千台独立的服务器上面。通过将计算移至数据存储处来带到数据的高性能和高可用性。

IDF2012 hadoop构建全新大数据处理标准
HIBENCH是一个全新的完整的一套Hadoop标准测试集合,可以进行微基准测试,网络搜索算法测试,机器学习算法测试,分析查询算法测试。

IDF2012 hadoop构建全新大数据处理标准
通过对数据的比较,由应用特征决定数据的优化方法应用决策树思想来帮助获取具有混合属性的数据集的“规则聚类区域” ,利用“异类数据点子集相离,同类子聚类相紧”的原则来交替优化有序属性的权重和无序类别属性的权重,得到一种名为基于决策树划分的特征权重优化方法。这种方法在一定程度上解决了有效地获取数据点集的子聚。

IDF2012 hadoop构建全新大数据处理标准
HiTune是一个最新的Hadoop性能分析工具,可以从每个节点上分布收集性能数据,并且可以将这些数据进行汇总,生产图形化的报告。让客户可以迅速明白那个节点出了问题,进而迅速调整。

IDF2012 hadoop构建全新大数据处理标准
这就是一份Hitunne对Hadoop运行时行为的深入分析,这个结果表示copier线程中80%的时间处于空闲状态,等待memory merge线程。这个问题可以利用LZO压缩算法解决。
 

0
相关文章