【IT168 专稿】2010年5月21日,中国移动现场举办了“大云”发布会,发布“大云”1.0系统。
据了解,“大云”计划是中国移动研究院为打造中国移动云计算基础设施实施的关键技术,主要有两个目标:一是为中国移动IT支撑系统服务,目前中国移动IT支撑系统是全球最大的数据库之一。二是为满足中国移动提供移动互联网业务和服务的需求。
“大云”的起源与关键功能
中国移动研究院从2007年开始进行云计算的研究和开发,是最早介入云计算研发和实践的企业之一。中国移动在2007年初利用闲置的15台PC服务器,基于开源软件搭建了海量数据处理试验平台,并成功运行搜索引擎软件。2008年底,中国移动进一步建设了 256台PC服务器、1000个CPU Core、256TB存储组成的“大云”试验平台,结合现网数据挖掘、用户行为分析等需求进行了应用试点,在提高效率、降低成本、节能减排等方面取得了显著的效果。
经过3年多的努力,2009年,中国移动研究院正式对外公布了正在研发和试验的平台“BigCloud——大云”,平台规模进一步扩容,达到1000台服务器、5000个CPU Core、3000TB的存储规模,并以此提升中国移动未来在移动互联网方面的信息服务能力,2009年9月,在中国移动研究院内部发布了大云(Big Cloud 0.5)版本,供内部试用。
最新的1.0版本计划在2010年5月21日发布,可实现分布式文件系统、分布式海量数据仓库、分布式计算框架、集群管理、云存储系统、弹性计算系统、并行数据挖掘工具等关键功能:
分布式文件系统:为保证高可用、高可靠和经济性,采用分布式冗余存储的方式来存储数据,以高可靠软件来弥补硬件的不可靠。
分布式海量数据仓库:采用列存储的数据管理模式,保证海量数据存储和分析性能。
分布式计算框架:采用MapReduce并行编程模式,将任务自动分成多个子任务,通过Map和Reduce两步实现任务在大规模计算节点中的调度与分配,保证后台复杂的并行执行和任务调度向用户和编程人员透明。
集群管理:使大量的服务器协同工作,方便地进行业务部署和开通,快速发现和恢复系统故障,通过自动化、智能化的手段实现大规模系统的可运营、可管理。
云存储系统:利用“大云”平台存放、管理用户的文件(如:照片、视频,文档等),根据企业用户和个人用户的不同使用方式,提供多种便捷的文件获取方式,同时支持用户之间的文件共享。
弹性计算系统:使用开源Xen、KVM提供计算资源的虚拟化,通过对计算资源、网络资源和存储资源进行集中管理和调度,并与用户自服务流程进行管理整合,提供弹性计算服务。
并行数据挖掘工具:基于“大云”的并行数据挖掘工具库,提供基于SaaS的数据挖掘服务,支持高性能低成本的商务智能应用开发。
“中国移动的大云计划(BigCloud)1.0版本,相比去年发布的0.5版本,我们将主要精力集中于系统软件,尤其是开放式平台的建立和完善。”中国移动通信研究院业务支撑研究所副所长孙少陵如是说。 2010年5月21日,Big Cloud 1.0版本发布。
具体而言,大云1.0包括大云数据挖掘系统(BC-PDM)、海量结构化存储(Hugetable)、大云弹性计算系统(BC-EC)、大云弹性存储(BC-NAS)和大云并行计算系统(BC-MapReduce)五个产品:
大云数据挖掘系统(BC-PDM)
并行数据挖掘工具(BC-PDM)是一套高性能、低成本、高可靠性、高可伸缩性的海量数据处理、分析和挖掘系统。该工具提供海量数据并行ETL和并行挖掘能力,支持企业的BI应用和精准营销;提供业务逻辑复杂的SQL 能力,支持海量数据的清洗、转换、关联、汇总等操作,支持生成企业报表、KPI、挖掘等应用;提供基于Web的SaaS服务模式,降低企业IT系统投资。
因此,BC-PDM是一个类似于SPSS、SAS的数据挖掘和数据预处理工具,不同的是,它是一个SaaS工具,并且是基于云计算MapReduce实现的,用户无需购买和部署,只需要注册并将数据传到大云发布系统中即可使用。由于是基于云计算的,因此BC-PDM克服了传统工具的问题,能够处理TB级的海量数据挖掘。
如果您有一个大型网站,希望对海量的用户信息进行用户行为分析,进而开展精准营销,却苦于自己的IT设施无法满足要求,或者自己没有精力做挖掘算法的基础研究,那么BC-PDM给您提供了一个很好的平台,使您不用关注IT设施的部署、不用关注存储的不断扩容、不用投入大量的研发资源进行基础算法研发,只需要关注在自己的业务流程和用户访问模型的研发上,使用BC-PDM简单拖拽即可完成用户行为分析。
如果您正在做数据挖掘算法研究,那么BC-PDM是一个好的学习、交流、试验平台。
另外,应用开发商可基于BC-PDM开发应用,到用户的实际系统中进行部署。
海量结构化存储(Hugetable)
作为分布式海量数据仓库,HugeTable是一套适合快速索引查询/统计、多表扫描查询/统计的廉价可扩展的海量结构化数据存储和管理系统;基于Web的管理系统,支持PB级别的数据存储能力,具有秒级别的索引查询能力、快速数据加载、高速数据并行扫描能力,提供标准的xDBC/SQL接口和数据备份恢复、导入导出等工具。
因此,Hugetable是一个面向分析型、准实时型应用的一个海量数据仓库系统。其主要用途是在日志类存储查询应用、分析型应用中作为后台数据仓库,应用开发商可以基于其进行应用开发。Hugetable是基于x86集群架构的,具有成本低、易扩展的特性。发布系统主要为用户提供体验Hugetable功能和应用开发方法,相关客户端驱动已经放在BC-EC发布的虚拟机中,用户若基于BC-EC开发了Web应用,需要进行应用日志的分析,可以使用Hugetable。
另一种应用方式是,开发商基于Hugetable开发应用,到用户的实际系统中进行部署。
发布系统还提供了一个应用demo,让用户体验Hugetable的功能。
大云弹性计算系统(BC-EC)
弹性计算系统(BC-EC)提供一种新型的数据中心服务器管理能力和IaaS服务模式,通过虚拟化技术优化数据中心内部资源利用率,降低管理成本,可以通过网络自服务方式向用户租赁虚拟服务器资源。
BC-EC可以根据用户需求提供虚拟计算资源。用户可以申请虚拟资源作为教学、培训环境,进行系统上线前的测试甚至提供新的Web服务。BC-EC可以解决创业者创业初期没有资金构建自己的IT系统的难题,使你只要关注自己的应用开发和业务创新。
由于系统还处于试验阶段,本系统免费供试用者使用(系统中的虚拟计费主要用于研究的目的)。因此,本系统暂只提供开源的操作系统。
大云弹性存储(BC-NAS)
大云存储系统(BC-NAS)采用对象存储模式支持互联网应用,支持超大规模数据存储,提供多种便捷的文件获取方式,支持多副本机制,保证数据的安全可靠;适用于企业用户或个人用户的数据存储服务。
从本质上看,BC-NAS本来就是一个应用,个人用户可以把它当做一个个人网盘,进行数据备份,企业也可以将其作为一个企业NAS(NAS Proxy程序暂未发布,发布之后用户在一台PC服务器上安装好),即可作为一个NAS服务器,数据存在云端。
BC-NAS后台使用的对象存储系统(oNest),提供HTTP、REST接口进行访问。用户在建立自己的网站或开发自己的应用时,还可以调用oNest的接口,将数据存在oNest中。目前oNest的驱动已经安装在BC-EC发布的虚拟机中,便于用户使用。
大云并行计算系统(BC-MapReduce)
并行计算系统(MapReduce)是在Hadoop的基础上进行了改进,为了让广大学生、编程者学习最新的MapReduce编程方法而开发的一个MapReduce作业管理系统。如果您想学习MapReduce,却不知道如何开始;您正在学习MapReduce,却苦于没有资源进行大规模部署和测试;如果您正在基于MapReduce研究一种算法,却无法验证其在较大规模环境下的性能,那么大云发布系统的MapReduce系统是一个非常好的起点。
MapReduce并行计算执行环境提供MapReduce作业的配置、控制(启动/停止等)和执行环境,同时提供系统执行性能结果统计,为用户学习/研究mapreduce并行编程和性能分析提供便捷的工具。
在开源方面,“大云”是中国移动研究院集成并扩展了多个云计算相关的开源软件和自主研发的部分功能组件的产品,在大云中主要采用了 Hadoop 分布式计算软件和 OpenNebula 弹性计算管理系统,虚拟机使用的是 Xen。在大云的开发过程中,中国移动研究院对 Hadoop 进行了一些改进,并集成了一些附加功能,这些修改大都在逐步开放源代码。
中国移动大云计算系统视频讲座
以下视频由中国移动通信研究院业务支撑所独家提供。
中国移动大云计算讲座:钱岭介绍大云HugeTable结构化数据存储系统(一)
视频内容介绍:分布式海量数据仓库(HugeTable)是一套适合快速索引查询/统计、多表扫描查询/统计的廉价可扩展的海量结构化数据存储和管理系统;基于Web的管理系统,支持PB级别的数据存储能力。
中国移动大云计算讲座:钱岭介绍大云HugeTable结构化数据存储系统(二)
视频内容介绍:分布式海量数据仓库(HugeTable)还具有秒级别的索引查询能力、快速数据加载、高速数据并行扫描能力,提供标准的xDBC/SQL接口和数据备份恢复、导入导出等工具。
视频内容介绍:(上部)云存储系统(BC-NAS)采用对象存储模式支持互联网应用,支持超大规模数据存储,提供多种便捷的文件获取方式,支持多副本机制,保证数据的安全可靠;适用于企业用户或个人用户的数据存储服务。
视频内容介绍:(下部)云存储系统(BC-NAS)采用对象存储模式支持互联网应用,支持超大规模数据存储,提供多种便捷的文件获取方式,支持多副本机制,保证数据的安全可靠;适用于企业用户或个人用户的数据存储服务。
视频内容介绍:(上部)并行数据挖掘工具(BC-PDM)是一套高性能、低成本、高可靠性、高可伸缩性的海量数据处理、分析和挖掘系统。该工具提供海量数据并行ETL和并行挖掘能力,支持企业的BI应用和精准营销。
视频内容介绍:(下部)并行数据挖掘工具(BC-PDM)还提供业务逻辑复杂的SQL能力,支持海量数据的清洗、转换、关联、汇总等操作,支持生成企业报表、KPI、挖掘等应用;提供基于Web的SaaS服务模式,降低企业IT系统投资。
视频内容介绍:(上部)弹性计算系统(BC-EC)提供一种新型的数据中心服务器管理能力和IaaS服务模式,通过虚拟化技术优化数据中心内部资源利用率,降低管理成本,可以通过网络自服务方式向用户租赁虚拟服务器资源。
视频内容介绍:(下部)弹性计算系统(BC-EC)提供一种新型的数据中心服务器管理能力和IaaS服务模式,通过虚拟化技术优化数据中心内部资源利用率,降低管理成本,可以通过网络自服务方式向用户租赁虚拟服务器资源。
附:“大云”研发大事记
2007年3月,确定了大云(Big Cloud)计划,即中国移动研究院为打造中国移动云计算基础设施而实施的关键技术研究及原型系统开发计划。
2007年7月,利用闲置的15台PC服务器,基于开源软件搭建了海量数据处理试验平台,并成功运行搜索引擎软件。
2008年10月,建立256节点的大规模运算实验室,并运行数据挖掘工具和相关应用。
2009年9月,Big Cloud 0.5版本在中国移动研究院内部发布试用。
2009年12月,试验平台进一步扩容,达到1000台服务器、5000个CPU、3000TB的存储规模。