伴随着国家电网的IT架构演变历程,作为国家电网直属单位的南瑞信息系统集成公司(以下简称“南瑞集成”)在虚拟化和云计算领域进行了深入的探索,历经了传统架构到虚拟化再到软件定义数据中心(SDDC)的演变。在本文中,南瑞集成CTO徐戟深度介绍了国家电网的软件定义数据中心应用实践。
数据中心变革的动力是什么?
纵览中国信息化时代的整个过程,数据中心变革的动力到底是什么?其实可以分为三个阶段来看。首先是90年代初期,当时的应用都是TS结构,也就是终端服务器结构的,依靠一个强而有力的服务器拖起很多终端,所有的计算都在服务器端进行。这种终端/服务器模式推动了中型机、大型机的发展;接下来,随着技术发展逐渐开始有了C/S架构,服务器客户端架构开始流行,后来出来了BS架构、BSS架构等等。这种架构的出现,解放了服务器的计算能力,大力推动了小型机的发展;现在,随着互联网应用逐渐广泛,分布式的架构也在迅速发展。因此,数据中心变革很重要的推动力是应用架构的变革,应用架构推动了数据中心的变化。
传统数据中心存在哪些问题?
传统的架构是90年代中后期形成的,以IOE为核心,以大型数据库、集中式存储加上高性能的服务器组成架构,这种架构虽然在当时可以满足业务的迅速扩张,但是随着业务到了一定规模的时候,传统数据中心存在的问题就会暴露出来:
以IOE 为核心,受制于人;
扩展能力不足,性价比不高;
烟囱式建设,离散式管理;
设备种类繁多,运维难度大;
个体差异大,无法制定统一维护策略;
部署周期长,严重影响系统上线进度;
资源调度不灵活,大量系统等待扩容,同时大量系统资源利用率严重不足;
浪费严重,机房空间难以为继。
如果继续不做改变的话,企业的IT成本就太高了,于是企业开始寄希望于分布式的架构,有了一个很火的词——去IOE。其实去IOE本质是分布式架构替代传统架构的IT架构的变革,互联网企业在这里面做的很好,这方面传统行业必须向互联网企业学习,但是传统行业的应用特点和互联网行业的应用特点是不一样的,简简单单的用分布式架构来替换传统架构是不现实的,需要根据自己实际情况去考虑应对的策略。
所以南瑞集成的策略是“按需定制、深度集成”,通过对服务器、交换机、存储、高性能IO等IT基础设备,以及操作系统、数据库等软件进行深度集成(进行碎片化处理),并对相关参数配置以非常好的实践数值,定制真正契合企业需要的深度集成软硬件一体的解决方案。
国家电网IT架构发展路线
如上图所示,国家电网的发展路线是逐渐把小而散的系统整合成一个大的系统,甚至到国家电网总部进行部署。但是我们后来发现这些系统的资源使用率很低,我们在机房里做过调研,一千多台服务器中CPU小于1%的服务器占了70%。所以五、六年前国家电网开始进行虚拟化资源池的建设,这个建设还是很有成效的,通过虚拟化建设使IT资源得到了很好的利用,不用继续投资去扩充机房与服务器,节约的资金量是每年是以几十个亿来计的。
随着资源池的建设使用,我们发现光建立一个资源池是不够的,没有解决资源调度需求的敏捷性,虽然对资源整合、资源使用率提高了,但是运维和其他方面还是有很多问题,所以我们开始着手搭建下一代数据中心——通过软件定义的数据中心,其中有四点是我们的硬性要求:
全整合。整个软件定义的数据中心应该把所有的IT基础架构都纳入起来,刚开始可能做不到,但是随着整个建设不断的进行,必须将全部的IT架构纳入进来;
敏捷。例如,在软件定义的数据中心里想要去建设一个平台,我可以通过固有的模板很快生成整体的架构出来,比如说建立一个环境,需要2台数据库服务器,需要5个T的存储,需要20台应用服务器等等,这些东西可以在快速的完成部署、交付使用。
安全。我们对于安全的看法有很多已经过时,比如说物理隔离概念是什么?当年推进资源池建设的时候,很多应用部门和我们谈,我们需要物理隔离,就是网络硬件不能在一起,那我们还怎么做资源池?随着后来对整个物理隔离的概念重新的定义,这个壁垒逐渐的消失。
高可用。整个IT平台提供了跟业务应用连续性相关的所有因素,而不需要在应用系统再去独立的设计。
上图是我们软件定义数据中心的架构图,物理资源层包括分布式存储、分布式系统、传统的网络和设备,上一层资源管理层次进行管理。最终平台服务层对外提供相应的服务,数据管理层进行所有的数据的备份和容灾等,运维管理层来实现自动化的运维和监控、分析。
目前此软件定义数据中心目前在国网的应用场景主要有以下几个:
国网测试云平台
一体化售电平台(企业公有云)
智能电网综合IT平台(企业公有云)
电力调度云平台
对于未来我们也有一些愿景,我们希望软件定义数据中心可以实现以下几点:第一,是构建兼容化的;第二,技术自主化;第三,能力服务服务化;第四,供应快速化;第五,资源弹性化;第六,管理自动化;第七,管控集中化。
传统行业数据中心如何拥抱私有云平台?
接下来谈谈传统行业数据中心如何去拥抱私有云平台,主要有四个问题。
第一,我们是采用选择一站式还是开放式的架构?
其实这跟企业策略有关。首先,开放式要有足够的研发能力;其次,有没有做好持续投入的准备,在这个平台上随着业务越来越多,随着需求越来越大,研发费用需要不断的投入,开放式的架构才能支撑这样一个项目。
当然我们还有其他的选择,就是在一个超融合架构上进行二次开发,这样要求超融合架构具有足够的开放性,能够开放几乎所有的API给这些用户,这样可以在上面做很深度的二次开发,投入会更小一些。
第二,如何融合以前的存量的设备?
我看过青云的资料,发现他们可以通过系统集成的方式来整合。未来他们还会开放相应的API接口来对接传统的软硬件平台,这点非常重要。我认为整个数据中心最后全要纳入到软件定义框架中来,才算是完整。
第三,如何聚合计算能力?
所有的云平台都是将基础资源虚拟化,整个资源打散给大家用,这解决了计算能力过剩的问题,如何解决计算能力强制性的要求?目前我们看到的公有云、私有云的解决方案里并没有很好的答案,这并不仅仅是说在IaaS层面解决的问题,其实是要靠集群的技术,包括分布式数据库,Hadoop等分布式算法这样的技术实现聚合。
第四,如何规避政策壁垒。
IT政策要与时俱进,传统的政策是90年代建立起来的,我们有必要对IT政策进行修正,这是领导层面对的问题。同时对物理隔离的概念需要打破,如果抱着物理隔离来拥抱云是不可能的。
建立属于自己的软件定义数据中心
在数据库方面基于开源技术开发了四款解决方案,NBase数据库是由南京南瑞集成公司自主研制的数据库系列产品,其数据库产品包括高可用数据库集群(NBase-E)产品、分布式数据库集群(NBase-D)产品、分析型数据库集群(NBase-C)产品、NoSQL平台(NBase-H)产品。
另外还有瑞腾(Return)高性能计算平台,它是为国网核心业务系统量身打造的一个高性能、可扩展的计算平台,利用目前前沿的高性能计算组件,使用自主的定制化服务器、IB交换机、分布式存储系统整合。如上图,瑞腾高性能计算平台,上面是计算的节点,我们可以使用四路的PC服务器,插上SSD的卡,SSD容量是有限的,我们后面有一个层,是分布式存储,标准配置是9060的存储,随着需要可以进行扩展。
写在最后
文章最后分享两句话,第一句1984年 John Gage说的:“网络就是计算机”,第二句吕健院士说的:“应用场景就是计算机”,1984年说出网络就是计算机的时候大部分人都不明白,因为当时大部分人不知道网络是什么。第二句话应用场景就切合了“按需定制,深度集成”,我觉得后续其他的传统企业按照这8个字来做文章,应该是一个比较正确的道路。