提问:各位网友大家好,欢迎各位再次来到我们IT168高端访谈现场,那么今天坐在我身边的是来自中国万网副总裁,也是中国万网解决方案事业部总经理范春莹范总,Fancy?
回答:大家也可以叫我Fancy,各位网友大家好。
提问:我们今天也非常高兴请到Fancy来到我们现场,因为随着现在云计算的对IT应用模式的一个巨大的变革,我相信IDC行业应该是能够最早感觉到这个云计算的这种变革的力量的一个行业。Fancy本身是对互联网商业模式有着非常独到的一些经验,而且在中国万网也做了很多虚拟主机,包括云计算的一些尝试,所以我相信今天Fancy来到我们现场也能跟我们大家分享很多IDC在云计算这个行业下的这种变革的趋势和方向。
我想先问一下范总,因为我也知道中国万网在整个IDC行业其实做的历史也比较长,我想问一下,中国万网本身的商业模式,然后一个大概的状况是一个什么情况呢?
回答:好,中国万网是成立于1996年,应该到今年有16年的历史了。也算是一个老牌的IDC企业了,万网从最早是以做域名服务起家和虚拟主机服务。后来万网成为中国知名家拿到跨区域的经营性的IDC牌照,所以开始做IDC相关的业务,万网的主营业务在之前,多数是以互联网基础服务为主,比如说域名、主机、邮箱和网件,这四大件,也就是传统IDC企业避不过去的这四种核心的服务。
而从09年开始万网开始意识到云计算的趋势,逐渐在影响着中国,影响中国互联网的发展,所以万网从09年开始,开始做云计算相关的研发,并且在2010年5月9号正式推出了我们第一款的云主机,此后大约我们用了一年左右的时间,到了2011年的5月9号,用了这一年的时间,万网就已经实现了从传统的基础服务托管到云计算的应用服务提供商,这样的一个转型。
最核心的转型其实就意味着万网自己首先对自己做了一次自我的彻底的变革。我们在对商业模式的探讨上,终止了传统我们一直赖以为生的所有的独享主机租用和服务器的托管,这两项业务,所以今天您在万网的网站上是看不到再有这样的服务的,取而代之的是全部的云计算相关的服务。我们现在大约有12款的云主机,还有相关的,跟云主机相配套的,比如说负载均衡,CDN的产品。
以及混合云的这种架构。这样我们自己就已经对自己没有留任何的后路,我们相信云的这种趋势一旦形成,IDC企业它是没有办法选择回避,或者说抵制的,我们只能顺应这个大潮。并且在第一时间做出变革。所以今天万网更愿意把自己描述成我们要做中国的亚马逊,我们希望做中国的AWS。为中小企业能够提供在线的稳定高效,高可扩展的,而且高性价比的这种云计算服务。
提问:其实我也确实有留意到,在万网的主机下,现在在万网的首页页面上现在确实是再也看不到任何关于主机租用常规的IDC业务的信息。取而代之的是很多这种虚拟机各种的配置,各种用途的一些非常灵活菜单式的选择。其实我们也知道IDC的这种主机租用,物理主机租用是非常经典的,也是非常传统的业务模式。那么万网今天改革的这种措施也是非常的大胆和坚定,所以我想问一下,就是万网之所以做这样的改革,之所以做这种尝试,它背后的驱动力是在哪里呢?
回答:这是一个好问题,我觉得驱动力来自于两方面,一方面是市场和客户的需求的推动,另外一方面是我们自己自我管理和效率提升,性价比提升的驱动,就是外部和内部,都有两种力量在推动,来自外部的主要是客户的需求推动了这种变革,比如说客户会遇到传统的IDC托管很多的痛苦。比如说单点故障,比如说升级扩展非常困难,还有就是性价比比较低,进入门槛很高。喝杯牛奶也得买头牛,往往企业会对此充满了这种不满和痛苦。所以这是一个推动力。
另外一部分就是万网自身随着若干年的沉淀,它现在自己已经有了过万台的服务器,这些服务器的管理如何能够高效的管理会成为我们的管理负担,同时这些服务器并不能保证它是绿色的,我们一直倡导的绿色IT,绿色IDC的概念,在传统的IDC管理运营模式下是无法实现的。因为根据我们的观察,现在上万台的物理机,如果没有做过任何虚拟化和云计算的优化,它其实整个资源的利用率不超过30%,另外的70%都是空闲闲置的,但是我们却无法把这些闲置的资源单独拿出来再为其他客户所用。大家都在浪费着资源,浪费着电力和所有的存储、计算和网络资源,但是我们却无计可施,没有任何办法能够把这些资源重新利用起来。
再有一个我们现在遇到的瓶颈,就是原来遇到的瓶颈,就是这种应用部署,速度比较慢,周期比较长,满足不了客户快速上线,快速部署的要求。从客户的需求拿出来到我们把它变成物理机的采购,再变成具体的方案的上线,这个过程少则一个月,多则可能几个月,中间还有供应商,还有机器选型,调油配置等若干个环节,这样其实满足不了客户今天对于商业模式变化和新产品上线的要求。所有的这一切,都推动了我们需要找到另外一种更加高效、稳定、可靠、高性价比的模式来支撑互联网应用托管的这样的发展。
所以最后我们选择了云计算。
提问:所以我总结一下Fancy刚才的话,第一点是因为以前的那种物理机的模式,对于资源的这个分配并不是特别的灵活,采用虚拟机之后,它能够更加细颗粒的去分配资源,而且完全按照客户的需求来提供。这是您刚才说的第一点。第二点是说在以前的物理机的模式下,本身对万网自己的运维也带来了很多的成本,包括人力上的一些困扰。第三点是谈的对于客户来说,业务部署的速度可能跟不上它今天竞争的这种需求。其实我们也确实发现IDC在这种云的环境下有很多的这种变革是希望能够提高自身竞争力的,那么我也想问一下,实际上在支撑这种新的云的业务模式,需要后台做很大的改造的,那么万网在对后台有什么样的改造?
回答:您讲的后台可能是对IDC的一种管理系统,一个是管理,一个是监控,这是后台最常接触到的两种模式,就是对整个我们的物理资源、虚拟资源要做有效的管理和控制,同时对所有资源的使用量和资源的灵活的调配要做智能的监控,是这两方面。最初万网在没有云计算的时候,我们所有的管理和监控是非常零散的,分布在各个系统里,我们有控制面板,有控制中心,生产中心,第三只眼,还有我们来自外面的这种黑盒监控,还有我们自己的SAMP做的很多自己内部的系统的白盒监控。
所有这些是孤立的一个一个的系统,针对虚拟主机有虚拟主机的监控,针对物理机有物理机的监控,这样的监控其实会使我们的工程师会在不同系统中频繁的切换,需要有更多的人力去支持,而且无法做到统一化的管理,因为万网的服务器再加上客户托管的服务器,这是五花八门的,是一个完全不可控的异构环境,所以你想对它监控管理起来本身就是一个难题。而如果我们到了云计算这个阶段,包括今天万网已经做了两年多的云计算的服务,这种实践和探索,我们发现在云的环境下,我们很有效的控制了我们的机型,就是物理机的选型,物理网络设备的选型,这些都是我们投入的基础资源,是我们自己可控的,因为我们做的是公有云,我们自己提前做好了所有的硬件一致性的工作。
第二点就是我们选择了主流的虚拟化的软件,我们现在的管理系统是支持异构的虚拟化的软件。比如说我们可以用开源的虚拟机技术来做公有云,我们也可以用像微软的HyperV的方案来输出解决方案到企业,来做私有云,中间我们还可以实现公有云和私有云之间的结合,这种结合我们可以做公有托管私有云,来做这种混合云的尝试。所以无论我们用的是什么样的虚拟化的软件,我前端的虚拟化的管理系统是可以兼容这些虚拟化的软件的,今天我们的管理系统是可以兼容像VMware,以及Xen Server等等虚拟化软件的,多种虚拟化软件都可以在一起非常好的共享资源。这样对工程师来说就简单了,他不用再频繁的去切换系统,在一套监控管理软件里面就可以实现对整个云计算资源,包括物理机和虚拟机,包括存储和网络,都能完全管理起来。他也能知道这些资源现在是否是健康,是否发生了需要人去干预的事情。
从前我们的工程师更像一个消防员,是一个救火队员的角色,尤其是运维的工程师,一旦有一块硬盘坏了,无论是在节假日,还是在夜里,他必须第一时间冲到机房去修这块硬盘。要不然就是一场灾难,或者说客户会投诉,今天的工程师就变得很简单了,他发现硬盘坏,只要不是关紧的硬盘坏,我们有分布式存储在顶着,它只要在合理的范围内,三块同样数据的硬盘不是同时坏,就不会影响这个业务。它可以每周在固定的时间提着一个篮子,去把那些有问题的硬盘拔下来,把好的硬盘插上去,维护任务就结束了。所以把工程师的幸福指数大大的提升了,他可以用自己非常宝贵的时间去做更有价值的探索,他可以做自己喜欢做的事情,而不是重复的简单的体力劳动,所以云计算另外一个价值就是解放了工程师,使他们有时间、有精力去做自己喜欢的事情,去做有挑战的事情,这个也是我们义无反顾的向云计算这个方向去变革的一个因素。
提问:所以我想Fancy刚才提到的这些问题,应该让很多的这种运维工程师都感到前景一片光明。因为其实我也跟一些运维工程师聊过,这种大规模的系统运维对他们来说压力是很大的,经常是只要听到手机响立刻神经就非常处于一种高度紧张的状态,而且也经常看到一些运维工程师在微博上就是有一些抱怨,比如说周末可能他会需要去公司,去处理一些运维上的问题。那么我希望了解一下咱们现在万网的这个平台,大概处于一个什么样的运行规模呢?
回答:万网去年大约对外销售和运营了将近两万台云主机,这应该是中国最大的上云计算的保有量了,今天我们看起来在中国有几家在号称在做公有云,包括万网,也包括像华为云、盛大云,也有一些是政府所辖的一些电信公司。大部分的这些公司还都处于在跑马圈地的这个状态,需要建云计算的地产,然后搭起云计算非常豪华的机房,数据中心,数据中心里面再把这个架构落地。这些做的都很好,都没有问题,关键就是客户在哪里?
也就是说今天如果我们仅仅解决的是云计算的部署和实施,资源都已经准备好了。但是这个远远不够,因为需要把这个云计算资源真正为企业服务,对企业来输出这种云计算的价值才是核心。这样才能使整个的这个生态圈能够转起来,不然就是单纯的投资拉动,投资投下去了,但是需求不知道在哪里,万网恰巧是因为做了十五六年基础的托管,手里大约有五六十万的客户,这些客户本身的转化,上云的转化率是比较高的。因为万网在客户选择解决方案方面是有比较大的话语权。
因为他一直遵循的都是这种顾问式营销,他会劝用户,说你是不是愿意选择一个性价比更高,稳定性更强的一种云环境,或者愿不愿意去尝试,再加上万网给予了一定登云的补贴,比如说传统的服务器上云之后,我们会给他延长服务期限,甚至会向更高的一个配置上去升到云,这些都促使了万网的客户从非云到云的转换,所以我们这两万多个云主机,其实对应的是几万个企业用户,他们已经在第一期登上了云。而对于今年的规模,我们大约预测会有将近5万台这样的量。
所以我们现在可以承载的规模大约是5万台虚拟机的规模。而且现在也不断的扩展。北京的云计算中心现在已经基本资源已经饱和了,我们在杭州做起来一个更超大的云计算中心,未来我们会在青岛再建一朵云,这样形成多地的,就是三地的云计算中心的骨干网的光纤互联,这样可以使数据中心之间实现资源共享,同时我们希望有更多的企业能够登到云上,或者看一看云计算,能够真正带给他们什么。
提问:所以今天在谈到云计算的时候,确实用户的应用,如何给用户,如果把云计算实际的这种价值带给用户,这个确实是今天云计算大家在讨论云计算的一个比较大的问题,而且我们也确实看到了万网在这方面已经有了一些尝试和探索,而且已经收到了一些显著的成效。我想问一下咱们现在在后台,刚才您也谈到了一些比较多的虚拟化环境的这种异构虚拟化环境的一些复杂性,那么咱们是通过什么方式来应对这种复杂性的呢?
回答:像您提到的异构环境,现在我们对客户做解决方案的时候,其实有的时候客户在原来的解决方案中已经使用了某种虚拟化软件。所以我们不能完全的让他去迁移到另外的解决方案,这样的代价会比较大,所以对万网的要求就是如果我们做的是私有云,做的是解决方案的输出,那么我们要有一套管理系统,来兼容异构环境下的虚拟化。
比如说我们在去年其实是跟微软签订了战略合作伙伴协议,同时我们也得到微软很多帮助,他们的工程师特意从美国飞过来,帮我们来部署DDC和System Center等等系统管理方案,这些方案其实对我们输出私有云方案到企业是起到比较大的作用的。同时我们在公有云领域,因为我们要做亚马逊,所以我们希望把公有云的规模做得更大,所以我们会选择很多更兼容性的开源虚拟化的软件,以及分布式存储,这样可以把规模做起来,把性价比体现出来,整个的资源优势就凸显出来了。
同时还有一些像KVM,也是比较成熟的虚拟化的方案,其实他们都有开放统一的标准的API接口给服务商,所以我们的管理系统能够有效的去管理这些异构虚拟化的软件。这样就能实现他们对整个资源的控制,是可以一致性的。
提问:其实我想谈的是这样一个问题,因为今天厂商都在谈企业是如何跨到云的一个路线图,而且虚拟化对于各种企业,对于各种厂商在他们的路线图当中,虚拟化都是非常关键,而且非常基础的一个部分。但是现在的一个现状是我们发现很多的企业,他们实际上虚拟化已经做的比较成熟了。但是却很难从一个虚拟化的环境,真正的去跨越到一个云的环境。所以我们今天也看到了万网今天在云的这种架构建设上,已经有很多的成就。所以是希望Fancy您这边能不能分享一下,就是万网是如何去实现从虚拟化到一个真正云平台的架构上的这种跨越。
回答:这个其实,这个问题是一个挺复杂的问题。其实虚拟化本身跟云计算并不是对立和矛盾的。今天虚拟化是云计算,尤其是基础云计算,这个S层,必不可少的一个组成部分,我们可以简单的理解云计算分为三大块,一块是虚拟化系统,一块是分布式存储系统,还有一个是智能监控管理平台,是管理整个虚拟化和分布式存储的,他们三部分组成了一个云计算的架构,包括AWS也是类似于这样的架构。所以虚拟化今天跟云计算它是整合在一起的。但是它仅仅是云计算的一个组成部分,不完整。
万网之前也是做了很多年的虚拟化尝试,我们应该说是做的最早的,从最早的VMware,后来叫做Vsphere,他们做的ESX,这个时候我们就开始采用他们的虚拟化的软件来做。后来我们又用了像微软Hyper-V的方案,然后我们一直在尝试不同的虚拟化的方案。那个时候云计算还没有这么大的声音。可能在06、07年的时候,2006年那个时候我们开始做尝试,后来发现虚拟化它也会遇到一些瓶颈,无论你是硬件虚拟化,分区虚拟化,OS虚拟化还是半虚拟化,本身它只能解决把计算资源做虚拟化这个层面。因为它虚拟化本身是针对于CPU做虚拟化是最早的,然后针对内存能做一些虚拟化。
它没有解决的就是虚拟化不能够把规模做得很大。很多虚拟化都是比如说单机的虚拟化,或者我们说共享存储的虚拟化,两个机柜就差不多了,你再想扩大的时候,它会受限于你的集中存储设备和设备本身能够提供的这种IO的输出能力和网络的输出能力,就把虚拟化的规模给局限住了。那么如果它只是一个两个机柜,或者是几个机柜这个量级,你就不能保证它在很多资源中可以共享了,你会形成一朵一朵孤立的云,孤立的小云。这些孤立的小云,同样会有单点故障的风险,比如说来自路由器和交换机的单点故障,或者是来自集中存储设备的单点故障,如果你用两台成本又上去了,两台热备的时候成本更高,两台热备也保证不了它的控制器不会坏,或者是切换的时候不会有风险。这就意味着我们需要有另外配套的相关的东西来做出一套比原来虚拟化方案更完美的方案。
最后的云计算大家达成共识的就是用分布式存储来代替传统虚拟化的集中存储和本机存储,这一步就形成了一个门槛,中国的很多企业都是在这个门槛上没有跨过去,也有一些就销声匿迹了,因为他们试图在用传统的VPS,这种虚拟化的方式来号称自己是一个云计算的模式。这样当用户量达到一定上限的时候,你的管理会遇到瓶颈,同时你的稳定性也支撑不了了,最后自己的商业计划就无法延续。就做不下去了。
所以真正要做到云计算,首先要搞定分布式存储,这是一个硬性的门槛。比如说像现在的谷歌,比如说JFS,有自己的HDFS,这些都是非常好的分布式的文件系统,但是要到中国你想变成自己的,自己独有的,那你需要在上面做很多很多的开发。你可以基于开源的做开发,也可以从零写起,自己做一套分布式文件系统,但是这个都是必经之路。所有这些云计算服务商他们经历了这些苦难和艰难付出的艰辛是任何一个公司都躲不过去的,最后如果你想进入那个门槛,你也必须要付出同样的代价,所以当你把分布式存储这一关过去之后,你的虚拟化软件就会得心应手了,因为你是不再依赖于某种昂贵的设备,不再依赖于EMC,NetApp这样的设备,你可以用非常简单的PC服务器,里面自带的十几块硬盘就可以做非常稳定、输出能力也可以的这样的分布式文件系统。
这套存储系统和虚拟化加在一起,我们就可以说,这个云计算的架构能够实现任何一种资源的补充计算存储和网络,三大类资源,任何一种资源的补充都可以通过简单的追加一台PC服务器来实现,这就是我们所说的真云,判断真云和假云的标志就在于此。
提问:那么我想问一下,万网现在这一套分布式文件系统是应用到市场上开源的分布式文件系统,还是咱们自己开发的?
回答:这个是大量是我们自己开发的。我们参考了System Center很多好的理念。
提问:您刚才提到了就是从一个最基础的虚拟化环境,然后向云过渡可能是分成一些层次,您刚才提到了分布式的存储是其中非常大的一个硬性的这么一个门槛。那么跨过了这个门槛,再上一层还有整个环境的这个管理。
回答:您这个问题是好问题,我刚才忘说了一个层面,就是除了服务商自己的跨越,还有另外一部分就是你面对的客户,他如何从一个虚拟化变到你的云上,或者说变到他自己的云计算的一个平台上。这个涉及到是公有云和私有云的一个整合问题。很多客户自己来做数据中心,或者自己在公司内部托管了很多服务器来做虚拟化,它是一个跟互联网多数是绝缘的这样一个虚拟化的环境。
同时它又有跟互联网相沟通的这种需求,所以今天我们劝这些企业上云,往往都不是让它一步到位,变成一个全云的环境,就是企业没有任何服务器了,你所有的应用系统,数据库系统,分析系统,管理系统全都上云,这个对于很多企业来说不是那么容易接受的,尤其是大中型企业,他们愿意接受的是核心的数据继续在我的企业里,或者是在我独享的能够看得见摸得到的设备利,而对于对外可公开的系统,比如说电子商务,比如说对外的展示型网站,以及自己的一些产品宣传类的订单系统,这些暴露在公网上,它本来是有这个需求的,放在云上,后端的数据库核心的HR和财务、ERP的很多系统放在自己的物理服务器上。
提问:安全性非常高的这种系统上?
回答:也有可能是它的一部分是心理诉求,一部分是那些是IO密集型的应用,今天的公有云应对这种IO密集型的,本来就是小型机的应用,其实是比较吃力的。因为云的本质是希望把一台比较大的服务器,比如说一台高配置的服务器,或者是一台小型机,切成小块去分给企业。
如果这个企业本身的应用就独占了一台小型机,那你就没有必要再给它切成小块再送给他,除非做架构上的改变,做分布式的计算,要不然它还不如保持它原来的形态,而今天像万网提供了一种混合云的模式给这些企业,就是促使他们从传统的虚拟化上云的过程,我们提出了一种概念,叫做公有云上的私有云,也就是所谓的公有托管所有云的概念,在我们公有云的环境下,我们有很多的机房一起来服务的,这些机房里面有些是纯虚拟机的,完全纯是云的,还有个别的机房是我们专门为大客户准备的,可托管他内部应用系统的这样的服务器。这样我们可以实现这两个物理服务器和云上的虚拟机之间的内网互联。他们就形成了一部分是企业的独有服务器,一部分是公有云上的资源,把它们两者实现了整合。
刚才我说的纯云叫做公共云,传统的叫做私有云,它们之间就叫做混合云的架构,这也是国外现在为了上云,最流行的一种架构,比如说今天在纳斯达克上市的(英文),它的利润中很大的成分都来自于它自己的叫(英文),这种(英文),作为一个桥的服务,然后实现这种(英文),这种架构。所以我想中国也需要这样的一个过渡。并不是从非云到云一步登天,而是中间你能给它一个桥梁,让它逐渐的上云,当他意识到云上的资源有那么多的优势的时候,他就愿意把自己的系统更多的向云上搬。而且他的心理接受,对安全的这种信任也会有一个渐进的过程。
提问:所以我们也看到Fancy刚刚对企业如何从一个虚拟化的环境过渡到一个真正的云架构,提出了很多非常切实可行的一些建议和经验,我想再问一下,刚才咱们谈到了很多是公有云,那么我想问一下中国万网就是自己的私有云这个建设方面,我不知道您这边有没有一些经验,或者是一个什么样的状况,能介绍一下吗?
回答:万网有一个传统,就是所有我们对客户推的产品,万网都要自己先用,这是我们CEO张向东的一个理念,他说如果我们自己的业务系统都不敢上云,都不敢在云上来做的话,我们就不能推给客户,所以我们自己要做第一个吃螃蟹的人。今天万网所有的关键业务平台和内部的IT系统,是全都已经上云了。包括我们自己现在看到的公司的主站,官方网站,所有电商的系统我们现在都已经搬到了云上。最早的,这个可能在一两年前就已经搬上去了。
这样我们自己内部原来也是有很多台服务器的,万网自己内部的管理系统可能也有几百台服务器的样子。占用了大量的资源,非常耗电。万网内部的小机房里原来曾经做过这个实验,就是检测。发现万网自己内部的机房占的电是整个公司的80%,其实是非常耗电的,计算机的这种耗电量有的时候是无法想象的。所以当你做了虚拟化之后,你就会腾出来很多的空间,也不用在有那么多的服务器非常沉重的放在那儿,而且我们非常方便的在用的时候开,不用的时候关,这些都变得很简单,是一种对系统和软件的操控,不像以前要面对硬件,所以万网自己也是把自己企业内部的私有云搬到了公有云上,我们内部现在很少有服务器了,管理系统基本上也都到了虚拟机上来部署。
然后现在我们自己也在尝试云数据库的模式。现在还没有对用户来开放,但是我们内部已经在去测试和演练了,就是所谓的RDS这种模式,(英文)。这个像亚马逊的关系型数据库服务,其实它就是做了一个云数据库的集群。它是专门用来代替传统的数据库服务器的这样的托管。如果这个问题能解决,会让更大的一部分依赖于数据库的这种IO(英文)的这样的应用,能够搬到云上来,所以这个是未来我们要努力的一个方向。
提问:而且Fancy刚刚也提到了企业可能在最开始的时候,可能会考虑把一些非核心的这种业务放到云上来,如果咱们数据库这边这种云数据库的服务能够实现的话,我相信会有越来越多的企业把一些更为关键的应用往云上去迁移。我想问一下,就是万网从整个向云迁移的过程中间,遇到最大的问题和瓶颈会在哪里?
回答:我想最大的瓶颈就是在于数据迁移,就是像我刚才所说的,万网其实有过万台服务器,这些服务器怎么很好的迁到云上,并且不出现问题,这个是我们面临很大的一个障碍。包括我们企业邮箱,现在也都在向云上做迁移,我们在去年的时候,在做迁移计划的时候,我们做了一个工程,叫漕运工程,其实就是一个非常庞大的搬迁计划。我们要想办法实现系统能够如何在尽量少的停机状态下实现从非云到云上的迁移,这个我们自己演练了很多次,同时在给客户做这种迁移准备的时候,也会面临客户的很多疑问。比如说我是否要停机,是不是能够实现平滑的过渡和这种迁移。所以这部分应该是面临非常大的一个挑战。
这是真正在我们取得了用户的认可,他觉得一切都OK,那么你从传统的物理机,传统的托管,向云上的这个迁移过程,是我们面临最大的一个挑战。
提问:那么咱们具体是怎么样解决这种挑战的呢?整个迁移过程当中怎么样去控制风险,有没有一些经验可以分享?
回答:万网其实每年都会迁一次机房,就是过去对于物理搬迁非常有经验。因为做IDC的企业它经常会面临扩展,然后服务需要迁移到更好的机房,每年都会有这样的迁移需求,这次上云的迁移会比非云的物理搬迁更复杂,它有时候涉及到的方案是多种多样的,有些是服务器是可以被重用做虚拟化的,有些需要被淘汰的,然后还有一些是本身原来传统做了虚拟化的这样的虚拟机。
其实是要把原来传统的资源来做分类,分出几种类型来区别对待。另外一种类型就是完全需要迁移数据到云上的,这个我们当时采用的办法是从我的机房到云计算中心我们拉了一个G的光纤,这个光纤是专门用来传数据的,是相当于一个私有网络下的点对点的光纤,这样我们把所有的系统配置在云上重现一份,这些是我们有传统的迁移工具的,可以实现OS到不同OS这样的转换,然后再把数据通过这根光纤再传到云上去,这是最复杂的一种迁移,就是要迁数据,但是这个也是一劳永逸的,它是一次性的工作。在迁移的过程中,我们先导一份拷贝过去,完全备份,然后再做数据的差异备份的这种恢复。
最后当两边基本上同步的时候,我们才可能做运维解析,解析到新IP,然后实现成功的过渡,老的传统的系统在保留一个月或者特定的时间,这样这个迁移才会完成。所以这个对于万网来说,还有对于万网的客户来说,都是一次阵痛,我们有的时候不能保证迁移是不停机的,但是我们会提前一个月就会对客户讲,我们将在某个夜里,凌晨我们开始做这件事情,停机几个小时到几点,这些我们会有邮件通知,有电话呼出,我们是要通知到每一个客户,并且因为迁移我们也适当的做了一些补偿,或者是延期的这种策略。
提问:所以我的理解,我能看到的是万网在整个迁移过程当中做了非常周密的规划,能够通过技术避免的风险尽量已经通过技术避免了,不能通过的风险会通过一些运营的一些手段去告知客户。我想问一下咱们在从原先的架构过渡到云之后,有没有一些数据上的说明对于整体系统效率运营上这种提高的效果呢?
回答:从几个方面来看,就是这种效率一个是资源的利用率,就是物理资源的利用率,一个是人员,平均每位工程师服务的主机数量,这是可以看出来的。再有就是我们整体的毛利率,也就是说这个产品的毛利是不是比以前更高了,从这几个方面来看,第一,从资源的利用率,就像我说的原来大约利用率是30%左右,现在我们有了云计算之后能够提升到70%左右,这是一个非常大的一个提升。
尤其是在CPU和内存方面比以前用的更好,就是中间的这个浪费的资源更少了。同时因为有云计算,它的规模非常大,它都是几千台服务器合在一起来做的庞大云计算的数据中心,在这个数据中心里可以做的优化的事情非常多,一方面是计算资源,刚才我们说计算的资源能够得到有效的利用,第二方面是存储资源,当大家用的分布式存储的时候,我们不需要准备那么多的,为每一台都准备那么多的存储资源,所以大家在一种共享的状态下,它达到的利用率是最高的。
当然我们有一些存储是有意的做了冗余,比如说我们给客户的数据是存三份数据的,这样他避免出现两个点的故障的时候会影响到他数据的这种安全性。所以这样我们用剩余的存储空间做了提升客户数据可靠性的事,所以这是非常值的。在网络资源方面,我们非常关注两点,第一点,是把白天的流量和晚上的流量做差异化。我们可以通过云计算资源来规范在某一个机房里,我们引入多少白天耗流量的客户和引入多少夜间耗流量的,因为在传统的IDC里,所有的曲线都是这样的,白天上去,晚上下来,到晚上的时候,所有的带宽都是被浪费的,云计算能解决这个问题。
如果你要能引入一些国外的客户,像现在我们也有一些什么埃及移动,还有施奈德电器,一些国外的用户进来之后,他们跟我们基本上是有时差的,他们用资源的时候,往往那个资源对我们来说是零成本的,在夜间达不到峰值那个带宽就是被浪费的,还有我们引入了类似于搜索引擎,类似于这样的业务,这种业务是入流量的,传统的业务所有网站和下载它都是出流量为主的,这样我们就可以实现这种入出流量的平衡,也是在不提升任何成本的这个基础上,能实现更多的业务收入。所以这个资源利用率就能够大幅提升上去。再说到人力管理,像我们之前的经验一个工程师在万网做的比较好的,能管理两三百台服务器。
提问:这已经是很高的,这已经是非常高的水平。
回答:是吧,独立的服务器,那就意味着我们如果去年卖两万台云主机,两万台服务器的话,我得需要准备100个工程师,但事实上我们去年只增加了几个或者是十几个工程师。当业务量实现突飞猛进增长的时候,工程师并没有呈现同比的增长,这就是云计算给我们的价值。甚至我们也在考虑有一些简单的工作,比如说插硬盘的工作,本来已经拔插硬盘已经是简化工作量之后的,这种事情我们想把它外包出去,就是我们可以把这些工作完全不需要太多,就是完全是执行层面的,不需要思考的,我们可以包给其他公司来做,可以进一步优化万网工程师的团队,让万网的工程师可以进一步的提升做自我提升。所以这样就说明我们的运维成本、管理成本已经降到了一个比较低的范围,使我们能够很轻松的应对这种大规模的增长,就是规模化的这种增长。
提问:的确是,在这方面中国万网确实有很多这种经验能够把自己的核心竞争力更多的给凸显出来。
回答:对,刚才说的毛利率方面,其实因为你前两者资源利用率更高,然后人力成本有节约,你的利润率一定会往上走的,无论是产品的毛利,还是最后的净利润,都会比传统的托管和独享主机要高很多。
提问:所以我相信给很多企业是能够带来很多的启发,我想问一下,对于中国万网来说,它所运维的数据中心,一定是一个非常大规模的这么一个数据中心,那么在整个数据中心的绿色节能上,你们是怎么考虑的呢?
回答:这个万网从前几年开始研究绿色的时候,我们走的路线是低功耗,小体积,然后这样的路线,就是我们自己研发了自己的独享主机,就是最早的时候我们走的路线是想把服务器做小,然后做成嵌入式的CPU,独立的每一个用户可能只是其中刀片的一组,一组刀片,然后这样使每一个单位CPU的功耗降到58%以下,传统的可能在300瓦左右。
所以通过这种方式来实现绿色和节能。但后来我们发现这样你虽然实现了绿色节能,但是你的输出的计算能力和服务器的整体能力可能满足不了客户的需求,他明年需要升级的时候,你的这块低功耗的板子是很难快速升级的,所以你会产生,今天你节能了,明天你产生了很多的电子垃圾,这个时候你其实又不环保。所以真正的环保就是通过云计算这个里面带来的两部分,一部分是虚拟化,使资源利用率提高,另外一部分通过分布式存储,把所有存储资源都利用起来,这个其实是最绿色和环保的。我曾经到韩国电信,就是KT,以及到英特尔的美国的数据中心都去参观过。
给我一个感受非常大的,就是他们的机柜耗电量远远高于我们,我们现在一个机柜通常给的就是12万到15万,北京可能更少一点,在这种前提下,我们最多放十台服务器,或者是放12台就差不多了。再放就断电了,没有那么多的电。像KT,它给的额定的功率是大约70安,是我们的几倍,5倍,甚至更高,它里面放的都是非常密集的高功耗的服务器和非常昂贵的快速的那些存储,EMC等存储设备,非常耗电,总体它运行起来大约会在35万到40万,你看起来它是非常不绿色,不环保的。而事实上它每一个机柜可以支撑出来大约500个左右的虚拟机。
相当于它放了500台,如果按照这个来计算,算每个单个虚拟机的耗电量确实是很低的,所以我们不能单纯看一个服务器耗电量是高是低,而是要看资源使用的背后是不是带来了真正的价值输出。如果这些资源被有效的输出给了企业客户,把这些资源都用起来了,用到了百分之七八十,甚至更高,那就说明我们耗的那个电,本身不能评价是否绿色,而是总体的一个资源,总体的在这个资源环境下是不是输出了有效的价值。所以我想云计算恰恰是在这个价值这个角度上实现了对企业、对社会的贡献。
提问:所以我们也真是看到Fancy在对于绿色节能上面有很多自己独到的见解,我相信应该能够给很多企业带来一些思路上的一些开阔。我想问一下,就是中国万网,现在的这个数据中心已经是一个在云的层面上,应该是一个比较成熟的这么一个架构。我想问一下,下一步万网还希望做什么样的这种优化工作呢?
回答:其实这条路是无止境的,云计算本身它的技术发展和我们的服务往前追踪的趋势的这个过程,是没有尽头的,万网今天只做了冰山一角,我们如果放眼到全球的市场,看世界云计算的一些大老,其实中国的企业还都在起步阶段,差的还很多很多,比如说我们要做中国的亚马逊,亚马逊的云计算的产业链已经基本成熟了,非常的长,比如今天万网做的云主机,相当于亚马逊的EC2和EBS,万网现在还没有推出来一个独立的存储服务,亚马逊已经出来了。亚马逊有RDS,我们还在实验室环节,亚马逊有网络负载均衡服务,当然我们有CDN,这都是对应的关系,亚马逊还有云DNS服务,我们的云解析在逐步的在做,所以很多我们还在时间表上的,其实在国外的领先的这些服务商里,人家已经实现了。
提问:而且运维的已经比较成熟了,有一定规模化的效应。
回答:对,而且像亚马逊有多个云计算中心,中间每个数据中心之间的资源很容易去做这种调度。有很多管理方面我们还得需要不断的向人家学习。所以在这个环境下,万网只能拼命的向前跑,没有其他的,甚至都不需要你有太多的创新,你只要先把自己应该补的课补上,你就已经做得不错了。今天现在各个国际上的这些云计算的大老,其实都对中国的市场虎视眈眈的,说不准他们某一天就会以某种形式进入中国市场,这个对中国的这些传统的IDC企业和中国仅有的这几个云计算的服务商,都会是一个很大的威胁,也就是说真正的威胁其实不在于我们中国现有的这几个玩家,而在于箫墙之外。
提问:所以说云计算今天还是处于一个跑马圈地的这么一个状态,谁跑得最快,谁能圈到的地也就最多,地位也就更稳固。我想问一下,您刚才也提到了中国云的这个状态和国外整体上是有一定差别的,所以我想问一下,您认为问题是在哪儿?是中国的企业本身在这个技术上会比国外的慢一拍,我是说中国的运营,比如说IDC的这些企业,在整个这个架构的变革上会慢一拍,还是说中国企业的需求更慢一拍呢?
回答:首先你如果看到一个调研报告,上面就显示真正云计算的覆盖率,或者叫普及率最高的区域在全球来看是亚太地区,中国和澳大利亚这个都算亚太的圈里,是在全球里面排前列的。其他的欧美反倒没有那么高,他们可能在20%左右的普及率,中国可能是百分之三十几。说明中国对云计算的最近这几年追的其实已经不错了。就是需求没问题,市场也很大。
然后客户也愿意去尝试,这些都能看到增长率的一种趋势。但是我们的差距在于我们的起步是较晚的,亚马逊是从2006年开始就做它的AWS的一个系列,就开始做了,06年中国的企业很多都还不知道云计算是什么,还停留在很浅的阶段,研发没有开始,这种研发开始的起点和差距不是一天两天能追得上的。而今天你在发展的同时,人家也在拼命的向前发展,同样人家也有几千个工程师在拼命的干。这就是说这个差距,什么时候能够补上,一方面取决于你的创新能力,你的眼光、胸怀,还有一方面取决于实实在在的工程师的技术和工程师最后的贡献和承诺。
所以说大家最后拼的是实力,拼的是资源投入。中国有一个好处就是中国的市场非常大,中国的企业往往比国外的企业更愿意接受一种新事物,只要这个新事物是能够给他带来明显的收益的,比如说降成本,比如说可靠性提升,他都愿意去尝试,这个使中国的市场要,我感觉是要比国外的市场更具有这种潜力和希望。所以万网也好,还有其他的在中国的这些IDC企业,云计算服务商机会还是非常大的,前景非常广阔。但是绝不能停下脚步,只要你不断的向前,你不可能占有全部的市场,但是你一定会拥有很多忠实的,愿意追随你的客户。
提问:那么我这边还有最后一个问题,这个问题可能相比前面的问题会比较实际一些,因为实际上随着这个企业的架构转换到云的环境下,给运维会带来一些,就是可能会带来一些难题,或者出现一些问题,但是你前面也是零零星星的都有涉及到一些问题,最后我希望您能总结一下,真正在云环境下,您觉得这个运维,真正在云环境下您觉得运维方面,IT运维方面需要注意哪些点?
回答:云计算对IT的运维其实提出了更高的要求,就像我说我们把简单的体力劳动,正常的巡检,这些事情都简化了,甚至可以外包了,那就意味着一定会有更复杂的事情需要这些运维的团队去解决。比如说我们的监控会细到每一个环节,我们的云计算它是一环扣一环的,如果不出事儿就全都没有问题,如果出事儿可能是一件大事儿。
我们还记得在亚马逊在前一段时间出现大面积的瘫痪,这种瘫痪是非常恐怖的。像它这么成熟的系统都会出现这样的异常,就是说关键环节,比如说我们说的分布式存储的管理系统,这是不能出任何问题的,然后你每一次更新整个的这个云计算平台,你要更新一个新的应用,要打一个补丁,这些事情都会非常非常的严谨,所以我们现在运维管理系统是遵循ISO20000来做的,我们自己也过了ISO27001信息系统的、安全系统的认证,ISMS,这个已经过了,所以工程师所有的操作都必须严格按照一个系统化的一个规范来做。比如说变更管理,比如说配置,上线和下线的这种管理系统,管理,必须遵循特定的流程。
因为当服务的规模和数据中心的规模大了之后,我们很难保证某个环节不出问题,你只能靠一套标准化的流程来支持,要不然你的工程师如果因为一个工程师的操作就可以让整个云计算中心瘫痪,这是我们不能接受的,就是一定要避免这样的情况出现。所以在每一次无论是系统部署,我们是不允许有单点出现的,就是在整个数据中心里面不能有任何的单点。比如说你的所有的这些网络设备,路由器、交换机必须是双数据上连,不能有单点,所有的存储系统也不能有单点,所有的控制系统必须是有贮存备份的,实时切换的,或者是做热备。这是保证在运维体系构建的那一刹那你是一个强壮的系统,不能把这个隐患留到未来,同样对供电方面也要有,像UPS供电所有的这些油机,这些所有的都是要双路市政供电,这些全都是要多点的,不能只依赖一个点的可用性。
最后就是这些工程师他会盯着很多重要的环节和其中监控的信息,一旦出现异常,我们会有一套异常的报警升级系统,从一级到四级会不断的扩大通知,我们还推出了一个指数,叫做BCP的破坏指数,BCP叫商业持续运营计划,比如说在美国上市的很多企业,在通过萨班斯法案的时候都会被要求要写BCP,怎么保证你的商业持续运行,我们推出的指数叫做反BCP的,或者叫做BCP的破坏力指数,如果一个云主机坏了,它的破坏指数可能很低,那么可能主管知道就可以了,上面的经理和总监不需要知道,如果是一台NC坏了,影响了十几台虚拟机。
那可能就要上升到经理、总监,会逐级上升,同时我们每个星期,每个月,根据观测这个破坏力指数的一个曲线,你就知道现在整个的云计算中心是不是处于一种健康的状态,如果它始终是平稳的,或者是稳中有降,作为CEO,或者作为CTO他就不用太担心了,他知道虽然偶尔有一些故障,但是可控的,但是如果某一天突然出现BCP破坏指数的一个峰值,尖峰,那一定要追责,看一看到底发生了什么,为什么修复时间变长了,还是怎么样,它跟很多的因素有关,比如说破坏的范围和故障修复的MTT2的时间的长短,所以这样我们就能够通过一套有效的运维管理系统,来把整个云计算中心的运维管理和控制起来。让整体无论你有多大的规模,都能在掌控之中。这个也是对我们的服务商有更严格的要求了。
提问:所以Fancy刚刚提到的特别全面,首先是对于整个系统环境有非常严格的这种监控的一些体系,第二,是有一些比较标准化,而且非常严谨的流程来避免人为出错的可能性,第三,对于高管来说,他是能够看到整个公司的这个服务水平的,这个服务的运营状况的,所以真的是几个层面来解决这个运维上的一些问题。
那么今天也非常感谢Fancy来到我们IT168的演播室,跟大家分享了很多关于云计算具体运营过程当中的一些经验和一些非常有意思的一些思路。我相信对于很多企业来说应该都会很有启发。而且正如刚才Fancy所说,现在整个中国的云计算还处于一个非常积极的、发展非常迅速的这么一个阶段,让我们相信谁跑得更快,谁也能够在这个市场的角逐中间占得先机。
好的,那感谢各位网友收看我们本次的访谈。
谢谢大家。