【IT168 评论】在结绳记事的年代,最好的计算机就是人,绳子当然就是最好的存储设备。后来计算机和存储设备被封装成大大小小的金属盒子。大的可以有一整个房间那么大(所以IBM曾经预言全世界只要5到6台计算机就够了),小的变得越来越小,也越来越无所不在。如今好,计算机和存储设备开始“蒸发”了,变成“云”的形态从而可以非常容易地在任何地方获取到!从绳子到盒子到数据中心再到云,从稀缺资源到无所不在再到非常容易可随时随地随意获得。技术的进步不仅使计算、存储的形式发生了巨变,也使人们在如何获取计算、存储资源的方式上正在发生着变化。其实这句话说反了:正是由于人们在数据、信息处理的要求上、对于计算、存储资源获取的方式上不断提出新的需求才促使和催生了新的技术进步、发展以满足之。
我们可以先用一种简单的方法对云作一番解释:云计算、云存储实现了让人们用获得服务的方式随时随地获得计算、存储的资源而无需自己购置、管理这些设备。这个简单的说法着重并且狭义地反映了云技术的出现是为满足人们在获取计算、存储资源的方式上出现的新需求:象获得如水、电、气等通常的基础设施服务那样来获得计算、存储服务。从需求推动技术进步发展的角度来讲,云计算、云存储技术的出现很自然。人类活动凡涉及信息方面正在全方位网络化、互联化,所以信息处理向基础设施服务转化也是理所当然,并没有什么特别深奥的道理(或者象笔者常听到的,是炒作IT新概念的“阴谋”,为了掀起新一轮销售热潮 )。当然,把计算、存储这种相当高端的东西归类到通常基础设施服务似乎有点“矮化”云技术之嫌,事实上这样的说法也有局限性。传统基础设施服务的消费使用都是发生在用户端(所谓前端),而云计算、云存储的最显著特点是服务的消费使用主要发生在远离用户的服务端(所谓后端)。既然信息处理要远比发电、水处理等复杂得多,云计算、云存储即便按如上简单狭义理解为一种基础设施服务,则在服务需求、种类及复杂度上也应该远比传统的基础设施服务要有名堂得多。本文试图从几方面把这些名堂做一番梳理。
1 下一代数据中心的需求
后端数据中心是云技术的一个核心部分。据估计迄今仅在全美国已有7,000多个数据中心。其中绝大多数是在多年前的设计基础上不断添加服务器发展起来的。所以在一个老的数据中心可以看到很有意思的历史痕迹:服务器硬件的技术更新以及不同年代开始跑在不同服务器上的应用软件。如此构造起来的数据中心是非常低效的。通常一个服务器上只跑一个应用。根据McKinsey和Uptime Institute调查,服务器的平均利用率在6%。更有甚者,大约30%的服务器更本就不在提供任何服务!原因是无人知道哪台服务器正在跑哪个应用。若真想要知道,常用的方法是:“把插头拔了,看看谁会打电话进来!” 现在的数据中心已经发展为超大规模。如微软在芝加哥郊外Northlake新建的一个,也许是迄今为止最现代化、最大、最昂贵的数据中心吧:占地4万6千平方米,清一色毛坯简易房,一层楼可以放200个标准货运集装箱,每个集装箱里可以塞进两千五百台PC服务器!
绝大多数的数据中心使用Windows操作系统,也就具有一个共同的缺点:应用与服务器之间存在紧偶和关系,一个服务器跑一个应用。这样做也许是为了避免万一由一个应用崩溃造成的死机而拖累了别的服务吧。所以长期以来在数据中心存在着一个叫做服务器蔓生(Server Sprawl)的现象:每来一个新的服务应用需求就增加一台服务器。如果说服务器越来越便宜这不是个问题,那么为运转大量服务器以及为冷却它们所需耗费的电能呢?维持如此低的服务器利用率当然是不可持续的。
下一代数据中心要采用硬件虚拟化技术。在一个服务器上可以虚拟出若干个虚拟机,每一台虚拟机上可以跑独立的操作系统和应用。不同虚拟机之间有很好的隔离,互不干扰。应用是跑在虚拟机上的。如果一个虚拟机被应用给搞崩溃了,其他的虚拟机不会受到影响。更重要的是虚拟化技术打破了应用与服务器之间的紧偶和关系。因为一个虚拟机实际上是一个软件,可以象文件拷贝一样从一台服务器迁移到另一台。这样的迁移甚至可以在虚拟机不间断服务的情况下进行。通过虚拟机迁移可以大大提高服务器的利用率。虚拟化技术的核心软件叫做虚拟机监控器(Virtual Machine Monitor, VMM)。你可以把VMM看作是服务器上的电子交警,管理服务器上所有的虚拟机,监控它们使用硬件的情况,确保它们互不干扰。VMWare是一家专门从事虚拟技术的软件提供商。VMWare的CEO Paul Maritz(曾经是微软资深人士)这样评价虚拟化技术:“我们把计算作业载荷与硬件分开,这样做从某种意义上我们是在弥补微软所犯下的罪过。” (In a way, we’re cleaning up Microsoft’s sins, and in doing so we’re separating the computing workload from the hardware)。 VMWare已经在2008年9月推出一款全新的“虚拟数据中心操作系统”(Virtual data-center operating system)。VMWare期望用这一技术使硬件资源的虚拟化不必局限于单个独立的硬件,从而可以把整个或若干个数据中心按需求整合为一个计算、存储、网络的资源池。
2 云服务前端的需求
现在让我们再来看看云服务的前端发展状态及其本质。
目前用个人电脑桌面浏览器是人们接入云端的主要前端工具。但其它形式工具正在层出不穷。云既然具有无所不在的特点,接入点的前端工具就也应该是无所不在。首先是个人电脑正在越变越小、轻、薄、可移动,从而使在随时随地接触云变得越来越方便。请注意,究竟是前端接入工具的轻薄化、可移动化造成了云服务的无所不在,还是云服务这一需求催生了前端接入工具的这些变化?笔者愿意作出如下的说法:从技术发展过程上来说,云技术的发展是与信息技术的发展互为因果的。然而从云的本质上来分析(见下文马上给出),云是本而硬件设备是末。笔者还认为这个说法同样适用于本文所有其他部分对最新呈现技术的介绍。
或许在前端接入工具的轻薄化、可移动化的方面最具有示意性作用的标志是Intel于2008年6月推出的新款处理器Atom芯片。这款处理器是专门为装入所谓的“网络本”(Netbooks)、“网上”(Nettop)电脑与“移动互联网机器”(Mobile Internet Devices, MIDS),主要为网络浏览之用而设计的。超小、省电是其主要特点(比如在低负荷时能主动降低CPU频率以减低能耗)。Atom处理器技术与无线宽带技术结合,轻薄便携的网络本、各种专门化的电脑如电子书(如Amazon的Kindle)、智能手机,等等将使得接入云端之端口正在变得名副其实的无所不在。
然而云服务带来的一个重大变革是从以设备为中心转向以信息为中心。设备包括应用程序只是来去匆匆的过客(现在还有谁能读出软盘?),而信息及人们在信息中的投资则是必须要长期保留的资产(一年换两个手机的人多了去了,而手机丢失的最重大损失恐怕是没有做备份的通信录吧)。所以如上所述的无论多么新颖的,目前甚至可以是相当昂贵的前端硬件设备都会过时,有的甚至会很快过时,变为一文不值!云上什么不容易过时?信息!不仅不过时,许多信息必须长期保存,而且越久越有价值。VMWare的CEO Paul Maritz解释道:今后在云上每个人都将会有一个伴随终生的个人数据体,这样的个人数据体不会被捆绑到任何一种机器上,虽着机器的过期失效而失效。如何实现这样一种属性呢?虚拟化技术再一次发挥作用(虚拟化技术在下文中还要发挥重要作用)!注意,在这一节里虚拟化是针对前段技术而言的。VMWare的虚拟工作站大概是一个众所周知的前端虚拟技术应用的成功例子。然而更酷的是VMWare已经为本公司员工实现了虚拟桌面计算机,可以由中央集中管理。操作系统及应用都不是跑在员工面前的PC上,而是跑在数据中心的虚拟机上。这样的虚拟机理论上可以被任何一种前端PC硬件所使用。所以早晚各种前端硬件工具都会被同样的技术虚拟化。硬件的过时,应用软件的过时,在云上都不再是一个问题!
3 信息管理的需求
云服务即便被“矮化”叙述为一种通常基础设施服务,其海量数据、高性能/高访问量以及低成本也是一个不可忽视的特性。每年全球新产生的数据急剧增长,然而只有当这些数据被有效地组织和管理后,它们才具有真正的价值。这是非常简单的道理,EMC 内容管理与归档(CMA)部门主管Mark Lewis有个形象的比方。我们每个人都希望拥有一个大车库,但是如果车库里东西太多又杂乱无章地放置,要找某个工具偏偏找不着,不得不去超市买个新的,那么这个车库的价值就大打折扣了。信息同样如此,如果我们能对存储在数据中心的信息进行有效的组织和管理,提供对信息的无远弗届的访问能力,那么这些信息的价值将大大增加。
云中信息管理第一个要求就是确定哪些信息是需要保存的。Mark Lewis认为,如果数据本身价值超过了保存它们所需要的代价,那么留下它们就是划算的。苹果的iTune就是一个合适的例子,那些一年只有一次下载量的歌曲都值得被保存在服务器上。每首这样的歌曲能够提供98美分的利润。当然保存数据有不同的代价,通过分层的数据存储架构,那些价值较低,需要保存多年的数据可以被转移到相对便宜的存储当中。
显然,要解决的第二个问题就是信息的价值评估,即如何将需要保存的数据按照其价值分级。价值评估通常要受到公司政策和国家法规的影响,需要提供基于策略的信息管理。对于信息的重要性和价值,公司通常有很多复杂的策略。有些公司认为访问频繁的数据更有价值,有些公司认为数据的创造者表明了其价值,比如技术公司的CTO创建的文档就可能要比其他人的文档更重要一些。不同的公司往往根据其业务性质而采用不同的策略。类似的,有些国家对企业数据有严格的法律规定。比如美国规定如果消费者订阅了某种服务,相应的记录必须保存多年,北欧的国家规定如果客户取消了他在某家企业的账户,那么企业必须保证删除他的个人数据。又比如Data Islandia,冰岛的一家数据保存服务商用物理隔离的方法来保证来自不同国家的数据不被混在一起。该公司业务是保留用户硬盘,分部于全球用户的磁盘在被空运到冰岛的路上就被装入不同的集装箱,有美国集装箱,欧洲集装箱等等。种种规定不一而足。除此以外,如果数据在多个应用之间共享,那么在不同应用中其价值可能差别很大。因此,数据本身和它的价值评估策略必须区分开来,数据本身必须是自描述的(self-descriptive),除了安全上的考虑,数据本身不能强加任何限制策略。只有这样,整个数据存储架构才能适应多方面的需求。这个过程可能是长期的,公司的利益考虑和国家法律都会成为设计灵活数据存储架构的动力。
云服务提供信息管理服务的另一个问题就是如何找到需要的信息。要高效的找到某条记录,必须依靠它的元数据。使用XML等格式来标注信息是非常必要的。要标注大量已有数据通常需要大量的人力物力投入,有些数据甚至都不是电子版的。在那些跨国企业中,元数据很可能需要用多种语言标注。一种简单的策略是只标注那些被用到的数据,至于其他的数据,还是让它们过期吧。有了元数据,用户就可以对数据进行多维的检索。在药品行业,你可以通过药品名称,适应症等多种维度来检索需要的药品,这往往比传统的关键词检索更有效率。元数据相比数据本身的另一个优势是,元数据是可以移动的。根据某些国家的规定,数据本身不能转移,而在某些情况下,企业需要对数据进行全盘的管理。这时候元数据就可以代替数据,被移动到需要的位置。
上述问题是云环境下,企业进行用户信息管理所需要解决的一般性问题。但是如果这些用户本身就是企业的职员,那么问题就更加复杂了。因为在这种情况下,企业不仅需要为管理用户的信息,还需要提供一个帮助用户分享资源,协同工作的环境。一个简单的例子就是公司内部的维基百科(Wikipedia)。在这种“内云环境”下,资源的共享程度比“外云环境”更高,对信息权限的控制也更为严格。任何一个用户都可以在自己权限范围内对公有信息进行有效地管理,而且信息的更新需要及时通知那些相关的用户。一般意义上的云信息管理不能完全满足这种附加需求。EMC的Documentum推出了转为企业用户定制的具有云特性的信息管理平台。它提供了一系列措施,来帮助用户既高效,又安全地管理他们需要知道的信息。
4 云服务与低成本
云服务是把企业IT设备及专业管理人员的长期大笔资本开销(CapEx)转为以按需租赁为形式的运营开销(OpEx)。前面我们讨论过IT硬件设备更新过期速度越来越快,专业IT管理人员更是越来越稀缺资源。所以云服务的低成本特性从用户的角度来讲不言自明。这一节我们主要从后端数据中心的角度来讲云服务的低成本特性。
当我们考虑成本的时候,需要考虑硬件成本,管理成本和使用成本。硬件成本主要是指购置硬件所需要的费用,包括服务器,存储系统,网络设备,等等。人们往往会很直观地考虑硬件成本而忽视管理成本和使用成本。其实在大型数据中心,存储系统的管理、使用成本远远超过(可以数十倍于)硬件成本。
先来看管理成本方面。信息生命周期管理认为信息存在生命周期的不同阶段,包括产生、读取、更改、迁移、存档、回收等等。通过实现信息生命周期管理来帮助用户在信息的各个不同阶段以最低的成本获得最大的价值一直是工业界关注的一个问题。EMC是工业界重要的推动力量之一。CEO Joe Tucci早在2003年就认为信息生命周期管理是存储界的一次重要革新。实际上,将信息生命周期管理和云计算结合起来也能有效地降低管理成本。比如,在信息产生的初期,信息的价值相对较高。一个典型的例子是用户一般会频繁地访问最近收到的电子邮件。随着时间的流逝,该信息的价值越来越低。此时可以将该信息迁移到低速、低成本、低能耗的存储系统中以节约成本。当该信息需要后续服务时,将其重新迁移到高性能设备中以保证服务质量。重复数据删除技术(deduplication)主要用于备份系统中。它通过剔除冗余的数据,从而使用更少的存储资源(意味着更少的费用)来存储更多的数据。当该技术用于远程备份时,在源端进行重复数据删除还可以有效地减少网络流量。EMC通过收购Avamar,将重复数据删除技术纳入其备份软件,从而实现其备份软件的绿色化。基于以上技术,EMC 先后推出了Disk Library 3D 1500/3000,EMC Disk Library 4000, EMC Avamar Data Store二代 和EMC Avamar 4.0。这些技术使得EMC成为业界唯一能提供从软件到硬件整体解决方案的绿色存储供应商。
使用成本则主要包括运营大型数据中心所带来的电力的消耗,以及日常维护所需要的费用。以数据中心为例,数据中心不仅仅是一堆服务器和网络设备,还包括各种空调,和各种冷却设备。虽然由于计算机技术的发展,单位计算能力或者单位存储空间的能耗在逐年降低。但由于数据的爆炸性增长,其整体能耗是在逐年升高的。数据中心不仅是“吃的是电,挤出的是比特”,还同时产生了大量热量。所有的数据中心都要用冷却设备以保证设备的正常运行。前面我们提到过现代数据中心的极低利用率。尽管大量的资源被闲置,但仍旧需要消耗能量以应对随时可能达到的资源需求,因而仍旧需要冷却。由于计算机的绝大部分组件,包括CPU, 磁盘,内存,显示器,甚至网卡都支持不同的工作状态,不同的工作状态消耗不同的能量。比如,完全可以在低负载情况下降低CPU的频率以降低能耗。作为存储领域的领军,EMC一直致力于降低其存储系统的能耗,从低端到高端,从而实现绿色数字化,并且降低用户的使用成本。EMC于2008年4月在中国首先推出的新产品存储宝箱(StorageCredenza)内就使用了硬盘spindown技术,通过在低负载时将磁盘转入低能耗状态而节省能量。CEO Joe Tucci在2007年就曾表示要将该节能技术逐步应用到所有的EMC磁盘阵列产品中去,从而实现EMC产品的绿色化。EMC系列产品,Celerra 系列,CLARiiON 系列,EMC Centera 内容寻址存储 (CAS)系统,高端存储系统DMX-4系列的入门级产品—DMX-4 950磁盘阵列,都支持新的 750 GB SATA II 磁盘。对于相同的存储容量,单个大容量的磁盘比多个小容量的磁盘要消耗相对较少的能量。这一举措可使EMC的相关系列产品降低大约33% 的设备能耗。另外,由于固态磁盘(Solid State Drive,SSD)具有运转温度低、读取速度快、体积小以及耗电量少等特性,EMC也在其高端Symmetrix DMX-4当中搭载SSD。虽然SSD存在寿命问题,比如单块的擦除寿命大约在1,000,000次, 但EMC通过均匀磨损算法,采用大量的SSD尽量将要擦除的块均布在所有的SSD中来很好地解决了这个问题。
由于数据的爆炸性增长,大量的数据中心纷纷被建立起来以应对信息数字化的需求。然而,由于所有的数据中心都各自为阵,造成了两方面的后果。一是数据中心的大量有价值的信息形成了信息孤岛,无法被有需求的用户有效使用。二是由于所有的数据中心在建立的时候都会考虑在未来几年数据增长的需求,因此造成大量闲置的资源。云计算或者说云存储试图在这些孤立的信息孤岛之间通过提供灵活,安全,协同的资源共享来构造一个大规模的,地理上分布的,异构的资源池。从而充分提高系统的资源利用率,包括信息资源和硬件资源。再结合采用有效的信息生命周期管理技术、节能技术,云服务可以极大地降低IT的总体成本。
5 云服务、软件即服务和Web 2.0
云服务也与软件即服务(SaaS),Web 2.0等其它较新的技术趋势和概念有交集。
先来看SaaS。传统上软件盈利模式是靠卖终端用户使用版权(又叫做“按座位使用版权”per-seat license,当然是对非移动电脑而言)。举个简单例子,如果你回家后还要在家庭电脑上继续处理一个白天在办公室里未完成的文件,那么尽管你使用同一软件,如Microsoft Word,但由于是在两台不同的终端上使用,你(或你公司)就必须为此而购买两份Word使用版权。哪怕你分身乏术永远不会有机会同时使用这两台电脑!SaaS模式认为这是一种资源浪费。软件可以也应该按需(使用时间、次数)消费。我记得有个Wave Systems Corp在上世纪90年代就推出一个EMASSY芯片技术,可以对用户所租用软件的使用次数进行记数,当某租用软件被用到一定次数后,该软件的使用版权便归用户所有。这是一个早期比较初级的软件按需消费方法。Wave后来通过EMBASSY技术来顺应可信计算集团(TCG)技术。我们在以后一章中会讨论TCG技术在云计算中的应用。
我们前面多次说道云计算是将IT变为由后端数据中心提供服务。云前端的接入设备越来越的轻薄化、可移动化(即所谓的“瘦客户端”,thin clients),越来越注重突出上网功能(所谓上网本netbook),而消弱本机计算处理能力。所以在“瘦客户端”机器上安装重部头的,完全使用本机资源进行计算处理的应用软件,这种做法在云计算理念上正日渐式微。许多应用软件(包括操作系统)正在往云的后端数据中心服务器上转移。第一章中提到的“VMware虚拟数据中心操作系统”(Virtual data-center OS)将会变为行业标准。由此不难看出云计算与SaaS的交集正在增大。如果在Amazon Web Services(AWS)Elastic Compute Cloud(弹性计算云EC2)上使用过Microsoft SQL Server,Windows OS,你也许会注意到这些软件在云上的使用其实就是租用。比如带有SQL Server的AMI虚拟机要比不带有该软件的贵1美元每小时。这就是SQL Server在EC2上的租金。
许多专门用于企业管理的软件具有广泛的通用性。这些软件包含:企业资源计划(Enterprise Resource Planning, ERP),客户关系管理(Customer Relation Management, CRM),员工管理系统(Human Resource Management System),还有生产、供应链、财务、仓储、等等管理信息系统(Management Information System, MIS)。这些软件除了具有跨企业、跨行业的广泛通用性外,还具有如下重要共性:后端(共享)使用数据(库),前端可以通过网络浏览器以Web Services的方式来操作使用,或者说前端如何使用与客户端操作系统无关。用户完全可以认为这些软件包括操作系统本身都不是什么重要资源,而它们所处理的数据才是企业的极其重要的资源。既然如此,企业为何还要花钱购买并维护这些软件呢?不如将它们外包给软件提供商,让其来提供安装、使用、维护、升级、等等一揽子服务。所以这一类软件自然成为第一批SaaS引领提供商(如SAP)瞄准的对象。通常的办公用桌面软件(电子邮件、文字处理、幻灯片制作等,包括操作系统)也具有通用性和非资源性的特点。所以它们也应是进入SaaS首选的类别。既然这些软件都可以通过网络浏览器作为Web Services来使用,它们自然也就成为云服务的首选。所以上面提到的在办公室和在家里必须购买两份按座位使用版权却只不过做文档处理的例子,就完全可以转变为使用云上的同一个软件来享受云与SaaS服务。当然在云上数据安全是一个重要课题。我们将在后面一章讨论云安全问题。
总之,客户端资源消耗重量级软件(包括那样的操作系统)、硬件,尤其是所谓的“厚,重客户端”(thick client,如厚重的尤其是高端笔记本、桌面电脑便是),都将逐渐被消费者看作是一种非资源、非重要、越来越廉价的、大宗的东西。由于这些东西在价值上不被消费者看好,难怪目前在厚,重客户端硬件,高端笔记本行业竞争越来越激烈,也难怪客户端资源消耗重量级操作系统也越来越难推出新版本了。而服务、数据则被认为是越来越重要的资源。当然 云 + SaaS +“瘦客户端”也许会在一个相当长的时期内与“厚,重客户端”计算 + 软件按座卖使用版权共存。但根据如上分析,大量企业用户应该会更早、更彻底地转变到 云 + SaaS +“瘦客户端”的IT模式。另外值得一提的是,由于客户前端设备轻薄化,重量级操作系统的价值边缘化,使得开源软件,free软件(注意:free不仅是免费,更重要的是可以自由开发)如Linux迎来了良好的发展契机。
与云计算相交的另外一个重要概念是Web 2.0。Web 2.0 的一个重要特征是:信息及知识(包括软件、数据)的发现、创立、维护、完善、使用等等都是在具有参与、共享和互动等功能的社区平台上进行的。这样的平台显然正在以各种各样的形式渗透到云的各种前端设备与后端服务。现在一些重大事件发生的现场情景经常会被一个在场的智能手机录下,并实时上传到社区网站上在第一时间传遍全球任何角落。我们还可以设想今后购物时要货比三家,消费者完全不必去跑三家商店:只要在一家店里用智能手机录扫描了一个产品的条形码后,数据中心立刻会告诉用户该产品在其它(也许是全球分布的)商家的价钱!又以聚合(Mash-up)为例,当很多应用以服务的形式提供的时候,聚合可以组合多种服务形成一种新的服务。聚合的产品形式有很多种,既可以是一家服务商把自己的多个产品或多个功能模块,通过各自的API接口,在其自己的平台实现统一的服务整合。
图1. Atmos 面向服务的软件技术体系结构
6 用户对易用性与服务质量的需求
行文至此我们着重讨论了云服务对企业用户的价值。个人用户也可以通过云服务更加容易和方便地管理其个人信息。
由于信息化产品的多样性,人们使用不同的设备和技术管理着自己的个人信息。目前,大部分的个人信息可能存储在用户的电脑、手持设备、智能电话或不同的网站上。由于这些信息的杂乱和分散,这使个人信息管理变得非常复杂。比如,很多人使用操作系统(如Windows)的桌面文件夹来存放文档和照片,但用户对文件搜索可能遇到困难。而有些人甚至懒得费力用文件夹来管理自己的文档,而完全依赖记忆或低效笨拙的文件查找功能来定位这些文件。如果考虑到个人信息通常分散在不同的设备和网站上,用普通桌面文件夹来管理文件的方式根本不能完全满足用户对服务质量的新需求。随着个人数字信息的自动在线存储和备份,随时随地访问以及安全共享和发布的巨大需求,个人信息管理也不可避免的转移到“云”计算的环境中。云个人信息管理的目标是安全可靠地访问和组织所有你的信息,并保证你可以在任何时间任何地点,使用任何设备访问到这些信息,且从不会丢失。而且今后连接前段设备与后端数据中心的通信的主干部分是光纤,所以通信带宽与速度都不会构成云服务质量和可靠度的瓶颈。
Decho公司是一家新成立的云计算公司。Decho的含义是“数字的回声(Digital echo)”,其含义是用户在个人数字空间中来回存取信息。Decho的目标是帮助个人和商务人士存储和管理位于云端的所有数字信息。Decho的服务如同一个“天空中”的Windows文件管理系统——当然只是更好、更易于使用。Decho技术能将不同的个人设备上的所有信息自动化地组织在一起。用户能更加容易地使用信息浏览、精确搜索、文档或图片共享等功能。使用人工智能技术,软件将会自动检测到新内容并创建包含新内容条目的虚拟文件夹。Decho公司的Mozy产品是一个云服务式的自动数据备份系统。Mozy的用户可以对Mozy指定其拥有的各种存储设备,使这些设备上的数据能够被自动备份到Mozy的服务端。《商业周刊》杂志在2008年12月16日有这样一个有趣的报道。一个小偷去年5月份闯入一位叫做Zikakis先生位于伯明翰的办公室而偷走了他的笔记本电脑。那时,Z先生可能永远也不会想到他丢失的电脑有一天还会被找回来,于是他很快就买了一台新电脑。谢天谢地,Z先生是Mozy的用户,所以他用新电脑连接到网络很容易便恢复了他所有丢失的笔记本中的数据。在尝到了Mozy备份服务甜头的同时,Z先生还奇怪地发现从备份服务恢复出来的数据中多出一些不属于他的照片和其它文件。这时他意识到这些新文件正是属于他被盗的电脑的现有主人。于是他对照片和文件进行调查,终于发现了一份含有姓名、地址和手机号码的文档。在警方的帮助下,Z先生终于意想不到地重获他丢失的电脑。这则故事说明了Mozy的可用性以及可靠的服务质量,使得其用户能获得超乎寻常满意的体验。
云计算和云存储服务可以对个人用户零乱的数字生活引入秩序。个人信息的管理是云服务为个人用户提供的核心。使用云服务个人用户能更加容易地管理自己的信息,不会因为设备的故障而中断或丢失珍贵的数字生活。在云服务中提供容易使用和便于管理的个人信息整合技术,将是云服务商为大量个人用户提供优质服务而追求的一个重要目标。
7 用户对安全的需求
由于云计算为用户带来的信息技术服务成本的显著降低和信息管理的极大便利,所以推动云计算前进的力量将势不可挡。在推动云计算的进程中,另一个广为关注并让客户担忧的问题是云计算的安全风险问题。由于云计算存在的一些新的特征——特别是计算过程发生在“云”端,所以其安全风险涉及到诸多方面,比如数据隔离、数据隐私、用户特权访问、数据恢复能力、服务商的生存能力等等。服务商的服务转包也可能会导致IT风险、法律问题和一致性风险等新的云计算所特有的问题。
当用户(企业或个人)的敏感数据在云端处理的时候,由于处理过程并不在用户本地进行,所以用户无法对风险进行直接的控制。尽管有些云服务商具有很高的知名度和可信度,但也有可能由于疏忽而雇用了一个恶意的云数据中心管理员,而这个管理员将有能力控制用户的敏感数据。在不同的国家和地区,企业或个人的信息可能还需要符合该国家或地区规定的隐私法规。而在云计算环境下,用户根本无法知道其数据存储在何处,甚至不知道是在哪个国家或地区。云服务商如何担保其数据存储和处理是符合该国家和地区的隐私需求将是一个新的问题。
目前所有云服务商在信息安全上至多使用了通常的网络安全技术如SSL安全通信协议保护端与云之间的数据传输,SSH安全隧道协议让用户安全登陆在云上的平台,并使用加密技术来保护外存磁盘上的数据。但是当用户数据在后端服务器的内存(RAM)中计算处理时,则必须是以明文的形式才能进行处理的。由于现有云计算服务解决方案几乎都使用商用操作系统,这是云计算中一个重大的安全隐患——大量的黑客技术正是通过商用操作系统存在的漏洞来攻击它所服务的应用程序载入内存中的数据。提供内存数据的保护和隔离将是云计算的重要安全需求之一。云服务商不仅需要新的安全技术来提供满足用户需求的安全服务,而且还需要向用户作出担保:服务级别协议(Service Level Agreement, SLA)要求对各种服务(计算、存储、网络和安全服务等)承诺服务质量进行定义并能履行其违约责任。就安全需求而言,云服务商仅仅依靠良好的声誉、违约责任赔偿等通常的商务标准是不够的,这并不能减轻用户对其云端数字财产安全风险的担忧。原因是信息安全的损失往往很难量化。如何保护用户的数字财产免受黑客(包括来自云服务商本身)的攻击,如何做到安全服务SLA的可审计性,这是云计算安全问题必须面临一个的挑战。
EMC中国实验室参与的“道里”研究项目(http://www.daoliproject.org)便是迎接云计算的这个安全挑战。该项目致力于云计算环境下关于信任和可靠度保证的全球研究协作,道里研究团队包括复旦大学、武汉大学、华中科技大学和清华大学这四所中国顶尖技术高校。道里项目结合可信计算技术和硬件虚拟化技术实现用户可验证的安全应用隔离和行为规范,加强对云计算和云存储服务中的用户数字财产的保护。可信计算技术通过增强体系结构的安全来提高计算平台的安全性。可信计算联盟TCG (Trusted Computing Group)是行业中的一个标准组织。TCG技术使用一个称为TPM的安全芯片和一套可信软件栈来实现可信计算平台。在X86平台中,TPM被安装在输入/输出控制器(I/O Controller)总线上,那么它可以“监听”到每一个从外存装载入内存的软件。在平台的启动过程中,TPM能够记录整个启动过程中按序装载的所有软件。TPM记录软件加载过程是为了向关心该平台软件状况的人进行报告,比如该平台是一台云服务器,而关心者是云服务的用户。可信计算技术的主要优势是能够对平台的启动过程进行度量,将数据保护与平台的身份特征进行绑定,并能实现计算平台的相互认证。这里所说的度量,就是一个可以被审计的证据。因为TPM中使用了公钥密码技术,度量的结果是可以被第三方检查的。
硬件虚拟化技术是用一个直接跑在“金属”硬件计算平台上的叫做“虚拟机监控器”Virtual Machine Monitor, VMM的软件(这是我们在本文中第三次遇到虚拟化技术,可见其与云的密切相关性)来模拟“金属”硬件的指令。VMM运行在系统软件栈的最底端,具有最高的执行特权,能主动管理CPU、内存、输入/输出等物理硬件设备。所以VMM在运行时不仅可以抵制其它软件的攻击,实现自身的运行时完整性保护,而且可以管理其他程序的内存空间,防止内存中用户代码数据被未授权篡改或访问。另外,与典型的商用操作系统相比,VMM只需要不到1%的代码量,其提供的功能接口和实现机制也相对简单,所有也有理由认为VMM相对于操作系统可以被更正确地实现。因此,一个正确定制的安全VMM可以作为主动可信计算基(Active Trusted Computing Base, ATCB)对重要服务软件提供主动的保护,对应用程序提供细粒度的安全隔离。
道里研究项目结合可信计算和虚拟化技术来加强计算平台的安全,使得云服务商能够在公共云计算平台中提供虚拟私有云计算服务(Virtual Private Cloud, VPC),这将是云计算安全技术发展的一个重要方向。简单的说,虚拟私有云之于公共云计算有如虚拟私有网络(Virtual Private Network, VPN)之于公共网络。无容置疑,虚拟私有云相比公共云将提供更多的增值服务。但就实现方法而言,虚拟私有云与虚拟私有网络在技术上有很大的差异。我们可以用密码和身份认证技术在公共网络中实现虚拟私有网络。然而,对于虚拟私有云来说,仅仅依赖加密解密和身份认证技术并不能在公共的“云”中虚拟出一片私有的“云”,这是因为云计算服务中计算过程发生在远端,在接受计算服务时数据不能加密,信任问题要比虚拟私有网络复杂得多。虚拟私有云的实现需要对云服务提供者的内存储器和CPU寄存器作一种非加密方式的保护,使得租客的代码和数据在云服务提供者的内存和CPU寄存器中以明文形式被处理时仍然得到私密性及完整性的保护,避免被其它租客或攻击者窃取。道里项目提供的虚拟私有云计算服务为云用户提供应用程序级别的安全隔离,并保证用户代码和数据的私密性和完整性,是从真正意义上降低了云计算的安全风险。
8 有关云的怀疑论
云计算作为一个概念从一出现就引起许多疑问。它到底是个什么新东西?一个特别标准的问题是:云是网格的新名字吗?它与网格计算的差别究竟在那里?另一个标准的“怀疑论者”问题是:云是否是新一轮的IT概念炒作?笔者也的确为这几个问题琢磨了好久一段时间。正是因为找不到非常简单干脆的回答,才决定写下这篇“我亦云云”,或许可以作为对云服务的一番梳理,希望能够帮助自己理清思路,看看是否能对如上问题的回答起到一点帮助作用。
笔者最近看到一篇对于云的系统性否定论述“Don't buy cloud computing hype: Business model will evaporate”,Chuck Goolsbee 2008年12月31日发表于SearchDataCenter.com 博文网址如下
http://searchdatacenter.techtarget.com/news/article/0,289142,sid80_gci1343864,00.html?track=NL-456&ad=682470&asrc=EM_USC_5480225&uid=7781411#
该文从用户角度和数据中心角度两方面进行论证,得出结论:云概念必然在数年内死去。从用户角度论证,是因为云服务不可靠而且在安全上不具有可审计性,所以用户不会把重要应用放到云端。其结果云计算只能为一些非认真的应用提供服务,所以必将缺乏赖以持久生存的商业运营模型。从数据中心角度论证,数据中心的建造和运营维护如此昂贵,云计算仅仅为非认真应用提供服务,怎么可能长得了!
至于担心云服务在今天较低的可靠性,同样的担心也在中央市政供电发展的早期出现过。早期市政供电的主要消费者是家庭和商铺为照明所用。大工厂、大制造商都采用私人发电装置以防市政供电故障而造成停产,生产比照明可是要认真得多的事!直到20世纪初,全美国有5万个私人发电装置,而中央电厂只有3600座(Nicholas Carr: The Big Switch, Rewiring the World, 中译本:IT不再重要,互联网大转换的制高点—云计算,闫鲜宁译,中信出版社2008)。今后的云是否会仍然会不可靠,是否在安全上仍然不具有可审计性从而只能偏安于“非认真应用”一隅?目前的数据中心仅仅为“认真应用”提供服务可却是使用率极低,那么含有正在飞速发展壮大的空转部分的数据中心今后是否反而倒会具有持久生存的商业运营模型?这些也都是笔者亦云了的话题,仅供参考。
9 结语
云计算、云存储作为一种基于服务的信息处理、管理模式,为用户带来了使用信息技术的良好增值体验,提供了信息管理的便利,并可显著降低IT软硬件维护成本。云服务的出现有其必然道理。云的强劲生命力是人们对信息技术无穷无尽的新需求所赋予的。云也产生了许多新东西、新事物、新问题和新挑战。这些问题需要我们突破思维的框框去研究、探索和解决。
(本文转自毛文波的博客:http://blog.sina.com.cn/wenbomao)