云计算 频道

怀进鹏:网络时代软件挑战 海量数据处理

  【IT168 资讯】7月17日,由中国电子学会主办,透明计算技术与产业联盟协办的透明计算、云计算产学研研讨会在北京翠宫饭店举行,探讨透明计算/云计算领域中新型网络操作系统、移动互联网、海量数据处理、搜索引擎、网络化应用支撑工具、UEFI等技术应用的最新发展与挑战,IT168对此次会议进行了专题报道

  中国科学院院士、北京航空航天大学校长、国家863 高技术计划信息技术领域专家组组长、国家科技重大专项核高基专项软件专家组组长怀进鹏在会上做了“大规模海量数据处理——网络时代软件产业的机遇与挑战”的演讲,以下是其演讲全文速录:

 网络时代软件机遇与挑战:海量数据处理

  各位专家、各位来宾下午好,我对这个汇报分三个部分,对当前的热点进行回顾。第二在网络时代当中,究竟我们有很多方面可以值得思考,我想我的一个思考,最后简单说一下我们在这方面的一些内容。

  核高基国家重大专项是一个任务型的工作,今天上午张院士做了一个很好的介绍,这也是核高基第一次作为国家行为来推动这么一项重大科技计划和任务。应该说对于抢抓、抢占互联网应用技术和互联网未来发展是非常有好处的。

  我们大家都非常清楚最近挺热,包括对智慧地球、SaaS、对于云计算,这方面也很热,实际上云计算有很多东西也是,但是最最重要是面对数据中心一种服务运营的模式,他所要面对就是在互联网下大规模海量、真实信息运营服务的提供。也许在应用过程当中会有很多不同的途径,做操作系统,做数据处理,做搜索以及做文件系统,所面对的问题也是存在海量真实的数据运用。实际上我们也都很清楚,计算机一直是围绕着数据展开,第一从开始谈到计算到太空竞赛,对我们半导体芯片有了很大的挑战,到70年代商业计算/事务处理,对我们个人信息处理已经到了我们现在还比较热闹的行业形成了Inter体系,在互联网当中就有很大的变化。

  对应在软件当中,从软件开始出现到开始出现操作系统,或者叫运行系统,一直到有80年代初商品化实际上都是围绕在单机和主体当中,更多的强调了数据处理。随着互联网的出现,给我们带来了就是一个全新的机会,在这样一个全新机会下,我们如果说在过去计算机发展60年当中,中国在计算机行业的庞大里面所做的真实贡献还有局限性,在互联网时代我们的应用规模和产业有可能在本土创造出世界跨领域的著名企业,包括现在从第一代互联网到进入第二代,包括到以后未来数字的年代,这种方式对新技术的处理,对软件都会有很多新的发展机会和创造出很多应用。

  所以一个自然的问题就面对网络计算一下,当我们逐渐向互联网进行大规模应用。因为在上个月底CNN已经做出一个评论,请一些专家,中国是互联网最大的国家和应用发展速度最快的国家,也是未来最有潜力的国家。因此,在这样一个背景下,我们怎么来面对互联网下所需要考虑的软件技术,或者软件面临一个载体来支持在互联网应用业务。IBM人说15年有一个换代,他认为从80年以来到95年到2010年前后,他认为到2010年前后,也许互联网的应用是从过去规律到未来的发展,也许会带来新的应用。但是,我们看到从主机到PC发展过程当中,越来越向应用创新,向新技术软件创新更多形成最新这几十年的发展过程。

  在网络时代IT靠什么引领?我想主要今天谈的一个问题,有很多的问题就是关于数据。今天2月份经济学人出版数据《无所不在》的专办,他提到一个基本观点信息从吸取走向极大丰富,在带来便利的同时也导致大量的麻烦。我们看现在我们有的数据,零售行业、科学计算、网络生活,我们所面对是大量的数据,包括Google作为垄断性的数据行业,数据是可以垄断,只要你有足够的获取手段和可能应用的方式。

  因此在社会学家们认为海量数据已经使我们处于一个新的时代。计算机科学家认为数据开始一种新的革命性和对产业的带动,那么产业界来说,他可能创造新的经济。但是,在这样一个大的数据时代的时候,数据与信息资源垄断导致缺少研究平台和产业发展机遇,你是否有足够的手段来获取资源,并且运行维护真实一个数据运营中心,就变成在现在未来当中一个重要的方面。Google的强大体现技术,更重要有数据信息资源相当高程度,和相对精确化的垄断。看我们现在以后的数据和信息资源和真实的运行,将会给我们科学的研究以及产业的发展都带来很大的发展机遇。所以,在现在谁拥有大量真实运行数据,谁就可能在科技创新,或者在产业方面有大的成果。

  很多人从资本经济时代开始进入数字经济时代,比如像阿里巴巴,去年年底市值已经超过亚马逊达到2千亿,今年3月份开始数据流量超过了亚马逊。我们看腾讯公司,现在世界第二大互联网,看百度在中文信息处理资源当中也占有领先的位置,还有我们很多发展出来新兴后备的互联网公司。因此在数据经济时代当中,生产资料首次开始出现数据的成分,也给我们带来很多新的机会,特别是互联网当中由于数据的存在也诞生了所谓新的长尾理论,这种长尾理论使得大规模下资源海量数据就变得真实。因此,我觉得在未来应用和发展当中,特别是推动技术进步,解决计算当中核心数据处理问题,将会是最具有核心竞争能力的。

  因为拥有大规模可运行真实数据,以及对这些数据分析能力,将会是互联网应用当中一个重要的位置。我们都很清楚,我举一个简单例子,微软花20年时间投入几百万美元,现在Google做的完全一样,不在是原来的方式,我们知道学英文说的最好的是跟美国人、英国人的口形想象,说的不太好是把英文单词往里填,还有说的不行词往里面堆,就像日本人所说的一样。在大量海量数据迅速出现的时候,科学研究的方法和手段,我们没有这样的资源和平台,我们体验感受不到,并且也影响我们全面发展。因此,现在在医疗方面,在用户的分析方面,在我们很多领域当中由于大规模海量真实数据的出现,会使得我们做的事情很多在发生变化。

  所以数据处理的能力,或者拥有数据的能力就是非常重要的。为什么说数据处理是计算机,或者信息技术一个最重要的内容呢?我们从信息流来看,数据获取能力是我们最重要的支持目标,比如天体望远镜每年能获得大批的数据,传输能力,今年三月份思科刚发布的CRS达到了320TB,在存储能力上我们09年Top500计算能力磁盘消耗在这块仍然在发展在使用方面其实就有越来越多我们要面对新的问题。所以,在互联网大规模数据处理当中应用当中的问题,既能创造产业又能创造新的刻印项目,所以应该如何去面对。当然,在技术上会有很多挑战,比如说以前讨论当中摩尔定律存储等问题,IT技术和应用相比不断的随着他的上涨,应用信息的上涨我们平均所要完成的计算和存储能力,总是和目标是有一个比较大的差距。这就是需求的增长和实际的处理能力问题。

  第二应用规模和资源共享问题,本身也有,大规模数据处理能力,像Google还有我们国家的互联网公司都在设计自己的专用服务器,专用的数据,就像金融系统一样。为什么?在这里面数据处理大规模现象,数据是有规律的,数据对处理是有特征。所以,用通用的机器来创造这个难度是非常大的,所以我们知道几年前工作全球存储器和计算服务器第二大制造厂商。到现在来看我们随着互联网的发展,对于我们以大规模的应用下,带动我们其他IT领域的发展也很有作用。但是,一个最重要的一块内容,我们谈绿色IT的时候,资源在白天或者在过度应用的效率是在平均20%,这已经就可以了。所以,大量资源在闲置和浪费,如何能够在大规模数据处理下解决应用规模和资源共享的问题就变成重要的内容,因为信息和通讯行业已经成为全球第五大耗能行业。

  还有里面软件和数据处理的瓶颈问题,这里软件有一系列复杂的问题,比如软件的不确定性增长,非功能属性增强,对我们的数据处理研究,10万,100万,1千万同时在线的交易数,对我们系统的能力,数据处理都有很多问题,还有对数据规模,他各类章的数据,不确定的数据,数据工程,数据质量问题也会成为一个重要的内容。

  所以,在这个方面美国和西方国家都一直在开展有关这方面的工作,把软件作为服务当中一个重要的手段和支撑的内容。特别是把它作为在IT发展和应用当中一个核心的内容。因为,面对互联网的应用当中,软件会越来越复杂,他所体现的问题也会越来越大,所以,系统的复杂性越来越难以驾驭。因为软件的发展受到成本的制约,我们看到一个企业传统的企业在部署像CRM的比例不足10%,下面关于他的维护、和管理占了整个应用当中相当高的比例。因此,在未来的应用当中,究竟怎么面对互联网大规模的数据处理,能力和需求永远存在差距,共享和能效的问题,以及软件和数据复杂性的问题,就变化一个可能有意义的一个研究的好处。

  所以再回过头来看,计算环境的变迁,计算主机时代到网络计算时代,到虚拟网络计算时代,到我们应用处理环境里面,从过去封闭可控,到开放没有形成控制的网络下需要面对的一些问题。作为软件来说,从最早出现软件的产品,到90年代开始出现信息服务业,到现在这么一个发展,也许互联网应用操作系统,以及搜索引擎一大批应用支出的开发环境,这是在另外一个环境和大的背景下所带来新的机会。究竟在网络上的软件是考虑什么样的内容和位置,这部分我们要去探索,如果和传统的主机软件来看,我们要说主机要有操作系统,运行软件,还有开发软件。对于互联网是不是还需要这样的行为,有没有别的一些问题供我们去思考,这次在移动核高基后面863计划也会部署一下我们值得探索,和在任何科研当中来开展的一些工作。

  最后,就简单汇报一下我们所针对的问题。冰山一角能不能解决,实际上也是想在互联网,明天上午梅宏会有一个精彩报告,软件开发工具,我只说自己的一个理解。福特汽车公司最大的贡献把汽车作为生产线,三年前张院士有一本书,这个有什么意义?福特汽车是把一个手工作坊变成了生产线,提高了整个汽车的生产工艺。但是,在软件是否也有可能根据一个问题把相应的内容进行组装,来完成他的开发模式。所以,这也考虑到在过去的方式下,在网络化软件开发模式要自顶向下逐步分解,根据按需来组织应用的一个真实问题。这样的一方是对软件开发方法和新的技术,特别是在互联网上有成熟的软件、商品软件,开发代码还有自己开发的软件,软件的复杂性也在增多。所以,对这个领域当中是否能够形成在确定了流程,给定了相互的依赖关系下,实现在应用当中一些软件的开发,使得我们过去在单机传统软件下的开发模式到互联网下能够从购买、安装、运行和管理形成软件的一种运行服务,实际上也是为了支持SAAS这样一种新的模式。

  这种新的模式也许包括数据处理在内,我们有用户、服务提供商,通过不同的模式把运营服务商从过去的物理基础设施变成软件和数据应用服务基础设施,真正来实现在互联网应用当中新的模式。在这样一种模式下,实际上软件也类似QQ即时服务,这种即时服务就是IS体现软件一定程序上按需组合和按需服务。

  另外一个方面来看,互联网有很多技术,在互联网下他的边界,网络有不同于传统系统内容。在这个背景环境下面临的问题也许又多了,第一个多的内容就是我们说的他的分布性,跨越,各个家都有自己的管理,所以你要控制好数据资源,硬件软件资源都是这样。第二个问题各种类型,不光是硬件,还有操作系统、互联网应用协议、程序设计语言,应用模式等等。第三就是我们看到的所谓的动态系统,机器的应用,数据的应用都在不同的变化,这种变化不是单机核管理,是在不同的区域,不同的内容和不同的模式,还有所谓的安全自治性怎么进行跨域之间的数据管理,跨域之间的管理。所以在互联网下的计算环境给我们带来的挑战性问题为解决数据处理,解决这些新的机会和有意思的事情。

  这些问题要简单的概括我们如果想把互联网看成一台计算机的话,那么这些资源怎么汇聚起来,使得闲散的资源充分的理利用起来。所以,聚合资源,实现它的管理非常重要。第二资源分布在不同的地方,结构又是不同,这些资源怎么进行调度,怎么进行分配,如何解决资源之间在不同的安全自治下他们之间的信任和相互之间数据一致性,资源的一致性,这些问题实际上我们在解决数据处理当中对资源的共享和调度,特别是面向大规模数据,我们文件传统的操作系统和现在的操作系统,文件系统的管理性可能就有变化。传统的方式是解决设备与人之间,包括建立信任的关系,特别是我们个人业界,实际上是操作系统非常有意义,并且能够大规模推广的应用就是这种。

  这一个部分的工作也面临很多新的问题,具体就不多讲了。希望能达到一个什么理想状态,建立一个虚拟的网络计算环境,大家在互联网数据共享,资源共享,最后实现云计算的操作,或者说互联网的操作系统,能够提供一体化的服务,包括有搜索引擎各类成长工具内容。那么,这种应用有什么好处呢?因为资源被屏蔽,实现了一种透明。所以,在应用服务的过程当中,对用户可以知道资源在哪里,不知道他的服务在哪里,就像我们原来从过去到有了我们按照服务商所提供的业务和服务一样。在这种背景下由于互联网的高速发展和系统之间相对的问题,给我们提供一个重要的机会就是解决在资源上的共享和数据上的共享。

  第二个这种透明的计算,或者说云计算的模式,能提供给我们在应用当中,当某一类的系统不可避免,硬件不可预测的原因出现问题的时候,他可以快速进行系统应用的迁移,来完成在互联网系统新的高可用或者是容错的问题,这种短板是随时存在的,但是并且由于各种原因可能发生。在互联网上它的新的容错机制,和建立的透明机制也是有很多问题来区分。

  我们在这里也做了一些实践,我在这里讲一下,主要集中面对网络化资源调度和管理,从原来的Client到现在发展有网站方式,有通过移动计算,和U盘类似一个启动仪式进行连接。这里也有一些新的问题我们在做,简单点一下,网络之间不同的子网之间有管理自治域,这些内容如何去做,我们都知道操作系统最伟大技术之一就是分时,他的分时使得我们在调度当中有很多变化,同时有很有效的技术。在互联网下,是不是也存在着时空一致性,在时空下,在互联网的水平位置上在考虑他不同的域之间资源的共享和数据共享,面对新的网络下使用数据一致性和资源调度的一致性下,可能需要拓展我们在这方面的考虑。同时,对于在单机下,或者主机系统下所考虑不同于域之间,一个服务被中断,为了实现透明高可靠的问题也许就需要一个新的中断技术,在操作系统当中还有一些新的问题就是我们在数据处理和容错。

  第二在远程当中可靠实现新的容错,这个就不多讲了。还有一个问题从宕机、网络通讯,当数据从一部分迁移到另一部分的时候,他的效率会变成基数。因为从911的事件来看,谁能够拥有快速数据恢复的能力,谁就在这场危机当中受的损失就能达到最小。所以,数据的迁移,或者说数据的中断,或者应用资源的保护也变成一个重要的问题。

  最后一个问题就是关于在这里面一个基础研究,可能有了一些新的结果,这些结果比如说我们要想建立透明的资源访问实时,对于新的虚拟环境应该是怎么去描述和刻画。可能对一类问题会有N个描述的结果,这些表述的结果比如我们对资源的需求,对数据的需求,对存储的需求,对带宽的需求都有的时候,我们可能会出现N个有效满足你的需求内容。但是,一个基本问题怎么处理这些需求,有了这么多内容,哪些结果将会是最好的结果,或者是次好的结果,以解决在高可用下,或者在资源充分汇聚下解决应用的问题。在这里也有很多很有意思的问题,我认为今天就不多展开了,在理论上也有很多可值得探索的内容就不多讲了。

  最后因为我的时间快到了,我想最后就说几句结束语。互联网的应用在现在来看已经不是可不可能,而是如何走的问题。那么计算机技术和过去以硬件为主导转化为软件为主导,特别是发展海量数据处理,在这个里面谁能够占有,并且有效的处理,我觉得这就是中国未来互联网和软件发展最重要的机遇。因为,在这个领域当中我个人觉得,就像张院士所讲的,大家都在探索也没有什么规则,关键就看我们在这个领域当中怎么汇聚这个力量,和对问题的识别。那么,在这个方面当然也有很多学术的问题需要研究,向各位报道的就这些,谢谢。

0
相关文章