云计算·大数据 频道

阿里云飞天论文获国际架构顶会 ATC 2021最佳论文:全球仅三篇

  ATC 2021 放榜,接收率再创新低,为18%。同时,3篇最佳论文出炉,阿里云提交的关于飞天操作系统的论文占据一席,创下了中国公司最好成绩。

  近日,计算机系统结构国际顶级学术会议 USENIX ATC在线上举行。ATC 始办于1992年,是由USENIX组织的计算机系统领域的顶级会议,至今已成功举办31届,计算机系统领域中Oak语言(JAVA语言的前身)、QEMU、ZooKeeper等一系列有影响力的研究成果都在USENIX ATC发表或公布。ATC 对论文要求极高,必须满足基础性贡献、前瞻性影响和坚实系统实现的要求,本次论文录取率仅为18%,全球仅选取3篇最佳论文。

  阿里云提交的论文名为《Scaling Large Production Clusters with Partitioned Synchronization》(PDF版),探讨了飞天如何解决大规模计算资源的调度问题,被收录并荣获最佳论文奖,这也是ATC最佳论文首次出现中国公司的身影。

  飞天是阿里云自研的超大规模云计算操作系统,可将遍布全球的百万级服务器连成一台超级计算机,以在线公共服务的方式为社会提供计算能力。飞天的核心服务包括分布式计算、存储、数据库、网络等,本次获奖的论文就是其中的资源调度服务。

  据悉,阿里云提交的关于飞天分布式调度系统“fuxi2.0”是阿里学术合作创新研究计划(AIR)与香港中文大学James cheng老师的合项目成果。该论文讨论了业界分布式调度架构资源冲突严重和调度性能差的问题,创造性地提出了一套资源冲突解决机制,实现了调度器在集群规模上的可扩展性,同时保证极佳的调度性能和调度效果,支撑了飞天大数据平台MaxCompute单集群10万节点的规模,4万作业/秒的并发能力。

  云计算最核心的问题是如何把成千上万,甚至更大规模的机器高效地组织起来,灵活进行任务调度和管理,使用户可以像使用一台机器一样使用云计算。随着数据和计算量越来越大,云计算场景也变得超大规模化,以前传统的基于中心架构的调度器受限于单点处理能力,无法在规模上实现可扩展。

  阿里云计算平台事业部研究员关涛表示:“分布式系统领域有一个说法,每当规模扩大一个数量级,就变成了一个全新的问题。规模、利用率和公平性是调度系统的三个核心,本次的论文基于阿里云飞天系统的部分工作,在不损失利用率和公平性的情况下,探索调度系统在超大规模的可扩展性能力”。

  近几年,飞天操作系统多项研究成果被国际顶会录取:2019年,数据调度论文Yugong被数据库顶级会议VLDB录取;2020年,机器学习&单机调度论文AntMan被操作系统顶级会议OSDI录取;2021年,计算调度论文Fangorn被数据库顶级会议VLDB录取。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0
相关文章