云计算 频道

阿里云:让异构计算走上云端 推动AI发展

  【IT168 评论】算法、数据和计算力是人工智能发展的三大要素。如果将人工智能比作一艘火箭,那么算法就是控制台,数据是燃料,计算力则是加速引擎。随着人工智能对计算需求的不断提升,传统计算已无法满足要求,于是异构计算应运而生,异构计算的并行效率和计算峰值超越了传统计算很多倍,是支持人工智能深度学习或数据分析的主要力量。

  国内首屈一指的云服务供应商阿里云早先曾发布了异构计算解决方案,为客户提供高效率、低延迟的实时计算及灵活弹性的异构资源。近日更是推出了全新一代的异构加速平台,为人工智能产业提供多场景化的全球加速能力,涵盖了GPU、FPGA在内的6款异构实例。特别在深度学习领域,可以将其成本缩减一半,大幅降低人工智能计算的门槛。

  在首届人工智能计算大会(AICC 2017)AI+计算创新论坛上,阿里云高性能计算/异构计算高级技术专家游亮为我们分享了阿里云高性能计算和异构计算解决方案。


▲阿里云高性能计算/异构计算高级技术专家游亮发表主题演讲

  异构计算在阿里巴巴的应用

  异构计算在阿里巴巴集团的应用,包括淘宝天猫上的拍照购,包括商品风格预测、图片质量控制、CRT预估、千人千面、人脸识别、内容鉴定、图片创意、图像搜索、OCR语音识别等。阿里巴巴建立了一个异构计算的集群,所使用的基本是M40和P100的企业级GPU加速卡。建立了一个统一的资源管理调度监控服务,并在集群上支持了容器服务,让容器去支持GPU的自动调度,也支持容器的一键部署。同时,也对集团内的应用也提供了很多性能优化服务。

  “从2013年开始,我们开始服务集团内的深度学习客户,也在集团内建立了一个深度学习的异构计算集群,到2016年,我们则开始着手把集团内的异构计算平台服务能力在公共云上对外提供开放和输出。”游亮说。

  阿里云异构计算能力的对外输出

  在人工智能大浪潮下,很多企业开始做人工智能方面的创新。而计算能力往往会成为一个巨大的问题,有些企业会选择自建如GPU集群等,但这也会遇到很多问题,包括选型难、采购周期长、机器维护困难等。为了帮助众多人工智能新兴企业解决这些痛点,阿里云推出了弹性GPU服务,把CPU与GPU的优势结合起来,在云上进行统一虚拟化,让GPU计算成为一个统一的计算资源池。企业可以随买随用,根据实际业务需求对异构计算资源进行弹性伸缩。

  阿里云推出了最为全面的异构计算产品线,可满足深度学习训练、推理、图像处理、视频处理等不同的需求。同时,GPU计算服务与阿里云产品体系是深度整合的,可以与阿里云上的ECS弹性计算实例、OSS对象存储、NAS文件存储、SLB负载均衡等产品结合,在云上完成深度学习的整个过程,形成数据闭环。

  除了GPU计算实例之外,阿里云也推出了FPGA as a Service(FaaS)的服务。深度结合FPGA在高性能功耗比、低延迟数据交互和访问、硬件加速、硬件可编程等方面的优势,在云上推出了FPGA弹性云服务器和开发环境,并建立了FPGA镜像市场,为了让更多开发者能够享受到FPGA开发的收益,推动建立和繁荣丰富的FPGA生态,最终加速人工智能的发展。

  除此之外,阿里云也推出了IaaS+服务,包括统一的异构资源调度产品E-HPC,保证应用对于异构资源的合理利用,大大提高异构资源利用率,同时也正在自研和优化开源的深度学习框架帮助客户实现多个场景下的性能优化,提高计算效率,降低延迟。

  在加速人工智能发展方面,异构计算扮演着重要的角色。阿里云也正深耕异构计算市场,推出了弹性GPU云服务器和FaaS解决方案及IaaS+和性能优化服务,帮助企业更加灵活、弹性地使用异构计算的能力,将异构计算变成一种普适性的计算,加速人工智能发展,进而推动产业升级和社会进步,改变人们的生活、生产方式。

1
相关文章