随着人工智能的快速发展,特别是大模型训练和推理的需求激增,行业发展对算力的需求呈现爆炸式增长。然而,发展与问题总是相伴而生,智能算力需求增大、企业使用智算服务门槛高、大模型商业化落地难等问题逐渐成为行业发展掣肘,也为云厂商带来了新的挑战。
在2024世界人工智能大会(WAIC 2024)期间,天翼云科技有限公司董事长、总经理胡志强以《云智一体 国云焕新》为主题发表演讲,并深入解读了天翼云智算资源供给、智算服务能力、模型应用生态三个方面的能力。
天翼云破解算力困局,引领智能云新时代
一面是智算需求激增,另一面则是“智算资源短缺”的困境。面对愈发突出的智算供需矛盾,天翼云自建了丰富、多样化的智能算力资源,围绕AI产业集聚地区,规划建设北京、上海、广东、浙江、安徽人工智能公共算力中心,提供训推一体化能力,有效缓解算力需求紧张的现状。
AI模型训练的主战场,万卡甚至超万卡集群成为这一轮大模型竞赛的入场券。天翼云先后建成上海、北京万卡池,这也是全国最早建成并真正投产运行的两个国产化、全液冷、单集群万卡公共智算中心,为快速增长的智算需求提供必不可少的基础支撑,不断推动我国智算普惠化发展。
同时,天翼云积极响应绿色可持续发展的号召,在内蒙、贵州、宁夏等清洁能源集聚地布局智算中心,以绿色算力赋能数字经济。
当前,随着越来越多的数据在边缘侧产生和处理,边缘算力基础设施的重要性逐步凸显。天翼云在全国超过280个地市构建“一城一池”节点,并部署超过1000个边缘节点,并按需下沉AI云电脑算力和推理算力,确保算力资源的广泛覆盖和灵活应用。
此外,天翼云还提供国内外主流的GPU、NPU算力方案,可以满足用户在多种场景下对公有云、私有云、边缘云等的需求。
另一方面,天翼云汇聚社会多方算力,通过高效调度实现算力供需匹配。天翼云重点研发算力互联调度平台“息壤”,从算力统一接入、算数网一体化调度、算力简便易用三方面进行技术创新,实现裸算力云化接入、算力更泛在、算力选择和应用部署更简单,促进算力互联互通、高效利用、供需匹配。
基于此,息壤可赋能三大算力服务场景。一是天翼云自营的公共算力服务平台,目前已接入多家算力伙伴,扩大了天翼云算力规模和品类,满足公有云客户的多元算力需求;二是行业算力互联网,比如福建多所大学组成的高校算力联盟,通过多方资源共享、优势互补,提升算力利用水平;三是城市算力互联网,通过整合区域内多方算力,结合产业政策,实现一体化统筹调度算力。
一站式智算服务,为大模型训练保驾护航
针对超大规模参数基础大模型训练的痛点,天翼云重点打造了万卡集群平台化能力和解决方案,确保客户能够高效、便捷、稳定、安全地使用智算服务。具体而言,天翼云基于单集群万卡智算中心,结合一体化计算加速平台“云骁”、一站式智算服务平台“慧聚”,从基础设施到平台,构建了基础大模型训练解决方案。
天翼云解决了算力、性能和稳定性的三大挑战。
大算力需求方面,天翼云通过构建可横向扩展的PB级HPFS存储系统,确保海量数据的高效存取,部署了低延时的超大规模RDMA网络,为大规模计算任务提供坚实支撑。通过多维度(计算、内存、通信)优化,综合算力效能实现显著提升,满足超大规模参数模型训练的需求。
在性能方面,天翼云升级AI框架,编译效率翻番,通过拓扑感知调度,集合通信效率提升显著,多种加速优化后将国产算力的综合算效比提升到了行业可比水平。
在稳定性方面,故障训前发现,结合断点续训能力,实现训练任务长期稳定、高可用运行。
众所周知,构建万卡级别的国产化计算集群,绝非简单的硬件堆叠,而是一项涉及超大规模组网互联、高效集群计算、长期稳定性保障及高可用性设计的复杂系统工程。天翼云依托国产万卡计算集群与自研计算平台,已经具备支撑万亿参数基础大模型训练的能力。这一成就难能可贵,因为它完全基于国产算力。
在行业大模型训推过程中,普遍存在着训练部署工程化复杂、训推效率低、训练中断频繁等挑战。天翼云通过“云骁”与“慧聚”两大平台,面向行业大模型训推场景提供一站式的智算服务,针对性地破解了这三个难题。
自动化流程的建立对于简化训练部署至关重要,“慧聚”平台预置行业数据集、国内外主流AI加速硬件,以及基于国产算力的基础大模型等全栈工具链能力,通过极简化的“三步走”策略——选数据、选硬件、选模型,轻松实现大模型的训推。
与此同时,“慧聚”依托自研AI框架、创新3D并行加速、自研训练加速库,以及容器调度优化等核心技术,显著提升训练效率。同时,针对推理阶段,“慧聚”引入模型量化压缩、自研推理加速算子库以及先进的AI推理加速框架等关键技术,有效提升了推理效率,降低了部署成本。
构建大模型应用生态,赋能各行各业智能化转型
随着人工智能技术的不断成熟和普及,大模型正逐步从理论研究走向广泛应用,深刻改变着社会的每一个角落。实现大模型价值的最大化,并细化其在各个领域的分工,必须要创造一个健康、繁荣的产业生态。
大模型应用生态不仅能够有效整合上下游资源,实现技术、数据、应用的无缝对接,还能让不同企业和研究机构在各自擅长的领域深耕细作,共同推动大模型技术的迭代升级和广泛应用。更重要的是,大模型应用生态的繁荣加速了商业化步伐,使技术能够迅速对接实际应用场景,助力企业高效转化创新成果为生产力。
一个良性的产业生态雨林,宛如自然界般多元共生,既仰赖于茁壮成长的参天大树型领军企业,也离不开孕育希望的幼苗与种子型创新者。作为云服务国家队,天翼云紧抓“人工智能+”行动发展新机遇,携手广大合作伙伴聚力向新,构筑合作共赢生态,为经济社会高质量发展注入强劲的数智动能。
为了进一步激发大模型应用的创新活力,天翼云打造红云大模型开发者社区。该社区不仅聚合了本土中文优质AI资源,还通过简单易用的工具链和端到端使能AI应用开发全流程的能力,为开发者提供了一个广阔的舞台。在这里,开发者们可以尽情施展才华,打造出更多具有竞争力的国产原生模型。
值得一提的是,天翼云在业界率先发布AI云电脑,以其强大的算力、弹性、安全性和优惠的价格,降低了大众使用AI的门槛,加速了AI的普惠化进程。目前天翼AI云电脑已接入多个主流通用大模型,以及教育、医疗、法律、心理等多个行业大模型,打造AI应用中心,创新推出AI会议、AI低代码、AI文档、AI教育等场景化标杆应用,不断提升客户办公、生产效率。
写在最后
展望未来,天翼云期待与广大客户和合作伙伴携手共进,为用户提供更加卓越、高效的云服务解决方案,赋能千行百业“上云用数赋智”,引领云计算产业与数字化转型的创新与繁荣,助力数字中国的建设和发展。