为什么说AI大模型救了云计算的命？-云计算·大数据专区

为什么说AI大模型救了云计算的命？

作者：Mr.K 编辑：李代丽 2024-07-22 17:32 IT168网站原创

　　随着中国企业数字化建设的不断深入，如同土壤般存在的云计算服务，却在经历爆发式增长后，后继乏力，陷入增长率逐年下降的窘境，一些云厂商甚至还爆出裁员的消息。正在云计算苦寻新的增长着力点之际，扑面而来的AI浪潮，给这个苦苦挣扎的行业，送来了甘霖雨露般的滋润。

　　云计算一片狼藉的颓势，才得以扭转，并重新进入了增长快车道。K哥跟国内头部云计算厂商的高层都有联系，据悉今年各大云厂商都纷纷调高了KPI，阿里CEO吴泳铭甚至高调宣布，阿里云有望重回两位数的增长。为何会出现如此戏剧性的冰火两重天？下面K哥就和大家聊聊AI大模型时代下的云计算。

　　听说AI大模型不挣钱，云厂商笑了

　　1、AI未动，云计算先行

　　任何一次技术革命的到来，都会引发整个产业链的洗牌和重构。在这个过程中，最先从中获益的，也许并不是直接参与技术创新的企业，而是那些为创新企业提供基础设施和底层支撑的公司。

　　回看当初互联网发轫、蓬勃的时代。虽然网景、雅虎等互联网先驱，一马当先拉开了新时代大幕，构筑了网络世界的基本理念和商业模式，但在那个时代真正大赚其钱并笑到最后的，并不是他们，而是英特尔、戴尔、惠普等服务器和网络硬件厂商。在整个互联网的黄金岁月，这些搞网络建设的企业，一直都比那些看似风光的互联网企业活得安稳且滋润。直到今天，英特尔、戴尔、惠普依然稳居世界500强之列，而网景和雅虎们却或倒闭或被收购，早已风光不再。

　　同样的逻辑延续到了移动互联网时代。随着智能手机和社交、流媒体、移动支付、电子商务等移动应用的兴起，IDC(互联网数据中心)行业迎来了千载难逢的发展良机。亚马逊AWS、微软Azure、阿里云等全球领先的IDC提供商，都是在这一时期快速发展并建立了自己的先发优势和规模优势。

　　进入AI时代，情况依然如此。AI技术的兴起，催生了各行业对算力、存储、网络等基础设施的全新需求，而最先从中获益的,依然是那些提供相关基础设施的公司。一个最典型的例子就是英伟达。这家GPU制造商的股价竟然冲到了1255美元/股的离奇高位，市值一度超过微软和苹果，成为全球市值最高的公司。

　　为AI算力、数据存储和处理带来巨大助力的云计算厂商，在这波科技浪潮中也同样获得了极为关键的发展机遇。以国内的“几朵云”为例。连续亏损12年的阿里云，到2022财年开始走上扭亏为盈之路，从上一年的亏损22.51亿元，突飞猛进为盈利11.46亿元。2023年，阿里云继续保持增长势头，全年营收1053亿元、经调整 EBITA 利润约50亿元。百度智能云，则是在2023年一季度首次实现盈利，收入同比增长8%至42亿元；此后继续增长，持续盈利。华为云同样在近两年实现快速增长，2021年营收为 201亿元，2022年就以225%的增速，实现了年营收453亿的跨越。2023年，华为云营收进一步增长至553亿，市场份额也在进一步扩大中。

　　不言而喻，这几朵“云”几乎集中在同一时期“绽放”，无疑都得益于AI高速发展、AI基础设施猛增、云服务需求爆发的时代机遇，和互联网、移动互联网时期的“基建”服务商们享受的时代红利，如出一辙，毫无二致。

　　2、“黄氏定律”下的AI算力革命

　　当前，AI正处于一个前所未有的大发展时期。随着大规模语言模型、大型视觉模型等基础模型的不断涌现，AI技术正在以惊人的速度向更广泛的应用领域渗透。而推动这一进程的关键,正是不断快速提升的算力。黄仁勋所提出的“黄氏定律”，就是对AI算力提升所做的预测，他认为GPU将推动AI性能实现逐年翻倍。我们可以通过ChatGPT的演进，更直观地了解AI发展对算力升级的“苛刻”要求：最开始ChatGPT的模型规模是1.5亿个参数，到了ChatGPT-3.5，模型规模就暴涨到了1750亿个参数，而到了ChatGPT-4.0，模型规模更是夸张到了1万亿个参数。

　　而在超大算力需求的背后，是难以想象的巨额成本。仅从目前来看，入局大模型的门票，已经到了至少几十亿起步的疯狂程度，如果再“飙升”下去，应该没多少人能玩得起了。而云计算及其具备的优势，则成了很多想继续留在牌桌的玩家的救命稻草。它们不仅能够为AI模型提供强大的算力支持，帮助AI模型快速训练和部署，还可以提供按需付费的计算资源，大大降低算力成本，成为AI企业梦寐以求的降本增效利器。

　　大模型重塑云服务新范式

　　随着大模型在各行业、各场景的普遍应用,云服务商必须与时俱进，不断优化或重构自己的服务模式、业务模式，以适应市场和时代的新需求。

　　1、更加灵活的算力调度

　　大模型对海量算力资源的需求，不断倒逼云计算服务要具备更多的弹性和灵活性。以GPT-4和GPT-3的训练为例，正如前面提到的，两者算力需求差距就有6倍之多，面对如此巨大的算力波动，如果还以传统的静态算力部署方式，显然无法满足实际需求。此时，云计算按需付费、弹性伸缩等优势，就有了极大的用武之地。用户可以根据训练阶段的不同，灵活调整租用算力的规模，充分利用云端算力池，避免算力闲置浪费。

　　此外,云厂商还将整合各家GPU，实现万卡互联、资源统一调度,进一步提升算力利用效率。比如华为云"Atlas"的硬件平台,整合了自主研发的昇腾AI处理器，为大模型训练提供了强大的算力支持。不仅能够满足不同应用场景下的算力需求，还为用户打造了一站式的算力服务。

　　2、异构计算成为主流

　　随着大模型对算力的需求越来越多样化，单一采用CPU或GPU都越来越难实现想要的效果。因此，同时支持CPU、GPU、DPU等异构加速器的计算平台，将成为大模型所需的主流架构。谷歌大模型Gemini就是构建在公司自研的"AI超级计算机"之上，后者采用了异构计算架构，既包括CPU和GPU,也集成了谷歌云自主打造的超大规模TPU集群。通过这种异构设计，Gemini可以在不同计算阶段，灵活切换到最优算力形态，充分发挥各种加速器的长处，展示了异构计算的巨大潜力。

　　3、便捷的大模型部署平台

　　为了简化大模型的部署流程，各云厂商不断推出专属的大模型云服务应用MaaS。比如，微软Azure ML平台推出的专门面向GPT大语言模型需求的云服务，用户只需调用相关API，就可以轻松部署和微调预先训练好的大模型；除了支持在线推理服务,还提供一键式训练工具，帮助用户根据需求定制模型规格。

　　亚马逊AWS的SageMaker服务，也为大型语言模型提供了全生命周期管理工具。研发者可用它进行大模型的训练、微调和部署，并且与AWS的其他服务无缝集成。国内的华为云则在其ModelArts平台上推出了“昇思大模型服务”，支持跨平台的模型部署与推理，用户可一键式远程调用昇思NPU芯片的海量算力，大幅缩短推理等待时间，避免在本地部署NPU芯片的繁重操作。

　　AI时代，选择云厂商的底层逻辑

　　人工智能时代的到来，正在重塑企业对云计算的需求形态。企业不仅要求云计算要灵活、有弹性、具备极高的成本效益，还要能为他们带来更多创新和竞争优势。因此，企业在选择云厂商时，需要做更多方面的考量：

　　1、大模型的一站式管理

　　面对大规模繁复的大模型应用场景，企业会优先关注云厂商提供“一站式管理”的能力。毕竟，大模型训练和部署环节的复杂程度极高，企业很难自己搭建一整套完备的流程链路。相反，如果云厂商可以为各种主流大模型提供一键部署、弹性扩缩容、低成本微调等全生命周期管理，无疑将极大缩减企业的运维成本，成本更受企业青睐的“心头好”。

　　2、对多模态的全方位支持

　　随着AI应用场景的日益丰富，多模态大模型能够同时处理视频、图片和文本等多种数据类型的能力，对企业来说变得越来越重要。因此，云厂商需要对这些大模型提供更全面的支持，不断强化对图片、视频、时序等多源数据的端到端处理能力，从而帮助企业实现更高效的内容分析和智能决策。

　　3、AI云原生应用部署友好

　　企业还会格外重视云服务商在支持AI云原生应用部署方面的友好程度。很多企业开发的AI应用或SaaS产品，本身就是按照云原生的架构设计的，如果云厂商能提供更加贴近云原生场景的优化支持,将大大提升部署效率。比如，阿里云就在其公有云平台上,针对云原生应用的全生命周期管理进行了优化，包括容器服务、无服务器架构、Serverlessm等一系列举措，让开发者能以更加丝滑流畅的方式，构建和部署云原生AI应用。

　　4、企业数据资产的保障

　　数据是企业的核心资产，在AI时代，企业需要云厂商提供强大的数据存储和管理解决方案。这就要求云服务器具备云原生数据库、向量数据库等数据基础设施能力,确保企业的数据资产在上云的过程中不会遭到泄露或丢失。

　　5、强大的云安全体系

　　大模型所带来的数据隐私、算力资源滥用等潜在风险，会迫使企业把云服务商云安全体系是否完备，当成做选择时的重要参考指标。在数字化转型的过程中，企业对数据安全和隐私保护的要求会变得越来越高。云厂商只有具备强大的云安全体系（包括数据加密、网络安全、身份认证等多层次安全措施）才有可能入客户的法眼。而拥有成熟云安全体系和合规管控手段的云厂商，也才能在激烈的市场竞争中脱颖而出。

　　云计算无疑是做大模型的卓越选择。换个角度看，大模型又何尝不是云计算的“回春丹”？今天的大模型与云计算，像极了当年的淘金者与卖铲人，也许只有“双赢”，才是最不辜负这个时代的理想结局。

关注我们