在生成式AI浪潮中,到底是走大语言模型(LLM)路线,还是走小模型(SLM)路线,曾是一场博弈。
之后,两股力量达成和解,不管是LLM,还是SLM,规模问题不是影响性能、成本与实际应用的唯一指标。不管是多大尺寸的模型,他们均有各自的使用场景,只有相互结合,才能从最终效益角度发挥最大价值。
事实上,生成式AI应用程序的发展始终紧密围绕大型语言模型(LLM)展开。自ChatGPT惊艳亮相以来,LLM便成为生成式人工智能领域的核心焦点,吸引了数十亿美元的资金投入,创新成果层出不穷。然而,LLM是否真的如表面般无可替代?
当下,随着OpenAI、Anthropic、谷歌等科技巨头纷纷推出各自的LLM,基于小型语言模型(SLM)的新兴项目也如雨后春笋般涌现。从定义上看,SLM的规模显著小于LLM,它们基于更小、更聚焦的数据集进行训练,旨在满足特定领域或任务的需求。由于训练数据量的减少,SLM的创建成本大幅降低,这使得企业能够轻松构建并训练自己的SLM。
所以,从实际应用的角度来看,SLM的应用场景更为广泛。凭借其低资源消耗的特性,SLM能够在边缘环境或移动设备上流畅运行,而无需像LLM那样依赖庞大的计算资源。
另外,SLM的出现还深刻改变了开发人员构建生成式AI应用程序的方式。对于LLM而言,高昂的训练成本导致模型的知识更新存在明显的时效性限制。若需融入最新上下文信息,开发者需借助向量搜索、检索增强生成(RAG)等外部技术手段。相比之下,SLM因规模较小、再训练成本低廉,使得开发者能够根据需求灵活选择再训练策略。
更重要的是,SLM可以更好地将再训练与RAG技术相结合,能够显著提升生成式AI系统在响应用户请求时的精准度与实时性。根据系统对时效性的要求,开发者可构建实时数据管道,将新数据持续引入系统。为实现这一目标,数据流需被转换为向量格式并存储于向量数据库中,以便RAG方法能够近乎实时地检索语义相似信息。同时,开发者可定期利用新数据对SLM进行再训练,以持续提升模型性能。
SLM在特定场景的优势
对于那些希望运用生成式AI技术,同时对运行环境拥有绝对掌控权的组织而言,部署专属的生成式AI服务层(SLM,可理解为一种特定的生成式AI服务管理或解决方案,此处为简化表述沿用原词,实际可能根据具体场景有更精准命名)如今已成为上上选。那么,为何需要部署专属SLM呢?
举例来说,企业可能期望从项目初始阶段就对所处理的数据实现全流程把控——相当于是构建一个“数字洁净室”,在该环境中,所有用于生成结果的要素(如数据、算法参数等)都清晰透明、有迹可循。这种可控性对于审计问题响应过程以及获取完整的审计追踪记录至关重要。当使用第三方提供的通用生成式AI模型(如一般意义上的LLM,大型语言模型)时,用户往往只能对模型训练所使用的数据有一个大致的了解。而采用专属SLM时,组织能够明确知晓哪些具体文档和数据被纳入模型训练与应用范畴。
尽管专属SLM对于规模较小的生成式AI应用或边缘AI部署场景具有实用价值,但其在另一个前沿领域展现出了更为广阔的发展潜力。Agentic AI(可视为生成式AI的高级发展形态)正逐渐成为行业焦点,它通过整合多个经过专门训练的代理(Agent),协同完成特定任务以生成最终结果。其核心目标在于,借助一系列专业化的代理,从任务起始到结束,全程构建并维护一个高效、精准的流程体系。虽然通用LLM服务能够满足基本的查询响应和用户交互需求,但Agentic AI凭借专属SLM提供的深度定制化能力,能够针对端到端流程中的不同环节,给出更具针对性、专业性的响应。
在Agentic AI中,由于不同步骤涉及多个自治代理的协同工作,专属SLM在系统设计层面扮演着关键角色。这是因为,相较于单一的AI应用,多代理应用需要调配更多资源以实现最终目标。具体而言,生成式AI应用在处理请求时,会消耗一定数量的令牌(Token,可简单理解为用于衡量计算资源和模型处理复杂度的基本单位,与提示中的单词数量相关,更长的提示会消耗更多令牌)。在应用架构中,每个组件都需要使用令牌来生成响应。随着代理数量和流程步骤的增加,代理式人工智能系统消耗的令牌总量会显著上升。每个代理生成响应时会消耗令牌,随后将响应传递给下一个代理(该过程同样消耗令牌),依次类推,直至最终响应生成并返回给用户。根据Capgemini的估算,以每分钟响应一个传感器事件的服务为例,单代理系统每天的运行成本约为0.41美元,而多代理系统的成本则高达10.54美元,是前者的26倍之多。这一数据充分凸显了专属SLM在资源优化和成本控制方面的重要性,尤其是在复杂的多代理应用场景中。
LLM VS SLM,Agentic AI(代理型AI)成为行业新宠
从成本优化维度来看,使用专属的 SLM(特定领域的语言模型或服务层解决方案,具体含义可根据实际场景调整)而非成熟的通用 LLM(大型语言模型),能够显著削减多代理系统的成本。采用规模更小、更轻量化的语言模型来精准满足特定需求,相较于在人工智能系统的每一个环节都使用通用 LLM,无疑更具成本效益。这一方法的核心在于,为多代理系统的每一个组成部分精心挑选适配的组件,而非盲目遵循“同类最 佳”这一传统思路,认为其就是最优选择。通过这种精细化、定制化的组件搭配方式,我们能够以更低的成本构建出高效的多代理系统。
从业务价值维度来看,在生成式 AI 的应用场景中,Agentic AI展现出独特的优势。其中,多代理流程相较于简单的单代理模型,能够为每一笔交易创造更高的价值。这一选择并非仅仅基于技术层面的考量,它会对服务定价策略、客户对人工智能的期望以及整体服务提供方式产生深远影响。因此,在规划和实施人工智能项目时,我们不仅要关注 AI 的技术和架构元素,更要深入了解业务团队的目标和需求。只有将技术与业务目标紧密结合,才能确保人工智能项目的成功落地,为企业带来实实在在的价值。
从人工智能未来发展维度看,虽然简单的AI Agent能够出色地执行特定任务或自动化处理重复性工作,但它们往往依赖人工输入来完成请求。随着人工智能技术的不断发展,多Agent方式应运而生。通过采用多Agent架构,系统能够不断适应动态变化的环境,在业务流程中赋予更大的自主权,这是人工智能发展的又一重要里程碑。借助先进的人工智能技术,企业可以围绕业务流程构建独立、智能的系统,实现结果的自主创建、执行和优化。其终极目标是打造动态、上下文感知的自动化系统,逐步取代那些脆弱、静态的传统业务流程,从而提升企业的运营效率和竞争力。
为什么说混合AI才能赢得未来?
在过去的数年时光里,生成式人工智能领域的发展犹如疾驰的列车,风驰电掣般地向前推进。尽管在大语言模型LLM方面已然投入了巨额资金,但诸如 DeepSeek 等新模型的横空出世,彻底改变了人们对于如何支撑生成式人工智能部署的讨论格局。
对于众多组织而言,语言模型在生成式 AI 应用程序架构中的地位已悄然发生转变,从曾经的核心需求组件逐渐沦为普通的商品组件。随着开发人员广泛采用混合方法来确定所使用的模型以及部署方式,这一趋势将持续深化。未来,SLM(特定领域的语言模型或服务层,具体可根据实际业务场景定义)与 LLM 将携手共进,在既定的成本和计算能力范围内,为用户提供最具相关性的结果。
那么,开发人员究竟该如何适应这个由 SLM、LLM 以及各种不同模型共同构建的新世界呢?答案在于对应用程序在这些系统下的执行情况进行更为全面、深入的测试。通过测试,开发人员能够清晰地洞察不同的 SLM 和 LLM 与生成式 AI 应用程序的其他组件协同工作时,所产生的实际效果。这不仅涵盖了结果的相关性,还涉及成本方面的考量。每当有新模型问世,都应对其进行严格测试,以探究在数据、人工智能权重以及集成等其他关键元素保持不变的情况下,该模型能够带来哪些实质性的改进。毕竟,对于像生成式人工智能这类具有高度非确定性的应用程序而言,进行大规模更改所面临的风险极高,因为你根本无法精准预估任何单一更改所引发的确切影响。
为了使测试工作更加便捷高效,开发人员不妨关注那些将不同组件之间的集成作为整体应用程序设计核心部分的开源项目。以 Langflow 为例,这类项目能够轻松地将生成式 AI 服务(如 LLM、SLM、矢量数据存储以及输出模块等)无缝连接到整个应用程序中。特别是在可能出现多个不同模型同时运行的混合部署场景下,集成环节的重要性不言而喻。
为了进一步简化构建和管理过程,将这些复杂的过程可视化为“代理流”或许是一个行之有效的策略。在“代理流”中,一个代理的输出会自然而然地成为下一个代理的输入,如此循环往复。这种可视化的方法不仅使构建代理系统变得更加容易,而且随着时间的推移,还能让开发人员更加轻松地管理各个元素之间的集成关系。
结语:
展望未来,生成式AI的世界必将持续演进,新的模型将如雨后春笋般不断涌现。SLM 将凭借其独特的优势,助力开发人员更高效地交付生成式人工智能应用程序,并将潜在的项目顺利转化为实际的生产部署。特别是在多代理和代理人工智能围绕现实世界用例不断成熟和固化的过程中,SLM 和 LLM 都将在把握宝贵机遇方面发挥关键作用,确保我们能够以极具成本效益的方式提供生成式人工智能应用程序,推动人工智能技术在各个领域的广泛应用和发展。