在企业智能化升级过程中,DeepSeek、Manus等大模型的快速出圈,引发了行业内外的广泛关注,在新技术突破与应用创新的带动下,千行百业的数字化升级便有了全新视角。
为了深入探讨大模型在不同领域的发展现状、趋势及影响,ITPUB编辑部推出了DeepSeek特别策划选题,通过对不同专家的深度访谈,对大模型应用落地过程中遇到的各种问题进行拆解,为读者全面、客观地了解大模型的真实现状,带来更具启发性的思考和借鉴作用。
本期,我们有幸采访了金山云助理总裁、公有云产品研发中心负责人孙晓,他从DeepSeek底层技术创新、上层应用等角度分析了大模型的最新能力进化。
▲金山云助理总裁、公有云产品研发中心负责人孙晓
DeepSeek在两周之内火遍全世界,这件事可以说是史 无 前例,很多人都在试图探寻DeepSeek成功背后的商业逻辑。这个新晋大模型快速上位背后,到底是个体的一次“超越”,还是人工智能领域的“整体跃迁”? 在舆论领域发生一场激烈的“口水战”过后,答案似乎变得更加清晰!
当大模型竞争走向深水区,已不是谁超越谁那么简单,而是全球科技创新不断演进的结果,是技术范式的全新变革。正如孙晓所言,大模型创新不一定从零开始,去创造一个新的模型。即便强如DeepSeek,也是基于行业智慧创新的基础上实现了技术的迭代升级,比如:Transformer架构、MOE架构以及Reinforcement Learning等都不是首 创,而是对经典架构的继承与突破。
当然,DeepSeek并不是简单的拿来主义,其独创的深度思考能力,就连Hugging Face也曾尝试模仿,打造R1推理模型。为了打破算力垄断局面,DeepSeek基于现有技术做了广泛的革新,从底层的计算库、通信库到对MOE架构的优化,乃至开创性地融合Reinforcement Learning,每一项能力都展现了其丰富的创新元素。
技术范式变革
DeepSeek的成功不是一个偶然事件,而是通过技术破局重新定义了AGI发展的坐标系。
模型架构创新层面,DeepSeek引入了MoE(混合专家模型)架构,这种更具创新性的网络层架构,打破了传统Transformer架构局限,在扩大模型容量的同时,还能控制资源消耗。
模型训练优化上,DeepSeek另辟蹊径,采用了混合精度框架。在此框架下,大部分密集计算操作被分解为更小的组,同时每个组都运用特定乘数进行调整,从而维持高精度。
针对高强化学习,也就是模型的后训练阶段,DeepSeek创新性地将GRPO算法应用于强化学习过程,显著提升了大语言模型(LLMs)的数学推理能力。
而在重要的数据蒸馏技术上,DeepSeek将数据蒸馏与模型蒸馏相结合,实现了从大型复杂模型向小型高效模型的知识有效迁移,这种融合策略不仅显著增强了模型性能,还大幅降低了计算成本。
整体来看,DeepSeek通过多维度的技术创新,显著降低了模型的训练和推理成本,向业界展示了算法优化比单纯算力堆叠更具优越性。对于那些想要应用大模型的企业而言,DeepSeek提供的低成本部署方案,使得每个企业都能拥有自己的大模型,极大地推动了AI技术的普及。
开源与闭源的一场较量
DeepSeek能够在“国际舞台”上大放异彩,除了技术创新的独特性,开源路线的选择,是其能够快速发展壮大的另一个重要原因。
在人工智能的赛道上,到底选择开源还是闭源,一直是一个争论不休的话题。以OpenAI为代表的公司,长期坚持封闭模式,依靠资金和算力优势开发高性能AI模型,并通过API收费或者订阅的模式进行商业化运营;以Meta为代表的Llama模型,则以模型和代码共享的开源方式,让全球开发者或者相关企业在现有技术基础上进行优化和拓展。与后者相同,DeepSeek选择通过开源的方式提供优化工具和商业方案。只不过,DeepSeek更具开放性,通过全栈开源引发了全球技术范式的变革。
从开源模型到开源底层全栈通信库,DeepSeek的诸多举措无异给渴望积极拥抱AI浪潮的企业提供了一个免费的、高性能大模型的“大脑”。目前,MIT协议开源框架已吸引几十个国家开发者参与贡献,形成“基础模型开源-垂直插件商业化”的生态闭环。这一模式直接冲击了OpenAI的API的订阅制与Meta的封闭生态。
之所以选择开源路线,是因为技术优势只是暂时的,创新驱动才是长久的护城河。DeepSeek通过开源策略,让全球开发者将在集体创新基础上形成一股凝聚力,最终打破高性能AI模型被少数科技巨头垄断的局面,从根本上降低AI技术的使用门槛,让整个AI生态发展再上新台阶。
当然,长远看,开源与闭源并不是非此即彼。未来,随着大模型应用场景的不断丰富,开源与闭源会一直并存、相互渗透。
打通模型到应用的最后一公里
在大模型技术路线选择上,不仅涉及开源与闭源的问题,还有公有云与私有云,满血版与蒸馏版。到底选择哪种路线,其实是一个业务场景选择的过程。
在孙晓看来,大模型产品虽然选择很多,但应用上依然处于探索阶段。虽然,DeepSeek的高效性得到普遍认可,但在具体应用方法和版本选择上仍存疑惑。不同云厂商纷纷选择接入DeepSeek生态,其能力价值在于——深入理解客户需求,为客户提供最为契合的产品与解决方案。
通常情况下,用户会基于业务需求选择大模型的部署和接入方式。在模型部署上,公有云接入的优势在于,赋予业务更高的启动与部署灵活性,云厂商提供的运维服务使客户能更专注于核心业务;私有云接入的优势在于,确保客户的数据安全与合规性,同时赋予客户自行保障业务稳定性的能力。而在不同版本的接入方式上,需根据R1与V3的特性来决定。R1以其强大的推理能力,在处理复杂请求时更具优势;而V3则以其高性价比和通用性,更适合广泛应用于各种场景。
举例来说,当客户想要部署一个大模型,首先需细致评估企业应用场景的实际需求,进而依据这些需求确定部署模式(如公有云或混合云)、是否需针对DeepSeek进行定制化微调、以及API接入方式(自建或采用云厂商预置的API)等架构层面的规划。之后,在实际应用场景中实施DeepSeek的接入与改造工作。此过程中,涉及多个要素的协作与综合评估,包括方案的切实可行性、服务的高稳定性、数据的安全性与合规性,以及从客户立场出发必须权衡的性价比等等。说到底,决策者不仅需要考量通过DeepSeek接入业务的可行性,还要考虑能为企业应用场景带来何种价值,以提升与收益增长,这些都是决策时不可或缺的综合因素。
需要特别强调的一点是,生成式AI是一个涵盖广泛领域的概念,包含了诸如智能客服、照片与视频生成,以及提升编程效率的Cursor、Copilot等多样应用,这些均能显著提升生产与工作效率。但是,对企业生成式AI来说,大模型探索往往会遇到很多挑战,比如:初期投入成本较高,若不能准确定位产品,很容易陷入“为AI而AI”的误区,也就是人们常说的盲目追求技术而忽视实际需求。
所以,对于广大初创公司或者用户来说,要想顺利推进生成式AI应用,需要掌握一些心得要领,才能轻松驾驭技术创新。首先,聚焦特定的垂直场景。企业级AI领域广阔而复杂,应该深入挖掘某一具体场景的需求,确保技术能真正落地并解决实际问题,而不是盲目追求泛化竞争。其次,要理性评估性价比。在企业级AI市场中,技术和产品的差异化竞争至关重要。企业要结合自身资源和优势,打造具有独特竞争力的产品,而不是盲目跟风,一味追赶前沿技术。最后,打造坚实的壁垒是成功的关键。无论是数据、用户还是技术层面,都应努力构建自身的核心竞争优势。只有真正构建出自己的壁垒,才能在激烈的市场竞争中拥有更多的话语权和议价能力。
结语
可以预见,企业级生成式AI将成为千行百业实现数智化升级的核心动能,未来每家企业都将拥有量身定制的“大脑”模型,为企业决策提供强效赋能。尽管当前企业在知识共享与业务流程数字化进程中仍面临诸多瓶颈,但伴随技术迭代升级与底层基础设施的轻量化、模块化演进,下一代企业软件生态将迎来颠覆性变革——生成式AI将深度重构企业运作流程与软件架构,推动业务模式向智能化、自适应方向跃迁。此种背景下,企业亟需构建"技术敏锐度+业务洞察力"的双重能力体系,唯有将生成式AI深度融入战略规划与日常运营,方能在未来的商业竞争中构建可持续的差异化优势。