构建离产业最近的AI，腾讯混元大模型使出“三板斧”-云计算·大数据专区

构建离产业最近的AI，腾讯混元大模型使出“三板斧”

作者：李代丽编辑：李代丽 2024-05-22 15:13 IT168网站原创

　　大模型到底有多卷？看看大模型评测排行榜就知道了！大模型评测排名不是以年计、以月计，而是以“天”来计算。

　　在大模型竞技场中，今天还处于世界领先地位的产品，明天就会被第二、第三名完全超越。难怪有人说，大模型是一场长跑拉力赛，大家在从不同维度比拼。但不管起点在哪里，最终胜出者一定是距离产业最近的应用。面向产业发力，几乎是每一个大模型都在努力的方向。

　　那么，在大模型秀肌肉、比三维、比耐力的过程中，国内领先大模型如何做到既仰望星空，又脚踏实地？腾讯混元大模型的最新进展，可以说是为国内大模型的发展带来了新范式！

　　面对如火如荼的大模型竞争，腾讯的目标是构建离产业最近的AI。为加快商业化进展，腾讯使了出“三板斧”：

　　第一板斧：打造高性能的模型

　　模型是一切发展的“基石”，虽然未来好用的模型在参数上不一定越来越大，但做更深层次的技术部署，是高性能模型构建的基本能力。

　　腾讯集团副总裁蒋杰，在腾讯云生成式AI产业应用峰会上表示，腾讯混元大模型经过持续迭代，目前整体性能居国内第一梯队，部分中文能力追平GPT-4。

　　自2023 年 9 月首次亮相以来，腾讯混元大模型一直在探索最新技术，在模型规模上已拓展至万亿，并在国内率先采用混合专家模型（MoE）结构，带来模型总体性能的升级，相比上一代Dense模型提升50%。此外，腾讯混元在中小型模型方面同样积极部署，研发了1B、3B、7B、13B等不同参数量下的 Dense 和 MoE 模型。

　　在腾讯云生成式AI产业应用峰会上，混元大模型还发布了万亿参数hunyuan-pro、千亿参数hunyuan-standard以及百亿参数的hunyuan-lite等多种尺寸的模型服务，其中 hunyuan-standard 模型具备 256k 的超长上下文理解能力，单次处理字符数超过38万个。

　　在多模态能力方面，腾讯混元大模型也取得不少成果。在生图领域，腾讯混元文生图基础架构已全面升级至 sora 同款的 DiT 架构，支持中英文双语输入及理解，具备多轮绘图能力，测评结果国内领先；在生视频领域，腾讯混元支持文生视频、图生视频、图文生视频、视频生视频等多种视频生成能力，视频生成长度可达 16秒；在生3D层面，腾讯混元已布局文/图生3D，单图仅需30秒即可生成3D模型。

　　为构建大模型生态，腾讯混元大模型也在积极部署开源路线，为技术社区生态繁荣贡献力量。目前，腾讯混元文生图大模型已全面开源，开源 3 天内就在Github上获得超千位开发者关注。未来，多种尺寸的腾讯混元MoE模型都将对外开源。

　　第二板斧：打造高效率的工具平台

　　腾讯云副总裁、腾讯云智能负责人吴运声分析认为，要想让企业用上大模型、用好大模型，还需要解决三大挑战：一、降低使用门槛；二、提高平台适配性；三、确保应用的安全合规。

　　面对企业在应用大模型时的核心诉求，腾讯推出了大模型知识引擎、图像创作引擎、视频创作引擎三大工具，旨在通过PaaS接入方式，简化数据工程、模型精调、应用开发的流程。

　　那么，这些引擎该如何使用呢？以大模型知识引擎为例，这是一款基于大语言模型的知识应用开发平台。他解决了知识服务场景常见的“复杂文档解析”、“复杂任务规划”、“专属行业适配”等难题。企业用户只需要三步就能用自然语言开发出一个知识引用，并且可以通过API的形式快速部署、集成到各类业务环境中。

　　在模型层，大模型知识引擎与腾讯混元以及更多行业大模型集成；在服务层，通过应用模板，简化创建流程，企业用户只需要输入模型选择、角色设定、知识库管理等基本信息，就可以快速搭建出一款知识应用。

　　在问答效果上，知识引擎以RAG（检索增强生成）技术架构为基础，整合了OCR文档解析、向量检索、大语言模型、多模态大模型等多项技术。企业在上载专属知识库与行业专业文档后，会先通过向量数据库，生成大量问答。当用户提问时，系统先匹配相关文档片段，再由大模型基于提取内容来推理，生成准确率远超通用大模型的回答，能更好地满足to B场景对准确性的要求。

　　围绕问答交互，知识引擎集成了多模态大模型的能力，依托高分辨率色彩感知增强技术，支持图文混排、说明书、数据图标等复杂文档识别解析，答案生成，进一步提升用户体验。

　　而针对复杂任务规划，目前业界的做法是通过Agent的框架来做效果预研，但在实际应用中，接口复杂，准确率较低，需要调用多个API。腾讯的做法是，由大模型话术自动生成、实体智能抽取、接口缺失追问等能力，结合传统工作流，简化业务流程配置，降低配置成本。

　　第三板斧：构建高敏捷的场景应用

　　目前，腾讯云大模型知识引擎已在政务、金融、教育、出行、零售等多个行业落地。在金融行业，圆心惠保开发了保险代理人高效惠民智囊，通过大模型技术辅助，自动生成产品知识问答和安抚话术，实现人均提效50%。浙江万榕，用大模型知识引擎打造出在线知识服务平台“榕博士”，实现技术人员提效50%。

　　在教育行业，河南省数字教育发展有限公司，用大模型知识引擎进行知识梳理配置，导入河南省百万级的中小学教材文档导入，打造出7×24小时在线的教师助理及学生助手。这项应用目前已在郑州、洛阳、许昌的重点中小学上线。

　　除了与外部客户共建，腾讯基于知识引擎升级了多款内部应用。用大模型知识引擎可以更好地处理“复杂任务规划”。这个能力已被应用于企点客服大模型文本机器人。在面向账单查询、退换货这类复杂任务时，大模型机器人配置成本，相较传统文本机器人减少50%。

　　在交互层面，数智人能够更好地理解和处理自然语言，准确识别用户意图，提供更为精准的回答和建议；借助知识引擎“大脑”，数智人拥有更丰富的知识储备，为用户提供更专业的解答、更个性化的服务。

　　2024年，腾讯为云南电视台打造了3D卡通代言人小彩云，结合大模型知识引擎，小彩云升级为智能助手，针对云南文化、服务、美食等信息，为用户提供个性化交互问答服务。

　　在电商场景，小样本数智人支持一键换装，实现快速、批量化商品动态更新；在短视频场景中，真人实景拍摄生成数字人，具有更自然、丰富的表情和肢体语言；面对蓬勃发展的出海业务，数字人通过多语种样本训练，批量化生成多语言播报视频，让海外传播更便捷。

　　围绕“知识生产”场景，乐享结合大模型知识引擎，为用户升级“智能写作”等能力，可以实现写作前提供思路，写作中辅助润色，写作后辅助修缮，助力企业员工提升创作效率和质量。腾讯乐享是服务于企业内部的知识学习协作平台，为企业提供知识管理、学习培训文化建设等服务，目前已经服务了超过30万家客户，用户超过1亿。

　　针对商用场景，腾讯推出“线稿生图”的能力，用户只需要上传产品设计线稿，通过提示词和参数设定，可以快速将简单的设计线稿变为精美的实物图片，大幅缩短创作与生产周期。未来，在产品营销环节，腾讯还可以基于背景生成技术，快速、批量产出营销素材，大大提高生产效率。

　　2024年3月，腾讯与《人民日报》，用大模型共创《江山如此多娇》视频，引发大量关注和强烈反响。在这个视频中，综合使用了图生视频、视频风格化、视频插帧、艺术字视频等多项视频创作能力，100%依托大模型能力进行创作。

　　腾讯混元的最新进展让我们看到，大模型产业化征程正在“走深向实”，腾讯凭借强大的技术和生态能力，既要仰望星空，追求性能好、性价比高的模型，又要脚踏实地，拓展产业化应用场景，助力千行百业迈向智能化未来。相信，随着群体智能工程的进化，人类的生活和工作都将带来质的改变。

关注我们