【摘要】随着人工智能技术的飞速发展,大模型在各行业中的应用逐渐崭露头角,成为引领变革的重要力量。大模型通过模拟人类大脑的神经元连接方式,展现出强大的感知、思考和决策能力,为各行各业注入了新的活力。本文旨在分析保险业大模型的应用场景及规划,以期为保险业的创新发展提供参考。
【作者】陈萍春 利安人寿资深工程师
一、大模型的技术原理
LLM,即大语言模型,指的是通过大规模文本数据训练后,能够理解和生成自然语言的模型。尽管对大部分人来说,大模型像是一个黑盒,但为了更有效利用这些技术,理解其背后的技术原理至关重要。下文将结合个人的理解,对一些技术原理进行简要解读。
向量与向量计算:在人工智能领域,数据通常被表示为高维空间中的向量。这些向量通过模型参数的向量计算,实现了从原始数据到预测结果的转换。
Transformer架构:Transformer架构是一种基于自注意力机制的神经网络架构。自注意力机制使得模型能理解不同位置的短语之间的依赖关系,同时能更好地支持并行计算,提升大规模数据处理效率。因此,Transformer架构已成为构建大型模型的事实标准。
大模型训练过程:训练过程主要包括前向传播、损失计算、反向传播和参数优化四个步骤,前向传播根据现有模型参数计算预测结果;损失计算衡量预测结果与真实值之间的差距;反向传播则利用这个差距值,通过梯度下降算法进行反向计算,确定如何调整模型参数以更接近真实值;参数优化基于梯度的方法修改模型参数值。不断迭代四个训练步骤,逐步缩小预测结果与真实值之间的差距,从而完成大模型的训练。
大模型推理过程:相比之下,推理过程相对简单。输入数据经过模型计算后产生输出结果,输出结果随后作为新的输入继续迭代,使推理结果逐渐收敛。因此,在使用类似ChatGPT的应用时,我们通常会看到逐词流式输出的现象。
利用判别模型优化基座模型:根据特定的评价标准,对大模型模型的回答进行排序,再用这些排序数据去训练出一个独立的判别模型。利用判别模型去评估基座模型的表现,进而帮助大模型模型更新模型参数,生成更高质量的回答。
策略精调(Fine Tuning):对于中小企业来说,不具备训练基座大模型的算力、数据等资源。为降低训练成本,往往在基座大模型基础上,采用精调方法来增强特定领域的专业能力。为提升模型生成内容的准确性,需要使用一定规模的高质量人工标注数据集(格式为<指令,答案>),确保指令覆盖各种实际场景和应用领域。
二、大模型的能力分析
自ChatGPT问世以来,资本市场热情高涨,众多企业纷纷涉足大模型应用。然而对于企业端的应用,技术人员应更务实,更关注实用性,明确新技术的局限性,并警惕技术泡沫。
语言理解能力
大模型经过超大规模文本数据的训练,因此能够理解绝大多数的词汇、语境和语义。然而,其局限性在于:语言是不断发展的,一些新名词、专业词汇可能并不被大模型完全理解;语言理解需要结合具体的语境或上下文,否则很容易产生误解。为避免语言理解出现偏差,一方面,大模型需要不断更新和进化,吸收新知识;另一方面,对于特定领域,大模型需要针对该领域的知识进行强化学习。此外,记忆多轮对话作为语义理解的上下文,以及引入反馈确认过程,也是避免误解的有效手段。
内容生成能力
大模型能够高效地生成高质量的文本内容,涵盖文章、故事、诗歌、代码等。尽管大模型展现了多样性和创新性的内容生成能力,但其生成内容的质量和准确性在某些领域,特别是那些不擅长的领域,仍有待提高。此外,生成的内容也可能受到训练数据的影响,涉及版权、知识产权和隐私保护等问题。因此,在专业领域应用大模型时,也应审慎看待其生成的内容,做好审核与验证工作,避免出现严重错误。
推理能力
推理能力是大模型智能水平的重要体现,它使大模型能够理解复杂指令,将复杂问题分解为简单步骤,实现多步骤推理。然而,目前大模型的推理能力尚不完善,其内部推理过程缺乏解释性。因此,在应用过程中需要人工介入,并注重添加前置引导、推理审核、结果修正等环节,不能完全依赖大模型的自动化执行。
工具协同能力
大模型能够与现有工具和平台协同工作,共同提高工作效率。通过提供API等接口,大模型可以与其他工具进行交互;同时,大模型也可以通过训练或Agent增强的方式,调用其他工具和平台的接口。工具协同被视为大模型应用的一个重要研究方向,但在这一过程中,数据安全与隐私保护应成为重点考虑的因素。
多模态能力
大模型不仅限于处理文本,还能理解和生成图像、视频等多媒体内容,这被称为多模态能力。然而,多模态技术更具挑战性,且可能放大大模型在内容理解和生成方面的缺陷。
三、保险业应用场景分析
尽管现有大模型的能力仍有待完善,但其快速的进化迭代预示着其巨大的应用潜力。对于保险业而言,深入分析和挖掘应用场景,对于推动业务创新与智能化转型具有重要意义。
用户分析
对企业内部员工,大模型可扮演工作助理的角色。根据员工的角色、需求和权限,为其提供定制化的服务功能;对保险客户,通过在业务系统内嵌大模型接口服务,进一步提升保险服务水平,优化客户体验。
独立应用场景
该场景对应于在企业内部构建基于大模型的类ChatGPT人机对话系统。相较于个人使用,企业端应用更注重特定业务领域、私有数据与应用定制化。针对特殊业务领域和私有数据的特点,可采用RAG(检索增强生成)方案, 整合内部知识库、互联网等信息源,为大模型提供更为准确和全面的信息支持 ;针对应用定制化的特点, 借助Prompt工程定制符合企业需求的AI Agent,确保大模型能够与企业业务无缝对接。在独立应用场景中,大模型可为企业提供多种类型的AI助手,如营销助手、文本分析助手、文档编写助手等,助力企业员工高效完成各项工作任务。
工具协同场景
此场景主要关注大模型与企业现有工具和平台的协同工作。通过用户驱动,实现工具间的协同,进而达到更高维度的自动化。协同方式主要包括大模型调用其他系统API、其他系统调用大模型API以及与大模型结合实现RPA自动化。大多数系统有开放API,特殊系统则通过RPA方式,最终实现各类型系统间的协同。
基于用户权限实现通用级与专用级两类工具链服务, 通用级工具链服务与员工办公系统相结合,如OA、财务报销、视频会议、员工培训等,提升员工工作效率 ;专业级 工具链服务与保险业务系统深度结合,实现更个性化的智能问答、应用导航等功能。同时,在业务系统中内嵌大模型服务,使客服、财务、资管、风控、产品等部门能够更便捷地完成数据处理分析工作。
在这种工具链服务场景中,由于涉及多个工具和平台的协同工作,因此风险相对较高。为确保稳定运行,需考虑用户角色访问控制、输出标准化、用户确认与反馈环节、全过程监控、回溯与回退、禁止特殊操作等功能。这些措施将有助于降低误解和输出不稳定性的风险,确保应用场景的顺利实施 。
应用风险与防范
对于保险业而言,大模型技术的应用既带来了机遇,也伴随着风险和挑战。
首先是隐私安全风险,对于金融行业来说,无论是算力、模型还是数据,都期望是独享的,但也需要平衡风险与收益,做好权衡与取舍。因此,保险业应根据应用场景做分类,并结合技术和管理手段进一步降低安全风险。
其次是可能存在投入大、价值小的风险,大模型的应用落地对算力、算法和数据都提出了较高的要求,大多数中小保险公司往往需要从零开始建设,但技术应用本身还尚未成熟,技术如何赋能公司业务是难题。因此,保险业要重点做好赋能业务价值的评估,明确高价值的大模型应用场景。
最后是技术风险高,大模型不仅需要投入大量资源,大多数企业缺乏自研基座大模型能力,技术门槛高,相关技术也还在加速迭代。因此,保险公司要优先在一些难度低、价值高的场景下做试点应用,做好人才储备与培养。
四、选型与规划
近年来,随着国内经济的放缓和长期利率的下降趋势,保险业面临着日益加剧的经营压力。新形势下,保险公司坚守稳健经营的原则,注重价值创造,并致力于走高质量发展的道路。在技术层面,保险公司需要更加敏锐地关注新技术的迭代,并加强新技术在业务赋能方面的价值评估。
在新技术规划落地的实践中,通常有两种方式可供选择:“小步快跑”和“长远布局”。对于大模型的落地,更推荐 “小步快跑”,即先以小成本进行试点应用,再根据实际效果逐步推广。这主要是因为GPU算力成本高昂,模型算法需要不断迭代,而企业在经验和高质量标注数据方面相对不足。此外,大模型在企业端的应用尚未形成规模,缺乏成熟的应用案例,应用场景与其价值也尚未完全明确。
大模型根据应用场景和训练数据的不同,可分为通用大模型和垂直领域大模型;根据部署方式的不同,又可分为在线大模型和私有部署大模型。每种类型的大模型都有其独特的优缺点,因此,企业应根据自身的需求、资源和目标来制定具体的方案规划。
表1 大模型方案的比较
对于保险业而言,专业领域大模型的需求迫切,但目前尚缺乏合适的定制方案。同时,由于隐私安全的要求,保险业需要考虑私有部署的方式,但在线大模型在技术领先方面尚具有明显的优势。因此,大规模私有化部署的时机可能尚不成熟。
综上所述,我们建议现阶段以在线调用LLM API为主、私有部署为辅的通用大模型方案。在应用场景的选择上,应重点关注实现难度低、价值较大的场景进行试点应用,如智慧办公、智能客服、代码生成和企业知识库等:
1) 智慧办公,在企业日常办公软件中嵌入AI助理,如OA、邮件、视频会议、聊天软件、Office等,让员工更高效地完成工作沟通、会议纪要、文档编写等工作;
2) 智能客服,相比于其他智能模型,大模型能提供更个性化的定制服务;
3) 代码生成,企业IT团队采用类GitHub copilot这样的代码生成工具,大大提升编程、测试效率;
4) 企业知识库,引入RAG(检索增强生成)技术,集成企业现有的文档数据,构建企业知识库。
为降低成本,私有部署方面,初期可以考虑租赁算力;而在大模型的选型方面,可以参考SuperCLUE的中文大模型基准报告。该报告采用多维度、多视角的综合性测评方案,对国内外的大模型进行了全面的评估。从2024年2月的测评结果来看,虽然国内外存在一定差距,但国内的大模型如文心一言4.0、GLM-4和通义千问2.1等也取得了较高的分数。因此,在选型时,企业可以综合考虑部署方式、大模型的特点和优势,针对实际业务需求进行模型选型。
图2 国内外大模型SuperCLUE基准得分
(来源:SuperCLUE,2024年2月报告)
五、总结与展望
短期来看,保险公司应更多聚焦在文本理解和内容生成等通用场景的应用,并逐步在保险销售与客户服务场景中试点应用;长期来看,随着技术的持续进步和应用场景的日益拓展,大模型会与保险业务深度融合,有望为保险业带来更大的业务效率提升和服务质量改善,成为企业重要的IT基础设施之一。同时,保险行业也应密切关注技术发展动态,制定合理的应用策略,并注重风险防控和合规性管理,以确保大模型技术的健康、可持续发展。