云计算·大数据 频道

从治理到“智”理,打造新一代金融数据体系

  摘要:长期以来,很多金融机构的数据治理效果一直不尽人意,这已经成为金融科技公认的重要需求与固有难题。以大模型为代表的新一代人工智能有望彻底改变这种状态,它通过以自然语言而非专业技术驱动的人机交互界面,以及对人类专业经验与流程执行效果的良好模拟,能有效解决传统数据治理体系与工程中的诸多难点,大力推动人工治理走向自主“智”理,并最终形成新一代的金融数据体系。

  1.前言

  数据治理长年以来一直是最重要的金融科技领域之一,从本世纪初金融机构开始实施企业级数据仓库(EDW)开始就一直被持续关注,并不断进行着相关的建设与改进活动,包括数据标准、数据质量、元数据管理工程、相关的咨询规划等工作,以及近十几年来随着大数据技术普及而兴起的数据中台、数据资产管理等,都属于数据治理的范畴或者与之紧密相关。同时,数据治理长年以来也是金融科技系统中最为尴尬的难题。它不像很多业务目标非常清晰项目与产品实施,效果立杆见影。对大部分金融机构来讲,数据治理一直处于这样的境况:数据治理状态不好一直确切地影响着业务质效,因此不断受到重视;数据治理项目长年持续实施,可带来的效果总是与预期不付。例如咨询规划相当多起了高调,后续落实不力;数据标准项目往往形成了全面一致的本子,但却难以大范围切实推广;数据质量工具与流程不断引进,但数据质量问题一直不能得到上下、内外一致顺畅的解决;元数据管理往往限于一域,企业级水平很难达到;数据资产、数据中台等本质上也都是为了让业务更方便地使用数据而建设的新孤岛,对数据治理水平并没有实际的提升.....。总之,相当部分金融机构的数据治理工作就是长期处于这样一直在努力、一直不满意的尴尬状态中。

  仔细分析就可以发现,金融数据治理的这种状态其实是正常并且合乎逻辑的,也就是说,如果没有什么明显的驱动力,大概率大家会一直这样持续下去。为什么呢?数据治理与实施具有明确业务目标的项目不同,除了技术与工具之外,它很大程度上都依赖于“人”,这包括人的经验,人的手工,人对流程的执行力、配合度等。例如,对数据质量问题,工具往往只能通过规则协助发现问题,却不能解决问题,解决问题需要靠人的经验与精力;数据标准的执行,也需要自顶而下、各平行部门的人配合协调执行流程;数据处理中的标注、分类,元数据的填充、生成等也主要依靠人工。这些都还只是一些典型的问题,更不说如何能从数据资源中发现更深更广层次的关联知识,如何从现有数据中产生有更广泛用途的增强数据等数据治理的高阶提升,不依靠人工就更加无法实现了。可以这样说,只要人的作用在数据治理中无法减轻,数据治理的尴尬现状就很难得到根本的改善。

  本文认为,2022年底开始迅速流行起来的新型人工智能,即大模型技术,可以从根本上改变金融数据治理的上述现状,将治理推进到“智”理,同时催生新一代的数智融合金融科技体系。其中最核心的原因就是大模型技术可以大幅度降低数据治理对“人”的经验与手工工作的依赖,这是经典人工智能无法做到的。

  可以这样描述:传统数据治理工具只通过流程与显式规则控制,无法真正、自主提升数据治理水平,即只能发现,无法提升;同时难以摆脱人工对数据架构、分布、标准、质量、元数据、信息化(报表)等数据治理全生命周期的大量干预。而大模型将改变数据治理过份依赖人工现象,实现由“专家+工具”治理向自主“智”理过度,并可以按需生成大数据,形成数据治理闭环。

  2.金融数据“智”理的宏观要素

  从宏观层面来讲,大模型驱动的数据“智”理作用可以体现在如下几个方面:

  l数据消费常态化:数据“智”理可以将传统治理“以管为核”的状态真正推进到“以管为基,以用为核”的数据消费常态化的高级阶段。现代数据“智”理的核心目标是数据消费,即“用好”,而不只是“管好”。虽然说过去数据资产化的目标也是“用”,但经验告诉我们这从来没有真正实现过。为了解决业务无法有效使用数据平台的问题,数据资产化项目往往都是通过面向业务主题重新组织传统数据平台中过于技术化的数据集,通过一大推的数据加工工程建立一个业务人员能看懂、方便用的新业务数据平台(包括数据集与自助探索工具)。但这个过程中最关键的点,即技术到业务的变换从来都无法主体常态化、自动化,无论如何总结积累,都无法避免大量的人工干预,以及随着生产数据不断增长更新带来的重建与维护,导致数据资产化平台成为了一个新的亟需“治理”的数据集合。而大模型数据“智”理则可以将数据属性从技术到业务的转移与转换变成SmartMove与AutoShift,成为面向业务增长与扩展自主适应与自动执行的常态机制;

  l治理工程任务化:数据治理实施中,有大量不可避免的工程性工作,例如进入数据平台之前对数据的清洗,空白值填充,去重,合并;对元数据未知业务语义的补充;对不合格数据的检测与修正......等等。这些工作有的依靠规则性工具辅助人工在一定程度上提升效率,有的需要人工依次定制脚本,有的则必须纯粹依靠人工。当然,也有很多通过经典自然语言处理NLP技术进行语义分析的尝试,但效果都不是很理想。实践证明,大模型出现之前的经典人工智能的效果,严重依赖高质量、大批量的训练数据,特定的场景,以及技术人员对业务的充分深度理解,因此很难实现大范围的有效推广,简单讲:无法成为通用技术设施,很多所谓AI技术中台的概念从来都没有成功过。这些工程工作量大、繁杂,且往往都是数据治理能否顺利产生成效的关键点,从而成为数据治理难以取得常态化成效的主要障碍之一。而大模型的出现,则使人工智能成为通用技术基础设施成为可行。基于大模型技术,可以使上述各类工程从需要通过工具开发、代码开发或者人工执行具体过程的“功能”,升级成为只需要告诉数据平台我需要什么结果的“任务”,即实现“治理工程任务化”,这显然对数据治理工作的实施难度与质效提升有很大的帮助;

  l质效提增平民化:长期从事数据治理工作的人应该知道,如果想提升数据治理的质效,必须由一批有丰富经验、知识与技能的各类业务与技术“专家”才有可能实现。比如写SQL,做报表,修正数据,补充语义等。然而,数据治理的核心目标之一却是“让企业所有需要数据的主体,包括业务、技术、运维甚至客户,都可以方便地使用高质量的数据”。这些需要数据的主体,他们对数据资源质效的要求极为广泛,并且根本无法以规则总结做穷举性工程抽象。因此,即使拥有上述这群“专家”,也只能是达到尴尬的维持状态,很难充分满足实际需求。大模型的出现,可以让任何一个主体,无论他的技能与知识水平如何,只要他知道自己需要什么,只要他知道数据质效哪里有问题,就可以直接以“自然语言要求”来提增质效。比如最容易理解的NL2SQL,不需要写SQL,语言要求就可以自动生成SQL;不需要从数据处理全流程出发修正数据错误,只需要告诉平台哪些数据是错误,下次需要怎样修正;甚至普通的开发人员可以以自然语言实现过去高级开发人员才能实现的计算效率改进问题,普通的运维人员可以以自然语言完成高水平的运维等,即实现“质效提增平民化”。可想而见,这一点将使数据治理及其使用形成完整的正向提升反馈闭环与循环,能够产生的实效无疑是巨大的。

  l数据资源多模化:一直以来,数据治理的主要对象是结构化数据,其所有的体系、流程与工具也大都是针对“表格”。然而,随着数字化的不断深入,以及金融科技向着深度沉浸式感知的客户体验能力进化时,对全结构、多模态的数据资源进行有效的治理已经成为迫在眉睫的重要任务。但是,在金融数据体系中,文音视图等非结构化数据一直没有也不能得到很好的治理,这是因为无论是数据库还是更先进的湖仓平台,其主体能力其实都是面向结构化(包括半结构化)数据的。过去虽然有过很多对非结构化数据统一管理治理的尝试,但由于技术限制,大多类似的工作实质上都只是采用结构化数据管理工具链接文件地址,准确地讲,这种技术方法相当于并没有多模态数据管理治理的能力。大模型技术体系中的向量化技术,以及RAG(检索增强生成),可以非常有效地将文音视图等多模态数据资源与结构化数据管理技术融合起来,包括检索与计算等,从而极大的扩大了数据治理的对象范围,实现“数据资源多模化”。

  3.金融数据“智”理的工程实现

  从工程实现的角度来讲,大模型驱动的数据“智”理的具体点可以体现在如下几个方面:

  3.1 数据预处理:在数据预处理领域,大模型可以发挥明显作用。众所周知,经典的数据治理流程中,都无法绕开数据仓库、湖仓平台或者数据资产平台的建设,而这些工作都需要在数据资源进入平台的前或后进行数据预处理,所谓ETL与ELT,这是一项极为繁杂、坚巨并且重要的工作,然而却往往都代表着大量不可避免的手工工作与人工开发。大模型技术通过学习、并不断迭代积累人的经验,可以很大程度上实现自动化的数据预处理,包括标注、清洗与分类,从而极大程度地提高数据治理的常态化水平与质效,可以包括:

  (1) 对不完整数据语义的标注;

  (2) 通过缺失值处理、异常值检测、数据一致性检查、数据类型转换、数据标准化/归一化、数据去重、数据合并/编码、离散化等等手段进行数据清洗以提升数据的准确性、完整性和一致性;

  (3) 对数据资源进行分类,包括业务分类、技术分类与安全分类。

  3.2 数据质量:除了数据预处理时通过清洗提升数据质量以外,在数据治理流程中,还需要通过数据质量工具检测发现运行流程中的数据质量问题,这种工具也是经典数据治理中的重要环节之一。然而,经典工具往往是通过穷举式规则来实现检测的,先不说这些规则的丰富性、完整性以及在不同单位之间的可迁移性本身就是个问题,当质量问题发现出来以后,工具并不能负责问题的修复,改正问题还是需要人来处理,正所谓“只能发现,不能修正”;同时,大模型也可以在自动规则推荐、异常定位等方面发挥作用。

  (1) 首先,大模型可以辅助发现与定位质量异常。通过对数据资源整体状况的学习,以及对人类修正知识的定向补充,可以更大范围、更加方便地发现数据质量问题,如错误格式、标准不符、重复数据、缺失数据、不一致数据等,定位数据质量问题的源头。

  (2) 其次,大模型具备自动修正数据质量的能力。并且这些能力可以随着大模型工作时间的积累而持续增长。具体来讲,大模型可以自动识别与修正拼写错误,重复记录,数据格式不一致;还可以通过理解数据的上下文,高效处理较为复杂的数据错误,例如在数据集中时间、数值甚至语义序列突然中断时,通过分析上下文推断填补;对有些复杂问题,大模型可以提出改善建议,然后通过人工来选择解决。

  (3) 再者,大模型可以进行质量规则与相关阈值推荐,自动为数据对象推荐/匹配表级和字段级的数据质量规则,以及质量异常阈值等。

  3.3 数据标准:大模型可以用来推进数据标准的企业级高质效制定、充分贯彻与使用维护。

  (1) 首先,就是大模型辅助数据标准制定。这项工作过去主要是由有经验的专家,首先对企业数据标准的内容,包括字段的规范、业务定义、类别等,各项改进的需求,企业现存的部门级、团队级或者零散的标准,以及行业、国家及国际的标准等等进行调研、收集、分析与总结,然后再人工实施制定、整合、校对、审核等工作。现在,则可以把以上所有的调研工作成果当作知识喂给大模型,然后让大模型来自动制定企业级数据标准,再进行人工审核与反馈优化的迭代;如果企业已经有了相关的标准,则可以用大模型来辅助进行审核与完善。

  (2) 再者,就是大模型辅助数据标准的贯彻。前文讲过,其实过去以来的由人工主导的金融数据标准制定工作不能说做的不好,相反来讲,很多相关工作其实做的很全面并且实用,但主要的问题是很难大范围贯彻,其中最核心的原因还是人:无法让需要贯彻标准的所有环节都能有数据标准专家支持。那么,大模型则可以很好的辅助推进该问题的解决。首先,利用大模型对已经制定好的数据标准(可以是以前人工已经制定好的)进行学习,使得大模型本身成为一个标准专家,然后在企业需要实施标准的所有环节,都通过自然语言交互的方式来咨询与处理数据标准问题,这包括运行中的API对接,以及实时交互中的问答等多种方式。这就好像是为每一个数据开发、运维与使用者都配备了一个数据标准专家,其所有产生的效果可想而知。

  (3) 还有就是利用大模型辅助进行标准的维护与更新。企业可以监测、收集业务数据的变化,让大模型辅助提供标准的新增与变更建议,自动及高效地进行数据标准的维护与更新。

  (4) 在实践中,本文认为,对数据标准的智能贯彻与维护,要比自动制定更为实用。

  3.4 主动元数据:数据标准、数据质量与元数据是经典金融数据治理的三大核心,大模型同时还可以用来加强企业元数据管理的能力,推动主动元数据(Self-Service Data Management)策略的实现(从2023到2024年,Gartner Hype Cycle for DataManagement将主动元数据从黑色提升成灰色)。通过对企业数据资源、以及人的经验总结进行全面的学习以后,大模型可以辅助完成元数据自动生成,缺失元数据的补充,技术与业务语义的填充,自动生成元数据摘要、关键词描述等工作,从而真正达到智能元数据管理的水平。具体可以包括如下几个方面的工作:

  (1)元数据侧写(Data Profiling)、补全与挖掘:在元数据治理工作中,大多数企业都存在业务元数据不准确、不全面或者缺失的情况,包括很多表与字段的中文名、业务口径、描述、标签、取值说明等字段,大模型可以通过业务资料学习、元数据侧写(自动收集、分析数据结构、内容、质量、语义、使用情况及相互关系等)、类似元数据发现、挖掘与比对、自动推理与生成等等方法来辅助完成这些工作。实际上,人工完成这些工作也是使用这些方法,但现在,人工怎么做的,就教给大模型来做,从而大大提升质效。

  (2) 数据分类与标签:通过对相关业务分类规则的学习,对行业与国家标准的学习(如分级分类标准),对数据内容样例的学习,大模型可以自动进行数据的分级分类、打标签等工作。这些工作众所周知,过去都是由人工以人天多少字段为单位来实现与计算的,对于那些元数据规模大、复杂并且持续维护需求高的企业,大模型起的作用无疑是巨大的。

  (3) 数据血缘分析与构建:过去,数据血缘大都是通过在开发系统中跟踪、收集ETL/ELT加工过程实现的,这导致首先不在一个加工环节的数据集(如两个独立的数据库)之间的血缘难以建立,其次即使在同一个数据平台(如数仓)上也往往不全面。大模型可以在对这些已有工作学习的基础上,辅以对代码、脚本、文档的解析,对相似血缘范式的抽象与挖掘,给出更加全面的血缘关系发现与构建建议。

  (4) 数据对象与分析方法推荐:大模型可以基于数据使用者的业务职责、操作历史向他们推荐合适的数据对象;还可以再结合数据特征推荐合适的数据分析方法,如如时间序列、回归、线性模型、地理分析等等。

  3.5 非结构化数据:如前文所述,对日益增多并且日益重要的非结构化数据:

  (1) 大模型首先可以通过向量化实现非结构化数据的结构化处理,这会真正把非结构化数据与结构化数据管理工具有机融合在一起(而不只是存储一个文件地址指针);

  (2) 更进一步,大模型还可以从非结构化数据中提取出新的数据与知识,如从文音视图中提取表格、标签和摘要,从而使这些数据易于存储、查询和分析;将客户反馈、社交媒体评论和在线论坛的讨论转化为结构化的客户洞察;对病例报告和临床试验结果等进行结构化处理等。

  (3) 很显然,非结构化数据治理功能的具备,会将金融数据治理的能力推进到一个新的阶段。

  3.6 数据整合和关联:大模型还可以帮助发现数据资源之间的关联:

  (1) 不仅仅发现结构化数据之间的,而且发现文、音、视、图、表格、XML、JSON等各种模态之间数据的内在联系。

  (2) 通过大模型的加持,这种工作在即使缺乏明显关联标识的情况下也能有效工作,还可以学习数据之间的复杂关系和模式,揭示不为人知的洞察。

  (3) 这些能力在之前是很难有效实现的。通过深度广泛的数据整合与关联,可以挖掘出大量过去无法利用的价值数据与知识,这无疑对“以用为核”、以最大化价值释放的为核心目标的现代数据治理实现有着巨大的推动作用。

  3.7 数据增强和合成数据生成:如上还都是利用了大模型超强的分析、挖掘、理解能力,而大模型最强大的“生成数据”能力自然也会极大地提高金融数据治理的水平,或者说将其推进到生成式数据“智”理的新阶段。具体来讲:

  (1) 例如对数据隐私保护和模型训练,自动合成训练数据并辅助样本标准。这些工作一般都是人工准备与标注的,并且对从事人工的“人”要求又极高,有时需要技术与业务能力兼备,所以工作量极大并果往往效果不佳。现在,企业可以用大模型来学习过去优秀的训练数据集,把好的训练数据集的标准通过提示词或者微调的方式告知大模型,将大量的知识存入向量数据库以备RAG使用等等,这样则可以合成高质量交易数据,合成消费记录、信用记录,不良记录,自动完成准确的样本标注等等;

  (2) 除了用于训练,大模型还可以用来自动生成测试数据,脱敏数据等。

  (3) 很显然,除了以上所列,大模型的数据“智”理能力是随着使用与企业业务变化不断自适应与自动加强的,这与依赖于能力静态的工具、以及专家经验及手工工作有着本质性不同的发展前景与地位。

  4.结语

  综上所述,大模型完全可以推动传统数据治理向脱离人工的自动化、随着业务变化自主迭代的自适应化的全新智能阶段跃进,以实现一个消费常态化、功能任务化、增效平民化与数据多模化的新一代数据智理“体”系。这其中核心的原因就是:只要是在现实工作与工程中需要依赖人工经验与手工工作的环节,都可以通过大模型预制化、自动化并且持续自适应迭代强化。而“人”的因素其实是长期以来金融数据治理处于“持续关注,一直欠佳”的尴尬境地的核心原因。更进一步讲,数据“智”理体系已经在范围上大大突破了传统数据治理的范畴,而是代表了金融机构在数字化时代的新型“数智融合”数据体系。

0
相关文章