岁末年初,一般是各家公司进行复盘与梳理的重要时期。在此期间,企业通常会回顾过去一年的运营情况,总结经验教训,同时规划新一年的发展方向,这也是很多“新年茶话会”的灵魂议题。但如果把这样的场面进行乾坤大挪移,搬到数据治理领域,结果会发生什么?
设想一下,如果是一群深耕数据开发或者是数据架构的专业人士“围炉共话”,猜猜他们会说些什么?是如何摆平复杂的数据架构?数据分布?数据流?数据模型……确实,这些都是数据治理必须要攻克的难题!
但在分享各种实操经验之前,大佬们通常会先送你一个忠告:若非必要,能不做数据治理就不要做,也就是我们常说的“躺平”!
What?外行人听到这句话后,会惊呼:原来呼兰的“承重墙”段子梗无处不在呀!但圈内人士听到这个说法,会把头晃成鸡啄米状,表示深度赞同。数据治理被称为是“下水道工程”,做不好挨骂还不说,很可能会导致自己卷铺盖卷走人。
为什么要做数据治理?
既然数据治理是个“烂摊子”,那么为什么很多人还在周而复始地做数据治理?原因有很多,大概可以归为3类:
1.信创
所谓“信创”,是指信息技术自主可控,让核心的关键业务系统掌握在自己的手中。而关键业务系统之所以重要,是因为承载着大量重要数据。从这个角度来说,数据是信创发展的基石,而要想确保数据的准确性、一致性、完整性和安全性,则需要做充分的数据治理。本质上,不管是数据精细化管理,还是数据可视化管理,都是在确保数据安全的前提下进行模式、趋势和规律的研究,以提高数据的利用率和价值。
可以说,在大型央国企发展过程中,推动信创一体化建设是“刚需”,不能有半点马虎。为了提升数字化水平,进一步提升管理效能,必须解决之前数据分散、整合困难、信息传递不畅、决策依据不充分、缺乏统一管理平台等难点问题。此种背景下,以数据互通共享、智能数据分析与应用为主要目标的数据治理,成为信创过程中的重要工作。
2.降本
央国企是信创推动,不做数据治理不行。而对于大多数非央国企而言,如果不是成本问题居高不下,可能没人主动去做“数据治理”。大多数情况是,随着企业业务运营压力变大,各个部门都要想办法控制成本。一家知名企业大数据技术总监讲了一个笑话:你以为的HR是管人,实际上的 HR不仅关心团队建设及人员裁撤,还会关心底层技术问题,比如HR会问:你的CPU利用率为什么不是100%,而是60%。
不得不说,HR发挥的作用,有时候是正向的,可以推动企业进行数据治理。但有时过于严苛的KPI及绩效考核体系,也会让数据工程师望而生畏。比如:一位前辈吐槽道,公司打算做一个数据平台。到底怎样做?涉及很多技术栈,可能会包括关系型数据库、非关系型数据库,甚至还会有虚拟化技术、数据编织等内容。想不到的是,让人感觉头疼的问题,竟然不是技术有多复杂,而是公司的投入产出比考核,真的没办法评估。
3.让数据变现
随着大模型时代的到来,数据的重要性日益凸显。大模型要想真正引入业务场景,需要价值密度高、逻辑性强、动态且鲜活的数据去支撑。而好的数据治理,可以让数据变得更干净,从而训练出更好的模型,催生出更好的应用。所以,大模型时代数据治理变得更加重要,是数据能否实现业务价值的关键能力。
数据治理:治什么?理什么?
显然,数据治理虽然是个“坎儿”,但关键时刻必须得去折腾。问题是,如何避免反复折腾,实现标本兼治的目标?首先,我们得把治理目标搞清楚!
数据治理是个大工程,有人形象地比喻为是大禹治水,涉及“修堤建坝河流改道”等复杂工序。具体而言,数据治理是通过一系列过程实现决策权和职责分工的系统,并且这些过程要按照达成共识的模型来执行任务。即谁(Who),在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。
在现实业务环境下,数据治理可以做得很大,需要通过制定统一的标准、流程和规范来确保数据可用,同时还需要很多专业的技术能力,比如:埋点管理、模型建设、数据质量、资产管理、成本优化、数据血缘、统一权限管理等问题。另外,数据治理也可以做得很小,不用把所有数据都捋一遍,可以从解决某一业务需求角度切入。
举一个反面例子:大型央企做数据治理,一般都是大活,翻来翻去折腾完不容易。但做完一个星期后,刚好疫情来了,四年过去后,所有数据都已经改变,之前的工作等于白干。所以,若不是从零开始建设数据平台,就不要随便折腾。做数据治理之前,需要想明白你在干什么,什么应用能直接受益。如果没有目标,做了数据治理也没什么意义,看上去很高大上,实则是技术人员的自嗨!
那么,问题又来了,如果是哪个业务部门有需求,或者哪个业务数据出了问题,就集中治理哪个业务,会进入另一个怪圈,那就是“头痛医头,脚痛医脚”,缺乏全局视角。比如:一旦信创工作开启,如果过去没考虑过顶层规划问题,很难有序开展工作。所以,在数据治理过程中,既要满足当下业务需求,也要开启上帝视角,兼顾长远发展。
从成本层面切入,关注ROI转化
最简单的方式是,我们不妨从ROI转化层面去切入数据治理。以某一大型互联网企业为例,之所以觉得数据治理非做不可,是因为看到了几个重要数据:1)成本增速大于业绩增长;2)成本在总IT成本中占比45%;3)人均拥有数据资产接近70个;4)人均维护数据资产达到600个以上。所以,数据治理的前期目标是,让成本降下来,让人均拥有的应用数降低,减轻维护的压力。
之后,这家互联网企业进行了一系列的调整。首先是定策略,实现降存量、治增量、控风险和可运营的目标。以降存量为例,需要对资产确权,明确责任,识别ROI数据,然后通过具体的治理方法,删除无用的表、任务、文件等,同时缩短存储周期,以更廉价的存储方式存储数据。更重要的是,对长期无访问、建模不合理、埋点不合理的情况进行了全面整治,尤其改变了无元数据管理的现象。
大体来看,这家企业的核心策略是,抓大放小和去重复。不管是DB入仓、日志入仓,还是实时入仓、文件上传,一定要通过数据强规范的方式管住入口,包括信息规范、资源成本、数据价值、数据质量和数据安全等,都有相应的规范和具体的量化指标。去重复,重点关注的是日志文件与ODS的重复,还有表结构相似度的问题。
在重点的血缘关系建立上,需要借助Atlas 数据管理和分析平台构建和维护关系,这些数据可以是表、列、文件、目录等,它们之间的血缘关系可以是数据传输、数据转换、数据衍生等。通过血缘关系,数据的使用者可以了解数据的来源、用途和变化情况,实现数据管理和分析目的。期间,除了Atlas平台的使用,整个数据平台还要有任务ID识别能力,并且通过拦截SQL补充血缘。在血缘关系应用时,给定一个资产,就能找到数据应用;给定一个数据应用,就能找全整个ETL链路。
工欲善其事,必先利其器。选择适用的工具是数据治理的一大难题,数据技术栈很大,工具很丰富,但无需赶时髦,全部都拿来为我所用。大多时候,保持简单的数据架构和数据应用,反而能回到最初的美好。
其实,在大模型如火如荼的背景下,说服领导进行开展数据治理不难。如今,很多企业都已经有了垂直大模型应用探索,只是还比较初级,可能只是实现了从0到1这样一个产品形态,如何实现从1到100的完整业务覆盖?还需要进一步探索,比如:如何实现字段级别的血缘关系建立?如何从知识图谱的优化去构建更宏观的技术能力?如何通过RAG、Agent这些AI原生的技术手段实现数据治理价值最大化?相信,这些都是数据技术从业者普遍关心的问题!
结语:
让数据治理告别“下水道工程”,靠“躺平”肯定行不通。如果说,数据治理是一场“修行”,我们可以借助前人的经验,尽量避免采坑。比如,通过One Data第一性原理,我们可以打造以不变应万变的一体化数字底座。另外,我们可以多问自己一些灵魂问题:企业整体的数据分布该怎么做,数据流是什么,如何建立全局可观测的能力等等。同时,并不是所有的能力都靠外部工具和平台解决,我们需要打造自服务的DIY能力,解决提数不方便,用数都要靠IT的现状。总之,方法总比困难多,我们既要躬身入局,同时更要开上帝视角。