现在一提数据治理大家马上想到企业要先进行数据治理的顶层设计,但对于多很多公司来说,并不需要。因为并没有什么业务值得数据来驱动,或者用简单的报表取数就能满足,当企业已经把数据团队创造业务价值的口子限制住的时候,轰轰烈烈的搞数据治理就成了政治正确。
数字化则是数据治理的催化剂,它是这个时代赋予数据团队最大的红利,因为它让数据团队可以超越原有的职责(报表,取数等等),用数据去创造更多的业务价值,在这个充分使用数据的过程中,数据治理才有了更大的舞台。
业务的差异导致每个企业做的数据治理可能完全不同,在DAMA提到的各类数据治理工作中,是业务决定了你需要在数据治理哪个方面开展工作,因此不要一提数据治理就开始猛搞主数据,参考数据,元数据,数据标准等等,首先要搞清楚你的业务对数据治理的诉求到底是什么。
在这个方面,我们是有教训的。
15年前我们就开始搞数据仓库建模、元数据管理等等,但似乎起了个大早,赶了个晚集,系统建了一大堆,但用得并不是很好,而互联网大厂的数据治理则开始起飞,我一直在想,为什么在这边表现平平的东西到了互联网那里就脱胎换骨了呢?
也许技术环境是一个因素,但更多的恐怕在于业务的需要,当我们用简单的报表,取数就能满足业务需要的时候,的确不需要什么特别的数据治理,而互联网高速发展的数字业务则很需要。
时间到了现在,我们的数据就像当初的互联网一样,也开始面临着全新的业务挑战,至少在三个方面发生了巨大的变化,让我们重新思考企业级数据治理体系的构建。
▎第一,我们需要支撑的业务,变了
从去年开始,我们团队开始到陌生的一个领域去做数字化转型支撑,即尝试通过优化企业的核心业务流程来提升运营效率,自己写过一篇企业数字化转型的文章《自底向上,数字化转型的实践和思考》,谈到了这个事情,提及了面临的挑战。
我们发现这些流程大多是跨领域的,如果拿不到全域的数据,就无法做完整的分析,所谓优化流程也就成了纸上谈兵,而很多数据并不在我们原有掌控范围之内。
但在跨域数据的汇通中,我们往往不知道这个新流程对应的数据在哪个系统,这些系统有哪些数据模型,这些模型有哪些属性,模型之间又是什么样的关系,这需要我们重新花大量时间通过线下访谈的方式了解数据的来龙去脉。
虽然当前的大数据平台也有数据资产目录,但那个目录是已经汇聚到大数据平台的数据资产目录,而企业级的数据资产目录,必须是要管到源端系统的,即从OLAP延伸到OLTP。
而企业各个领域只有给出自己的领域资产目录,我们才能形成真正的企业级数据资产目录,才能让数据真正的找得到,看得懂,虽然仅仅差了“企业”两个字,但内涵差了很多,难度差了很多,价值更是天壤之别。
我们也发现,数字化转型对于数据汇通的时效性要求特别高,以前还能忍受的数据采集周期现在不太行了,但要提升采集效率可不是那么简单,需要面对既定的审批流程、严格的安全审核及较长的开发周期的挑战。
正是在这个数字化业务的背景下,促使我们重新思考构建企业级数据治理体系的必要性,我们以前不是没有数据治理,只是不够体系化,深度和广度也还不够,在面对范围更广,要求更高的企业级数字化转型的背景下,重新暴露出了数据找不到,看不懂,不及时等现实问题。
这是一次新的轮回。
我们当年靠一次项目打造的大数据平台,汇聚的那些数据资产,在过去几年发挥出了相当的价值,但它们已经完成了第一阶段的使命,数字化转型要求我们的数据治理再次起航,这是业务驱动的结果,也是生产关系适配新时期生产力的要求。
▎第二,我们需要支撑的模式,变了
显然,我们不可能把数字化业务都自己干了,企业的数据团队必需致力于去打造一个数据开放的生态,让所有具备数据能力的内外伙伴都能基于开放的数据创造价值,让数据要素全面流动起来才能发挥出数据的最大价值,我们对一线的支持模式,更多应是园丁和教练的角色,而不要越俎代庖。
从对内支撑的角度看,经过几年的运营,现在公司会点SQL的人员都超过X000人,如果能把数据充分开放给他们,其创造的价值将不可估量。拿建模来说,一线做的模型永远是比坐在办公室的建模师更接地气,他们最需要的,其实是开放的数据。
从对外变现的角度看,如果所有的合作伙伴都能基于我们开放的数据自由的、安全的进行建模和应用创新,那创造的价值也肯定几何倍数于现在的变现规模,从这个角度讲,虽然推进数据的开放本身不算业务,但它对我们数据团队来讲就是最大的业务。
我们最近几年一直在努力打造数据中台,希望通过数据中台去更好的开放数据,但真的要开放数据可并不是那么容易,至少有三个方面的问题迫切需要得到解决。
首先,数据开放的周期偏长。
以前我们开放数据的流程还是比较长的,需求人先要通过线下的方式从源端了解到数据表的相关信息,然后在线提交开放需求,审批完后由运维团队实施数据交换操作,一般的开放周期需要3-4天,有时会超过1周。
近年来我们打造了数据服务中心,将大数据平台的已有资产挂到了对外开放的服务目录里,内部用户可以采取订阅的方式方便的获得数据,当前对于低敏感级的数据开放周期,平均降低到了1个小时,效率提升了很多倍。
但我们当前开放的数据资产范围还是受限的,比如一旦源端数据没采集进来,那么开放的周期就完全不可控,而一旦数据涉敏,那开放的周期就更长了。
我们需要思考如何将“共享为原则,不共享为例外”的原则真正的落地,需要思考如何跟各部门协同,共同努力将管理原则标准化、代码化,自动化,确保流程最优、最简、最智能,企业也需要有数据开放的服务承诺SLA。
其次,数据开放的模式有限。
我们当前数据开放的形式只包括数据表、API等形式,但这些开放模式还远远满足不了对外变现的需要,我们至今还没有打造出比较灵活的、安全的、能够规模化应用的对外PaaS服务,让我们的客户可以自由的使用数据,我们也没有彻底解决多方数据联合计算的安全问题,虽然我们已经有了一些进展,但离规模化还有很长的路要走。
最后,数据开放体验还不够好。
最近自己去浏览了浙江省的数据开放网站,发现这个网站的数据开放体验挺好,特别是看到浙江政务网还有个老人版的入口,很是贴心。
我们当前构建的数据服务中心,还是更多的从技术角度去做设计,面向的开放对象更多是开发者的角色,这限制了其适用范围。我们并没有从阿里云等网站学到做这种产品的真正精髓,总是急着实现功能,把用户体验晾在一边,大量的线下咨询一定程度上是效率低下的代名词,在数据开放上,体验就是生产力。
▎第三,我们需要使用的数据,变了
我们几年前开始实施对外数据价值变现,在低垂的数据果实被摘完后,现在也开始凸显出数据的瓶颈。
有几次同事就跟我讲,在跟某部门交流时发现某个数据很有价值,需要把这个数据尽快采集过来,我就会眼前一亮,同时也有点困惑,像现在这样,今天发现一点,采集一点,明天发现一点,采集一点,何年是个头呢?
当然这个问题可以通过企业级资产目录的构建来解决。
但我也知道自身企业的数据始终是有限的,数据团队需要站位更高一点,看得更远一点,要能更多的与集团,外部单位去协同,去打造出一个合作共赢的数据共享生态,只有这样才能为企业数字化转型奠定更好的数据基础,而这显然是无法靠个人英雄主义或单个部门的力量能解决的,我们需要企业或更高的站位。
正是以上三个“变化”,让我感到后续要做的企业级数据治理的工作是明确的,甚至可以有明确的指标来衡量企业级数据治理的效果,比如跨域数据汇通时长、数据开放时长、PaaS服务收入等等,为了达成以上目标,我想至少要推进“四件事情”:
第一,进一步明确企业级数据管理组织和领域数据责任人的职责,在这个方面,公司将给予支持。
第二,完善企业级数据资产目录的机制和流程,优化企业级数据治理平台,实现源端资产的补录,保证常态化汇通效率。
第三,提升企业级数据开放的速度和体验,升级数据服务中心为数据开放平台,向用户承诺数据开放的SLA。
第四,推进多方数据的协同,比如多方安全计算、Pass、大数据+公有云产品的研发和商业应用。
但即使这样,我心还有戚戚,因为怕企业级数据治理的业务产出不够,万一执行还不到位,就会空耗企业的管理成本。
因此,如果你家的数据支持的业务没变,或者并未感受到强烈的业务驱动,那么开展企业级数据治理就要三思而后行,因为不会有业务方为你的治理买单。