数据治理是一个系统性过程,旨在通过遵循内部制定的标准和策略,来管理企业系统中数据的可用性、完整性及安全性。其核心在于确保数据的一致性和准确性,使之成为企业运营和业务决策不可或缺的基石。随着数据隐私法规的不断扩展和数据分析在优化运营、推动决策方面的重要性日益凸显,有效的数据治理变得愈发关键。它不仅能够助力企业合规运营,还能提升数据质量,为企业的长远发展奠定坚实的基础。
一个设计精良的数据治理计划,是构建于多元化角色与职责的坚实基础之上。
这一计划中,高级管理人员扮演着监督者的角色,确保数据治理战略与企业愿景紧密相连。同时,治理团队则负责计划的日常管理,确保各项措施得到有效推进。此外,一个由跨部门专家组成的指导委员会或委员会,作为管理机构,为数据治理提供战略指导和决策支持。
还有数据管理员,他们是这一体系中的执行者,根据既定的标准和策略,负责实施和执行具体的治理程序,确保数据的准确性、一致性和安全性。值得注意的是,理想的数据治理计划不仅限于IT和数据管理团队的努力,它还积极吸纳来自业务运营部门的高管和其他关键代表,他们的参与为数据治理注入了业务洞察和实践智慧,使得治理策略更加贴近实际需求,促进数据价值的最大化利用。
通过这样多方协同、职责分明的架构,数据治理计划得以全面覆盖数据的全生命周期,为企业的数字化转型和战略决策提供强有力的支撑。
为什么数据治理很重要?
如果没有有效的数据治理,整个组织内不同系统中的数据不一致可能无法得到解决。例如,客户名称在销售、物流和客户服务系统中的列出方式有时不同。如果不解决这个问题,可能会使数据集成工作复杂化,导致这些部门出现运营问题,并产生影响商业智能 (BI)、企业报告和数据科学应用程序准确性的数据完整性问题。此外,可能无法识别和修复数据错误,从而进一步影响分析准确性。
糟糕的数据治理也会阻碍监管合规计划。这可能会给需要遵守越来越多的数据隐私和保护法律的公司带来问题,例如欧盟的 GDPR 和加州消费者隐私法案 (CCPA)。企业数据治理计划通常包括开发适用于所有业务系统的通用数据定义和标准数据格式,从而提高数据一致性,用于业务用途并帮助满足法规要求。
这些是制定数据治理计划的一些主要原因。
目标和优势是什么?
数据治理的一个关键目标是打破组织中的数据孤岛。当各个业务部门在没有集中协调或企业数据架构的情况下部署单独的事务处理系统时,通常会建立这种孤岛。数据治理旨在通过协作流程协调这些系统中的数据,让各个业务部门的利益相关者参与其中。
另一个数据管理目标是确保正确使用数据,既可以避免将数据错误引入系统,又可以阻止有关客户的个人数据和其他敏感信息的潜在滥用。这可以通过制定统一的数据使用政策,以及监控使用情况和持续执行政策的程序来实现。此外,数据治理有助于在数据收集实践和隐私要求之间取得平衡。
除了更准确的分析和更强的法规遵从性外,数据管理提供的好处包括:1)提高了数据质量;2)降低数据管理成本;3)增加了数据科学家、其他分析师和业务用户对所需数据的访问;4)基于更好的数据做出更明智的业务决策;5)理想情况下,提升竞争优势以及增加收入和利润。
谁负责数据治理?
在大多数组织中,数据治理流程涉及不同的人员。这包括业务主管、数据管理专业人员和 IT 员工,以及熟悉组织系统中相关数据域的最终用户。这些是关键参与者及其主要治理职责。
1)首席数据官。首席数据官 (CDO)(如果有的话)通常是负责监督数据治理计划并对其成功或失败负有高级责任的高级管理人员。CDO 的职责包括确保该计划的批准、资金和人员配备;在设置过程中发挥主导作用;监测其进展;并在内部充当 IT 的倡导者。如果一个组织没有 CDO,另一位最高管理层通常会担任执行发起人并处理相同的职能。
2)数据治理经理和团队。在某些情况下,CDO 或同等的高管(例如企业数据管理总监)也可能是实际操作的数据治理项目经理。在其他情况下,组织会指定一名数据管理经理或负责人专门来运行该计划。无论哪种方式,项目经理通常领导一个全职处理该计划的数据治理团队。有时更正式的名称是数据治理办公室,它协调流程、主持会议和培训课程、跟踪指标、管理内部通信并执行其他管理任务。
3)数据治理委员会/理事会。不过,治理团队通常不做出策略或标准决策。这是数据治理委员会或委员会的职责,该委员会主要由业务主管和其他数据所有者组成。该委员会批准基础数据治理策略以及有关数据访问和使用等方面的相关策略和规则,以及实施这些策略和规则的程序。它还可以解决争议,例如不同业务部门之间在数据定义和格式方面的分歧。
4)数据管家。数据管理员的职责包括监督数据集以保持其井然有序。他们还负责确保实施数据管理委员会批准的政策和规则,并确保最终用户遵守这些政策和规则。通常任命了解特定数据资产和域的工作人员来处理数据管理角色。这在一些公司是全职工作,在另一些公司是兼职职位。还可以混合使用 IT 和业务数据管理员。
数据架构师、数据建模师以及数据质量分析师和工程师通常也是治理流程的一部分。此外,业务用户和分析团队必须接受有关数据管理策略和数据标准的培训,以帮助防止他们以错误或不适当的方式使用数据。
框架如何制定?
数据治理框架由作为治理计划的一部分实施的策略、规则、流程、组织结构和技术组成。它还阐明了该计划的使命宣言、目标以及如何衡量其成功等内容。框架中还规定了将成为该计划一部分的各种职能的决策责任和问责制。组织的治理框架应该记录在案并在内部共享,以便所有相关人员都清楚地知道该计划将如何运作。
在技术方面,数据治理软件可用于自动化管理治理计划的各个方面。虽然数据治理工具不是强制性的框架组件,但它们支持治理流程中的关键功能,包括:1)程序和工作流程管理;2)协作;3)制定治理政策;4)流程文档;5)数据映射和分类;6)创建数据目录和业务术语表;7)该软件还可以与数据质量、元数据管理和主数据管理 (MDM) 工具结合使用,以协助治理工作。
如何实施?
数据管理应该是组织的一项战略计划。创建数据管理策略要采取的步骤包括以下待办事项作为起点:1)识别数据资产和现有的非正式治理流程;2)提高最终用户的数据素养和技能;3)决定如何衡量治理计划的成功。
在实施数据治理框架之前,另一个所需的初始步骤是确定企业中不同数据资产的所有者或保管人,并让他们(或指定的代理人)参与治理计划。然后,首席数据官、执行发起人或专门的数据管理经理牵头创建计划的结构。这包括为数据治理团队配备人员、确定数据管家和正式确定治理委员会。
一旦结构就位,治理数据的真正工作就开始了。必须制定数据管理策略和数据标准,以及定义授权人员如何使用数据的规则。此外,还需要一套控制和审计程序来确保持续遵守内部策略和外部法规,并保证在应用程序之间以一致的方式使用数据。治理团队还应记录数据的来源、存储位置以及如何保护数据免受滥用和安全攻击。
如上一节所述,数据管理计划通常还包括以下元素:
数据映射和分类。映射系统中的数据有助于记录数据资产以及数据在组织中的流动方式。然后,可以根据各种因素对不同的数据集进行分类,例如它们是否包含个人信息或其他敏感数据。分类会影响数据管理策略应用于单个数据集的方式。
业务术语表。业务术语表包含组织中使用的业务术语和概念的定义 -- 例如,什么是活跃客户。通过帮助建立业务数据的通用词汇表,业务术语表可以帮助治理工作。
数据目录。数据目录从系统中收集元数据,并使用它来创建可用数据资产的索引清单,其中包括数据沿袭详细信息、搜索功能和协作工具。有关数据管理策略和实施这些策略的自动化机制的信息也可以内置到数据目录中。
有哪些实战经验?
由于数据管理通常会对数据的处理和使用方式施加限制,因此在组织中可能会引起争议。IT 和数据管理团队普遍担心的一个问题是,如果他们领导数据治理计划,他们会被业务用户视为“数据警察”。为了促进业务支持并避免对治理策略的抵制,经验丰富的数据治理经理和行业顾问建议计划以业务为导向,数据所有者参与其中,数据治理委员会就标准、政策和规则做出决策。
数据治理培训和教育是举措的必要组成部分。特别是,业务用户和数据分析师必须熟悉数据使用规则、隐私要求以及他们自己的责任,以帮助保持数据集的一致性。还必须与公司高管、业务经理和最终用户就数据治理计划的进度进行持续沟通。这可以通过报告、电子邮件通讯、研讨会和其他外展方法的组合来处理。
其他要采用的数据治理实践经验包括:尽可能在靠近源系统的地方应用数据安全和隐私规则,在组织的每个级别制定适当的治理策略,以及定期审查治理策略。
Gartner 分析师 Saul Judah 推荐了一种自适应数据治理方法,该方法将不同的治理策略和风格应用于各个业务流程。他还列出了成功治理数据和分析应用程序的七个基础:1)关注业务价值和组织成果;2)关于数据问责制和决策权的内部协议;3)一种基于信任的治理模型,依赖于数据沿袭和管理;4)遵循一系列道德原则的透明决策;5)风险管理和数据安全作为核心治理组件;6)持续的教育和培训,并有机制来监测其有效性;7)鼓励广泛参与的协作文化和治理流程。
面临哪些挑战?
通常,数据治理工作的早期步骤可能是最困难的,因为组织的不同部分通常对关键数据实体(例如客户或产品)的看法不同。这些差异必须作为数据管理流程的一部分来解决,例如,通过就通用数据定义和格式达成一致。这可能是一项令人担忧和烦躁的工作,这就是为什么数据治理委员会需要一个明确的争议解决程序。
以下是组织面临的其他一些常见数据治理挑战。
1)展示其商业价值。如果没有数据治理计划预期业务优势的前期文档,获得批准、资助和支持可能会很困难。Askham 在 2023 年 9 月的博客文章中表示,企业高管需要在治理计划开始时就了解组织为什么要投资它以及它对他们有什么好处。她写道,建立业务驱动因素“可以更轻松地与高级利益相关者接触并向高级利益相关者推销 [一项] 计划”。
2)持续展示业务价值需要开发可量化的治理指标,尤其是在数据质量改进方面。这可能包括每季度解决的数据错误数量,以及由此带来的收入增加或成本节省。此外,常见的数据质量指标还衡量数据集的准确性和错误率以及相关属性,例如数据完整性和一致性。也可用于显示治理计划价值的其他类型的指标包括业务用户的数据素养水平和对数据管理原则的认识。
3)确保足够的资源和技能。作为为治理计划提供资金的一部分,组织需要确保从领导层开始为其分配所需的资源。让合适的参与者参与进来也很重要。正如 Askham 所写的那样,“任命错误的人担任关键角色可能会导致任何经过深思熟虑的举措很快落空。在某些情况下,可能需要聘请经验丰富的员工来为数据治理团队配备人员,或引入外部顾问来帮助制定计划。
4)在云中治理数据。随着组织在云中部署更多应用程序并将现有应用程序迁移到云中,云提供商会管理数据安全和数据隐私法规合规性的某些方面。但公司仍然负责整个数据治理,并且在云中与本地系统存在相同的问题。例如,在数据驻留和数据主权的概念下,可能需要将不同的数据集存储在特定的地理区域,并根据各个国家/地区的法律进行管理,以避免隐私合规性问题。这可能会阻止公司将数据整合到一个位置并以统一的方式对其进行管理。
5)支持自助式分析。向自助式 BI 和分析的转变带来了新的数据治理挑战,因为数据将交到组织中的更多用户手中。治理计划必须确保数据准确且可访问,但也要确保自助服务用户(业务分析师、高管和公民数据科学家等)不会滥用数据或违反数据隐私和安全限制。用于实时分析的流数据使这些工作进一步复杂化。
6)治理大数据。大数据系统的部署也增加了新的治理需求和挑战。数据治理计划传统上侧重于存储在关系数据库中的结构化数据,但现在它们必须处理大数据环境通常包含的不同类型的数据 -- 结构化、非结构化和半结构化。各种数据平台,包括 Hadoop 和 Spark 系统、NoSQL 数据库和云对象存储,现在也很常见。此外,大数据集通常以原始形式存储在数据湖中,然后根据需要进行筛选以供分析使用,这进一步使数据治理复杂化。这同样适用于数据湖仓一体,这是一种较新的技术,它结合了数据湖的元素和用于保存结构化数据进行分析的传统数据仓库。
7)管理期望和内部变化。数据治理通常是一个缓慢的过程,因此项目负责人需要对进度设定切合实际的期望。否则,业务主管和用户可能会开始质疑程序是否走在正确的轨道上。许多治理计划还涉及重大变化,包括运营和文化变化。如果治理计划中没有构建可靠的变革管理计划,这可能会导致内部问题和员工抵制。
数据治理的关键点是什么?
数据治理计划以整个数据管理流程的其他几个方面为基础。最值得注意的是,这些方面包括以下内容:
1)数据管理。如前所述,数据专员负责组织的一部分数据。数据管理员还帮助实施和执行数据管理策略。通常,他们是精通数据的业务用户,是各自领域的主题专家。数据管理员与数据质量分析师、数据库管理员和其他数据管理专业人员协作。他们还与业务部门合作,以确定数据需求和问题。
2)数据质量。数据治理活动背后的最大驱动力之一是创建高质量的数据。跨系统的数据准确性、完整性和一致性是成功治理计划的关键标志。数据清理(也称为数据清理)可修复数据错误和不一致;它还关联并删除相同数据元素的重复实例,以协调客户或产品在不同系统中的列出方式。数据质量工具通过数据概要分析、解析和匹配功能等功能提供这些功能。
3)主数据管理。MDM 是另一个与数据治理流程密切相关的数据管理学科。MDM 计划建立了一组关于客户、产品和其他业务实体的主数据,以帮助确保数据在整个组织的不同系统中保持一致。因此,MDM 自然而然地与数据治理相吻合。但是,与治理计划一样,MDM 工作可能会在组织中引起争议,因为部门和业务部门之间在如何格式化主数据方面存在差异。此外,MDM 的复杂性限制了它的采用。为了减轻繁重的负担,人们已经转向专门由数据管理目标驱动的较小规模的 MDM 项目。
数据治理也与信息治理相关,信息治理更广泛地关注组织中的整体信息使用方式。在高层次上,数据治理可以被视为信息治理的一个组成部分,但它们通常被认为是具有相似目标的独立学科。
主要覆盖哪些业务领域?
有效的数据治理是管理操作系统中使用的数据的核心,也是管理数据仓库、小型数据集市和数据湖提供的 BI 和数据科学应用程序的核心。它也是数字化转型计划的一个特别重要的组成部分,它可以帮助其他企业流程,例如风险管理、业务流程管理和并购。
随着数据及其在组织中的用途的重要性不断扩大,以及新技术的出现,数据治理流程可能会得到更广泛的应用。备受瞩目的数据泄露以及 GDPR 和 CCPA 等法律已经使将隐私保护纳入数据治理策略成为治理工作的核心部分。此外,还越来越需要管理机器学习算法、生成式 AI 工具和其他 AI 技术使用和创建的数据。Gartner 预测,由于治理缺陷,到 2027 年,60% 的组织将无法实现 AI 应用程序的预期商业价值。