【第一部分 框架篇】第1章 数据治理行业概述

2025-12-18 18:31 浏览量:380

第一部分 框架

 

本部分系统阐述数据治理的核心理念与“理采存管用”五阶八步方法论,涵盖数据治理的行业背景、典型困境与实施框架,帮助读者建立全局视角,理解数据治理为何做、做什么及如何体系化推进。

 

第1章 数据治理行业概述

1.1. 数据治理与数据管理

1.1.1. 什么是数据治理

数据治理并非一项具体的技术活动,而是一套关乎组织如何对数据行使决策权的顶层体系。

国际数据管理协会(DAMA)将其定义为:“对数据管理工作履行职权和实施管控(规划、实施、监督和执行)的行为”。这一定义揭示了数据治理的核心是“权力”与“控制”,其作用是为组织的数据管理活动建立秩序和规则。

1.1.2. 数据治理与数据管理的关系

DAMA对数据管理的定义侧重于一系列具体的活动集合:“是通过一系列开发、执行和监督活动,保障在数据的整个生命周期中交付、控制和保护数据。”

相对于数据治理的立法角色,数据管理则更接近于执行范畴,即数据治理提供方向和规则,数据管理负责具体实践。数据治理和数据管理是相辅相成、密不可分的统一整体。一方面,数据治理为数据管理提供方向和框架;另一方面,数据管理是数据治理意图得以实现的路径。

图 1 数据治理与数据管理的关系

1.2. 数据治理框架纵览

业界已发展出多个权威的数据治理与管理框架,它们从不同视角为组织提供了系统性的指导,其中最具影响力的就是国际数据管理协会(DAMA,1980年)发布的数据管理知识体系和国标数据管理成熟度评估模型(DCMM,2018年)。理解这些主流框架的核心思想与结构,如同获得多张专业地图,能帮助组织在数据治理中选择最适合自己的路径与工具。

1.2.1. DAMA数据管理框架

DAMA是全球数据管理领域公认的权威机构。其发布的《DAMA数据管理知识体系指南》(简称《DAMA-DMBOOK》)被广泛视为数据管理领域的“百科全书”,它系统性地定义了数据管理的整体范畴、核心术语和最佳实践。

DAMA数据管理框架图(DAMA车轮图)如下。它包含了数据治理、数据架构、数据建模和设计、数据存储和运营、数据安全、数据集成和互操作、文档和内容管理、参考数据和主数据、数据仓库和商务智能、元数据管理、数据质量管理等11个知识领域。

图 2 DAMA数据管理框架图(DAMA车轮图)

(1) 数据治理

数据治理是为数据管理活动确立决策权与问责制的核心框架。它通过制定战略、政策、组织架构和规则,确保数据作为资产得到统一、合规和有效的管理。其根本目标是协调利益相关方,在数据质量、安全、隐私和合规等关键问题上达成共识,从而为所有数据管理活动提供方向、监督和保障,是数据价值得以实现的基石。

(2) 数据架构

数据架构是承载数据战略的顶层设计蓝图,它定义了数据资产的结构、组件、交互关系以及与业务战略的对接方式。其主要内容包括数据模型、数据流设计、数据存储规范以及数据整合的整体规划。其核心作用是构建一个清晰、稳定且可扩展的数据基础框架,确保数据能够高效、一致地在组织内流动与集成,并支撑业务应用与分析的长期演进。

(3) 数据建模与设计

数据建模与设计是将复杂的业务需求转化为精确、可视化数据结构的艺术与科学。它通过创建概念、逻辑和物理数据模型,来定义数据元素、属性、相互关系及约束规则。这一过程的目标是构建出既能准确反映业务现实,又能在数据库中高效实现的可靠蓝图。其关键作用在于为系统开发、数据集成和沟通提供唯一的事实依据,从根本上保障数据的一致性与准确性。

(4) 数据存储与操作

数据存储与操作关注数据在整个生命周期内的“物理”存在与日常运维,涵盖从数据库系统的选型、部署到数据的存储、处理、备份与恢复等全过程。其目标是确保数据在操作型系统中的可用性、完整性与高性能访问,满足日常交易型业务(OLTP)的连续、稳定运行需求。这一领域是数据资产得以安全、可靠存续和流转的基础技术保障。

(5) 数据安全

数据安全旨在通过一系列策略、技术和控制措施,保护数据资产的保密性、完整性和可用性,使其免遭未授权访问、泄露、篡改或破坏。工作内容包括身份认证、访问控制、加密、脱敏、安全审计与监控等。其核心目标是管理数据风险,确保数据在处理、存储和传输的各个环节均符合法律法规与内部政策要求,是建立数据信任和合规运营的防护盾。

(6) 数据集成与互操作

数据集成与互操作致力于打破数据孤岛,实现不同系统、应用和部门间数据的顺畅流动与语义统一。它通过ETL/ELT、实时数据流、API管理及主数据同步等技术,将分散、异构的数据整合为一致、可信的视图。其主要目标是支持业务流程的端到端贯通和跨领域分析,使数据能够在需要的时间、以正确的形式到达需要的地方,是激活数据价值的关键连接器。

(7) 文档与内容管理

文档与内容管理专注于管理非结构化或半结构化数据资产,如文本文件、图像、音频、视频、电子邮件及网页内容等。它涉及内容的捕获、存储、分类、检索、版本控制与归档全流程。其目标是确保这些至关重要的非结构化信息能够像结构化数据一样被安全、高效地保存、查找和利用,从而扩展组织数据资产的边界,支持决策、审计与知识共享。

(8) 参考数据与主数据管理

参考数据与主数据管理聚焦于维护组织中最核心、共享程度最高的基础数据实体(如客户、产品、供应商、员工)及其标准化编码(如国家代码、状态代码)。它旨在通过建立权威的“黄金数据源”,确保这些关键业务实体的定义、标识和属性在全组织范围内具有唯一性、准确性和一致性。其核心作用是消除跨系统间的数据歧义,为业务流程协同和可靠分析提供稳固的基石。

(9) 数据仓库与商务智能

数据仓库与商务智能专注于为分析决策提供数据支持。它通过将来自不同操作型系统的数据经过清洗、转换和集成,加载到专门构建的数据仓库或数据平台中,并在此基础上提供报表、即席查询、在线分析处理和数据可视化等BI能力。其根本目标是将数据转化为易于理解的洞察和信息,直接赋能管理者和业务用户进行绩效监控、趋势分析和战略决策。

(10) 元数据管理

元数据是“关于数据的数据”,而元数据管理则是对这些描述性信息进行捕获、存储、整合、控制和提供访问的系统性工作。它管理的数据包括技术元数据(如表结构)、业务元数据(如指标定义)和操作元数据(如作业日志)。其核心目标是提升数据的可发现性、可理解性、可追溯性和可信度,如同为数据资产绘制详细地图和说明书,是支撑数据治理、质量管理和高效协作的基础服务。

(11) 数据质量管理

数据质量管理是一个持续的定义、监控、评估和改进数据可信度的过程。它通过制定质量规则、执行测量、分析根本原因并推动修正,来确保数据在准确性、完整性、一致性、时效性和有效性等方面持续满足业务需求。其最终目标是让组织能够信任并放心地使用数据驱动决策,直接关乎分析结论的可靠性和业务流程的顺畅度,是释放数据价值的关键保障

1.2.2. DCMM数据管理能力成熟度评估模型

国家标准《GB/T 36073-2018 数据管理能力成熟度评估模型》(DCMM)是我国自主研制并发布的国家标准(GB/T 36073-2018)。它为我国各行业和组织评估、提升数据管理能力提供了一套统一的衡量标尺和改进指南。

DCMM的核心思想是通过成熟度评估,引导组织循序渐进地提升数据管理能力。它将组织的数据管理能力划分为五个从低到高的演进等级(初始级、受管理级、稳健级、量化管理级、优化级),并详细定义了每个等级的特征与要求。该模型的主要内容包括8个核心能力域、28个能力项和5个成熟度等级。

(1) 8个核心能力域

8个核心能力域包括数据战略、数据治理、数据架构、数据应用、数据安全、数据质量、数据标准和数据生命周期,全面覆盖数据治理的关键方面,是评估数据治理能力的具体维度。

图 3 数据管理能力成熟度评估模型

  • 数据战略:组织级数据工作的规划与引领。
  • 数据治理:建立确保数据管理工作有效开展的机制。
  • 数据架构:设计数据的整体结构与管理框架。
  • 数据应用:数据的分析与价值实现过程。
  • 数据安全:数据在生命周期内的保护。
  • 数据质量:数据对业务需求的满足程度。
  • 数据标准:保障数据一致性与准确性的规范。
  • 数据生命周期:数据从产生到消亡的全过程管理。

(2) 28个能力项

28个能力项是将“数据战略”等8大核心能力域落地的具体抓手和实施路径。它们是精细的检查点与操作模块,将每个宏观能力域分解为可定义、可执行、可衡量与可改进的具体管理活动。例如,“数据战略”域下的能力项包括“战略规划”“战略实施”和“战略评估”,清晰地勾勒出从制定、执行到复盘优化的完整管理闭环。通过这28个能力项的详细定义,组织可以对照生成一份可操作的建设与评估清单,精准定位自身在数据标准、质量、安全等各个环节的短板与优势,从而将宏观的数据管理战略,转化为各部门协同一致的具体行动计划,实现数据管理能力的系统性、阶梯式提升。

(3) 5个成熟度等级

5个成熟度等级描述了每个能力项在不同发展阶段应达到的水平,包括初始级、受管理级、稳健级、量化管理级和优化级,为组织提供了清晰的演进路径图。

图 4 DCMM成熟度等级

初始级:数据需求的管理主要是在项目级体现,没有统一的管理流程,主要是被动式管理。

受管理级:组织已意识到数据是资产,根据管理策略的要求制定了管理流程,指定了相关人员进行初步管理。

稳健级:数据已被当做实现组织绩效目标的重要资产,在组织层面制定了系列的标准化管理流程,促进数据管理的规范化。

量化管理级:数据被认为是获取竞争优势的重要资源,数据管理的效率能量化分析和监控。

优化级:数据被认为是组织生存和发展的基础,相关管理流程能实时优化,能在行业内进行最佳实践分享。

1.3. 数据治理前沿趋势

数据治理与人工智能的关系是双向赋能、深度耦合的。一方面,扎实的数据治理是AI价值得以安全、可靠、规模化实现的基石,它通过确保数据的质量、安全、一致与可信,为机器学习模型和高级分析提供了可靠的基础。另一方面,AI技术也正在深刻地重塑数据治理本身,通过自动化、智能化的手段,将治理工作从繁重的手工劳动中解放出来,如自动梳理资源、发现敏感信息、检测数据质量、推荐数据标准、分析数据血缘等,使治理体系能够应对海量、高速、多变的现代数据环境。两者共同构成了数据驱动型组织的智能核心。

当前,前沿的数据治理实践已超越基础的质量与安全管控,正朝着与AI深度协同、以业务价值为导向的智能化方向演进。

1.3.1. Palantir与“本体论”

Palantir是一家总部位于美国硅谷的全球领先大数据分析与人工智能软件公司。它的核心业务是提供能将海量、分散的数据整合并转化为可操作决策的软件平台。其最著名的产品包括服务于政府的Gotham平台、面向企业的Foundry平台,以及生成式AI平台(AIP)。

图 5 Palantir的“本体论”框架

Palantir的独特性和创新性主要在于其提出的“本体论”(Ontology),本质是形成一个可执行、动态演化的业务语义层。Palantir对本体的定义为“构建和管理组织的数字孪生”,通过整合数据、业务逻辑、可执行的行动,将不同数据源映射为规范化的“对象”“关系”“操作”等元素,从而形成一个与现实业务对应的、可计算的动态知识图谱。Palantir将本体视为连接原始数据与业务逻辑的桥梁,它不仅关注数据结构,更强调数据所承载的业务行为与流程,从而实现了从静态数据表达到动态业务语义的跨越。

图 6 Palantir的闭环模式

在这个知识图谱的基础上,平台与AI深度融合,主动执行数据质量监控、健康度评估等治理任务,并通过版本管理,确保数据的可追溯、可重现与可审计。更重要的是,通过前线部署工程师(FDE)团队,深度嵌入客户组织,在短期内构建出解决关键业务问题的具体应用,并将产生的洞察、决策建议乃至自动化行动,推送给一线业务人员与业务系统,实现从数据治理、数据分析到业务行动的闭环。

这一理念的核心价值在于,它构建了一个“数据-决策-行动”的智能操作系统,提供了一种全局化、语境化的决策视角,将复杂业务转化为可直观理解与交互的数字孪生“沙盘”。同时,它将AI深度嵌入到这个由“本体”统一编排的工作流,赋能企业在复杂场景中实现数据驱动的敏捷运营,从根本上缩短了从数据洞察到业务价值的转化链条。

1.3.2. Collibra与“业务驱动”

Collibra是一家专注于“数据智能”的软件公司,成立于2008年。它的核心业务是提供一个统一的平台,帮助企业在整个组织内发现、理解、治理和信任他们的数据。

与传统的技术工具不同,其理念认为,有效的数据治理不应该是IT部门强制执行的一套冰冷规则,而应该来源于业务部门的实际需求和痛点,并让其深度参与。因此,Collibra更侧重于充当一个“协作中心”,通过其自动化、可视化和合规性能力,让业务人员、数据分析师和IT工程师能用同一种语言围绕数据开展工作。

平台的核心是构建一个动态的“业务术语表”,将技术性的数据库字段与业务人员能理解的“客户”“收入”等业务概念直接关联起来,形成清晰、可理解的数据目录,让数据的含义、责任归属和质量情况对业务用户透明可见。这从本质上改变了业务用户的角色——从被动的数据消费者,转变为能够主动定义、使用和反馈数据问题的参与者,从而让治理工作与业务价值紧密结合。

图 7 Collibra的核心模块

同时,AI能力被深度融入治理流程,如自动化数据血缘追踪、智能化创建数据质量规则等。更进一步,近年推出的AI智能助手,支持业务用户使用简单的自然语言提问,例如“我们如何定义‘活跃客户’”,助手便能从平台中即时调取相关的术语定义、数据质量情况和血缘关系。这极大降低了数据查找和理解的门槛,使AI成为连接业务语言与技术资产的智能桥梁。

Collibra成功地将数据治理从一项被动的、以合规为导向的技术任务,转变为一项主动的、以业务价值为导向的战略赋能活动。它通过促进跨职能协作、提升数据透明度和信任度,让数据能够被更快速、更准确地用于决策,从而直接驱动业务增长和创新。

1.3.3. Informatica与“一站式管控”

Informatica是全球领先的数据管理软件提供商,成立于1993年。其业务覆盖数据的集成、治理、质量和安全等全生命周期管理,帮助企业连接散落在各处的数据,并将其治理成高质量、可信赖的数据资产。

作为老牌厂商,Informatica数据治理的核心特色在于其“企业级、平台化的一站式管控”。它并非提供单一工具,而是构建了一个统一、集中、稳定的智能数据管理云平台,将数据集成、质量、目录、隐私和主数据管理等核心治理能力深度整合。这种设计确保了治理策略(如数据标准、质量规则、安全策略)能在跨系统、跨云的数据流动中被一致地定义、执行和审计,从而在复杂的IT环境中建立起可靠的数据秩序与信任基础。

在这一坚实的平台基础上,AI扮演着“效率倍增器”的角色。其内置的CLAIRE AI引擎为平台注入了智能化能力,能够自动发现数据资产、智能推荐分类与质量规则、并绘制数据血缘。这使得传统上繁琐、依赖人工的治理任务实现了高度自动化,显著提升了大规模治理的效率和准确性。

图 8 Informatica的CLAIRE AI引擎

Informatica为企业提供了一个稳定、可扩展的数据治理基础框架。通过平台化的统一管控和智能化的辅助执行,它不仅大幅降低了在混合多云环境中实施大规模治理的复杂性与成本,更确保了流入数据分析、AI应用和业务系统的数据是高质量、安全且合规的。

1.3.4. 华为与“综合治理工程”

华为是全球领先的信息与通信技术解决方案供应商。作为一家产品线复杂、业务遍布全球的“非数字原生”企业,其数据治理历程是一个长达十余年、分阶段推进的系统性工程。初期聚焦“数据清洁与贯通”,解决数据质量与孤岛问题;后期致力于“数据共享与赋能”,实现数据的随需共享、敏捷自助与安全透明;近年来,融入AI技术进行“数智融合”,推动从“数据湖”到“知识湖”的跃迁。

华为数据治理的核心思路是将其视为一项需要顶层设计、体系化保障的“综合治理工程”。其显著特点可概括为“政策、流程、组织、IT”四层协同保障,构建一个跨越孤立系统、承载业务的数字世界。这意味着治理不仅是技术部门的任务,更是通过明确的公司政策、跨部门流程、实体化的数据管理组织以及统一的平台来共同推动,最终支撑业务数字化运营。

图 9 华为数据工作建设思路

为了形成“知识湖”,华为将AI深度融入数据治理与业务流程,通过AI技术赋能治理。例如智能化的数据资产编目、质量监测和标准推荐,将数据准备周期从“月级”压缩至“天级”,极大提升了治理效率。

华为的数据治理实践,为传统企业提供了一条被验证过的、体系化的数字化转型路径。它证明了通过持续、系统的治理投入,可以将数据从分散、低质的成本负担,转化为 清洁、可信、可流通的核心战略资产,驱动业务自动化与模式创新,从而在数字经济时代构筑起差异化的核心竞争力。

 

(或访问:https://xcnoejbrkx3v.feishu.cn/drive/folder/HCXufFf6ilq0ejdF5Hmc3CJhnYf

 

本书采用了开放式共创的编撰模式。我们坚信,内容的可靠性与实践性来自持续的交流与共创。因此,我们诚挚邀请您——每一位关注数据治理的同行者、实践者与思考者——加入本书的共创计划。


如果您在阅读过程中,提出关键修正、贡献具有借鉴价值的优质案例,或补充了不可或缺的核心内容,我们将诚挚邀请您成为本书的共同署名共创者,并参与后续的专题研讨与行业交流,共同推动数据治理领域的实践进步与生态发展。

 

愿这本书不仅是一本指南,更是一次连接行业、凝聚共识、共创未来的行动。

 

 

上一篇:《数据治理实战指南(初稿)》——致正在阅读本书的你

下一篇:专家解读 | 以数据要素驱动超大城市治理数智化转型

  • 分享:
龙石数据
咨询电话: 0512-87811036,18013092598
联系我们
商务联系微信

商务联系微信

0512-87811036,

18013092598

咨询电话