1.1. 概述与关键概念
1.1.1. 主数据的定义
根据国家标准《GB/T 36073-2018 数据管理能力成熟度评估模型》中的定义,主数据是组织中需要跨系统、跨部门进行共享的核心业务实体数据。这与DAMA对主数据的解释相似,即“主数据是关于业务实体的数据,如员工、客户、产品、财务结构、资产和地理位置等”。主数据具有跨越部门、跨越业务、跨越流程、跨越系统和跨越技术的关键特征。
1.1.2. 主数据管理的目标
Gartner将主数据管理定义为:“一个技术驱动的知识领域,由业务和技术部门共同协作,以确保企业共享主数据资产的统一性、准确性、可管理性、语义一致性并支持问责制。”
主数据管理的核心目标在于将分散在不同业务系统中的核心数据资产进行有效整合与治理,通过统一的数据标准、规范的流程和集成的服务,构建组织范围内一致、准确、可信的数据基础。这一过程由业务与IT部门协同推进,实现对关键数据的集中管控、高效共享与持续优化,从而支撑业务流程协同、运营效率提升与数据驱动决策。
具体而言,主数据管理的目标可归纳为以下三个方面:
(1)保障数据一致性,降低交互成本
通过建立统一的主数据编码与分发机制,确保客户、产品等核心数据在所有异构系统间保持语义与标识的一致。这有效消除了跨系统数据交互时的转换与映射开销,减少了因数据歧义导致的核对、统计错误,为业务流程协同与数据分析提供了可靠的数据基础。
(2)建立标准化体系,强化数据管控
通过构建涵盖组织、流程、规则的主数据管控与运维体系,明确数据权责与管理规范。这为数据的集成、共享与应用建立了稳定、高效的运行框架,从制度和技术层面共同强化了企业数据的标准化水平与可控性。
(3)提升数据源质量,构建权威来源
通过集中的数据清洗、标准化流程以及内置的质量校验规则,对主数据进行有效的源头控制与持续治理。这显著降低了因人工操作等因素导致的数据问题,生产并维护高质量的“黄金记录”,为企业提供一致、完整的权威数据视图。
1.1.3. 关键概念
1.1.3.1. 黄金记录
在主数据管理领域,“黄金记录” 是一个核心的业界通用术语,特指经过治理后、代表某一业务实体(如客户、产品)最准确、最完整且唯一权威的数据记录。它被认为是该实体“事实的最佳版本”,并存储在可信的数据来源中。
黄金记录的形成依赖于多源数据的整合、清洗与匹配,通过算法识别和人工确认相结合的方式,确保实体信息的唯一性与准确性。作为企业级数据共享的权威基准,黄金记录不仅为各业务系统提供一致的数据参考,还支持上下游流程的自动化协同与决策分析的精准化,是实现数据资产价值最大化的关键环节。
1.1.4. 其他模块的关系
1.1.4.1. 主数据与数据模型
数据模型管理为主数据定义结构蓝图。数据模型在概念和逻辑层面刻画了核心业务实体(如客户、产品)的理想状态——实体定义、属性、关系及业务规则。主数据管理则是实现并维系这一蓝图的具体实践,它通过一系列治理流程和技术手段,确保分布在多个系统中的、关于同一实体的实例数据,能够与模型中定义的规范保持一致,从而形成企业唯一的、可信的黄金记录。
1.1.4.2. 主数据与元数据
元数据为主数据提供业务上下文与管理依据。元数据描述了主数据的背景、含义、来源与关系,包括业务定义(业务元数据)、技术结构(技术元数据)与操作流程(操作元数据)。主数据管理则重度依赖于这些元数据来执行其治理职能:依据业务定义理解数据,遵循技术结构进行集成,并按照管理流程确保数据在整个生命周期内的规范性与一致性。同时,主数据管理过程中产生的权威数据及其血缘关系,又反过来丰富了组织的元数据。
1.1.4.3.主数据与数据标准
数据标准为主数据定义了必须遵循的统一业务语言,包括编码、属性、格式与值域等。主数据管理则是这套标准在核心业务实体(如客户、物料)上的具体承载与持续治理过程:它不仅在实施中依据数据标准来清洗、整合与分发数据,确保“书同文、车同轨”;更在实践中,将其固化到系统的校验规则与业务流程中,确保标准从定义到落地的闭环,从而实现数据在跨系统、跨流程间的一致理解与使用。
1.1.4.4. 主数据与数据质量
数据质量为主数据的可信度提供度量与保障。数据质量管理定义了评估主数据健康度的具体规则(如完整性、准确性、唯一性规则),并持续监控其达标情况。主数据管理则直接运用这些规则作为其数据清洗、匹配与合并的核心准则,并将治理过程中发现的质量问题反馈至质量管理系统,通过持续的“发现问题-根因分析-修复问题-复核验证”闭环流程,确保主数据长期可靠。高质量的主数据是数据治理的核心成果,而持续的质量监控则是维持这一成果的生命线。
1.2. 主数据管理实施指南
1.2.1. 落地思路
主数据管理的实施遵循“标准引领、运营保障”的思路,通过定义统一标准、整合并清洗主数据、构建分发模式、建立运维机制等措施,实现主数据全生命周期的闭环管理,确保数据在全企业范围内具有一致的理解和规范。

图 1 主数据管理落地思路图
(1)主数据识别
基于摸家底成果,梳理核心业务流程与决策场景,识别出客户、产品等关键主数据实体,并确认候选数据源。
(2)主数据标准制定
识别主数据后,必须为其设计符合行业规范、适配企业特色的统一“语言”和“规则”。通过制定编码规则、数据模型等,建立主数据实体的上下文,明确相关属性的业务含义、数据格式、值域范围,为主数据的整合和清洗提供依据,从源头保障主数据的规范性和一致性。
(3)主数据集成和清洗
基于主数据标准和数据应用需求,制定主数据合并、清洗规则。将识别出的候选数据源汇集起来,通过制定的规则进行合并和清洗,形成准确的全组织唯一黄金记录,为业务提供可信赖的单一事实来源。
(4)主数据分发
选择合适的分发模式,将经过整合的权威主数据主动分发给前端的业务系统与后端的分析平台。通过标准化的库表、API服务或文件,确保所有应用系统都能实时获取到一致、最新的黄金数据版本,直接支撑精准的业务操作与决策分析。
(5)主数据运营
建立常态化的主数据质量与运维机制,持续追踪数据的完整性、唯一性、规范性等关键指标,驱动数据质量的持续改进。同时,通过主数据全生命周期运维机制,确保主数据从创建、变更到归档的每个环节都受控且可追溯。两者共同巩固主数据管理的长期价值。
1.2.2. 实施策略
-从业务价值最高的领域着手开展主数据管理
任何认识到需要进行主数据管理的组织大多已经有一个复杂的系统环境,有多种途径可以采集和存储对客观世界实体的引用。这种系统复杂性会随着时间的推移或发生企业并购等行为而不断加剧,为主数据管理流程提供输入的系统可能对实体本身就有不同的定义,并有不同的数据质量衡量标准。
人们选择不同的方式表示相似的概念,而将这些表述协调一致并不容易。再加上业务系统的复杂性,在实施时最好从高层支持、业务痛点明确的领域(如客户或产品数据)入手,快速完成一个从识别到运营的完整闭环,以早期成果验证价值并积累经验,再逐步扩展到其他主数据域。
-建立明确的数据认责机制和主数据管理流程
主数据的所有权归属于业务部门,而非IT部门。为确保主数据在源头得到有效治理,必须建立正式的数据认责体系。核心是任命数据所有者,通常由业务部门负责人担任,对某一主数据(如“客户”、“产品”)的标准定义、质量和全生命周期负责;并指派数据管理员,承担日常的申请审核、数据清洗、异常处理等操作性职责。比如通过正式文件明确数据权责和主数据管理流程,并将关键绩效指标纳入相关岗位的考核范畴,从而将“对主数据负责”的原则转化为可执行、可度量的具体行动,从组织根基上保障主数据的权威性与准确性。
1.2.3. 常见挑战与解决方法
-历史数据清洗难度大
在主数据实施过程中,历史数据清洗是工作量最大、业务耦合度最高的挑战之一。由于历史数据来源多样、标准不一、重复严重且属性缺失或错误普遍存在,单纯依靠技术手段难以保证数据整合的准确性与业务贴合度。
应对这一挑战,需要建立“业务主导、技术支撑”的协同清洗机制。核心在于组织业务骨干,由他们依据数据标准和原始凭证,对识别出的重复项进行分析,校正错误属性,并对缺失的关键信息进行补录。通过将业务知识系统性地注入数据清洗流程,才能在保证质量的前提下,高效完成历史数据的标准化清洗。
-业务方参与深度不够
主数据管理与组织业务经营息息相关,确定清晰、具体的业务需求和目标,并确保这些目标与组织的战略相一致,才能够使主数据管理发挥真正的作用,而这就离不开业务方的参与。
同时,主数据的业务实体属性,在消费系统里被使用,这就更需要对不同类型的主数据对象进行认责,由相关业务部门深度参与到实施工作中来。如为实施项目设立由业务部门领导担任重要负责人的联合项目组;在主数据全生命周期管理流程中,设计固定的业务环节;建立清洗的数据认责与绩效管理机制等。在整个主数据建设、管理和运营的过程中,始终坚持业务为主导的原则,才能达到通过主数据管理提升组织业务效率、降低经营成本等效果。
1.3. 主数据管理实施流程
1.3.1. 实施概述
1.3.2. 主数据识别
1.3.2.1. 实施概述
表 1 步骤1 主数据识别实施概述
1.3.2.2. 活动
1.3.2.2.1. 主数据识别
基于摸家底环节中对业务流程和决策场景的梳理,将业务对数据的需求转化为具体的管理对象,将模糊的“数据”概念具象化为一个个有明确业务含义的实体,如“客户”“产品”或“供应商”等,为每一个识别出的候选实体明确其业务定义,并初步梳理核心属性。
要从茫茫“数海”中识别出主数据是一项艰巨任务,尤其需要关注哪些业务实体在多个流程中被重复使用,哪些实体的数据不一致会直接引发业务问题,而不是寄希望于在第一次尝试中就将所有主数据完美地管理起来。
根据主数据高价值、高共享、实体独立性和唯一识别性的特征,可以从业务流程、决策报表、多部门共享和行业实践等场景中,识别组织的主数据。
表 2 主数据识别场景示例
组织中常见的主数据示例如下:
表 3 主数据识别模板及示例
1.3.2.2.2. 候选数据源识别
根据识别出的主数据清单,找到产生该主数据的一个或多个数据源,将业务实体对应到真实存在的业务系统上。同时,还需要识别出消费该主数据的业务系统,了解主数据在组织内的流转路径与使用场景,明确各系统间的数据依赖关系。IBM公司提出的U/C矩阵是一种有效的工具,用于分析主数据在各业务系统中的生成(C)与使用(U)关系。
表 4 候选数据源识别模板及示例
对识别出的数据源还要进行技术可连接性、数据可访问性、数据质量与稳定性的综合评估。确认是否能够获得数据库的直接访问权限,或是否有稳定的API接口。评估网络是否互通,访问账户权限是否足够。并初步探查样本数据,判断其完整性、规范性与业务定义的匹配度,支撑主数据的集成与治理。
1.3.2.2.3. 主数据流转链路设计
根据候选数据源的分析,各主数据的来源分为单一权威来源或多来源整合两种情况。根据每个主数据的来源、使用和时效性情况,为其设计从产生、整合到消费的数据流转链路,确保数据在跨系统流动过程中的一致性、准确性与效率。
(1)单一权威来源
对于单一权威来源的主数据,其流转通常遵循“集中创建、统一分发”的原则。由唯一指定的业务系统(如“员工”主数据指定ERP系统)进行全生命周期的维护,作为权威数据源。主数据采集后,根据数据质量情况,可以直接或轻度清洗后,分发给所有下游消费系统。在此链路中,将主数据编码回写至源系统至关重要,这能使源系统自身的数据具备全局视角,从源头巩固数据标准,并方便其进行全局追溯。
图 2 单一权威来源的主数据链路
(2)多来源整合
对于多来源整合的主数据,其流转则遵循“多源汇集、匹配整合、统一分发”的集散链路。不同业务系统分别维护同一实体的不同属性(如PLM管“产品”规格,ERP管“产品”成本),主数据采集后,依据明确的匹配规则进行数据整合、标准化后,生成承载完整信息的“黄金记录”。此链路的关键在于制定属性级的权威源规则。同样,整合生成的黄金记录及其全局ID应回写至各来源系统,使各业务方能基于完整、权威的数据视角开展工作。
图 3 多来源整合的主数据链路
1.3.3. 主数据标准制定
1.3.3.1. 实施概述
表 5 步骤2 主数据标准制定实施概述
1.3.3.2. 活动
1.3.3.2.1. 主数据分类
主数据分类通过建立清晰的层级结构,将杂乱的数据实体进行归纳和分组,使其更易于管理、查找和使用。这项工作为后续的编码制定和模型设计提供了结构化的框架,使得数据管理更加有序和高效。
(1)确定分类原则
主数据的分类是为主数据建立清晰的层次结构,来支持用户快速查询定位、统计分析等业务管理需求。
确定分类原则时,首先应该明确数据的业务范围。通常以数据最稳定的自然属性作为首要依据,确保分类体系的长期稳定性。在此基础上,可以适当兼顾实际管理需求和使用便利性。例如,对“产品”主数据,可以按“产品线-产品大类-产品子类”建立三级分类;对“客户”主数据,则可以按“客户行业-客户地域-客户规模”进行划分。确定的原则应确保分类之间互斥且全面,能够覆盖所有业务情况。
(2)主数据分类
为每一个分类层级节点赋予明确的业务定义和边界说明。例如,在“产品大类”下,需要清晰界定“机械零部件”与“电子元器件”的区别。主数据分类是将相近的实体归入同一类别,形成层次分明、逻辑清晰的结构体系,它的科学性决定了其代码体系结构的优劣。
以某公司产品主数据为例,其产品分类体系首先依据自然属性划分为三大类:硬件产品、软件产品和无形服务。
表 6 某公司产品主数据分类示例
1.3.3.2.2. 主数据编码
主数据编码是为每一个实体示例创建一个全局唯一的“身份证号码”,方便组织识别、汇总统计及建立主数据间的映射关系。一个好的编码体系能显著提升数据管理效率,避免因自然语言描述的不规则而产生的理解偏差。
编码规则需要在易用性、稳定性和可扩展性之间取得平衡。避免在编码中嵌入过多易变的业务含义,这会导致编码随业务变动而失效。推荐采用“分类码 + 序列号”的组合方式,例如 HWP01001001,其中 HWP 代表产品大类“硬件产品”,01 代表产品中类“计算机设备”,001 代表产品小类“笔记本电脑”,001为顺序号。这种方式既能体现关键分类,又保证了编码的简洁和稳定。
图 4 产品分类编码示例
1.3.3.2.3. 主数据模型设计
主数据模型设计是为实体数据绘制一张精确的“蓝图”,它定义了数据的结构、属性、关系以及必须遵守的业务规则。这份蓝图是后续业务系统开发、数据集成和数据质量管理的核心输入,确保所有系统对数据的理解与实现是一致的。
以员工主数据为例,其属性包括员工编码、姓名、性别、出生日期、证件类型、证件号码、入职日期、所属部门编号等。为每个属性制定明确的数据标准,包括数据类型、长度、格式、取值范围及必填性要求等。
表 7 员工主数据模型示例
1.3.4. 主数据集成和清洗
1.3.4.1. 实施概述
表 8 步骤3 主数据集成和清洗实施概述
1.3.4.2. 活动
1.3.4.2.1. 主数据集成
主数据集成是主数据处理的起点,将分布在ERP、CRM、OA等各个业务系统中的数据汇集起来,作为后续清洗、合并和映射的原材料。
将原始数据通过库表、API接口或文件等方式集成的方法详见“数据集成清洗”章节。
1.3.4.2.2. 主数据清洗
主数据清洗是整个流程的核心,它依据制定的主数据标准,对汇集来的原始数据进行清洗、转换、补录、去重、合并等处理,将其从“原材料”加工为符合规范的主数据。一个系统化的清洗流程能显著降低“垃圾进、垃圾出”的风险,是产出黄金记录的保障。
主数据清洗规则的制定应结合业务场景与数据质量现状,需要来自各个部门的业务人员共同协作。基于主数据的特征,其数据量通常较大,数据清洗工作将是一项责任大、任务重的任务。因此必须借助高效的数据清洗工具,以自动化处理+人工复核的方式提升效率与准确性。
(1)主数据清洗规则制定
制定清晰、可执行的清洗规则是确保清洗过程有章可循、结果一致可控的基础。清洗规则要解决如何识别问题数据以及如何处理的问题。这些规则直接来源于主数据模型标准,涵盖了从基础格式到复杂业务逻辑的各个方面,如去重、缺失值处理、规范化处理等。
表 9 主数据清洗规则清单模板及示例
(2)现有数据整合
将集成的原始数据,按照主数据模型进行整合,为每一条记录附加“数据源代码”,确保整个加工过程的可追踪性。
以员工主数据为例,整合后的主数据示例如下。
表 10 员工主数据整合示例
(3)数据标准化
数据标准化是主数据清洗的核心环节,基于制定的清洗规则,将整合后的原始数据治理成标准形态。
以上述整合后的员工主数据为例,标准化后的主数据如下。
表 11 员工主数据标准化示例
(4)分配主数据ID
基于标准化后的主数据,识别出代表同一实体的多个实例,并确定一个权威记录,为其分配一个全局唯一、永久不变的身份标识——主数据ID。
以标准化后的员工主数据为例,分配主数据ID的示例如下。
表 12 分配主数据ID示例
当然,对于在现有业务系统中未能找到匹配项,但业务部门确认需要新增的主数据,可以按照主数据模型,直接新增记录并为其分配主数据ID。
(5)校验和修正
通过自动核查与人工审核相结合的方式,对已清洗的数据进行校验,并且进行修正。同时,总结错误经验,改进清洗规则,提升治理效率。
11.3.5.主数据分发
11.3.5.1.实施概述
表 13 步骤4 主数据分发实施概述
1.3.5.2. 活动
1.3.5.2.1. 主数据分发
主数据分发即将标准化的主数据分发给各业务系统,保证各业务系统中的基础数据与全局主数据保持一致。
主数据分发分为数据推送和数据拉取两种方式,根据消费系统的技术特性和业务需求选择使用,确保主数据能够准确、及时地支撑前端业务运作和后台分析决策。
(1)数据推送
数据推送是主动将权威的主数据发送至各个业务系统的方式,确保各系统能够快速获取最新信息。这种方式能够有效保证数据在各系统间的一致性,减少业务系统反复查询的开销。
数据推送分为实时推送和定时推送两种场景。
-实时推送:当主数据发生变更时立即触发推送,适合对数据时效性要求极高的业务场景。例如,当新增新产品主数据时,立即推送到电商系统,以支持即时销售。
-定期推送:按照预设的时间周期批量推送数据变更,适合数据更新不频繁但对一致性有要求的场景。例如,每月将最新的成本中心信息推送到财务和项目管理系统。
(2)数据拉取
数据拉取由业务系统在需要时主动发起请求获取数据,需要主数据工具提供标准化的数据服务接口供各系统调用。这种方式赋予生产系统更大的灵活性,可以根据自身业务节奏按需获取数据,同时降低了主数据工具的压力。例如,数据分析平台在生成报表前,通过调用主数据服务的API获取最新、最准确的产品分类信息,确保分析结果的准确性。
1.3.5.2.2. 消费系统对主数据的处理
主数据模型因为需要兼顾全组织多系统共性需求,其字段、记录与单个消费系统的具体使用场景并非总是100% 契合,可能存在“主数据字段冗余”“系统自有字段缺失”“仅需部分主数据记录”“需补充个性数据”等场景。各消费系统在获取主数据后,应该在“建立并维护本地业务标识与全局主数据ID的稳定映射”的基础上,结合使用需求进行数据转换、补充和同步。
表 14 消费系统对主数据的处理示例
1.3.6. 主数据运营
1.3.6.1. 实施概述
表 15 步骤5 主数据运营实施概述
1.3.6.2. 活动
1.3.6.2.1. 主数据全生命周期管理
主数据全生命周期管理是对核心数据实体从主数据创建、变更到归档的全过程进行状态与流程的闭环管理,确保确保主数据的每一步变更都合规、可追溯,在支撑业务敏捷的同时,保障数据的权威性与可靠性。
以某公司员工主数据新增为例,该主数据为单一来源,在ERP系统的HR模块新增,实时推送给数据中台的主数据模块校验。若符合主数据标准且尚不存在该员工信息,则新增为主数据,并推送给消费系统;否则,退回修正。流程示例如下。
图 5 主数据新增流程示例
1.3.6.2.2. 主数据质量管理
主数据质量管理致力于通过持续的监控、度量和改进,确保主数据始终保持在可信赖的高水平状态。同时,基于业务变化和监控结果,迭代优化主数据标准和管理流程。因此,这不仅仅是事后的检查,更是贯穿于数据全生命周期的预防性和改进性活动。
基于主数据标准设计数据质量规则,通过质量评估、问题分析、问题整改、质量评价等环节持续提升主数据质量。具体实施方法建“数据质量管理”章节。
1.3.6.2.3.主数据推广
主数据推广的目标是将治理成果转化为业务价值,通过培训、服务和文化建设,引导并鼓励各业务部门在日常工作中主动使用主数据服务,从而在全公司范围内形成“用数据、信数据、管数据”的良好氛围。
推广工作从宣贯和培训开始,向业务人员清晰地阐释主数据管理能为他们带来的实际好处,例如“如何快速通过客户主数据服务找到完整的客户信息”。
主数据的推广分为横向和纵向两个维度推进。横向推广即将标准化的主数据推广到更多的单位、部门或系统,纵向推广则是分阶段、分批次实施主数据,逐步深化主数据在核心业务流程中的嵌入程度。
(或访问:https://xcnoejbrkx3v.feishu.cn/drive/folder/HCXufFf6ilq0ejdF5Hmc3CJhnYf)
- 《数据治理实战指南》——致正在阅读本书的你
- 《数据治理实战指南》——导读
- 【第一部分 框架篇】第1章 数据治理行业概述
- 【第一部分 框架篇】第2章 数据治理方法论
- 【第二部分 规划篇】第3章 定战略
- 【第二部分 规划篇】第4章 建体系
- 【第二部分 规划篇】第5章 摸家底
- 【第三部分 实施篇】第6章 数据集成
- 【第三部分 实施篇】第7章 数据仓库及数据模型管理
- 【第三部分 实施篇】第8章 元数据管理
- 【第三部分 实施篇】第9章 数据标准管理
- 【第三部分 实施篇】第10章 数据质量管理
- 【第三部分 实施篇】第11章 主数据管理
- 【第三部分 实施篇】第12章 数据安全管理
- 【第三部分 实施篇】第13章 数据价值应用
- 【第四部分 实战篇】第14章 数据治理实战演练