《数据治理实战指南》【第三部分 实施篇】第10章 数据质量管理

2026-02-04 11:25 浏览量:20


1.1. 概述与关键概念

 

1.1.1. 数据质量的定义

 

根据国家标准《GB/T 36073-2018 数据管理能力成熟度评估模型》中的定义,数据质量是指在特定条件下使用时,数据的特性满足明确的和隐含的要求的程度。所有的数据都有一定程度的质量,即使该程度是不可接受的。当人们把数据质量当作一个名词来使用时,通常指的都是数据是否满足将会使用这些数据的人的隐形或显性的期望。人们如何判断数据的质量取决于对该数据的期望。期望可能会很复杂。它们不仅基于数据应该表示什么,还基于为什么需要这个数据并且打算如何使用它。

 

1.1.2. 数据质量管理的目标

 

日常的工作中,数据无处不在,它像是一条条隐形的线索,连接着决策、行动。如果给组织提供高质量的数据,不能保证一定会做出正确的决策,并采取适当和有效的行动。因为这取决于组织所具有的专业技能、知识和经验等因素。但可以确定的是,如果组织拥有糟糕的数据,那么任何的决定和最终行动都将变得不那么有效。数据的质量越好,就能更好地帮助组织或个人做出更精准的决策和采取更有效的措施。

数据质量管理的核心目标,并非追求理论上“零错误”的完美数据,因为这通常意味着高昂的成本和漫长的周期,在大多数情况下并不经济。相反,我们倡导一种更具成本效益的、平衡的、基于业务风险的数据质量管理方法。其根本在于,将有限的资源精准投入到对业务决策、客户体验、合规风控影响最大的关键数据上,在确保数据满足数据消费者的需求,使“适得其用”的同时,保障数据质量改进的投资回报率最大化。

数据质量管理主要有以下目标:

(1) 保障业务价值。确保数据适用于其预期用途,能够可靠地支撑关键业务流程与战略决策,直接赋能业务增长与高效运营。

(2) 控制风险与成本。通过预防和纠正低质量数据,降低因数据错误导致的决策失误、合规处罚与运营损失,保护组织声誉与资产。

(3) 建立持续信任。构建一个可度量、可监控、可改进的闭环管理体系,使内外部数据消费者对所用数据充满信心,从而敢于并善于基于数据采取行动。

 

1.1.3. 关键概念

1.1.3.1. 高质量数据

数据质量如果达到数据消费者的期望和需求,也就是说,高质量数据因使用情景而异。如果数据满足数据消费者的应用需求,就是高质量的;反之,如果不满足数据消费者的应用需求,就是低质量的。因此,数据质量取决于使用数据的规则和数据消费者的需求。

1.1.3.2. 关键数据

大多数组织都有大量的数据,但并非所有的数据都同等重要。数据质量管理的一个原则是将改进的重点集中在对组织及其客户最重要的数据上,这样做可以明确数据质量管理范围,并使其能够对业务需求产生直接的、可测量的影响。数据是否为关键数据,通常会依据使用数据集或单个数据元素的流程、数据出现在报告中的重要性,或当数据出现问题时对组织的财务、监管或声誉产生的风险进行判定。

1.1.3.3. 数据质量维度

如同物理对象的度量维度(长、宽、高等),数据质量维度是数据的特征、方面或特性。数据质量维度提供了一种对数据质量需求进行分类的方法。

数据质量领域的许多权威组织已经发布了一系列数据质量维度,如国家标准《GB/T 36344-2018 信息技术数据质量评价指标》中提出了规范性、完整性、准确性、一致性、时效性和可访问性等6个维度,国家标准《GB/T 25000.12-2017 系统与软件工程系统与软件质量要求和评价(SQuaRE) 第12部分:数据质量模型》中提出了准确性、完备性、一致性、确实性、现时性、可访问性、依从性、保密性、效率、精度、可跟踪性、可理解性、可用性、可移植性和可恢复性等15个维度,DAMA国际在《DAMA数据管理知识体系指南(原书第2版修订版)》中列示了准确性、完备性、一致性、完整性、合理性、及时性、唯一性和有效性几种常见的数据质量维度。

本指南主要采用国家标准《GB/T 36344-2018 信息技术数据质量评价指标》中的维度:

 

 

1.1.4. 与其他模块的关系

1.1.4.1. 数据质量与数据标准

数据标准为数据质量工作提供统一的衡量基准和依据。 数据标准(如国家标准、地方标准、行业标准、企业标准等)定义了数据的业务含义、格式、值域、规则和权威来源,这实质上为数据质量的“规范性”维度提供了明确的、可执行的准绳。数据质量工作则是检验和保障数据符合这些标准的过程,它通过将标准具象化为可量化的检查规则,来测量数据与期望状态之间的差距,并推动数据向标准看齐。

1.1.4.2. 数据质量与数据模型

数据模型是数据质量工作中定义评估规则的依据之一。数据模型定义了数据的理想状态,包括字段的约束条件(如非空、唯一性)、取值范围、格式规范以及表间的逻辑一致性规则,这实质上为数据质量提供了明确的、可测量的目标。数据质量工作则是依据这些标准进行的检验和保障过程,它通过度量、监控和清洗,确保现实中的数据符合模型所定义的业务规则和完整性要求,从而让模型在现实中真正发挥价值。

1.1.4.3. 数据质量与元数据

元数据管理为数据质量工作提供上下文和评估规则依据。元数据定义了数据的业务含义、血缘关系、加工逻辑,是数据质量检核的“知识库”和“说明书”。数据质量工作则依赖并验证这些元数据,利用业务术语定义来制定质量规则,通过分析血缘关系来追溯问题根因,并将质量评估结果本身作为重要的元数据,成为数据资产的“健康档案”,形成能智能感知、持续优化的闭环管理。

1.1.4.4. 数据质量与主数据

主数据管理为数据质量工作锚定了核心治理对象。主数据定义了企业最核心、需共享的关键业务实体(如客户、产品、员工)及其黄金记录,这要求数据质量必须为此提供最高级别的可靠性保障。数据质量工作则是实现主数据“单一视图”和“可信可用”的基础前提,它确保主数据的准确性、一致性和完整性,从而支撑主数据价值的有效释放。

1.1.4.5. 数据质量与数据集成

数据集成过程是数据质量问题的首要暴露点和关键控制点。数据集成负责将来源各异的数据进行移动、转换和加载,这个过程中必然会遇到格式冲突、值域差异、重复记录等各类质量问题。数据质量工作则与数据集成流程深度融合,它通过闭环管理机制,进行有效性校验和质量监控,确保集成后的数据是可信的,从而提升数据集成输出的价值,降低后续使用数据的成本和风险。

 


1.2. 数据质量管理实施指南

 

1.2.1. 落地思路

数据质量管理遵循“业务驱动、闭环管理、持续运营” 的基本原则,建立可量化、可监控、可改进的闭环管理机制,最终形成“业务提需求、规则共制定、问题能发现、根因可追溯、整改有闭环、成效可持续”的良性治理生态。

 

图 1 数据质量管理落地思路图

 

(1) 范围确认

识别因数据问题导致的业务障碍或难点,分析其背后的数据维度,将模糊的业务痛点转化为明确、可执行的数据质量管理范围。

(2) 质量评估

依据数据标准、法律法规、规章制度、业务规则等,建立涵盖规范性、完整性、准确性、一致性和时效性五个维度的数据质量评估规则,并与各数据提供源头达成共识。借助数据质量管理平台的“旁路监测”模式,围绕已确认的数据范围和质量规则,进行数据质量评估,深度发掘数据质量问题。

(3) 问题分析

从数据生命周期的视角,追溯问题来源(如源系统、集成过程、管理流程等),通过根因分析定位问题产生的本质源头。结合业务影响,将将技术性问题转化为业务损失,为问题整改措施提供决定性依据。

(4) 源头整改

源头整改包括“治标”与“治本”两层行动。“治标”即根据问题数据量及复杂性,选择合适方式纠正当前错误数据。“治本”则是通过预防性措施从源头阻断问题再生,这才是整改的终极目标。

(5) 质量评价

基于数据质量评估和整改成果,定期发布数据质量评价报告,反映整体质量状况,深入剖析重点问题的业务影响、根因及整改效果,形成数据质量“体检单”。通过持续性监测数据,不仅将技术性的检查结果转化为业务可读、可决策的管理信息,也是推动业务部门认可数据价值、落实数据责任的有力工具。

 

1.2.2. 实施策略

- 优先选择关键数据切入,而非全面铺开

组织的数据浩如烟海,在初期就进行“全面开花”式的数据质量管理,往往因为数据体量庞大、关联复杂而陷入长期消耗战。如果缺乏重点,容易导致资源分散,项目周期过长,成本激增且难以出成效,业务部门和领导层很可能因为“见效慢”失去耐心与支持。

通过分析业务需求,建立起“价值锚点”,选择那些直接驱动核心业务决策、影响营收、客户体验或合规风险的关键数据作为切入点,快速解决业务痛点,验证数据质量工作的成效和必要性,从而获得认可和广泛支持,逐步扩大数据质量管理范围,形成良性循环。建议优先选择的关键数据如下:

(1) 高频使用数据,如主数据

(2) 重点主题数据,如报表

(3) 高时效要求数据,如看板、大屏

(4) 已提出异议的数据

(5) 需对外共享的数据或上报的数据

(6) 入表、交易数据

(7) 其他管理层或业务部门关注的数据

- 获取高层支持和业务部门的认同和参与至关重要

数据质量管理是一项职能,这关乎组织文化的改变,强调具备数据质量思维。不少数据质量问题源于制度缺失或跨系统、跨部门的流程断裂,但在部门本位主义下,谁都不愿为全局的数据质量率先投入资源,没有领导层权威划定责任、打破部门墙,数据质量任务的推动将举步维艰。

技术工具和方法论可以评估出问题,但无法命令业务部门去修改流程。没有业务部门的真心认同与参与,任何治理规则都无法在数据产生的源头落地,治理效果只会是昙花一现。只有高层的战略决心,才能为数据质量管理制定管理制度和协作机制;只有让各业务部门真正理解数据质量对其自身工作的益处,才能真正从“被动的数据提供者”转变为“主动的数据守护者”。

由高层亲自挂帅,再加上协调活动,比如发送工作函、组织培训会、组织专题座谈会、召开线上线下沟通会等,让相关角色都负责地处理并提出数据质量问题,从消费者的角度要求高质量的数据,并向他人提供质量信息。逐步构建起全员参与的数据质量文化。

- 建立数据质量闭环管理流程

数据是动态的,随着业务发展、系统变更和人工操作,数据的准确性、一致性、完整性、规范性等质量情况会随时间推移而变化。

组织需要做好准备:数据质量管理不是一个一次性的“大扫除”任务,而是一个必须嵌入流程血脉的、持续不断的循环过程。其核心是按照“计划(P)-执行(D)-检查(C)-处理(A)”模型构建完整的数据质量闭环管理流程,将短期治理行为转化为长效治理能力。它不仅能持续发现和修复新问题,更能通过根因分析从源头预防问题复发。它将数据质量思维从口号落实为具体的、可重复的规程,确保了治理成果的可持续性,也是数据资产管理走向成熟的核心标志。

 

图 2 数据质量闭环管理流程

 

1.2.3. 常见挑战与解决方法

- 自上而下还是自下而上实施数据质量?

混合方法最有效。自上而下方式(即顶层设计)由领导层制定战略目标、制度(如制定数据质量管理办法)和考核机制(如将数据质量纳入部门KPI),持续地提供资源支持和进行跨部门协调。同时,自下而上方式(即敏捷试点)选择业务痛点或高价值领域,发现实际存在的问题并快速解决,提升业务部门的质量意识。这也是对顶层设计的落地实践,形成符合自身特色的质量管理路径。

- 业务部门不配合问题整改怎么办?

针对业务部门参与度不高的情况,有以下几点建议:

(1) 越早介入越好。在调研阶段就将数据质量与业务需求和价值绑定,在评估阶段共同设计质量规则、评估业务影响、分析问题根因和制定整改措施,那么业务部门逐渐成为了数据质量工作的参与者和利益获得者,而非被动整改者。

(2) 用业务语言沟通。用业务术语而不是技术术语解释数据质量问题,让业务人员更容易理解其影响。最好能将数据问题转化为业务损失,用业务语言量化痛点,激发业务部门的改进动力。

(3) 将质量检查点嵌入业务流程。通过在关键业务节点嵌入数据质量环节,使数据质量监控成为日常工作的一部分,而非额外负担。例如下图,在业务系统建设项目的验收环节之后,增加成效评估环节,进行数据质量评估,评估通过才能最终完成验收。以此为抓手,业务部门就会主动参与数据质量工作。

 

图 3 数据质量检查点嵌入业务流程示例

 

- 数据质量管控是不是越严格越好?

数据质量管控绝非越严越好,数据其核心在于服务于业务价值,而非追求技术维度的绝对完美。 一个常见的误区是,认为在数据采集源头实施“一刀切”的严格规则,就能一劳永逸地保障质量,但这往往忽略了真实的业务规则和用户体验,最终事与愿违。比如某组织有使用客户地址进行区域营销分析的需求,就强制要求用户在系统中按照“省-市-区-路-号”的标准登记。而实际登记过程中,可能因为用户记不全“路、号”信息、不愿暴露等原因导致地址数据的采集率低,或者为了满足系统的格式要求,而输入错误信息。这就导致虽然获得了一小部分标准地址,但客户地址数据整体的完整性低、准确性差。

数据质量管理并非要追求技术维度的完美数据,更重要的是用数据驱动业务增长,换句话说,数据质量适用即可。因此,应该用业务规则来驱动数据质量需求,通过弹性治理在数据质量与业务价值间找到最佳平衡,不能因为要做质量管控而阻碍了业务流程、牺牲了用户体验或产生了过高成本,这样的“严格”就本末倒置了。

 


1.3. 数据质量管理实施流程

 

1.3.1. 实施概述

数据质量管理涉及数据全生命周期的持续管理,包括收集整个生命周期的标准规范,在数据创建、转换和存储过程中完善质量,以及根据标准度量来管理数据。这些活动通常需要由数据质量团队主导,协调业务人员、技术人员协作,推动将质量管理的技能应用于数据工作,来共同确保数据适用于各种需求。依据《DAMA数据管理知识体系指南》中提供的数据质量管理语境关系,数据质量实施中涉及的输入、步骤、成果和相关方如下。

 

 

1.3.2. 数据质量管理范围确认

 

1.3.2.1. 实施概述

表 1 步骤1 数据质量管理范围确认的实施概述

 

1.3.2.2. 活动

1.3.2.2.1. 业务需求和数据关联

数据质量任务的出现通常始于数据相关的业务需求、已知或疑似的数据质量问题。无论起点是什么,都必须确保让业务需求成为数据质量任务背后的推动力。

(1) 基于调研阶段获取的信息,通过业务需求,识别质量需求或已知的数据质量问题,并对业务需求的紧急程度排序,以此来确定组织目前面临的最重要的目标、战略、问题和机遇是什么,哪些应该是数据质量管理的重点。

(2) 确定满足业务需求的的数据,并定位数据的来源,比如来自某个业务系统或手工登记的excel表格。

(3) 通过深入访谈、研究等方式,完善调研阶段中尚不清晰的信息,最终确认具体的数据质量管理目标。

以上过程可以用业务需求和数据关联模版完成并不断细化。

 

表 2 业务需求和数据关联模板及示例

 

其中,“业务需求”、“需求部门”、“数据质量问题/需求”是从摸家底的业务调研成果中总结而来,“数据资源名称”和“数据来源”是直接来自摸家底环节的成果(数据资源清单)。需要注意的是,业务需求应该具体,比如“需要高质量的合同信息”就不是一个业务需求,真正的业务需求应该是在回答“为什么我需要高质量的合同信息”,更具体一些,即“我要使用合同信息来做什么”。下表为业务需求和数据关联的示例。

1.3.2.2.2. 信息要素分析和理解

我们发现了数据质量问题后,接下来应该怎么做?清洗数据、在源头业务系统修复数据?但做了这些之后,大家会发现:为什么类似的数据质量问题还是不断发生?原因就是没有分析和理解数据的信息要素,也就是可能造成数据质量问题的背景、前提条件以及现场情况,包括元数据、数据标准规范、数据生命周期、涉及角色、相关业务系统、业务流程、实际用途、相关制度等。要想真正提高数据质量,需要依据关键信息建立起数据的全景图,这样才能找到问题的根本原因,针对性地设计出解决源头问题的解决方案。

在这个过程中,可能还会发现信息要素的信息太多了。那么理解哪些信息,以及所需信息的详细程度,取决于当前所处的的阶段、业务需求、数据质量问题和质量管理目标,不用陷入目前可能用不到的细节中。信息是渐进明细的,在当前阶段,只需要概括性分析已有哪些信息,后续具体执行时再详细深入理解。

1.3.2.2.3. 数据质量管理范围和优先级确认

并非所有数据都要进行质量管理,也并非所有数据都同时启动质量管理,而是应该从关键数据开始,比如主数据、影响重要业务流程的数据、被上级监管的数据、被高频使用的数据等,根据重要性对纳入质量管理范围的数据进行优先级排序。于此同时,还需要快速评估数据当前是否具备进行数据质量评估的条件。比如元数据是否完整?数据是否可访问?如果某个数据表不可访问,或其字段注释几乎都缺失,那很难进行接下来的评估工作。

以摸家底阶段梳理的所有数据资源为基础,组织熟悉数据和业务流程的一小部分人,依据前序活动分析的业务需求、质量管理目标和信息要素情况,参考下表模板,确认数据质量管理范围清单并进行优先级排序。然后将清单告知相关方,达成共识。该清单不仅作为本阶段数据质量管理确认范围,更重要的是为后续范围选择提供整体视角。

 

表 3 数据质量管理范围清单及示例

 

其中,“数据资源名称、数据来源、库名、责任部门”是来自摸家底环节的成果(数据资源清单)。按理来说,业务需求和数据关联表中梳理出的数据资源都应纳入数据质量管理范围。若未纳入,应在“情况说明”列中进行说明。

示例中,以每个业务系统中的数据作为基础,根据业务需求,判断该数据是否纳入数据质量管理范围,并且划分启动质量管理的批次。

 

1.3.3. 数据质量评估

1.3.3.1. 实施概述

 

表 4 步骤2 数据质量评估的实施概述

 

1.3.3.2. 活动

1.3.3.2.1. 数据标准规范收集

收集的数据标准规范,将作为后续制定和共识数据质量评估规则的依据,同时在新建、升级业务系统和流程时都应该作为参考。数据标准规范包括数据质量管理范围内的数据标准、法律法规、规章制度、元数据、业务规则、数据模型或其他信息等。

 

表 5 数据标准范围的收集内容

 

本阶段除了收集数据标准规范,还可以通过访谈、专题研讨会等方式,与业务、信息部门共同分析数据质量需求,作为数据质量的评估依据。当然,如果在前期调研阶段已经进行得足够详细,这里可以省略。也可以在共识活动中进行补充。对于数据质量需求的共同分析过程,有以下建议:

(1) 用业务术语表述问题,更容易获得期望结果。

(2) 提前对关键数据做一些简单分析,确保提前发现数据与质量需求的明显冲突时,提高确认效率;

(3) 提问和回答尽可能具体,那么设计质量规则时就会越容易。

下表是以数据质量维度的角度,进行访谈的参考问题。

 

表 6 数据质量需求分析的参考问题

 

1.3.3.2.2. 评估规则设计

依据收集的数据标准规范,以及相应的信息要素(如业务流程、实际用途、数据生命周期等),选择合适的数据质量维度作为指标,制定数据质量评估规则。

(1) 分析关键字段。不是所有字段都要制定规则,需要识别出关键字段,为它们设计规则。关键字段的识别应结合业务需求中涉及的字段、主数据字段,或其他对业务影响较大的核心字段。

(2) 制定数据质量规则。基于数据表和字段清单,查看实际数据或数据样例,在列层级、表层级和跨表层级对数据进行剖析,选择合适的数据质量维度(规范性、完整性、准确性、一致性和时效性)制定数据质量规则。质量规则是组织数据管理的一项重要知识成果,规范化的规则描述有助于持续运营。

 

表 7 数据质量评估规则-规则信息模板及示例

 

(3) 试评估。选择合适的数据质量评估工具,自动导入质量规则,对实际数据进行试评估。目的主要是将实际数据与规则、期望进行比较,分析评估结果,初步确认规则的合理性。同时,也可能会发现一些潜在的依赖关系、隐含规则、冗余数据、矛盾数据等。

在数据质量规则制定过程中,可以借助AI工具,基于数据标准库、行业质量规则库,结合数据剖析结果(如字段类型、值域分布、业务关联),分析字段间、表间的逻辑关系,智能推荐适配的质量规则,生成个性化规则建议。

1.3.3.2.3. 评估规则共识

数据质量评估规则的制定通常由数据团队主导,为了确保规则与业务实际需求高度契合,避免因标准不适用导致的评估偏差,此时最好与业务团队进行规则共识。毕竟只有业务团队认可了评估规则,后续才能更好地制定和执行整改措施。

基于试评估的结果,在数据质量规则模板中增加发现的问题数据案例和问题数据量,作为与业务部门的共识材料。根据共识结果,也可以对规则进行适当调整。

 

表 8 数据质量评估规则-共识结果模版及示例

 

其中,与相关业务部门共识过程中,记录共识状态和结果。共识状态可以分“完成”和“未完成”,共识结果可以分“评估”、“不评估”和“待定”。不评估的规则,应该记录原因。尽可能讨论问题数据的业务影响、根本原因、整改建议等,并记录在“备注”中。

1.3.3.2.4. 数据质量评估

评估过程根据评估规则对数据进行全面检查,记录发现的问题及其具体表现。

(1) 评估方法

根据不同的质量维度和规则逻辑,对数据进行扫描和检查,典型的检查方法如下:

 

表 9 数据质量评估方法示例

 

(2) 评估结果记录

评估完成后,应记录评估结果,作为后续分析的起点,包括以下内容:

- 问题数据。记录问题数据的唯一标识,并抓取问题字段的实际值,形成问题数据清单。这便于准确定位和修复每一行问题数据。

- 问题状态。记录问题的当前处理状态(根据问题数据的唯一标识),如“待派发”“待修复”“已修复”“已关闭”“已忽略”等。

- 评估结果统计。记录并计算每条规则的评估结果,核心指标包括:本次评估的记录总数、评估起止时间等。

建议采用工具来完成具体的数据质量评估工具,便于数据管理团队快速判断并识别问题。工具应当具备以下能力:

- 能支持包括规范性、完整性、准确性、一致性和时效性的质量规则评估配置。

- 能根据预设的规则自动进行质量评估,支持海量数据的质量评估。

- 能制定评估任务,标准化、自动化地进行评估。

- 能管理问题数据,便于后续的追踪和处理。

- 能生成评估报告,便捷地向利益相关方通报数据质量情况。

 

1.3.4. 问题根因分析

1.3.4.1. 实施概述

 

表 10 步骤3 问题根因分析的实施概述

 

1.3.4.2. 活动

1.3.4.2.1. 业务影响分析

数据质量问题被发现后,如果大家意识不到这些问题带来的业务影响,那就不会把资源和精力分配给数据质量工作。从这个角度来说,就能理解为什么大多数的数据质量项目不被重视。“这个问题影响谁?”“不整改又怎么样?”在各部门有明确的绩效考核工作面前,分配资源来整改似乎看不见业务影响的数据问题,往往显得不够紧迫。关键点就是,分析是否真的有业务影响。业务影响通常体现在业务需求、业务流程、数据用途(包括现在或未来、内部或外部)等方面。分析过程中,也尽可能讨论可能的根本原因、整改建议等。

如何让业务影响被看见?收集案例故事是个很好的方式。下表是基于案例的业务影响记录模板,关于何人、何事、何时、何地以及何因的情况描述,让数据质量问题变得更加真实、具体,对于具像化理清业务影响、引起干系人的共鸣很有用。

用模板来收集业务影响可能是最简单的方法,质量团队成员或其他人员可以随时规范化记录案例故事,从而分析质量问题的业务影响。

 

表 11 问题分析及整改记录-业务影响分析模版及示例

 

除了用模版来分析业务影响,还可以用AI工具,关联元数据(如血缘关系、报表应用等)与数据质量问题,分析质量问题涉及的下游应用,量化可能造成的业务损失,形成“问题-影响”扩散路径,辅助识别根本原因和形成整改建议。

1.3.4.2.2. 根本原因识别

导致问题产生的根本原因一旦消失,问题本身也会消失。通过梳理问题或矛盾点发生的所有可能原因,来确定导致问题产生的实际原因。通常,当发现数据质量问题时,组织只修复发现的数据,甚至有时候付出了巨大的成本来完成修复或清理工作。但一段时间后,同样的问题又出现了,导致需要再次进行修复工作。这主要就是因为没有进行根本原因分析,治标未治本。常见的根本原分析方法包括五个“为什么”、帕累托分析、跟踪和追溯以及鱼骨图分析等。

在问题分析记录单模版的基础上,增加根本原因记录。在分析过程中,也尽可能讨论整改建议。识别出了根本原因,也就找到了问题产生的源头和责任部门,接下来才能有针对性地制定整改措施。

 

表 12 问题分析及整改记录-根本原因分析模板及示例

 

1.3.5. 源头整改

1.3.5.1. 实施概述

 

表 13 步骤4 源头整改的实施概述

 

1.3.5.2. 活动

1.3.5.2.1. 整改措施制定

(1) 整改措施制定

如果在前序活动中一直提出可能的整改建议并记录,那此时就可以整理出清单。如果没有,那就需要花一些时间来收集或制定整改措施。措施需要能纠正当前的数据问题,也需要预防未来的数据问题。可能是一个简单事项,也可能需要几个部门一起更新业务流程,甚至可能需要启动一个新任务。

(2) 整改责任人确定

所有的整改措施都要确定负责人。对于纠正当前数据问题的措施,通常按照“谁录入,谁整改”的原则,把问题派发给数据录入部门。对于预防未来数据问题的措施,可能涉及系统升级、流程改造、制度完善等跨部门事项,需要根据实际情况分派。基于问题分析记录模版,补充整改措施和责任部门。

 

表 14 问题分析及整改记录-整改措施模板及示例

 

针对某一个问题的整改措施,可能都需要不同的团队来负责,更不用说一些复杂的整改。建议将所有问题的整改措施制定完成后,再进行一次或多次整体的梳理和优先级排序。

1.3.5.2.2. 整改计划制定

要保证每一个整改措施得以顺利推进和落地,需要有可行的整改计划。如果有需要协作或长时间完成的整改措施,还要根据重要程度,对这些措施进行优先级排序。

如下表模板,在整改措施的基础上增加计划内容,便于以数据问题视角,查看整改措施的执行状态。有的整改措施是一次性的,比如完善业务系统功能,整改计划即完成该整改措施的时间点;有的整改措施将持续进行,整改计划可以是整改历史问题数据的时间节点,也可以是第一次完成整改的时间节点。

 

表 15 问题分析及整改记录-整改计划模板

 

1.3.5.2.3. 纠正当前数据问题

如果数据错误阻碍了业务进程,应该立即纠正当前数据问题。纠正问题时需要考虑问题数据的数量、纠正的复杂性、时机、所需技能和工具、对系统性能的影响、工具的可用性和成本、耗时等因素,来确定较优的纠正方法。可以选择以下纠正方法:

- 在业务系统中纠正。在数据源头解决是一劳永逸的,即由业务端而不是治理端处理。该方法适用于业务系统支持数据编辑,且问题数据量较小的情况。

- 直接对数据库进行批量更新。使用脚本或工具在数据库中进行批量修改,这是更新大量数据的快速方法,但也是一个高风险选项。需确保数据备份,避免数据丢失或修改错误。

- 数据清洗工具。通过数据中台或专门的清洗工具,自动识别并修复数据问题,适用于大规模数据处理。

- 决定不纠正。有时历史数据的错误对当前业务影响不大,考虑到成本和效益,可以选择不纠正历史数据,但需记录原因并持续监控其影响。这类情况需要解决造成问题的根本原因,通过执行预防措施来保证新产生数据的质量。

需要特别注意的是,纠正数据时,不要引入新的错误或对业务流程产生不利影响,比如要确保上游数据的更改不会对下游系统中的数据产生负面影响。

1.3.5.2.4. 预防未来数据问题

虽然不是每个错误都可以被预防,但如果通过采取预防措施减少错误发生的概率,甚至阻断了同类问题的发生,这是一种持续的成功,将提高整个团队的士气。同时,这也意味着组织拥有生成高质量数据的流程,将会节省下一大笔未来处理重复问题的时间和成本。

每条数据都有生命周期,确保在生命周期的正确位置实施预防措施,在数据产生前执行预防措施是最有效的。通过有以下方法来协助预防质量问题的产生:

(1) 制定并运行数据标准管理流程,如制定组织的主数据标准,在各业务系统中贯彻落实,并对数据生产者实施问责制和奖惩制。那么在数据创建时,就能确保数据符合标准,减少错误。

(2) 培训。组织中几乎每个人都以某种方式影响着数据的质量,大家在完成工作的过程中创建和更新数据。然而,有多少人意识到他们的处理过的数据会被其他人使用,并且正在对组织的运转产生积极或消极的影响。因此,定期组织数据质量培训,如举例说明他们接触的数据被谁使用,有什么影响,提升全员的数据意识,确保大家了解数据质量的重要性。

1.3.6. 周期性评价数据质量

1.3.6.1. 实施概述

 

表 16 步骤5 周期性评价数据质量的实施概述

 

1.3.6.2. 活动

1.3.6.2.1. 周期性监测数据质量

周期性监测将数据质量管理工作从“项目式”响应转变为“运营式”预防,构建对数据健康度的长效监控体系,具有以下优点:

- 及时发现数据质量问题,并快速做出反应。

- 通过数据看流程,展示哪些环节在正常运转,以便可以将注意力转向其他优先事项。

- 监控已实施的整改措施,并验证其是否达到了预期效果。

- 标准化并持续监控成功的整改措施。

- 避免倒退回旧的流程或行为。

- 鼓励质量文化,形成全员参与的质量管理氛围。

具体而言,周期性监测不再仅仅是“定期跑任务”,而是集主动监测、自动派发、闭环管理、持续改进于一体的运营能力,形成PDCA的质量循环,持续推进数据质量的改进和提升。

(1) 建立常态化的监测任务。依据数据的重要性和更新频率,设置监测周期,如高频使用数据,可设置为每日或实时监测,低频数据则按周或月检查。

(2) 设定问题派发规则。通过制定派发规则,明确问题责任人,并定期推送问题,形成问题工单。

(3) 建立闭环的问题处理机制,确保问题从发现、派发、修复到复评的全流程可追溯。

1.3.6.2.2. 评价数据质量提升情况

基于数据质量评估结果,发布数据质量评价报告,评价数据质量的提升情况。数据质量报告可参考以下几方面:

(1) 数据质量的总体情况,可以从各个质量维度的视角对数据质量现状进行评分。

(2) 数据质量趋势,随着数据质量管理措施的持续实施,数据质量趋势是向上还是向下。

(3) 分部门、领域或主题的数据质量情况和排名。

(4) 数据质量问题管理,如问题总数、修复进度等。

(5) 数据质量评测的标准依据。

下图为数据质量评价报告的目录样例,包含了质量情况概述、评分、各部门评分、各部门或各主题数据提升情况、重点问题分析等内容。

 

图 4 数据质量评价报告样例(评分)

 

图 5 数据质量评价报告样例(问题分类)

 

(或访问:https://xcnoejbrkx3v.feishu.cn/drive/folder/HCXufFf6ilq0ejdF5Hmc3CJhnYf

 

本书采用了开放式共创的编撰模式。我们坚信,内容的可靠性与实践性来自持续的交流与共创。因此,我们诚挚邀请您——每一位关注数据治理的同行者、实践者与思考者——加入本书的共创计划。


如果您在阅读过程中,提出关键修正、贡献具有借鉴价值的优质案例,或补充了不可或缺的核心内容,我们将诚挚邀请您成为本书的共同署名共创者,并参与后续的专题研讨与行业交流,共同推动数据治理领域的实践进步与生态发展。

 

愿这本书不仅是一本指南,更是一次连接行业、凝聚共识、共创未来的行动。

 

 

 

下一篇:谈谈用第一性原理思考数据治理问题

  • 分享:
龙石数据
咨询电话: 0512-87811036,18013092598
联系我们
商务联系微信

商务联系微信

0512-87811036,

18013092598

咨询电话