数据质量工程实践学习笔记(3)—基本概念(中)

2020-11-03 07:00 浏览量:281

本次更新继续分享《数据质量工程实践》的学习笔记,内容涉及数据质量的维度、对业务影响的评估技术等(小编强烈推荐),希望能对正在开展或推动数据质量管理建设的小伙伴有所帮助、提供参考。
 


 

01

数据质量维度

 
 
  • 数据质量维度提供一种测量与管理数据和信息质量的方式。区分数据维度有助于:
    • 将维度与业务需求相匹配,并对评估先后顺序进行划分 
    • 了解从每一维度的评估中能够掌握什么
    • 在时间和资源有限的情况下,更好地定义和管理项目计划中的行动顺序
  • 数据质量维度的定义(熟悉DMBOK2.0的小伙伴应该清楚不同的标准对数据质量维度定义或表达不同,但大体趋同,维度之间可以映射):
    • 数据规范:对数据标准、数据模型、业务规则、元数据和参考数据进行有关存在性、完整性、质量及归档的测量标准
    • 数据完整性准则:对数据进行有关存在性、有效性、结构、内容及其它基本数据特征的测量,如完整性/填充率、有效性、数值分布频率、样式、范围、最大值、最小值以及参考完整性
    • 重复:对存在于系统内或系统间的特定字段、记录或数据集意外重复的测量标准,如姓名相同而地址不同的重复主数据
    • 准确性:对数据内容正确性进行测量的标准,需要与其描述的实际对象比较。评估的过程通常需要人工介入且比较耗时
    • 一致性和同步:对各种数据仓库、应用和系统中所存储或使用的信息等价程度的测量以及对使数据等价处理流程的测量标准
    • 及时性和可用性预期时段内数据对特定应用的及时程度和可用程度的测量标准。数据是时变的,实际对象的变更与描述实际对象的数据更新并使其对知识工作者具有可用性,这期间总会有一定的时间间隔
    • 易用性和可维护性:数据可访问和使用的程度,以及数据能被更新、维护和管理的程度的测量标准。数据可以使用,但并不等于能够毫不费力地使用他们
    • 数据覆盖:相对于数据总体或全体相关对象的数据的可用性和全面性的测量标准
    • 表达质量:如何进行有效信息表达以及如何从用户中收集信息的测量标准,即格式和外观是否支持信息的适当应用
    • 可理解性、相关性和可信度:数据质量的可理解性和数据质量中置信度的测量标准,以及对业务所需数据的重要性、实用性及相关性的测量标准。需要了解最具有业务价值的数据,判断哪些数据应该在数据管理与维护中具有最高优先级。需要了解业务人员如何理解数据质量,如果将其与实际数据质量评估结果进行比较,以及如何处理存在的落差
    • 效用性:数据产生期望业务教育或结果的程度的测量标准
  • 选择数据质量维度的几点建议:
    • 如果不确定数据质量工作应从何处开始,可理解性、相关性和可信度提供洞察问题的方法 
    • 一旦业务需求和高优先级的问题得以确定,建议对数据规范、数据完整性准则维度进行评估。特别是数据完整性准则,因为其他质量维度都以它为基础
  • 评估选择数据质量维度的主要考虑因素:
    • 是否应该评估该数据:当期望的评估结果能提供业务需求相关的有实际价值的信息时,可花些时间进行测试
    • 是否能够评估该数据:评判这一质量维度是可能的或可行的以及评估成本

 

02

业务影响技术

 
 
  • 业务影响技术用于确定数据质量对业务的影响而使用的定性和定量测量。用以回答“信息质量有什么价值”。业务影响集中反映在如何使用信息方面,如完成交易、生成报告、做出决策、运行自动流程以及作为其它应用的数据源。对应信息生命周期的应用阶段
  • 关注业务影响技术的原因:
    • 为信息质量建立业务案例 
    • 为信息质量投资获取支持
  • 业务影响技术的定义:
    • 事例:收集有关评估业务影响的事例是最简单、最低成本的方法,能够快速激发人们的兴趣,引起领导层的注意
    • 用法:对数据当前或未来应用编制清单 
    • 5个为什么通过问5次为什么而弄清真正的业务影响 
    • 排序和优先级划分:将缺失和不正确的数据对具体业务流程的影响划分等级,优先级越高,表明对业务影响就越大 
    • 流程影响:不断重复、高成本、时间的浪费、较低的生产率是劣质数据造成的其它影响,有助于企业做出决策,改进之前并不清晰的问题 
    • 低质量数据的代价:量化劣质数据对成本和收益的影响,如浪费和重复工作,错失收益良机,失去业务等 
    • 费效分析:通过深入评价,比较数据质量投资的潜在收益与预期成本。包括投资回报率,管理者可以权衡各种方案
  • 要说明业务影响,不一定非得采取一种全面的且耗时的费效分析。另外,业务影响技术并不是孤立存在的,可以很容易地组合各种技术思路来说明业务影响,例如先行编制数据的用法(业务流程、人员、应用程序列表等),然后利用流程影响技术将劣质数据对具体业务流程的影响可视化,再后通过低质量数据代价技术来量化与业务流程相关的成本。最后可以通过费效矩阵、排序和优先级划分技术确定数据质量工作的重点
     

 

03

数据分类

 
 
  • 数据的分类:主数据、交易(业务)数据、参考数据、元数据、历史数据、临时数据
  • 数据类别之间的关系:需要参考数据以创建主数据记录,需要主数据记录用以创建交易(业务)记录。有时需要制定交易(业务)数据的参考数据来创建交易记录。元数据有助于更好地使用和理解所有其他类别的数据。从历史数据的角度看,相应的参考数据需要与主记录和交易记录一同维护,否则会失去重要内容和含义
  • 关注数据类别的原因
    • 参考数据对主数据和交易数据的质量有很大的影响。参考数据对于互操作性极为重要。越是对它们进行管理和标准化,就越能提高共享公司内外数据的能力 
    • 主数据的质量影响交易数据
  • 对于一个具有准确数据的公司,如果想为企业节约成本和创造潜在收益,只要需要就能够找到相关信息,并可以信赖所找到的信息。为取得竞争优势,必须对全部数据类别的质量进行管理

 

 

 

来源:企业数字档案与数据治理

作者:athrun

上一篇:什么是数据血缘?

下一篇:数据治理:数据血缘关系

  • 分享:
龙石数据
咨询电话: 0512-87811036,18013092598
联系我们
商务联系微信

商务联系微信

0512-87811036,

18013092598

咨询电话