数据质量工程实践学习笔记(4)—基本概念(下)

2020-11-22 19:30 浏览量:206

本次更新继续分享《数据质量工程实践》的学习笔记,内容涉及数据治理概念及提升数据质量10步流程,希望能对正在开展或推动数据质量管理建设的小伙伴有所帮助、提供参考。

 

01

业务规则

 
 
  • 业务规则是一种权威性原则或指导方针,用来描述业务交互,并建立行动和数据行为结果集的完整性规则
  • 数据是一种业务流程的输出(小编认为这个判断有些过时),数据质量检查出问题可能意味着该流程没有很好地发挥作用,或错误地捕获规则。收集业务规则可以为获得必须的数据质量检查和分析评估结果提供输入

 

02

数据管制(Data Governance 数据治理)

 
 
  • 为了起草和实施信息资产的约定规则、决策权和有效管理说明,而进行的政策、程序、机构、角色和职责的组织和实施

原书有借鉴意义的类比

 

一栋住宅每户人家都有自己的生活方式、偏好和生活态度,能够在同一屋檐下平静、和睦地生活,比在独立居所邻里般生活,对协调与合作的要求程度很高。企业在整合信息的时候,就好比所有的资源系统,连同相关人员、业务流程和数据一起打包并搬到一起一样,企业生成环境的集成程度要比过去高得多。在这个集成的环境中,应该如何决策。这就像住宅楼一样,一栋楼每一个家庭都有自己的房间,所有者有权铺设新的地板,按自己的喜好来装潢。但是在没有征得这栋楼其它居住者的同意下,没有人能够自行改换水暖设施。某些情况下,所有者可能会授权某人做出改换水暖设施和重新装潢公共区域的决定。他们相信此人能为居住在这栋楼里的每个居住者的利益做出决定,们期望被告知有关的变动决定,也期望向他提出需要注意的事项。管理房屋需要适当的角色、责任、规则和流程,也就是说,管理房屋需要管治。数据也是一样。

03

数据统管

 
 
  • 数据统管(Data Stewardship)是数据治理的一种方法、理念和行动方式,为了代表他人管理信息资源并使该组织的利益最大化而进行的形式化说明
  • 对数据统管的职责没有一致意见,它可以是某特定角色的名称,如主题专家或在应用层校准数据的人,或是负责数据名称、定义和标准的人。还可以是一个战略上的角色,对跨业务流程和应用软件的数据主体范围负有责任
  • 数据质量经常被看成是一次性项目,即便人们意识到数据质量需要持续关注,但由于缺乏对数据的正式说明这一直观重要的原因,造成了对数据质量的倡议随着时间逐渐淡化或完全消失。因此数据治理是给予企业数据决策提供结构和流程不可或缺的一环。它可以确保整个信息生命周期中由适合的人员从事信息管理。实施数据治理对于数据质量的可持续性非常重要
     

 

04

信息质量提高周期

 
 
  • 信息和数据质量提高周期通过评估、认知和行动3个高层步骤,为讨论和着手思考“提高”提供了一种简单的方法(有别于DMBOK提到的PDCA):
    • 评估:认知的关键,评判实际的环境和数据,并将它们与需求和预期进行比较 
    • 认知:了解数据和信息的真实状态、对业务的影响和根本原因
    • 行动:除纠正当前数据错误外,还预防未来信息和数据的质量问题
       

 

05

提升数据质量的10步流程

 
 
  • 定义业务需求和方法:定义和确定问题、时机或目标,以指导整个项目期间的所有工作 
  • 分析信息环境:收集、汇编、分析有关当前信息环境的信息,核实信息生命周期。信息生命周期为之后步骤提供基础,确保相关数据得以评估,并帮助发现根本原因、设计捕获和评估方案 
  • 评估数据质量:针对数据质量维度,评估数据质量,为之后步骤提供基础 
  • 评估业务影响:确定劣质数据对业务的影响,为改进业务案例、获取信息质量支持、确定适当的信息资源投资提供依据 
  • 确定根本原因:确定引起数据质量问题的真实原因,并区分他们的优先次序,以及为解决这些问题形成具体建议 
  • 制定提高方案:最终确定关于行动的具体建议,制定提高方案 
  • 预防未来数据错误:针对引起数据质量问题的根本原因解决方案 
  • 纠正当前数据错误:实施适当的数据纠正步骤 
  • 实施控制:通过标准化、归档等手段对成功改进进行监测与核实 
  • 沟通行动与结果:归档、沟通质量测试结果、所做的改进以及这些改进的结果
  • 应用10步流程的一些指导原则: 
    • 尽管10步流程被描述为逐步进行的、线性的一系列事件,但信息和数据提高流程却是迭代的,项目团队可以返回到先前的步骤以改善其工作,他们可以选择满足业务需求的步骤,还可以重复整个10步流程,以持续提高信息质量
    • 可定制性,10步流程的设计是非常灵活的,在应用10步流程时可以采用定制方式,只执行适合于项目的相关步骤
    • 细节层:每一个步骤需要的细节层取决于业务的需求,根据业务问题和时机决定侧重点和相关的问题。先从较高的层面开始,仅当有必要时才降低细节层面:
      • 该细节层对业务问题带来重大的、可论证的意义 
      • 该细节层能够为有关数据质量或业务影响的假设提供正面或反面的证据
    • 工具无关性:虽然很多工具(如数据剖析、数据匹配、数据标准化、数据清洗工具)能使数据质量工作变得简单,但10步流程不依赖任何特定工具
    • 全方位的数据管理视角:对方案和结果进行归档是一个绝好途径,可以追溯相关步骤并了解在提升项目中究竟是什么在起作用

 

 

 

来源:企业数字档案与数据治理

作者:athrun

上一篇:什么是数据血缘?

下一篇:如何让城市数据资产“活”起来?——详解“破权、运营、场景、流通”4类路径,提出“择路、强体、聚数、筑网”4大建议

分享到-微信
X

为什么选择龙石数据?