2020-12-08 14:03 浏览量:1013
数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。
数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。通过有效的数据质量控制手段,进行数据的管理和控制,消除数据质量问题进而实现提升数据变现能力的目标。在数据治理过程中,一切业务、技术和管理活动都围绕这个目标和开展。
01
质量管理体系架构包括质量管理体系数据生命周期管理、质量管理体系组织制度、质量管理体系实施方法三个层次,如图1所示。
图1 质量管理体系架构图
根据大数据环境下数据在组织机构业务中的流转情况,定义了数据生命周期的6个阶段,具体各阶段的定义如下:
数据采集:指新的数据产生或现有数据内容发生显著改变或更新的阶段。对于组织机构而言,数据的采集既包含在组织机构内部系统中生成的数据也包含组织机构从外部采集的数据。
数据存储:指非动态数据以任何数字格式进行物理存储的阶段。
数据处理:指组织机构在内部针对动态数据进行的一系列活动的组合。
数据传输:指数据在组织机构内部从一个实体通过网络流动到另一个实体的过程。
数据交换:指数据经由组织机构内部与外部组织机构及个人交互过程中提供数据的阶段。
数据销毁:指通过对数据及数据的存储介质通过相应的操作手段,使数据彻底丢失且无法通过任何手段恢复的过程。
有了完整的指导思想解和组织制度才可以制定出一个比较完善化的实施方法,指导思想可以参考比如GB/T19001-2000《质量管理体系要求》,组织制度一般根据指导思想做出微调即可,实施方法主要从业务,技术和管理三方面来进行设计解决影响数据质量的根源问题。
02
数据分析的前提就是数据的质量,好的数据质量是数据分析可靠性的必要保障。
数据质量分析的主要任务就是检查数据中是否存在脏数据,脏数据一般是指不符合要求以及不能直接进行相关分析的数据。
脏数据包括以下内容:
(1)缺失值
(2)异常值
(3)不一致的值
(4)重复数据以及含有特殊符号(如#、¥、*)的数据
第一点:缺失值分析
缺失值的产生方式主要包括:
1. 有些信息暂时无法获取,或获取信息代价太大;
2. 有些信息被遗漏,人为或信息采集机器故障;
3. 属性值不存在,比如一个未婚者配偶的姓名、一个儿童的固定收入。
缺失值的影响主要包括:
1. 会丢失大量的有用信息;
2. 数据的挖掘模型所表现出的不确定性更加显著,模型中蕴含的规律更加难以把握;
3. 包含空值的数据会使建模过程陷入混乱,导致不可靠输出。
通过简单的统计分析,可以得到含有缺失值的属性个数,以及每个属性的未缺失数、缺失数和缺失率。具体解决方法为:删除含有缺失值的记录、对可能值进行插补和不处理三种情况。
第二点:异常值分析
异常值分析是检验数据是否有录入错误以及含有不合常理的数据。不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良影响。
(1)简单统计量分析
可以先对变量做一个描述性统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值,用来判断这个变量是否超出了合理的范围。
(2)3σ原则
如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值,如果不符合正态分布,也可以用原理平均值的多少倍标准差来描述。
第三点:一致性分析
数据不一致性是指数据的矛盾性、不相容性。直接对不一致的数据进行挖掘,可能会产生与实际相违背的挖掘结果。
不一致数据的产生主要发生在数据集成的过程中,这可能是被挖掘数据来源于不同的数据源,比如说两张表格都存储了用户的电话号码,但在用户的电话号码发生改变时只更新了一张表格中的数据,那么这两张表就有了不一致的数据。
基于 DMAIC 模型的数据质量分析
根据DMAIC 模型,可以将数据质量分析定义为五个阶段:
(1)定义阶段(D阶段)
界定数据质量治理的范围,并将数据质量改进的方向和内容界定在合理的范围内。通过使用主数据识别法、专家小组法、问卷调查法、漏斗法等方法,定义出数据治理的对象和范围。
企业数据质量治理对象一般主要包括两类数据:一类是操作型数据,例如:主数据、参照数据和交易数据;另一类是分析型数据,例如:主题数据、指标数据等。企业的数据质量问题80%是由于管理不当或业务操作不规范引起的。
图2 DMAIC 模型中数据质量分析定义的五个阶段
(2)测量阶段(M阶段)
在定义出数据治理对象和内容后,需要选取以下若干个指标作为数据质量评价指标,建立数据质量评估模型,对数据进行评估和测量。
常用的数据质量评价指标就是:数据唯一性、数据完整性、数据准确性、数据一致性、数据关联性、数据及时性等。
(3)分析阶段(A阶段)
基于数据质量评估模型,执行数据质量分析任务,通过数据分析,找到发生数据质量问题的重灾区,确定影响数据质量的关键因素。
数据治理和大数据分析是密不可分的,数据治理的目标是提升数据质量从而提高数据分析的准确性,而大数据分析技术也可反向作用于数据治理,通过大数据分析算法和大数据可视化技术,能够更准确、更直观地定位到发生数据质量问题的症结所在。
该阶段可用的大数据技术包括:回归分析、因子分析、鱼骨图分析、帕累托分析、矩阵数据分析等。
(4)改进阶段(I 阶段)
通过制定改进管理和业务流程、优化数据质量的方案,消除数据质量问题或将数据质量问题带来的影响降低到最小程度。
强调数据质量的优化和提升,绝不单单是技术问题,应从管理和业务入手,找出数据质量问题发生的根因,再对症下药。同时,数据质量管理是一个持续优化的过程,需要企业全员参与,并逐步培养起全员的数据质量意识和数据思维。
该过程主要用到方法:流程再造、绩效激励等。
(5)控制阶段(C阶段)
固化数据标准,优化数据管理流程,并通过数据管理和监控手段,确保流程改进成果,提升数据质量。
主要方法有:标准化、程序化、制度化等。
在数据质量管理方法论方面,业内还没有一套科学、完整的数据质量管理的体系。数据是数字化时代企业的重要资产,可以以产品或服务的形态为企业创造价值。
由于产品和服务的质量管理体系已经非常的成熟,可以尝试使用产品和服务的质量管理体系来管理数据质量。
图3是 ISO9001 基于 PDCA 的质量管理核心思想,其重点强调以客户为关注焦点、领导作用、全员参与、过程方法、持续改进、循证决策和关系管理并形成一个闭环。
图3 ISO9001的PDCA图
依据ISO9001以及数据治理方面的相关经验,数据质量管理应从以下几个方面着手:
组织环境
一个强有力的数据管理组织的建设是数据治理项目成功的最根本的保证。
其作业是两个层面:一是在制度层面,制定数据治理的相关制度和流程,并在内推广,融入文化。二是在执行层面,为各项业务应用提供高可靠的数据。
数据质量管理方针
为了改进和提高数据质量,必须从产生数据的源头开始抓起,从管理入手,对数据运行的全过程进行监控,强化全面数据质量管理的思想观念,把这一观念渗透到数据生命周期的全过程。
数据质量问题是影响系统运行、业务效率、决策能力的重要因素,在数字化时代,数据质量问题影响的不仅仅是信息化建设的成败,更是影响企业降本增效、业务创新的核心要素,对于数据质量问题的管理,深度执行的总体策略是“垃圾进,垃圾出(garbage in,garbage out)”,采用事前预防控制、事中过程控制、事后监督控制的方式进行数据质量问题的管理和控制,持续提升企业数据质量水平。
数据质量问题分析
关于质量问题的分析,推荐采用经典的六西格玛(缩写:6σ 或 6Sigma)。
六西格玛是一种改善企业质量流程管理的技术,以“零缺陷”的完美商业追求,以客户为导向,以业界最佳为目标,以数据为基础,以事实为依据,以流程绩效和财务评价为结果,持续改进企业经营管理的思想方法、实践活动和文化理念。
六西格玛重点强调质量的持续改进,对于数据质量问题的分析和管理,该方法依然适用。
针对不同的信息系统做出定量的数据质量评估,也可根据实际情况,在评估执行中进行取舍。
数据质量评估具体检测的内容主要包括以下几部分:
数据完整性检测
完整性,描述数据信息缺失的程度,是数据质量中最基础的一项评估标准。数据缺失的情况可以分为数据信息记录缺失和字段信息记录缺失。数据完整性检测的步骤是:
01. 对于数据信息记录缺失的检测,可以通过对比源库上的表数据量和目的库上对应表的数据量来判断数据是否存在缺失。
02. 对于字段信息记录缺失的检测,选择需要进行完整性检查的字段,计算该字段中空值数据的占比。通常来说,表的主键及非空字段空值率为0%。空值率越小说明字段信息越完善,空值率越大说明字段信息缺失的越多。
数据准确性检测
准确性,用于描述一个值与它所描述的客观事物的真实值之间的接近程度,通俗来说就是指数据记录的信息是否存在异常或错误。
例如业务员在上报系统上填写客户信息时,手误输错了某一信息,造成了数据库里存在的信息与客观事实不一样。
数据准确性的检测较为困难,一般情况下很难解决。在某些特定的情况下,例如性别,年龄,出生日期,籍贯等信息可以通过校验身份证号来检测,前提是确保身份证号码是正确的。
数据有效性检测
有效性,描述数据遵循预定的语法规则的程度,是否符合其定义,比如数据的类型、格式、取值范围等。
数据有效性检测的步骤是用户选择需要进行有效性检测的字段,针对每个字段设定有效性规则。有效性规则包括类型有效、格式有效和取值有效等。
类型有效检测字段数据的类型是否符合其定义,例如可以通过求和来判断是否是数值型,通过时间操作来判断是否是时间类型;格式有效性检测可以通过正则表达式来判断数据是否与其定义相符;取值有效检测则通过计算最大最小值来判断数据是否在有效的取值范围之内。
数据时效性检测
时效性, 是指信息仅在一定时间段内对决策具有价值的属性。
数据从生成到录入数据库存在一定的时间间隔,若该间隔较久,就可能导致分析得出的结论失去了借鉴意义。
例如当天的交易数据生成后没有及时录入数据库或者源库与目的库之间的同步延迟,则会导致统计结果和真实结果存在一定误差。
数据一致性检测
把待检测的表作为主表,首先用户确定一致性检测的主表字段,然后选择需要给定检测的从表和从表字段,设置好主表和从表之间的关联项。
关联项可以是多个字段,但是关联项必须是拥有匹配值的相似字段。匹配关联之后检查主表和从表相同或者类似字段值是否一致。
数据质量的评估流程首先确定要检测的数据质量指标和评估规则,然后编写相应的 SQL 脚本来检测分析数据,最后计算满足各个规则的数据的百分比得分。
系统综合得分的计算可以通过把每条规则的得分计算出来,然后综合后取平均值,但更为合理的方法就是可以把每条规则的得分按照给定的权重进行评价,做出一个合理的数据质量评价等级。由用户规定每个检测规则的权重,做出一个权重方案,然后按照各个检测规则的权重进行整体的计算统计,得到一个合理的数据质量评估得分。
任何具有决策性的判断是基于数据质量及处理方法的合理性、逻辑性等。这些相关工作依赖于数据模型的质量。数据模型的质量直接能够影响围绕数据开展的所有工作的实际成果。所以针对数据模型质量的评价就显得具有很重要的意义。
图4 数据模型质量评价的10个方向
数据模型质量评价的10个方向如下:
(1)准确性:
数据模型是否可以准确反应业务需求。如果数据模型不能够准确反应业务需求,会使整个数据模型及其实用性和价值大打折扣,很难达到预期效果。但准确性同样是所有评价要点中最难以实现的。
同理,不仅仅是关于数据模型的评价,任何一个应用、平台的建设业务需求方面的准确性都是重中之重。
具体评价准确性的方法有很多,需要从访谈、案例、用户报告、数据库等多个方面查找证据,加以分析。
(2)完整性:
数据模型是否完全覆盖业务需求的范围。所有业务信息是否得到完整的体现,所有技术信息是否已经完整的展现,是否存在未被响应的需求,是否存在含糊不清的需求有待澄清。
有一点需要注意,这种完整性的覆盖需要在原有的设计纸面上做适当延伸,具备一定的前瞻性。
(3)规范化:
确保模型可以符合第三范式等常见的模式。数据模型中包含概念模型、逻辑模型和物理模型。例如在概念模型中可以从业务需求、应用范围及实体属性对应关系等方面来进行规范化评定。
逻辑模型中可评价的方法较多, 如确保主键是唯一稳定强制的,逻辑模型中不应该存在可重复的索引等。
(4)结构性:
结构性可以确保创建的数据模型符合常见的数据模型准则。具备合理结构性的数据模型可以通过工具快速识别模型中的潜在风险。一般会通过一致性及完整性两方面进行判断。
(5)抽象性:
抽象性是是扩展性及适用性的一个中间平衡,是数据模型的一个重要特征。增强抽象性意味着扩展性的增强,适用性的降低。取得平衡是一件重要的工作。扩展性意味着系统会更加灵活适应更广泛的业务范围。而适用性意味着模型与实际业务更加贴合,对解决业务面临的困难具有重要意义。
抽象性的评价需要从扩展性和适用性两方面开展寻求合理的中间点。
(6)标准性:
数据模型是否能遵循统一的命名规则。包括包名称、数据表名称、属性名称等等。
统一的命名规则能够规范模型,避免因为名称不一致造成的概念混淆,及内容标准程度、完整性等方面的确认。
(7)可读性:
数据模型是否方便查阅,布局是否合理,是否方便浏览查阅。评价从模型、实体、属性等方面开展。模型方面确保大而复杂的模型被分成多个子模型,模型中不包含过多层级的继承关系。
实体方面包括合理的颜色及布局,关键实体的重点标注等。属性方面涉及名称及归类。
(8)定义性:
数据模型中的实体、属性含义等是否定义清晰。包含清晰、完整、准确等小的评价方面。
(9)一致性:
数据模型是否和企业型数据模型一致。包含术语、标准、用法。具体一些包括实体名称及定义的一致性,属性名称、定义、格式的一致性。
(10)数据性:
数据模型中的元数据和数据是一致的。数据模型中的属性和业务规则能够是与实际情况保持一致。数据名称、数据属性、业务规则、属性格式及规则、外键与主键的关联均是数据性可以开展评价的方面。
03
数据质量作为影响决策的基础元素,已经成为当今全球经济一体化大潮下最具竞争力的工具之一。
可靠的数据是最具价值的资产,在数据质量管理上所投入的资金和时间,将会在现在和未来得到高额的回报。
因此,在整个组织内部,应建立科学有效的数据质量管理体系,对组织的数据质量实施全程、全域和全员管理,将数据质量管理以制度化、规范化的方式落实到数据生成、传递和使用的各个过程中。
作者:郑治国
来源:德拓数据智能研究院