建立数据质量管理框架和度量规则提升数据质量

2021-07-03 21:27 浏览量:624

一 数据质量管理对企业的重要性

    数据质量管理本质上管理的是数据的质量,通过数据在组织内的完整性、有效性、准确性、一致性和可用性来衡量,同时满足与产品或服务相关的法律法规要求。

    高质量的数据在能够执行其预期目的的程度上实现了这些特征。其目的是你有能力不断地、准确地测量你的业务的盈利趋势,或者你保持一致,最新的客户记录,以提供最好的服务。数据的差异或缺失的数据都会影响数据质量,干扰业务绩效的高效。

    数据质量管理通过确定处理数据的配置、传输、维护和获取的角色、职责、过程和策略,帮助企业改进和管理数据质量。然而,当数据质量在您的内部操作和与客户的处理中发挥作用时,数据质量管理实践很容易被忽视,原因如下:

    •没有任何业务单位或部门认为自己应对这个问题负责;

    •它需要跨职能合作;

    •它要求组织认识到它有重大的问题,或潜在的问题;

    •它需要纪律;

    •它需要财务和人力的投资;

    •它被认为是极其人力密集的;

    •投资回报通常很难量化。

    虽然人们很容易忽视数据质量管理的重要性,但数据管理不善每年给企业造成6000亿美元的损失。通过理解而不是低估数据质量管理的重要性,并避免数据不准确和损失带来的财务影响。

    1挑战

    采用更好的数据质量管理策略的企业首先必须处理这些策略可能产生的一些内部挑战。

    许多企业,无论是有意还是无意,都没有意识到他们有一个重大问题,或潜在的问题。即使是这样做的企业,在预算财政资源和人力以实现改善数据质量方面也常常犹豫不决。大多数情况下,直到业务中发生灾难性事件,他们才意识到实际上存在问题,这通常会导致负面的财务影响和严重的数据损失,从而破坏客户关系。

    数据质量管理的也会带来投资方面的问题,比如重复使用不准确客户的数据,从而导致数据被误解,并对公司的报表产生负面影响。

    另一个常见的挑战是,没有业务单位或部门愿意承担数据质量管理的责任,他们不了解自己在数据质量管理过程中的部分和它的重要性。然而,为了使数据质量管理真正工作,每个利用数据的人都需要一起工作,或者在IT顾问的帮助下,管理数据质量,详细说明数据管理的定义和通用业务规则。

    为了确保您的公司记录和维护准确的数据,这些挑战必须与战略性数据质量管理实践和创造变革所需的纪律相适应

    2解决方案办法

    简单地说,有两种方法可以解决企业在努力提高数据质量时面临的挑战:主动方式和响应方式。

    主动方式能够在数据质量成为实际问题之前检测出潜在的问题。这些包括定义数据的角色和职责、建立数据的准确性和数据的整体治理,以及支持建立这些实践的环境。

    如果数据出现问题,响应方式可以帮助处理这些问题。例如,客户可能在文件中有非常准确的信息,因此开票不是问题,但了解客户的盈利能力才是问题。由于这个问题已经存在,一个反应性的方法将是获取了解客户盈利能力所需的信息。

    二 如何构建数据质量管理框架

    数据质量管理已经成为决定大数据分析和人工智能或机器学习成功与否的一个越来越重要的因素。即使在操作层面上,维护的关于客户、产品和供应商的数据质量也是非常重要的。围绕着高度个性化的体验和跨多个渠道(如店内、在线和客户服务互动)的一致互动而不断发展的客户期望,突显了数据质量是重中之重。

    多年来,糟糕的数据质量一直是众所周知的问题。随着数据量的剧增和处理数据的软件系统的多样化和激增,与这些信息的一致性、准确性和及时性有关的挑战也在相关性和复杂性方面增加了。

    为了掌握数据质量,并从数据质量管理软件中获得最大可能的好处,业务领导者应该仔细考虑他们处理过程的总体方法。企业应该定义数据质量管理框架,从该框架开始构建更详细的战略和战术计划,以实现其数据质量目标。在这样做的时候,领导者应该记住,数据质量不是“一下子就能搞定”的事情。相反,它是围绕持续改进的哲学实现的持续实践。

    以下是一个由四个部分组成的框架,许多公司已经成功地将其作为连续数据质量管理的起点:

    步骤1:定义关于数据质量的目标

    作家斯蒂芬·柯维(Stephen Covey)经常提醒他的读者,最好是在开头就考虑到结尾。在您的组织中,由糟糕的数据质量导致的成本是什么?你的营销部门是否在向错误的客户推销你的产品或服务而浪费金钱?发货是否因为地址错误而被延迟或退回?产品是否在你的网站上被歪曲,导致销售损失或客户不满意?

    客户数据的质量以某种可预测的速度衰减。由此导致的数据质量下降对您的组织有什么影响?你目前是否在衡量劣质产品的成本?如果没有,你该如何开始呢?除非你清楚地知道问题让你付出了什么代价,否则很难就改进计划达成共识。

    当组织开始部署高级分析来推动战略业务决策时,糟糕的数据质量的负面影响也随之加剧。人工智能和机器学习正开始成为创造商业价值的主流工具。但是,如果算法是根据错误的信息进行训练的,那么对于旨在建立竞争优势的极其重要的商业计划来说,长期的负面影响可能是毁灭性的。

    一个可靠的数据质量框架必须从期望结果的清晰定义开始,考虑现有业务数据的当前状态、潜在的未来IT计划、法律和遵从性问题,以及糟糕的数据质量对客户忠诚度的影响。

    步骤2:确定数据质量实施领域

    当业务领导者发现他们的数据质量问题时,特定领域很可能成为组织的优先需求。客户数据通常会排在列表的首位,原因很简单,因为这类数据的质量以某种可预测的速度下降,而且客户数据是任何业务的核心。

    根据您的业务性质,其他一些领域也可能成为优先事项。例如,为房主投保的保险公司必须拥有有关他们投保的财产的准确和最新的信息。拥有大量产品的公司必须特别关注产品主数据和库存数量的一致性和准确性。

    一旦确定了优先级,公司应该根据其组织当前的能力来评估这些优先级。哪些高优先级数据质量问题可能最容易得到解决?什么是众所周知的“容易获得成果”,可以带来高回报的资源投资?与任何项目一样,领导者必须与利益相关者一起工作,以确定哪些活动和投资将带来最大的利益。

    步骤3:实施改进

    在确定了关键机会之后,业务领导者应该制定项目计划,以实现那些最高优先级的数据质量计划。为了高效和大规模地实现这一点,组织需要企业级的数据质量管理软件。虽然零碎的数据质量改进可能产生一些价值,但更有意义的数据质量改进需要对问题采取战略和整体的方法。

    有效的数据质量改进计划还需要彻底的文档记录。项目领导应该在实施数据质量改进计划之前和之后建立一种测量数据质量的方法,包括定义所需的最终状态,并记录为使组织的数据质量发生积极变化而采取的步骤。这就创建了一个关于该做什么,为什么它是重要的,以及如何衡量成功的明确协议。

    步骤4:监控变更并计划进一步改进

    对数据质量的追求是一个过程,而不是一个终点。组织必须将数据质量管理视为一个迭代过程,其中持续改进才是真正的目标。前三个阶段要求企业领导人在实施改进之前和之后确定目标并建立一种衡量数据质量的方法。有了正确的数据质量管理软件和定义良好的过程来识别和确定关键目标的优先级,项目领导者应该做好充分的准备来衡量数据质量结果和评估他们的数据质量改进计划的有效性。这为持续改进过程提供了一个起点,返回到框架的第一步来重新评估情况,为下一个改进迭代建立目标,并推动组织朝着更高的数据质量标准前进。

三 制定七个指标衡量数据质量

    要测量数据质量,并跟踪数据质量改进工作的有效性,您需要数据。请继续阅读组织可以用来度量数据质量的数据类型和度量标准。

    数据质量指的是一组数据服务于预期目的的能力。低质量的数据不能被有效地用来做想做的事情。

    有很多好的策略可以用来提高数据质量,并将数据最佳实践构建到公司的DNA中。然而,无论采用哪种方法来提高数据质量,您都需要确保有一种方法来衡量工作的有效性。否则,您将在数据质量策略上投入时间和金钱,可能会有回报,也可能不会。

    数据质量评估在实践中是什么样的?下面是典型的帮助公司度量数据质量工作的指标示例。

规则

定义

如何计算

数据错误比率

相对于数据集的大小,有多少错误?

用错误总数除以数据总数。

空值个数

空值表示数据集中缺少信息。

计算数据集中为空的字段的数量。

数据转换错误率

当将信息转换为不同的格式时,会出现多少错误?

数据转换失败的频率有多高?

暗数据量

由于数据质量问题,有多少信息无法使用?

看看有多少数据存在数据质量问题。

电子邮件反弹率

有多少收件人没有收到邮件,因为邮件寄错了地址?

用退回的邮件总数除以发送的邮件总数,再乘以100。

数据存储成本

存储数据要花多少钱?

数据存储提供商收取多少存储信息的费用?

数据价值的转换

公司需要多长时间才能从信息中获得价值?

决定“价值”对公司意味着什么,然后衡量实现这个价值需要多长时间。

    1数据错误比率

    这是最明显的数据质量度量类型。它可以测量数据集中已知错误的数量(如缺失、不完整或冗余条目)如何对应于数据集的大小。如果发现的错误更少,而数据的大小保持不变或增加,那么数据质量正在提高。

    2空值个数

    数据集中的空值,通常表明信息丢失或记录在错误的字段中,是跟踪此类数据质量问题的一种简单方法。可以量化一个数据集中有多少空字段,然后监视这些字段如何随时间变化。

    3数据转换错误率

    数据转换的问题即获取以一种格式存储的数据并将其转换为另一种格式的过程,通常是数据质量问题的标志。通过测量失败的数据转换操作的数量(或完成操作花费的时间长得令人无法接受),可以了解数据的总体质量。

    4暗数据量

    暗数据是不能有效使用的数据,通常是因为数据质量问题。暗数据越多,可能出现的数据质量问题就越多。

    5电子邮件反弹率

    如果正在进行营销活动,糟糕的数据质量是电子邮件被退回的最常见原因之一。它们的发生是因为错误、丢失的数据或过时的数据导致将电子邮件发送到错误的地址。

    6数据存储成本

    数据存储成本是否在上升,而实际使用的数据量却保持不变?这是数据质量问题的另一个可能迹象。如果您没有使用数据而存储数据,这可能是因为数据有质量问题。相反,如果存储成本下降,而数据操作保持不变或增长,则可能会提高数据质量。

    7数据价值的转换

    计算从给定的数据集得出结果所花费的时间是衡量数据质量的另一种方法。虽然有很多因素(比如数据转换工具的自动化程度)会影响数据的“时间到价值”,但数据质量问题是一个常见的问题,它会减慢从数据中获取有价值信息的工作。

    当然,最有意义的度量标准将取决于组织的特定需求。这些只是测量数据质量的指导方针。组织应该制定数据质量解决方案,支持数据治理和遵从计划,并生成完整、单一和可信的数据视图。最重要的是要有某种数据质量评估计划。

 

作者:晓晓

来源:数据驱动智能

上一篇:谈谈数据编织与数据网格、数据虚拟化、数据湖的区别

下一篇:谈谈数据质量管理中的5个关键要素

  • 分享:
龙石数据
咨询电话: 0512-87811036,18013092598
联系我们
商务联系微信

商务联系微信

0512-87811036,

18013092598

咨询电话