参考了国家标准《GB/T 36344-2018 信息技术数据质量评价指标》的定义,所谓“好的数据质量”并非一个绝对概念,而是指数据在特定使用场景下,其特性满足明确和隐含需求的程度。也就是说,高质量数据是因使用情景而异的,核心在于满足数据消费者的应用需求。
龙石数据质量平台依据国家标准,构建了以规范性、完整性、准确性、一致性、时效性五大维度为核心的评测体系,为“好的数据质量”提供了具体、可衡量的解析框架。
数据质量平台 5 大维度全解析
-
规范性
- 核心定义:数据符合数据标准、数据模型、业务规则、元数据或权威来源(如国家标准)的程度。
- 平台解析:龙石平台通过“数据质量规则管理”功能,支持图形化定义格式规范性检查等规则。例如,检查身份证号码是否符合《公民身份号码》国家标准的编码规则,确保数据在格式和结构上遵循统一规范。
- 评判标准:数据是否遵循了既定的标准和模型。
-
完整性
- 核心定义:按照数据规则要求,数据元素被赋予数值的程度,即关键信息是否缺失。
- 平台解析:平台支持空值检查、数据缺失检查等规则。例如,检查员工信息表中的“员工姓名”、“联系方式”等关键字段是否存在空值,确保记录的信息完整可用。
- 评判标准:必要的数据项是否都有值。
-
准确性
- 核心定义:数据准确表示其所描述的真实实体(实际对象)真实值的程度。
- 平台解析:平台通过值域检查、逻辑检查、交叉比对检查等规则来保障。例如,检查“员工年龄”是否在合理范围内(如18-65岁),或检查“订单创建时间”是否早于“订单支付时间”,确保数据在业务逻辑和事实层面准确无误。
- 评判标准:数据是否真实、准确地反映了客观事实或业务逻辑。
-
一致性
- 核心定义:数据与其他特定上下文中使用的数据无矛盾的程度,包括内部一致和跨系统一致。
- 平台解析:平台支持唯一性检查、引用完整性检查、一致性检查等规则。例如,检查同一客户在不同系统中的基本信息是否一致,或检查订单表中的“客户ID”是否都能在客户主数据表中找到对应记录,确保数据在不同场景下逻辑自洽、无冲突。
- 评判标准:同一数据在不同位置、或关联数据之间是否保持一致。
-
时效性
- 核心定义:数据在时间变化中的正确程度,即数据是否及时更新和可用。
- 平台解析:平台通过时效性检查、更新频率检查等规则进行监控。例如,检查业务系统中的客户状态变更是否在规定时间内(如10分钟内)同步至数据分析平台,确保用于决策的数据能够反映最新业务状况。
- 评判标准:数据是否在需要时是最新且可用的。
平台如何支撑五大维度评测
龙石数据质量平台将这五大维度具象化为13类可执行的质量规则(如空值检查、唯一性检查、逻辑检查等),并通过以下核心功能实现闭环管理:
- 评测模型管理:按业务主题创建模型,关联数据库,并图形化配置上述维度的具体检查规则。
- 高性能评测任务:采用 “旁路监测” 模式,在不影响业务库的前提下,利用质量分析引擎对亿级数据进行高性能评测,快速发现问题。
- 问题闭环处理:通过“问题数据查看”与“问题数据统计”,定位问题、分析根因、推动整改,并生成质量报告,实现PDCA(计划-执行-检查-处理)循环。
总结而言,“好的数据质量”就是能够通过规范性、完整性、准确性、一致性、时效性这五大维度的检验,并最终满足业务使用需求的数据。平台通过将这五大维度转化为可视化的、可自动执行的检查规则与任务,为企业建立了一套科学、客观、可落地的数据质量评价与持续改进体系。