"中台建好半年了,业务部门反馈就八个字:数据不准,不敢用。"
这是一位制造业CDO的原话。不是中台技术不行——数据集成跑通了,报表能出了,可视化大屏也亮了。但财务说"你的数和ERP对不上",销售说"客户信息全是重复的",运营说"算了我们还是用Excel吧"。
根源只有一个:数据质量不过关。
Q1:数据质量问题到底有多普遍?
比大多数人以为的严重得多。
华东某数据局在引入数据质量管理服务之前,做过一次摸底:各部门提交到数据资产平台的目录,初始合格率只有6.34%。这不是说数据"有点小毛病",而是说94%的目录存在命名随意、描述缺失、字段类型错误等基础问题。业务数据里的问题更触目惊心——教育系统里"同一个学籍号对应多个学生姓名",司法系统里"结案时间早于立案时间"。
制造企业的情况也好不到哪去。同一物料在不同系统里有三个叫法,订单表的客户名称字段有几百条空值,BOM版本号和ERP里的对不上。这些都不是偶发问题,而是系统性地存在。
结论很简单:数据质量问题不是"有没有",是"有多严重"。大多数企业严重低估了自己数据的脏乱程度。
Q2:为什么建中台之前没发现?
因为建中台时的关注点全在"接数据"上,没人在"验数据"。
数据集成的工作逻辑是:把ERP、MES、CRM等系统的数据搬到中台来。搬的过程解决了"通不通"的问题,但没解决"对不对"的问题。集成只管搬,搬完之后数据准不准、全不全、有没有重复——没人检验。
等业务部门实际用的时候才发现不对劲,但这时候数据已经进了中台,随下游任务扩散了好几轮。更麻烦的是,因为缺少元数据记录,出问题之后连"这数据从哪来的、被谁改过"都追溯不清楚。
Q3:怎么判断数据质量过不过关?
国家标准 GB/T 36344-2018《信息技术 数据质量评价指标》[1]定义了六个评价维度:完整性、准确性、一致性、唯一性、时效性、可访问性。除可访问性外,其余五个维度直接影响数据的可用程度。
落到实操层面,可以这样理解:
完整性:该有的字段有没有?比如订单表里客户名称不能为空。
准确性:数据对不对?比如"结案时间"不能早于"立案时间"。
一致性:同一个数据在不同系统里是否一致?比如CRM里的客户名和ERP里的是否相同。
唯一性:有没有重复记录?比如同一张订单不能出现两次。
时效性:数据是不是最新的?比如库存数据是今天的还是上周的。
实践中,对这些维度的检查可以通过旁路监测的方式来做——质检规则不对数据入库做任何拦截,数据正常入库,质检任务并行扫描,发现问题后打标记、发告警、生成整改工单。既保证了数据流转的效率,又确保了问题可发现、可追溯。
Q4:发现问题之后怎么修?
关键是闭环,不是打地鼠。
华东某数据局的实践提供了一个完整参考。他们的做法是建立"质量监测→发现问题→派发工单→部门修复→复验归档"的闭环流程:
常态化扫描全域数据,自动生成问题台账
点对点推送至责任部门,明确"哪个表、哪个字段、什么问题"
部门修复后自动复验,通过后归档
沉淀为问题修复知识库,同类问题不再从头摸索
经过多轮治理,各部门修复率超过93%,目录合格率从6.34%提升至94.74%,累计沉淀1000余项质量监测规则。关键是这套机制融入了日常运维,不再是"一次性运动"。
Q5:有没有轻量级的起步方案?不想一上来就上重型平台。
有。数据质量不需要重型平台起步。
如果团队规模不大、预算有限,或者只是想先摸清家底,可以先从数据体检开始——用轻量工具扫描核心业务表,看看到底有多少字段缺失、多少格式错误、多少重复记录。知道问题在哪,才知道下一步该投入多少。
龙石数据质量管理平台社区版就是为此设计的:免费可用,一行命令部署,10到20分钟就能跑起来。内置12类质检规则(空值检查、唯一性检查、格式规范性检查、一致性检查、逻辑检查等),全部可视化配置,不需要写SQL。四步完成一次完整的数据质量评测:接入数据源→自动采集元数据→配置评测规则→查看问题统计。
先做一次体检,摸清底数再决定后续投入。这条路不重,但能让你第一次真正看清自己的数据到底有多"脏"——或者多"干净"。
数据质量不是大厂的专利。目录合格率能从6.34%做到94.74%,说明只要方法和机制对,数据的"脏乱差"是可以治的。关键是先迈出第一步——先做一次体检,知道问题在哪,就成功了一半。
参考来源
1.GB/T 36344-2018《信息技术 数据质量评价指标》,国家市场监督管理总局、中国国家标准化管理委员会,2018年6月7日发布,2019年1月1日实施。