团队配置并不弱——DCMM 评估师、DAMA 认证的数据管理专业人员都在[1][2]。但这些人的日常正在被大量重复性、追溯性工作占据,真正该投入的数据治理体系建设和资产化推进反而一推再推。
问题出在哪里?我们把工单拆开看,会发现根源不在运维层面,而在更早的阶段——平台建设时被跳过的数据治理工作,现在以运维成本的形式回流了。主要集中在三个方面。
一、数据标准缺失带来的重复性投入
一个建筑装饰集团(企业名称已脱敏,下同)的情况很能说明问题。该集团旗下有两百余家分子公司,同一根"镀锌方管 40×60",在采购系统、项目管理系统和财务系统中分别为三种编码和命名。每月底对账时,财务和项目团队需要人工核对一周。
这还只是一种物料。当几千种物料、数百个供应商、数十个项目部的数据缺乏统一的主数据标准时,每接入一个新系统、每出一个新报表,治理团队都要做一轮手工映射和清洗。
原因并不复杂:平台建设阶段采取了"数据先进来再说"的策略,数据标准没有前置定义,主数据没有统一。短期看,平台确实通了,但后续每增加一个数据源、每扩展一个业务场景,标准不一致带来的重复投入都会同步放大。团队不是在用标准化手段管理数据,而是在用人填补标准缺失的缺口。
二、数据质量问题造成的排查成本
数据质量问题的影响不止于"结果不准",更在于它带来的排查链条。
华东某化工企业(企业名称已脱敏)在中台上线初期,将 MES 和 ERP 的数据接入平台后,业务部门很快就反馈数据与源系统不一致。治理团队排查后发现,同一个物料在两边系统中的编码体系完全不同——物料编码、批次号、供应商代码,几乎所有主数据都涉及口径问题。前三个月的集成成果大部分需要重做,调整主数据标准并建立质量规则后,交付及时率才有明显改善。
而排查本身消耗的资源往往比返工更多。一次"数据不准"的反馈,可能涉及三四个源系统的日志回溯、十几张表的数据比对、多个部门的联合对账。根因可能是数月前某个字段的映射规则设置问题。排查周期长不是因为团队能力不足,而是因为缺乏前置的数据质量基线——问题数据在接入时没有被拦截,等下游发现时影响范围已经扩散。
三、元数据缺失导致的管理成本
相比标准和质量的显性问题,元数据缺失的影响更隐蔽,但同样持续消耗治理团队的精力。
当数据出现问题,治理团队需要回答几个基本问题:这个字段来源是哪个系统?经过哪些加工步骤?最近一次变更是什么时候?在没有自动化的元数据采集和血缘追踪的情况下,回答这些问题的方式往往是翻阅 ETL 脚本、查找工单记录、询问相关开发人员。熟悉历史代码的人一旦离开,追溯难度还会进一步上升。
这种状态持续下去,治理团队的核心工作会逐渐被"数据追溯"占据。他们被组织赋予的职责——设计治理体系、建设数据资产目录、推动数据服务化——反而被挤到了次要位置。
四、治理能力前置是降低长期成本的关键
以上三类问题的共同特征,是治理被放在了数据流转之后,而非嵌入流转之中。标准在接入之后才补映射脚本,质量在投诉之后才开始排查,元数据在问题发生后才去翻代码——这些都属于事后补救式治理。
调整的方向很明确:将治理能力作为数据平台的原生组成部分,而非后期叠加的修正层。
在标准管理方面,主数据标准和字段映射规则如果能在定义阶段建好,后续接入可自动对齐,减少人工映射工作量。在质量管理方面,前置的质量规则——非空校验、值域约束、跨表一致性检查——在数据接入时即可执行,问题数据在源头被标记,不向下游扩散。在元数据管理方面,自动化的元数据采集和血缘构建,可以将问题定位从"翻代码"级缩短到字段级。
市场上已有部分数据中台产品按照这种"治理内建"逻辑设计,例如龙石数据中台将标准管理、质量稽核和元数据管理模块与数据集成、存储、服务层协同运行,标准定义后作用于接入链路,质量规则在流转中旁路执行,元数据自动采集并生成血缘。这种模式下,治理团队的人工投入可以从重复追溯转向体系建设和资产运营。
需要指出的是,治理前置并不是一个一次性的项目。已经处于运行状态的中台,可以按照当前最突出的问题确定优先级——元数据缺失严重的先做元数据治理,质量问题频发的先做质量基线,标准混乱的先做核心数据域的标准化。任何一个维度的改善,都会直接体现在治理团队日常工作的效率变化上。
五、常见问题
Q1:运维成本高,是不是平台选型有问题?
不一定。很多情况下,成本增长的主要原因是前期跳过治理导致后续工作以人工方式回流,而不是平台技术架构本身。建议先排查当前运维工作的类别分布——标准相关、质量相关、元数据相关各占比多少——再判断问题在治理还是平台。
Q2:已经在大量人工运维的状态下,应该从哪里入手?
没有适用于所有企业的统一顺序。如果当前最突出的问题是质量投诉频繁,就从质量基线入手;如果数据追溯困难是主要瓶颈,就先做元数据治理。另外需要区分存量问题和增量问题:增量的质量规则和元数据采集可以在短期内在新接入域中建立,存量数据则按优先级逐步清理。
Q3:治理前置需要多长时间才能看到效果?
元数据治理通常在 1-2 个月内即可改善数据追溯效率。质量基线在新接入域中可以同步建立,增量问题在建立规则后即可拦截。核心数据域的标准化周期取决于数据域数量和复杂度,3-6 个月可以完成主要域的统一。关键是建立机制确保新增数据域不再重复跳过治理环节。
六、结语
数据中台运维成本高的背后,往往不是运维团队能力的问题,而是更早阶段的数据治理工作没有到位。标准、质量和元数据——这三项能力如果在平台建设阶段被跳过,最终会以人力投入的形式持续消耗治理团队的精力。
如果治理团队长期将主要精力投入排障和数据追溯,说明平台建设阶段的治理能力仍有较大补齐空间。补齐的时机越早,后续的隐性成本越低。
参考来源
[1] DAMA International,《数据管理知识体系指南》(DMBOK2) https://dama.org/learning-resources/dama-data-management-body-of-knowledge-dmbok/