如何评价数据仓库建设好坏?有哪些量化指标

企业数据仓库建设需要数据开发者投入大量的时间和资源，对于数据团队来说，管理者如何评价他们工作的好坏呢?一群数据开发者每天都加班加点，业务部门仍然吐槽数据找不到，数据没有，又该如何评价呢？结合数据中台思想，数据仓库的建设目标是希望为业务提供尽可能完善的模型（需要的我都有），并且减少重复建设尽量复用（成本要足够低），此外，还需要符合统一的标准规范（数据标准）。

数仓完善度的衡量指标

数仓完善度是指经过数据开发长时间的开发和迭代，现有的数据仓库资产是否覆盖了业务常用的查询场景，业务要的，模型是否已经建设完成？

衡量DWD层是否完善，通常看ODS层有多少表被 DWS/ADS/DM 层引用。因为 DWD 以上的层引用的越多，就说明越多的任务是基于原始数据进行深度聚合计算的，明细数据没有积累，无法被复用，数据清洗、格式化、集成存在重复开发。因此，可以用跨层引用率指标衡量 DWD 的完善度。

跨层引用率：ODS 层直接被 DWS/ADS/DM 层引用的表，占所有 ODS 层表（仅统计活跃表）比例。跨层引用率越低越好，在数据中台模型设计规范中，一般要求不允许出现跨层引用，ODS 层数据只能被 DWD 引用。

DWS/ADS/DM 层完善度：考核汇总数据的完善度，一般主要看汇总数据能直接满足多少查询需求（也就是用汇总层数据的查询比例衡量）。如果汇总数据无法满足需求，使用数据的人就必须使用明细数据，甚至是原始数据，可以用汇总数据查询比例衡量DWS/ADS/DM 层完善度

汇总数据查询比例：DWS/ADS/DM 层的查询占所有查询的比例。要明确的是，这个跟跨层引用率不同，汇总查询比例不可能做到 100%，但值越高，说明上层的数据建设越完善，对于使用数据的人来说，查询速度和成本会减少，用起来会更顺畅。

数仓复用度衡量指标

数据中台核心是追求模型的复用和共享，通过元数据中心的数据血缘图，可以看到，一个比较差的模型设计，自下而上是一条线。而一个理想的模型设计，它应该是交织的发散型结构。可以用模型引用系数作为指标，衡量数据模型设计的复用度。引用系数越高，说明数仓的复用性越好。

模型引用系数：一个模型被读取，直接产出下游模型的平均数量。比如一张 DWD 层表被 5 张 DWS 层表引用，这张 DWD 层表的引用系数就是 5，如果把所有 DWD 层表（有下游表的）引用系数取平均值，则为 DWD 层表平均模型引用系数，一般低于 2 比较差，3 以上相对比较好（经验值）。

数仓规范度衡量指标

在数据治理初期，我们统计发现80%的表的字段描述时不全的（不到100%），超过 40% 的表都没有分层信息，在模型设计层面，这显然是不规范的。除了看这个表有没有分层，还要看它有没有归属到主题域（例如交易域）如果没有归属主题域，就很难找到这张表，也无法复用。其次，你要看表的命名。拿order_detai这个命名为例，当你看到这个表时，知道它是哪个主题域、业务过程？是全量数据的表，还是每天的增量数据？总的来说，通过这个表名获取的信息太有限了。一个规范的表命名应该包括主题域、分层、表是全量快照，还是增量等信息。除此之外，如果在表 A 中用户 ID 的命名是 UserID，在表 B 中用户 ID 命名是 ID，就会对使用者造成困扰，这到底是不是一个东西。所以我们要求相同的字段在不同的模型中，它的命名必须是一致的。常用的规范性指标可以从数据标准治理的核心角度设定，比如，字段描述覆盖率，模型分层信息覆盖率、命名不规范表占比等。

总之，评价数据仓库建设好坏需要从多个维度进行考量，包括外部评价标准和内部评价标准。在量化指标方面，可以从完善度、复用度和规范性三个方面进行衡量，以确保数据仓库能够为企业带来更大的价值。

来源（公众号）：数据干饭人

龙石数据·博客中心

龙石数据·博客中心

如何评价数据仓库建设好坏?有哪些量化指标

龙石数据产品

热门文章

龙石数据·博客中心

龙石数据·博客中心

如何评价数据仓库建设好坏?有哪些量化指标

相关文章：

龙石数据产品

热门文章