数据标准在模型设计和数据质量中的实践

2022-08-31 23:17 浏览量:654

数据标准如何应用?数据标准能起到什么作用?自数据标准产品上线以来,一直致力于打通平台内各个子产品,让数据标准能够应用到数据治理及开发当中去。

 

1

 

场景描述

 

场景:

船舶数据是港口行业中最重要的主数据之一,多个业务系统中都存有该数据,不同系统中的数据存在代码、名称不一致、数据记录重复、关键字段缺失等问题,导致船舶数据无法流动和共享。通过对船舶数据进行数据治理后,形成船舶维度表,可以向十几个应用系统提供数据共享服务。

 

流程:

 

目标:

本文将基于船舶表原始数据(仅举例一个来源表)来介绍标准如何产生,以及如何基于数据标准来构建船舶维度表以及构建对应的质量检测任务。

 

1.1 数据调研(标准部分)

1.1.1 船舶表结构

现有多张船舶相关的信息表,标准的调研需要基于所有可能有效的数据来源。本文以对一张表的分析为例,现有如下船舶表结构:

(表1 船舶表结构示例)
 


 

1.1.2 补充说明

数据调研是对客户业务以及数据盘点的过程,实际还需要更多调研内容,主要是对外部数据的盘点,需要调研数据种类、数据的存储位置(环境、数据源类型、数据源、库/Schema)、更新频率、数据来源、存储策略、业务逻辑、数据量、数据字典、ER关系等,最终生成调研报告,留作过程资产。 本案例主要为了讲述数据标准的应用,所以略过。

 

1.2 标准规划

本节内容仅当无参考标准时使用,若有参考的国标、行标、企标等直接引入即可。

 

1.2.1 词根拆解

根据原始字段进行词根拆解,以及将词组拆分城一个个中文词根,为后续指定词根标准做准备。

(表2 词根拆解结果示例)
 

 

1.2.2 数据项规划

数据项规划是通过调研不同来源表,梳理需要进行标准制定的数据项。对于代码类字段一般需要扩展它的描述字段。

(表3 数据项规划结果示例)
 


 

2

 

标准设计

 

2.1 标准定义流程

我们现有的标准定义流程,主要是围绕数据元开展。如下如图所示,词根、数据项分类、数据字典、资源目录都可以按需建立。

 

若需要通过系统规范命名那么就需要定义词根;若该数据元值域为枚举,那么就需要定义数据字典;若需要对数据元进行多角度的分类,那么则需要定义数据项分类;若需要定义统一的资源目录供表、指标、标签去使用,则需要定义资源目录。

(图2 标准定义流程)

 

接下来我们将基于有数数据标准管理平台完成标准的定义。


 

2.2 词根定义

2.2.1 词根数据准备

针对场景以及【1.2.1 词根拆解章节】词根去重结果,我们对词根进行定义,并录入这些词根,后续需要可以再补充。

(表4 词根结构化信息示例)
 

 

3.2.2 词根录入

Step1:进入词根页面添加词根

进入【数据标准-数据项标准管理-词根】,点击添加词根按钮

(图3 词根管理页面)


 

Step2:填写词根信息

依据【表4 词根结构化信息示例】将词根信息录入,以”国家“为例:

(图4 词根添加)


 

Step3:录入完成

点击确定即录入完成,此时可在列表中查看对应的词根,重复以上步骤,将【表4 词根结构化信息示例】全部录入即可。

(图5 词根添加结果页)


 

2.3 数据元及数据字典定义

基于【2.2.2数据项规划】我们得到以下数据项,针对每一个需要制定相关的数据标准(数据元、标准字典),如下表所示。

(表5 数据元定义列表)
 


 

为了便于实践,我们仅从上表中挑选几个具有代表性的数据项进行后续的步骤:

(表6 本次实践的数据元定义列表)
 


 

根据上述表格我们需要添加1个标准字典:船舶类型代码,5个数据元:船舶编码、船舶中文名称、船舶英文名称、船舶类型代码、船舶长度。

 

2.3.1 标准字典定义

Step1:准备标准字典数据

(1)字典基础信息

目前录入字典的信息,需要填写以下几项,其中英文名称、英文全称将会根据我们3.2节定义的词根自动翻译生成。另外,字典注册支持用户自定义注册模板,用户可选择填写的内容范围。

(表7 标准字典基本信息)
 


 

(2)字典码表信息

(表8 标准字典码表信息)

 

Step2:进入字典页面添加标准字典

(图6 标准字典添加页)


 

Step3:填写字典基本信息

(1)将Step1中准备的数据填入到页面,在填写完字典名称后,点击英文名称,可看到词根翻译结果

(图7 词根翻译示例)


 

(2)填入所有基础信息

(图8 字典基础信息填写示例)


 

Step4:填写码表信息

(1)点击添加字典项

(图9 添加字典代码)


 

(2)将码表填入,完成后点击确定

(图10 字典代码填写示例)


 

Step5:点击保存,完成录入

(图11 字典录入完成示例)


 

Step6:提交标准字典审核

在字典详情页,点击提交审核按钮

(图12 标准字典提交审核)


 

在弹出框中选择目标状态为标准,点击确定即可提交申请

(图13 目标状态选择)


 

到这一步,标准字典的定义已经完成,如果你具有标准审核的权限,可执行Step7

 

Step7:审核字典申请

仅有审核权限的用户可操作当前步骤,在流程审核-标准审核-未办结里对用户提交的申请进行审核

(图14 审核标准字典状态流转申请)

 

2.3.2 数据元定义

Step1:准备数据元数据

按照【3.3节 表6 本次实践的数据元定义列表】对数据元进行录入信息补全。为方便录入数据元的信息,需要填写以下几项主要信息,其中英文名称、英文全称将会根据我们3.2节定义的词根自动翻译生成。另外,数据元注册支持用户自定义注册模板,用户可选择填写的内容范围。

(表9 数据元结构化信息)
 


 

Step2:进入数据页面添加数据元

(图15 数据元管理页)


 

Step3:填写数据元信息

以【船舶类型代码】数据元为例,填写基本信息并选择对应的标准字典

(图16 数据元添加页添加内容示例)


 

Step4:确认并填写规则信息

点击下一步,可查看质量规则,或新增自定义规则

(图17 数据元规则配置)


 

Step5:点击完成,完成录入

按照Step2-4完成其他4个数据元的录入,并回到数据元列表页

 

Step6:批量提交数据元审核

(1)选择我们建立的5个数据元,点击批量提交审核

(图18 数据元提交审核)


 

(2)选择目标状态为标准,点击确定

(图19 数据元选择目标状态)


 

到这一步,数据元的定义已经完成,如果你具有标准审核的权限,可执行Step7


 

Step7:审核数据元申请

仅有审核权限的用户可操作当前步骤,在流程审核-标准审核-未办结里对用户提交的申请进行审核

(图20 审核数据元状态流转申请)


 

2.3.3 标准发布

当数据元及标准字典都进入标准态后,我们就可以对数据元及标准字典进行全量发布了。

Step1:数据元发布

在标准发布页面,进入数据元标签页可在待发布列表里查看到刚刚我们建立的标准态数据元,点击提交发布

(图21 数据元发布页)


 

填写发布说明后,点击确定及提交了数据元的发布申请

(图22 数据元发布提交框)


 

Step2:数据字典发布

在标准发布页面,进入字典标签页可在待发布列表里查看到刚刚我们建立的标准态数据字典,点击提交发布

(图23 标准数据字典发布页)


 

填写发布说明后,点击确定及提交了标准数据字典的发布申请

(图24 标准数据字典发布提交框)


 

Step3:标准发布审核

仅有审核权限的用户可操作当前步骤,在流程审核-发布审核-未办结里对用户提交的申请进行审核,审核通过后则正式生效,可被其他模块使用。

(图25 数据标准发布审核页)


 

3

 

模型设计

 

数据标准的建立让模型设计变得更规范。在模型设计时,比如我们需要建立一张船舶维度表,假设该表只有5个字段,即可通过我们建立的数据元来构建该表。

 

Step1:进入模型设计中心新建表

进入主题域页面,点击新建表

(图26 模型设计中心表列表)


 

Step2:填写表信息

如下图所示,按照要求选择表分层、关联维度,补充表信息

(图27 模型设计中心表信息填写)


 

Step3:填写字段信息

(1)点击【标准化信息】锚点,将表单滑动值标准化信息填写区

(图28 模型设计中心字段信息填写)


 

(2)在数据元列选择我们刚刚建立的数据元

依次选择:船舶编码、船舶中文名称、船舶英文名称、船舶类型代码、船舶长度

 

选择完成后,字段名称、字段描述将根据数据元自动生成,且数据元关联的数据字典也将一并带出,保证了命名及含义的规范性。

(图29 模型设计中心字段信息填写完成示例)


 

Step4:补充建表的其他信息后点击完成

补充主键、分区字段等信息后,点击完成提交建表工单,工单审核通过后即可完成建表

(图30 模型设计中心工单审核结果页)

 

至此,我们已完成通过数标准来建立模型的全过程,接下来我们再看看数据标准如何赋能数据质量中心,让质量稽核变得更简单。

 

4

 

质量设计

 

数据标准建立的是一套完整质量稽核体系,对于同种含义的字段是不需要重复建立稽核规则的,能够复用。

 

本章节,我们将对上一节创建的表快速基于数据标准创建质量稽核任务。

Step1:进入数据质量中心新建监控

进入任务列表-质量监控,点击新建监控

(图31 数据质量中心新建监控页)


 

Step2:进入数据质量中心新建监控

选择我们刚刚创建的表并填写监控基础信息

(图32 数据质量中心监控信息填写页)


 

Step3:质量规则配置

(1)点击新建规则-标准推荐规则

(图33 数据质量中心标准规则推荐)


 

(2)在弹出框中对推荐的规则进行监控阈值配置

可以看到因为该表字段配置对应的数据标准,因此左侧会提供默认的质量稽核规则,我们不再需要配置规则代码,仅需配置期望范围-规则命中行数即可,如期望范围填写>10%

(图34 数据质量中心标准规则推荐配置)


 

(3)重复step3完成多个规则配置

当左侧的勾选的规则都配置完成后,即可点击确定,完成规则创建

(图35 数据质量中心标准规则推荐配置完成)


 

点击确定后,即可在规则列表中查看到标准推荐的规则列表

(图36 数据质量中心标准规则推荐列表)


 

Step4:完成监控任务创建

点击完成,回到监控任务列表,可查看到我们创建的任务。后续可以将该任务挂载在离线开发节点上,对该表的输出进行稽核,完成质量监控。

(图37 数据质量中心监控规则配置结果列表)


 

5

 

后续计划

 
 

目前质量任务的生成还需要用户去配置监控的阈值,后续我们将在模型表创建时选择是否自动创建监控任务,使用默认阈值进行创建,用户可对齐进行修改。这也能够使数据标准、模型设计、数据质量联动更流畅,提升用户配置监控任务效率。解决用户对质量监控配置繁琐、不知道如何配的问题,通过数据标准+管理流程近一步提升数据质量。

 

 

来源:志明与数据

作者:安阳

上一篇:数据治理总是诉诸理性而非利益,这很危险!

下一篇:凯哥 | 数据中台可能和你想的不一样

  • 分享:
龙石数据
咨询电话: 0512-87811036,18013092598
联系我们
商务联系微信

商务联系微信

0512-87811036,

18013092598

咨询电话