国有银行数据治理实战经验全解

2023-03-27 08:45 浏览量:459

前言

经历过的人都知道,国有银行的数据治理困难重重,面临着上头有监管、领导瞎指挥、平级部门不配合、下级单位自己玩等状况,缺少成熟的思路指导和成功的经验参考。为了打破这一现状,接下来我们将引用郑保卫博士《财务数据治理实战》一书中关于国有银行数据治理的成功案例,供业内人士研究探讨。

 

背景介绍

2020 年 4 月,中共中央、国务院颁发《关于构建更加完善的要素市场化配置体制机制的意见》,首次明确将数据纳入生产要素,习近平总书记进一步强调了“要构建以数据为关键要素的数字经济,发挥数据的基础资源作用和创新引擎作用”的要求,为全社会树立数据治理的正确理念,为推进数据管理和应用工作指明了方向。

2018 年,银保监会发布《银行业金融机构数据治理指引》,明确了商业银行推进和完善数据治理工作的工作方针。而早在 2011 年,银保监会就已经通过颁发《银行监管统计数据质量管理良好标准》等文件对商业银行开展数据质量管理工作提出要求。

针对银保监会的监管要求,某国有银行结合自身业务发展和管理提升需要,其总行党委高度重视全行数据治理工作,并于 2020 年 5 月正式成立总行数据管理与应用部,以“夯实基础、以用带建、问题导向”为总纲,全面统筹推动数据治理项目。

该行数据管理与应用部自成立以来,始终紧紧围绕数据体系面临痛点与难点,按照行领导要求,全面规划并推进数据治理的组织、制度、标准以及中台建设,搭建企业级数据标准体系,推动形成全行数据治理体系,以数据治理赋能全行数字化转型。

项目范围

数据治理核心领域实践项目的范围包括以下部分:

一是盘点全行数据资产。采集全行业务系统元数据,识别自身数据资产,构建企业级数据资产目录,以便于数据架构师、数据分析师等数据人员更好地查找和理解数据。与此同时,归纳形成企业级数据词根词典,为后续标准编写打下基础。

二是建立企业级数据标准。统筹做好存量系统与新建系统的标准衔接,提升数据管理的规范化水平,以企业级数据字典为核心,形成“两套标准,一套规范”的数据标准体系,有序推进数据标准落标。

三是搭建数据治理平台。数据治理平台作为数据治理的统一门户,集中展示数据治理成果以及数据治理过程中的各类流程管理工作,实现跨部门的流程贯通。平台包括数据标准管理、数据资产查询、数据质量检核、数据分类分级及其他具体功能模块。

四是建设数据建模工具,深入推进数据标准的落标工作。将数据标准与开发流程相结合,保证开发项目组的便捷化落标,保障数据标准管控深度嵌入开发流程,并在接口发布等过程中完成数据标准的检核,实现数据标准的真正落地。

五是建设数据质量管理工具。以平台工具为支撑,探索数据质量闭环管控机制,并以业务关键问题为出发点,持续梳理数据质量检核规则,推动实现数据质量问题发现、分析、解决、监控的线上化、流程化管理。

项目成果

(1)构建企业级数据标准体系

构建标准体系一般是将此前系统级、项目级的数据标准拓展至全领域、企业级范围,着力解决物理命名不规范、业务定义不明确、业务口径不统一等问题。标准的构建需要将业务部门、数据管理部门、开发实施部门之间的工作在数据标准的内容层面衔接起来,兼顾各部门的职责,发挥各部门的特点,既同心合力,又分工明确。在此过程中,只有业务部门深入参与,才能真正做好标准体系的构建,也只有针对业务自身需求进行的治理,才能得到业务部门的认可和支持。

为此,项目所构建的数据标准体系分为业务术语、数据标准和数据字典。业务术语是指全行各部门在业务和技术活动中对自身所产生数据项的业务定义。业务术语一般包括概念定义、规则说明、统计口径和质量规则等要素,分为基础业务术语和指标业务术语两类。数据标准是指基于全行数据管理、使用和共享的目的而编制的标准化数据项规范,分为基础数据标准和指标数据标准两类,分别是对基础业务术语和指标业务术语的标准化和规范化,其中基础数据标准涵盖枚举代码标准。数据字典是指为统一管理全行信息系统的数据模型所制定的表结构和字段定义规范,是技术部门在信息系统开发过程中的参照标准。数据字典一般包括数据命名、数据类型、数据长度和取值范围等要素。

(2)打造治理平台

数据治理平台是数据中台的一个重要组成部分。数据中台主要由计算平台、服务平台、分析平台和数据治理平台四大平台构成,结合开发端一体化协同研发平台及业务应用系统与应用前台,组成了从数据加工、存储、治理到服务的完整体系,用户面向全行员工。

整个数据中台基于“4U”原则建设。“4U”指的是数据统一采集、统一标准、统一加工、统一服务。通过数据计算平台进行数据的整合以及指标的统一加工,实现各域各场景下的数据指标口径统一;通过数据服务平台实现数据的统一联机及批量服务共享;通过数据分析平台支持业务人员安全、快速取用数据,挖掘数据价值;通过数据治理平台支撑数据标准的流程化管理。

数据治理平台参考了 DAMA 数据治理体系、DCMM 以及 2021 年中国人民银行发布的《金融业数据能力建设指引》等理论框架,形成以数据战略、数据架构、数据应用、数据质量、数据治理、数据标准、数据安全与数据生命周期八个核心能力域为基础划分的治理平台。数据治理平台的部分应用架构如下图所示。

数据标准管理是整个数据治理工作的起点也是其最重要的部分,由项目组牵头,通过对数据去重、筛查和甄别,核定业务过程各类数据项的业务术语和口径,参考人民银行指引实施数据分类分级,从而形成全行企业级数据标准,并且在数据标准基础上制定数据字典,配套数据模型管控工具,使开发人员在模型设计时可直接使用数据标准进行建模,从而在实现建模的同时完成落标管控。

数据质量是数据治理成果的集中体现,数据质量提升是一个持续的过程,针对外部监管和内部经营反馈的各种数据问题逐步充实数据质量规则库,制订数据质量提升计划,对源头数据进行检核,从而针对不同数据问题的原因进行程序改造或问题数据修正。

数据资产是企业及组织所拥有或控制的,预期能给企业及组织带来经济利益的数据资源,目前数据治理平台的数据资产包含元数据、零售标签、报表资产和外部数据。该行业务系统的库表结构信息已经导入元数据管理模块,并对其中的中文表名和字段名进行了完善,形成该行的技术元数据基础库。未来将不断丰富数据资产内容,提供更便捷的数据资产使用服务,提升数据资产使用体验,打造以用户体验为核心的数据资产目录。

1)数据治理平台与其他系统间的关系

数据治理平台与其他系统的关系示意图

元数据采集是在源系统生产环境部署元数据采集程序,自动采集以库表结构信息为主的技术元数据。考虑到生产系统的安全性,治理平台不直连源系统数据库,而是通过治理平台制定元数据采集接口格式,各个源系统自行按接口格式导出元数据信息,最后由行内数据交换系统传送至数据治理平台的方式实现元数据自动采集。数据标准贯入是将数据标准贯入数据建模系统,以便开发人员在需求开发的数据建模阶段就能通过建模系统完成落标工作。另外,将数据建模作为开发过程的必备步骤,嵌入开发流程,完成落标管控的同时又实现了元数据的管控。

资产共享权限信息是由数据治理平台统一维护业务用户的数据使用权限,管控范围包括标签库和指标库的数据使用权限,该权限适用于包括 BI 分析应用、外部数据平台等所有数据访问平台。权限管控分为数据授权和访问控制两个环节。其中,数据授权的主管部门为业务部门,负责在治理平台进行权限分配和回收,访问控制由应用平台实现,对接治理平台获取用户数据权限进行实际的数据访问控制。

质量规则分发和结果回收是在治理平台的质量检核系统中进行质量规则管理,根据所选取的质量规则生成质量检核执行语句分发到计算平台执行,同时将执行结果返回给质量检核系统。业务人员可以制订质量提升计划,选择需要执行的质量规则,并查看执行后返回的错误明细数据,从而制定问题解决方案。

需求阶段检标要求业务人员在需求提出环节使用数据标准提出数据需求,比如新增报表时的报表数据项应该使用数据标准定义的名称,若现有标准不能覆盖需求,则同时提出新建数据标准的需求。此项内容正在需求讨论阶段,待下一期实现。

数据报告为应用系统提供数据资产查询接口,接口内容包括技术元数据详细信息、基础标准详细信息、指标标准详细信息和零售标签详细信息等。应用系统可直接调用相应接口获取详细信息。

2)数据标准

数据标准是企业各部门共同的“数据语言”,是打破“数据孤岛”的关键,也是近几年监管关注的重点领域。对于传统的大型企业,实现数据标准统一绝非易事——既要面对业务动态调整中的新建系统,也要面对数量庞大的存量系统和既有库表;既要适应业务部门的需求编写方式,也要符合开发部门的开发原则。在这样的语境下,数据标准体系需要逐步演进,并包含业务术语、数据标准、数据字典的多层结构。业务术语对应业务部门对自身业务的提炼,数据标准对应数据管理部门对业务术语的标准化与规范化,数据字典对应技术部门在系统开发中的物理落地。数据标准模块主要由业务术语、数据标准、数据字典三部分组成。

业务术语是指全行各部门在业务和技术活动中对自身所产生数据项的业务定义。

业务术语一般包括概念定义、规则说明、统计口径和质量规则等要素,分为基础业务术语和指标业务术语两类。

数据标准是指基于全行数据管理、使用和共享目的而编制的标准化数据项规范,分为基础数据标准和指标数据标准两类。基础数据标准是对基础业务术语的标准化和规范化,代码类的基础数据标准涵盖了标准代码。指标数据标准是企业内共同遵守的数据含义和业务规则,通过标准化统一口径,消除歧义。

数据字典是指为统一管理全行信息系统的数据模型所制定的表结构和字段定义规范,作为技术部门在信息系统开发过程中的参照标准。数据字典一般包括数据命名、数据类型、数据长度和取值范围等要素。

在开展数据治理专项工作之前,软件中心的需求开发管理由需求管理平台、协同研发平台、SOA 平台共同完成。在数据治理工作开展之后,数管部将数据建模管理系统和数据治理平台嵌入需求开发管理流程中,并对协同研发平台、SOA 平台进行改造形成系统间的流程联动,确保数据治理工作落实。

3)元数据

元数据包括系统、数据库、表、字段等基础信息。

在协助 EAST 整改专项工作的过程中,发现血缘关系对发现问题、定位问题有着重要的作用。因此数管部提出将 EAST 溯源结果导入到治理平台中,使用全链分析进行图形化展现,再结合治理平台已经采集的元数据信息将英文表名、英文字段名转换成中文表名、中文字段名,为 EAST 整改工作提供助力。

4)标签库

标签库是专为该行提供标签数据统一管理、统一发布、统一申请、统一审批的功能模块。

由业务主管部门负责零售标签的管理工作,包括标签的增删改、标签权限审批、标签业务口径管理、标签开发需求提交等。零售标签库除了供用户查看标签属性的功能以外,还对接其他应用系统,提供标签属性及权限供应用系统使用,如下图所示。比如 BI 分析平台根据零售标签库中分行用户拥有的标签使用权限,限制该用户在 BI 分析平台上能查看的标签数据范围,营销中台则根据零售标签库中的标签属性生成模型参数。

零售标签维护流程图

5)外部数据

该行所有外部数据由外部数据采集系统统一管理,数据治理平台对接外部数据采集系统,集中展示目前已有的所有外部数据信息,包括数据源、表、字段信息,所有信息每日定时更新一次。

6)报表数据

数据治理平台集中采集该行最重要的四个报表系统信息,包括报表名称、报表数据项、归属部门、更新频率、功能码等报表信息。

7)数据资产

首页的数据资产查询可以一站式查询该行已纳入管理的所有数据资产,可查询的数据资产类型包括元数据、基础标准、指标标准、零售标签、报表数据、外部数据。用户可输入任意关键字进行搜索,支持关键字模糊搜索,可以指定数据资产类型缩小查询范围,支持同时搜索所有资产类型。

(3)数据质量管理流程

数据质量检核系统以数据清洁为目标,以业务需求为驱动,通过质量提升任务形成质量规则库,通过质量检核了解数据源质量、监控异常数据、督促质量改进,将数据质量管理作为一项持续性工作,使之“系统化” “持续化” “常态化”。根据质量规则形成质量度量指标,对整体数据质量水平进行综合评价,披露数据质量问题与短板,促进问题改进。质量评测范围包含数据资产目录、数据标准、数据模型、数据分布、设计质量等。

由于数据质量检核功能涉及生产业务数据,考虑到生产数据的安全性,将数据质量检核系统单独部署,与数据治理平台隔离。通过访问企业级数据服务平台 API 接口,连接计算平台进行数据检核,异步提取数据到质量平台 Hadoop 集群环境。

数据质量管理流程的参与方有数管部、业务部门、软件中心三方。数管部负责制订数据质量管理办法和数据质量考核方案,并组织制定数据质量度量规则和检核方法,推动质量问题解决流程等工作。业务部门负责提出质量问题,分析问题产生的原因,提出质量提升方案,并参与制定质量度量规则等工作。软件中心配合分析解决数据质量问题,并负责问题涉及系统的开发等工作。

项目创新点

(1)面向存量与增量系统“既要……又要……”的数据标准管理

在数据管理实践中,数据标准管理既要对接好现有系统,又要标准化新建系统,还要解决好数据质量问题在源头系统的改进。为有效推进标准体系建设,本次项目形成了“三个策略、三个维度”的解决方案。

1)三个策略

一是按业务领域推进数据治理,在有需求、有资源、有驱动力的前提下按需推进标准化。业务部门的深入参与是做好数据标准管理的保障,只有针对业务需求进行的治理,才能得到业务部门的认可和支持。二是按系统推进标准落标,在需求流程中实施数据标准的强管控。通过引入建模工具,联合技术开发部门使用标准化的数据字典建模,实现数据字典在开发过程中的管控。三是按问题推进源头改造,针对数据治理过程中发现的重点数据质量问题,例如监管数据质量问题、数据多口径问题、数据低时效问题等,通过改造系统落实数据标准,从源头消除数据不规范等问题,达到提升数据质量的目的。

2)三个维度

一是业务术语维度。业务术语是业务部门在经营管理活动中使用的业务定义、业务规则和统计口径。梳理业务术语可统一业务人员对业务概念的理解,从而避免业务人员在编写业务需求时概念混淆,减少数据冗余。二是数据标准维度。数据标准是数据管理部门基于业务术语进行的标准化规范。相较于业务术语,数据标准需要建立标准索引、设置业务主题归类、对照进行数据安全分类分级和设置必要的质量规范定义。三是数据字典维度。数据字典是数据标准开发实施的参照与依据。数据字典规范了表、字段的命名规则,在开发实施过程中,开发部门应该遵循数据字典,推进数据标准的落地应用。

(2)形成了商业银行“点、线、面、体”的质量管理有效循环

在做好数据标准体系管理的同时,本项目形成了“点、线、面、体”的数据质量管理策略。点是以问题为导向抓数据质量发力点,线是以数据生命周期为线索抓数据质量持续改进,面是以数据架构切面抓重点数据质量,体是以数据治理制度构建长效质量管控机制。

1)点:质量问题的发力点

项目着重在以下场景发力。

监管报送场景:在监管检查时,通过数据质量检查规则,往往会发现数据不准确、不完整等问题。例如,在核验过程中发现客户评级信息为空,说明客户信息系统及内部评级系统缺少对客户财务数据完整性的核验。若企业有完善的数据质量管控体系,即可提前预警或减少此类问题的出现。

数据分析场景:在经营管理过程中,往往需要通过数据分析提供支持和参考。比如:业务部门需要通过报表或指标查看经营情况,在指标开发过程中可能会出现标准不统一、指标口径不一致的问题;在面向客户营销时,可能因数据质量低下导致营销不准确,转化率无法达到期望;在风险控制方面,风险是多方面的,包括信贷风险、市场风险、运营风险等,高质量数据是降低风险、减少企业损失的保障。

内、外审场景:从数据治理的角度来讲,内、外审部门定期对企业进行审计,除数据质量检查规则外,企业需要意识到政策和流程的必要性,即企业需具备来源于完善的数据质量管控体系的数据质量检查政策、程序及考核评价体系。

2)线:数据生命周期中质量问题的原因分析

项目遍历梳理银行数据流转过程,发现数据的生命周期分为需求、创建、抽取、转换、加载、存储、应用和维护八个阶段,在各个阶段数据质量问题的成因也各不相同,可按照以下类别管控。

需求沟通产生的数据质量问题。一是业务部门未形成统一规范的业务规则手册,导致无法将规则有效运用于数字化落标。二是系统建设未充分考虑监管机构统计口径与银行总分账统计口径间的差异,导致报表数据与实际情况逻辑不一致。三是业务部门与开发部门需求对接发生了理解偏差,业务规则未正确转化成取数规则。源发性产生的数据质量问题。由于业务源系统的数据库种类不同,比如主流的关系型数据库有 Oracle、SQL Server、DB2、Sybase 等,或新老数据库迁移,导致从以上各类不同的生产系统数据库表和文件中抽取数据到数据仓库,天然就存在数据异构问题。

采集录入产生的数据质量问题。业务部门没有严格遵守数据采集录入规范,比如未完整录入数据、录入无效数据、采集录入数据造假等。

数据交换和 ETL 过程中产生的数据质量问题。一是数据仓库或应用层与源系统之间采用直接数据库连接方式抽取和交换数据,系统架构耦合性过高导致空间不足、锁表等异常。二是传输交换系统和网络不可靠产生的数据丢包异常。三是抽取过程中出现接口参数编码问题、配置信息错误以及锁库、锁表形成的数据质量问题。四是转换环节可能发生的因 SQL 脚本错误、表空间不足、字段类型转换出错、NULL数据插入非 NULL 字段导致的数据质量问题。五是调度机制和算法存在问题导致取数时点错误,使得源数据在整合成报表数据时发生计算错误。

数据应用层中产生的数据质量问题。经过 ETL 服务器进行清洗加工处理后,大部分数据是规范和符合标准的,但是在应用层也可能由于业务规则的定义错误和查询方式异常导致数据最后展示的结果不正确。补录维护流程中产生的数据质量问题。开发部门元数据管理不规范导致表间关系、库间关系在发生质量问题后无法有效溯源;后期在监管报送等紧急情况下,随意进行人工调整,如随意补录,调整报表数据,导致越补越乱,越改越错。

3)面:数据质量问题的四个管控域

项目在四个领域搭建对应的管控体系。

管理域:首先是要从企业战略角度不断完善企业数据模型规划,把数据质量管控融入银行数据治理工作中,其次是将数据人才队伍作为质量管控的战略性资源,明确业务到技术各个人才培养路径的分支和路线,并有效嵌入质量管控的流程中,再次是分析数据质量情况的变化趋势和原因,量化应用于全行数据质量绩效考核体系,最后是对严重影响安全生产事件和监管统计数量的违规行为进行数据问责,做到“谁的问题谁负责”。

制度域:一是明确数据质量问题在各个阶段的归口管理部门,避免质量问题发生时业务部门、开发部门相互推诿,在制度层面落实数据确权;二是在操作层面统一规范化数据相关人员的工作实施,强化数据的标准化生产,在数据的各个生命周期环节保证数据质量。

流程域:在质量问题发生的不同阶段明确相关部门要去做什么和怎么做,同时通过流程实现数据质量的痕迹化管理,将数据质量工作从阶段性治理逐渐转变成常态化工作,推动数据质量管控的贯彻执行。

技术域:以主数据锚定数据架构链路管理,解决数源冲突和矛盾;数据模型在数字化环境准确映射业务规则,并起到“入仓入湖”质量守门员的作用;元数据作为数据的数据,让数据管理部门和开发部门可以通过血缘分析追溯定位质量问题的源头;最后通过质量校验规则辅以质量检查完成最后管控闭环。

4)体:数据质量管控体系

以质量问题的发生场景为点,数据全生命周期链路为线,四大管控域为面,提炼形成了数据质量管控体系。自此,数据质量的管理不再盲目、散乱,而是从宏观角度出发,有体系、有支撑地进行数据质量管控。

 

 

来源:志明与数据

作者:郑保卫

上一篇:正确做数据治理的10个关键步骤

下一篇:数据湖,下一代数据仓库?

  • 分享:
龙石数据
咨询电话: 0512-87811036,18013092598
联系我们
商务联系微信

商务联系微信

0512-87811036,

18013092598

咨询电话