2021-11-24 06:30 浏览量:1156
政务数据治理的目标是通过构建公共数据端到端全生命周期的数据管理体系,形成统一的数据采集汇聚、共享开放、开发利用等过程的决策机制、流程和规则。基于高质量的数据,在确保安全合规的前提下,实现跨部门、跨业务、跨系统的数据流通。
通过构建统一的数据开发利用技术体系,提升政务数据管理、分析及服务能力,支撑政务大数据应用场景的快速设计和开发落地,最大化释放政务数据的价值。数据治理总体流程框架如下:
以下重点对数据采集汇聚、数据共享交换、公共数据开放、数据开发利用、数据质量管理等关键环节所涉及的技术流程、规则和技术进行阐述。
01 数据采集汇聚
数据采集汇聚是数据创建或获取的阶段,是数据生命周期中的关键点之一。
一、数据采集汇聚流程
数据采集汇聚阶段的工作从技术流程上可分为数据调研、规划设计、采集汇聚实施三个过程。
1、数据调研
通过需求调研了解数据应用的场景和要求,通过现状调研了解现有数据基础和软硬件存储环境,为数据规划设计提供参考。
数据需求调研:根据建设目标及要求,与数据使用方进行数据需求的对接,明确目标数据建设范围和要求,由数据使用方提出数据需求清单,详细到信息项或维度值级别,对于需要进行二次加工的指标或信息项,明确业务规则和口径,同时,应明确目标数据所需遵循的标准及质量要求。
数据现状调研:根据数据使用方的数据需求,与外部数据提供方进行数据资源现状的对接,获取提供方的数据资源目录清单、数据字典说明(包括中文名称、字段类型、长度、单位、取值约束及代码表等)、样例数据,明确数据接入的方式、数据来源部门、数据安全等级等相关信息, 对用户明确的数据需求了解其来源,有计划地进行沟通并协调数据(样例数据)。
2、数据规划设计
建立正确的数据流和数据结构才能保证最好的结果,应根据应用场景和数据时效性需求,结合数据获取方式,选择合适的数据建模方式(如:实体建模、维度建模等) 设计满足数据需求的数据结构、数据处理及更新流程,同时定义数据约束(如:是否允许空值、是否允许重复、数据之间的逻辑关系、编码规则、值域范围等。)
3、采集汇聚实施
通过录入、迁移、同步、扫描、爬取等方式获取所需数据的过程。同时可能会根据目标数据物理存储要求将多源异构数据集成转换为统一的数据格式。
二、数据采集方式
数据采集是指原始数据生成的过程,主要包括人工填报和系统采集两种方式。
1、人工填报
人工填报是指在业务系统( PC端、移动端)表单中或文件系统(Excel、Word等)中录入数据的过程,是主要的数据采集方式。
2、系统采集
系统采集是指由机器设备承载的系统自动识别、记录生成数据的过程。一种是利用扫描枪、扫描仪、摄像机、航拍仪以及其他各类物联网传感器设备进行的数据采集。
另一种是在无相关方配合、需主动从网页或业务系统展示端获取数据情况下,采用深网数据爬取技术,通过对业务应用层面的语义解析实现数据的获取。
三、数据汇聚方式
数据汇聚是指将各部门已采集的原始数据向统一数据中心平台集中的过程,政务数据汇聚通常分为:物理汇聚和逻辑汇聚两种方式。
1、物理汇聚
政务数据一般都是由业务部门依职权采集产生,数据分散存储在各种异构数据库和存储环境中。物理汇聚方式是指将原业务系统或存储环境中的数据,通过物理迁移的方式集中搬迁至中心数据存储环境下,经统一整合发布后,提供给数据需求部门进行应用。
2、逻辑汇聚
逻辑汇聚通常也称为分布式汇聚。在数据共享应用前,数据依然是分散存储在各个部门系统或平台上,使用部门在使用数据的时候,再通过调用数据服务接口的方式获取和使用数据。
政务数据汇聚通常是两种方式结合,基于完全共享和有条件共享数据进行的跨领域批量数据关联融合计算的场景,如基础数据库和主题数据库建设,宜采用物理汇聚方式。基于不共享数据进行的身份核验、校验比对等场景,采用逻辑汇聚方式。
目前政务数据汇聚无论采用哪种方式,基本都是通过基于目录的共享交换体系来实现常态化数据更新。技术实现方法上根据具体场景分为数据推送和数据抽取两种方案。
四、数据采集汇聚治理要点
大部分数据问题源于数据产生的环节,数据采集汇聚阶段需加强数据落标管控和数据更新机制的建设,做好源头管控。
1、数据落标管控
数据落标管控主要应用于数据采集过程。在具体执行数据采集工作之前建立标准化的数据模型,确定采集范围,将用于数据采集的数据模型与相关国家和行业标准进行标准比对,明确每类数据的定义、规则、关系, 确保相关方对数据采集的内容、定义达成一致理解。明确数据采集的责任主体和数据采集的标准,最大限度的避免数据重复采集。
同时,应将数据采集的标准、规则嵌入数据采集系统,第一时间发现异常数据并及时修正。
2、数据更新机制
数据更新机制主要应用于数据汇聚过程。数据汇聚过程中需要与源端系统确定更新周期(年、季、月、日、实时等)、更新时间(具体的时间点)、更新模式(全量、增量)、更新标识(基于哪个字段值或信息触发数据获取的动作)、重传机制(当已汇聚数据发生变更时如何处理)。
02 数据共享交换
数据共享交换是保障政务数据跨部门流通(汇聚和使用)的一种机制,也是实现数据供需对接的一种方式。
一、共享交换流程
1、明确数据责任和需求
通过信息资源目录体系的建设,依据部门权责和跨部门数据需求目录,摸清数据资产情况,落实各部门数据需求来源,形成数据责任清单。
2、目录注册发布及资源挂载
依托共享交换平台,各部门进行资源编目注册,经审核后统一发布, 并完成目录和实际数据资源的挂载,实现目录和数据的映射。
3、数据使用申请
目录发布后,数据使用部门通过共享交换平台查看所需数据资源目录, 根据目录的共享属性和共享方式按照数据使用申请流程获取相应的数据。
二、共享交换治理要点
政务信息资源目录是数据共享交换的核心抓手,需遵照《政务信息资源共享管理暂行办法》和《政务信息资源目录编制指南(试行)》,建立高质量的政务信息资源目录。
各部门编制信息资源目录的过程中,应严格遵照有关规定,对数据资源进行分类、分级,确保目录元数据的准确性、完整性和规范性,并建立起完整的目录上下文信息(与职责和系统的关系),在目录发布后确保目录更新的及时性。技术实现上可考虑结合区块链技术,对资源目录(职责目录)进行分布式管理。
三、共享交换方式
政务数据共享交换主要有以下几种方式:库表交换、文件交换、服务接口、日志同步、消息队列。
库表交换:部门或系统之间通过中间数据库(前置库)进行结构化数据的抽取、转换和加载,如oracle、mysql、mpp、hive等。
文件交换:部门或系统之间通过共享文件夹(前置库)进行非结构化数据的共享交换,如txt、word、pdf等文件。文件交换过程中一般需要采用断点续传技术来提高数据交换速度。
服务接口:部门或系统之间通过API接口服务的方式进行服务接口的对接,如webservice、微服务等服务接口。
日志同步:业务数据库无法通过前置库采集,且需要实时采集的情况下,可以通过解析数据库日志的方式,实现数据库的增量数据捕获。该方式不需要在数据库中创建任何的触发器、临时表等对象。
消息队列:数据应用端对数据源有较高实时性要求的情况下,可以采用消息队列传输通道,由源端系统将采集的数据先存入高吞吐量的消息传输通道中, 如Kafka消息队列,可供应用端的业务实时消费。
03 公共数据开放
政务数据开放是指各级人民政府遵守《中华人民共和国保守国家秘密法》《中华人民共和国政府信息公开条例》,以及当地政务信息相关管理办法等的规定,根据经济社会发展需要,遵循合法有序的原则,经由当地政务信息开放平台统一为公民、法人和其他组织提供政务数据资源开放的服务。
在“开放是常态,不开放是例外”的普遍要求下,政务数据开放分为无条件开放、有条件开放和不予开放三类。
可以提供给所有公民、法人和其他组织使用的公共数据属于无条件开放类。
可以部分提供或者需要按照特定条件提供给公民、法人和其他组织的公共数据属于有条件开放类。
涉及国家秘密、商业秘密、个人隐私和国家安全,以及其他不宜提供给公民、法人和其他组织的公共数据属于不予开放类。
涉及国家、单位、团体敏感信息和个人隐私信息的公共数据经过脱敏、脱密等技术处理后符合开放条件的,应当开放。
政务数据开放数据全生命周期包括数据生成、数据传输、数据清洗加工、数据存储、数据服务和 数据销毁共六个环节。
04 数据开发利用
公共数据开发利用是深入实施大数据战略,推动落实创新驱动发展战略的重要举措之一。国家《促进大数据发展行动纲要》发布以来,各部委及国内多地都积极开展了公共数据开发利用的探索。
比如在行业探索方面,环境保护部编制了《生态环境大数据建设总体方案》,以改善环境质量为核心,“通过生态环境大数据发展和应用,推进环境管理转型,提升生态环境治理能力,为实现生态环境质量总体改善目标提供有力支撑”;交通运输部印发《推进综合交通运输大数据发展行动纲要(2020-2025 年)》,“以数据资源赋能交通发展为切入点”,聚焦基础支撑、共享开放、创新应用、安全保障、管理改革等重点环节,实施综合交通运输大数据发展“五大行动”,推动大数据与综合交通运输深度融合。
在地方探索中,各地从不同的侧重点,从不同的思路,积极探索公共数据开发利用新路径。比如,北京市在《北京市公共数据管理办法》中明确了市经济信息化部门负责组织、协调、指导和监督全市公共数据管理工作,提出了开放竞赛、补助奖励、应用培训等形式,以推动社会主体对开放数据的创新应用和价值挖掘。重庆市通过《重庆市政务数据资源管理暂行办法》,要求各政务部门依托共享系统和开放系统,开展一体化在线政务服务,“提高政府决策能力、管理能力和服务能力,推进治理体系和治理能力现代化”,并“鼓励公民、法人和其他组织利用政务数据资源创新产品、技术和服务,发挥政务数据资源的经济价值和社会效益,推动全社会创新创业和经济发展方式转变”。
05 数据质量管理
高质量的数据才能创造业务价值,数据质量管理是贯穿数据开发利用全生命周期的一项基础核心的数据管理活动。
当前政务数据资源普遍存在不准确、不完整、缺少上下文信息等质量问题,造成数据共享后难以理解、开发和应用,无法达到辅助政府重大事项决策的作用。数据质量管理是当前各地政务资源统筹管理单位面临的难题之一。
在数据质量管理领域,可参考的标准和框架主要是ISO 8000国际标准和2018年发布的GB/T 36073-2018《数据管理能力成熟度评估模型》(DCMM)和GB∕T 36344-2018《信息技术 数据质量评价指标》国家标准。
ISO 8000包含了一般原则、主数据质量、交易数据质量和产品数据质量的标准。通过ISO 8000可以保证组织在满足决策需求和数据治理的基础上,在产品或服务的全生命周期内高质量的存储、共享、交换和利用数据。
DCMM标准中给出了数据管理能力成熟度评估模型及相应的成熟度等级,定义了数据质量能力域中的数据质量需求、数据质量检查、数据质量分析及数据质量提升等4个能力项。
GB∕T 36344-2018从规范性、完整性、准确性、一致性、时效性和可访问性等6个维度规定了数据质量评价指标的框架。
参考以上国际和国家标准,实践中结合PDCA(计划、执行、检查和处理)质量持续改进和闭环方法,将数据质量管理过程分为原始数据剖析、数据标准建设、数据质量评估和问题数据清洗4个阶段的工作。
其中:数据标准建设是核心,为数据质量评估和问题数据清洗提供依据,原始数据剖析为数据标准建设提供良好实践,数据质量评估发现问题数据, 为问题数据清洗提供改进的方向。
一、原始数据剖析
原始数据剖析是通过一些活动的处理,熟悉数据集,发现数据特征, 识别数据的质量问题,对问题数据进行分类,并尝试发现产生数据质量问题的原因的过程。包括以下工作过程:
1、进行数据描述
使用描述性统计方法描述数据“总的”或者“表面的”特征。从数据字段、数据表、数据集三个维度分别进行描述。
数据字段描述:包括数据记录数、唯一记录数、唯一率、重复记录数、重复率、缺失记录数、缺失率、零值记录数、零值率、最大列长度、最小列长度、平均列长度等指标。
数据表描述:包括数据字段数、数据记录数、总存储空间大小、缺失数据元素数、包含缺失值的字段数、全部缺失的字段数、重复记录数、重复率等指标。
数据集描述:包括数据表数、数据字段数、数据记录数、总存储空间大小、数据表平均存储空间大小、缺失数据元素数、包含缺失值的字段数、全部缺失的字段数等指标。
2、进行数据探查
通过查询、可视化和报告的方式对数据特征进行分析。包括:关键属性的分布,一对或几个属性之间的关系,分析结果的汇总,数据集子集的进一步探查。
分为数据字段元数据信息探查、数据值分布探查、数据字段表示形式探查、数据表探查4个方面。
数据字段的元数据信息探查包括:分析数据字段的命名及命名规则;分析数据字段的属性信息,包括数据类型、数据长度、精度等;分析数据字段值的变量类型;分析数据字段的数据类型;分析数据字段的数据元表示;分析数据字段的真实值是否符合定义的数据类型。
数据值分布探查包括:分析数据表中的主键是否唯一;分析数据字段的值是否满足指定阈值,分析数据字段值的统计量;分析各个维度值在总体数据中的分布情况;分析数据字段中是否包含缺失数据;分析数据字段中是否包含约定的异常数据;分析数据字段中是否包含特定的字符。
数据字段表示形式探查包括:从业务角度规定数据项值的格式要求,包括数据值的类型,允许的最大和最小字符长度,数据项值的表示格式等;分析编号类的数据字段是否符合特定的编码规范;分析枚举类的数据字段的唯一值列表是否符合特定的代码规范;分析名称类的数据字段是否符合特定的规则;分析日期时间类的数据字段是否符合特定的规则;分析数字类数据字段是否符合特定的规则;分析文本类数据字段是否符合特定的规则。
数据表探查包括:分析表中的外键是否都能在关联表中找到;分析数据字段之间,或数据表之间是否满足指定的业务规则;分析业务时间和更新时间,分析数据表中数据接入和更新的规则;分析数据表是否满足业务需求。
3、剖析结果分析
对数据描述和数据探查的结果进行具体问题具体分析。以便更准确地理解和把握业务含义。站在数据表和数据字段两个维度进行分析,同时对具体的数据问题进行进一步数据特征分析,并尝试发现数据问题背后的原因。
4、评估业务影响
按业务重要性程度和数据问题的严重性程度对原始数据进行业务影响分级。更进一步地确定导致数据问题的根本原因并制定一个行动方案。
二、数据标准建设
数据标准建设是通过一系列方法,形成可落地的数据标准的过程。包括以下工作过程:
1、确定标准的范围
在充分理解标准建设的需求和数据剖析结果的基础上,明确标准约束的对象、内容范围和标准的适用范围。
按照数据组织的单元,数据标准主要包括数据元标准和数据集标准,数据元包括基础类数据元和指标类数据元。
按照对数据具体特性的描述,数据标准还包括业务术语标准、代码标准、编码标准。
2、编制数据标准
根据实施数据质量管理的对象范围,形成数据标准草案,研讨、改进。
3、发布数据标准
对已提交的数据标准进行技术审查和交叉职能审查,根据审查意见进行修改,并批准、发布数据标准。
三、问题数据清洗
问题数据清洗阶段是对问题数据进行清洗,将其转化为满足数据质量要求或应用要求的数据的过程。包括以下工作过程:
1、数据清洗规则设计
包括具体的清洗策略、规则。数据清洗规则从执行策略上分为:补全修正、数据过滤、数据容错三类。
补全修正是对问题数据进行修正或替换(转换),数据过滤是将问题数据与标准数据进行分离,数据容错是因业务和管理原因无法对问题数据进行修正又无法分离的的一种处理机制。
具体可采用定性分析的方法,将数据的重要性程度和数据问题的严重程度结合起来,形成策略矩阵,依据数据在策略矩阵中所处的区域选择具体的处理方案。具体清洗规则需结合数据应用的场景设计,确保数据不失真。
2、数据清洗规则审核
由业务和技术负责人分别对规则进行审核,通过之后规则方可生效。
3、数据清洗任务执行
由技术人员通过相关工具执行清洗规则。
四、数据质量评估
数据质量评估阶段是通过数据校验方法,发现数据问题及对数据质量进行分析评价的过程。包括以下工作过程:
1、数据质量评价指标体系设计
包括评价对象、评价维度、指标计算方法、权重设计、评价结果的表示等。通过可度量的数据质量评价指标来明确数据质量管理的目标和重点:
评价对象:包括部门、数据集或数据表。
评价维度:参考GB∕T 36344-2018《信息技术 数据质量评价指标》,可划分为规范性、完整性、准确性、一致性、时效性、可访问性。
指标计算方法:一般按占比或按是否满足条件设置固定的分值。
权重设计:根据业务影响分析确定的数据重要性级别,设置相应的权重。
评价结果的表示:定量或定性的评价。
2、数据质量检查规则设计
参考业务需求、数据质量评价指标体系和数据标准,设计数据质量检查规则。规则的设计以满足数据应用需求为准则,并不是设计的越全面越好。
数据质量检查规则分为技术规则和业务规则。
常见的技术规则包括:空值、重复、格式(如编号规则、异常字符等)、值域(数值值域、字符值域、日期值域)、参照完整性(待检数据是否全部包含在参照数据列中)、波动性(不同期指标数据的波动)、逻辑一致性(不同列之间的逻辑关系、明细记录汇总和汇总表一致性)等。实践过程中一般通过规则引擎实现技术规则的封装。
业务规则是技术规则的具体实例化结果和组合。例如:针对某一数据表中的公民身份号码设置的公民身份号码检查规则可由:空值、重复、格式检查3种技术规则组合而成。
3、数据质量检查规则审核
由业务和技术负责人分别对规则进行审核,通过之后规则方可生效。
4、数据质量检查任务执行
由技术人员通过相关工具执行数据质量稽核任务。
5、数据质量检查结果分析
对稽核任务执行的结果进行分析,对问题数据进行分类及原因追溯。
6、输出数据质量报告
对数据质量评估结果进行汇总,形成数据质量报告,并对问题数据进行反馈。将检查结果以工单形式反馈给责任部门,便于对问题数据处理过程及结果的跟踪。
同时,通过数据质量报告,数据资源统筹管理部门可以直观的了解数据质量提升的过程和效率,及时发现数据质量管理的堵点,从而更好地推动数据质量提升工作。
(本文摘自《政务数据开发利用研究报告》)