数据治理思路创新

2020-05-28 09:30 浏览量:276

数据是企业的核心资产之一,而实现数据治理是企业数据管理工作中的重点和难点。数据治理工作庞杂而繁多,往往让人没有头绪。基于多年的经验总结、学习研究和思考洞察,我们提出了自己的数据治理思想和方法。

一、 强调数据治理思想,不惟工具论

数据治理不在于是否有数据治理平台,而在于是否有数据治理思想。有数据治理思想的人,即便没有数据治理平台,也可以在数据产生流转的过程中实现数据治理;没有数据治理思想的人,即便给他再好的数据治理平台、再好的数据治理工具,也做不好数据治理。胸中有丘壑,笔下自华章。要做好数据治理,首先要具备良好的、完善的、正确的数据治理思想。数据治理平台和工具是辅助以更高效的实现数据治理。

因此,如果要做好数据治理,就需要相应有具备数据治理思想的人才,来领导数据治理的工作。

二、 在平台融合思路下实现数据融合和数据治理

单体系统之间的数据不一致、数据冗余、数据缺失等往往是通过数据集成方式解决,比如传统的数据仓库,或者大数据平台、数据湖。但数据仓库、数据湖等有点后知后觉,数据集成天生就有缺陷,难以实现数据的实时处理。数据湖方法更有点眉毛胡子一把抓,仅仅从数据入手而不考虑业务应用和平台架构等,很可能成为数据沼泽,费力不讨好。技术的发展带来新的方法和思想,也创新数据管理和数据治理的方法和思想。比如微服务思想意在重构,通过服务重构来支撑业务流程的优化和敏捷,同时微服务重构也是数据重构的过程,微服务重构的基础是数据的重构。这正好是一个数据融合的契机。

平台融合要求无论在建设数据平台或者业务平台时需要从整体上考虑,使其成为一个整体中的一部分,从而避免重复建设和重复投入,提升协作和效率。数据融合是在企业内数据平台融合的基础上根据数据治理质量、标准、安全等的要求实现数据的统一管控,以期实现企业内唯一可信的数据来源,这也是数据治理追求的目标。

通过什么样的手段把企业内的所有能够贯穿起来是数据融合需要首先思考的问题。传统数据平台建设关注的往往是单一系统,往往存在着头疼医头、脚疼医脚的问题。而企业内全局有效的主数据使其成为贯穿数据融合和数据治理过程中最合适的选择。

三、 以主数据为骨架构建数据体系

主数据是企业中系统之间或应用之间共享的高价值数据。应该作为企业数据治理的核心。比如客户、账户、产品、资金、员工、部门等是主数据。主数据往往是独立的实体数据,往往不会随着时间的推移而变动,而像交易数据等非主数据往往是随着时间不断变化的数据。所以我们说主数据是数据骨架,而其他数据是数据血肉。就像人一样,骨架撑起整个人体,而血肉让人看起来成为完整的人。主数据撑起整个企业的数据架构,才能使交易等其他数据让整个企业数据完整而具备更多可持续性价值。

以企业内主数据来构建企业的数据体系,将会使整个数据体系架构清晰而准确、易理解和使用。

四、 明确提出数据治理工作之间的关系和侧重点,提出了数据治理可行性建议方案

数据治理是一项涉及面广、涉及人员多、往往需要高层领导支持的工作。通常包括数据标准化、数据采集、主数据管理、元数据管理、数据存储、数据模型、数据使用、数据安全、数据脱敏、数据质量等建设。数据治理各个方面相互关联、相互影响。传统数据治理往往关注数据治理的某一项任务,比如元数据、数据质量、数据脱敏等,很少从整体上考虑数据治理各项任务之间的关系。比如数据质量是数据治理过程中数据标准化的附带产物,并不需要专门去建设数据质量平台。而关注数据采集的标准化则在后续的数据处理、存储、准备、使用等过程中减少大量的数据转换处理工作。众多的数据治理研究也几乎没有关注数据治理各项工作之间的关系,所以使数据治理工作往往浮于表面。因此,认识到数据治理过程中各项工作之间的联系和关系,能极大地降低数据治理的难度,提升数据治理的效率,提高数据质量。

基于实践研究,我们以数据处理过程来划分,把数据治理工作划分为数据采集、数据处理、数据存储、数据准备、数据分析、数据应用六个阶段,数据标准化贯穿整个过程,数据平台支撑数据治理过程中的各项工作,融合了数据平台和数据治理的各项工作。


 

 

1数据治理过程

五、 数据标准化贯穿数据治理整个生命周期

数据治理工作中数据标准贯穿于数据治理工作的整个生命周期。数据标准从数据采集到数据应用还可以细化为数据采集标准(或规范)、主数据标准、元数据标准、数据处理标准、数据分类标准、数据存储标准、数据使用规范等等。这样就明确了数据标准化工作在整个数据治理过程中与其他各项工作的关系。

数据标准从数据采集始。我们强调关注数据产生的地方,不要总想着把数据采集过来先存起来,使用的时候才考虑标准化,既费时费力效果又差。因此数据治理思想数据标准化思想需要自数据采集始,贯穿始终。

数据治理的目的是为了提供高质量的数据,数据质量是数据治理数据标准化的结果,数据质量的高低取决于数据治理的能力和效果。我们虽然高度关注数据的质量,但它并不是数据治理工作的重点,数据质量是数据标准化或者数据治理的一个伴随物,至多定期评估数据治理效果,也就是数据质量。

虽然数据标准化贯穿始终,但数据治理首要的工作是主数据治理。

六、 关注数据产生的地方,实现标准化数据采集和标准化数据输出

关注数据产生的地方,实现标准化数据采集是数据治理工作难点之一。数据来源多种多样,很难按照我们的要求以标准化的方式采集数据,但并不能因此而放弃在数据采集阶段的标准化工作。

数据采集阶段的标准化有两个方面,一是对于内部系统数据,尽可能的实现标准化采集。也就是说内部系统数据的数据输出应该就是标准化的(企业内部标准)。对于历史遗留系统可能做不到这一点,不过也没关系,数据治理本来就是一个长期的过程,可以一步一步的来。对于外部数据,需要考虑不同的采集渠道和采集方式,如果可能也尽量按标准化的方式采集,数据采集平台或数据采集工具如果无法实现标准化采集,那么至少要在数据处理阶段实现标准化。

为减少数据标准化采集的难度,需要首先数据标准化输出,实现标准化输出和标准化采集的闭环过程,以实现数据的闭环流转。

七、 明确数据质量是数据治理的结果而不是过程

数据质量是数据标准化数据治理的附带产物,是结果。数据质量代表着数据治理能力的高低,因此,我们关注结果,关注数据质量,但数据治理过程的重点不在数据质量,而是重点关注数据治理标准化过程,确保结果数据的高质量。

 

 

来源:技术思维创新

作者:汪照辉

上一篇:数据融合之数据治理

下一篇:云原生安全专家观察:容器云安全现状和发展趋势

  • 分享:
龙石数据
咨询电话: 0512-87811036,18013092598
联系我们
商务联系微信

商务联系微信

0512-87811036,

18013092598

咨询电话