2022-08-10 09:31 浏览量:207
搞数据这些年接过很多项目,不能说各种状况都遇见过吧,该出现的不该出现的问题也差不多都碰到了。
可能我这么说,大家没什么概念。其实真正做过几个数据治理项目就会知道,实际应用的系统里面,各种数据错误,数据丢失,数据格式和定义不匹配,系统不兼容的问题,实在是太多太常见了。
好像从业以来到现在还真的没遇见过,一点低级的数据问题都没有的项目。不过如果没有问题,也不会请我们过去做数据治理。
在聊我做数据治理项目遇见的最头痛的问题之前,先给大家举几个常见的例子,看看跟你遇见的问题是不是一样。
01
数据来源多样,啥系统啥语言的都用,结构化的非结构化的统统丢给你
一般在做数据治理项目之前,都会有一个预期,那就是所需要的数据都是来自不同地方。有可能产品采购相关的数据在采购系统里,供应商基本信息相关数据在一个关系型数据库里面,又或者供应商的follower和following关系的数据在一个非关系型数据库里面。
当然这还不排除有些财务、市场数据根本就没有录入专门的数据库里,这些数据经常是以电子表格的形式存在的。那么当我们在做数据治理,需要整合这些格式不一样、来源不一样的数据做分析的时候,数据量还不小的时候,就不是有点头疼的问题了。
脑袋瓜简直嗡嗡的~
02
数据不干净,各种错误的数据,无关的数据,一下子都出来了
数据不干净,也算是绝大多数数据治理项目都会出现的问题了,这里大胆披露一个数据,一个数据治理项目,差不多得有40%~60%的时间是在做数据清洗。
数据不干净的问题说起来简单,但是表现的形式各不相同,既可能是数据丢失、也可能是数据错误。也有可能是数据存储格式错误,编码错误等。
总之,只有你想不到的,没有你遇不见的。
03
数据不准确,当同一数据出现在不同的系统或者数据库,就开始不一样了
别以为你穿上一个马甲,我就不认识你了,你个老六。
先解释一下,这里说的数据不准确跟上面数据不干净,说的不是一回事。
数据清洗经常出现的数据不准确问题,大多数是因为数据量大,人为造成的数据错误;而这里说的数据不准确指的是来源于多个数据库或系统的相同类型,甚至是相同内容的数据存在差异。
当然,这类数据不准确的问题,本质上并不是数据管理人员的问题,它有可能是数据定义和数据录入的问题,也有可能是数据仓库搭建的问题。
04
没有数据,或者说有数据但是你拿不到,无从下手
古语有云:巧妇难为无米之炊。
既然是大数据治理项目,首先得有数据呀,没有数据我们治理个毛线。
正常来说,客户公司的数据,只要权限得当几乎是都可以获取用作治理的。但是实际操作的时候,经常遇见个别部门的负责人不愿意配合,部分关键数据总是因为权限问题采集不到。又或者相关对接人不愿意配合,不按照数据要求来提供相关数据,经常不是缺这个标签,就是少那个字段的。
这样搞来搞去,项目就被搁置了,推动起来就很难,经常是达不到预期效果。这就导致了坊间的谣传,数据治理搞半天,最后什么问题都解决不了。
不是数据治理本身解决不了问题,而是数据治理的中间环节经常有不可控因素出现,这不是我们数据治理服务上能解决的问题。
到最后,锅只能我们来背,这年头儿,数据治理服务商也太惨了。
而最让我觉得头痛的,还不是上面说的这些,而是数据定义,或者叫做数据标准的制定。
先不论数据量级的大小,定义数据,制定数据标准都是必须要做的事,这是进行数据清洗以及数据分析,数据挖掘、数据建模等一系列后续工作的重要前提。
而定义这些数据(指标、字段)就已经够客户的各个业务部门、数据部门、技术部门喝一壶的了,免不了要踢一阵子皮球。在这部分消耗的时间和精力,真的是巨痛苦的。
等到好不容易有了统一的数据标准,头痛好一点了。接下来就该另外一个极消耗时间,也同样令人头痛的数据清洗流程了。
数据治理,说起来其实原理和过程都很简单,但是等到实操,一个接一个的具体问题,意外状况就开始出现。这也是数据治理项目,动辄数月,甚至以年计算项目周期的原因了。
不过说起来,数据治理的好处还是很大的,要不然也不会有那么多公司越来越重视这一块,愿意投入资金、时间和精力来做了。
所以,一起加油吧,朋友们。
来源:许可数字说