2020-05-31 22:44 浏览量:324
数据治理在业内推广十多年了,相关的理论方法、案例实践、经验教训都总结得比较完善。随着人工智能、机器学习的普及,最近两年智能化也开始进入数据治理领域。不过,智能化大多存在于宣传文案中,成功案例相对较少,间或有之也语焉不详。
智能化
人工智能发展的历史比数据治理、甚至数据仓库早多了。从早期的人工神经网络、专家系统、图像识别、决策辅助系统,到最新的深度学习、自动驾驶,智能化的核心就是代替人类进行决策,更快、更好地决策,从之前的管理领域决策,到现在的实时操作决策。
不同的智能化系统,除了应用于实时或非实时的场景外,还有两个重要的区别角度。
首先,决策的知识是结构化的还是非结构化的。结构化的决策知识,表现为规则库、决策树、回归模型等,最大的特点是专业人员可以描述、理解。而非结构化的决策知识,表现为人工神经网络、模拟复杂系统等,最大的特点是这些知识只能作为一个黑盒对结果进行监督评估。
第二个区分的角度:决策知识的更新模式。部分智能化系统的更新模式是阶段性的,如零售客户的信用评分模型、基于规则的反洗钱系统等。当前互联网领域的智能化系统,其知识的更新模式是在线的,或数据驱动的,如用户的推荐模型会随着用户的实时浏览记录而及时更新。
数据治理领域的智能化
首先,我们区分一下数据治理的应用场景:线下决策领域和线上实时操作。
线上操作领域是指数据治理直接融入到数据日常加工过程的环节中,包括:质量实时检测、质量问题的线上解决。目前,基于数据质量检核规则的:配置,执行,定位,解决,这个质量管理闭环是成熟的,在体系上没有多少优化空间。
目前检核规则是依赖经验及数据分析,由专业人员提炼而来。另外,为了提升质量规则的提炼新增效率,之前业内也做了很多努力:
技术规则模板:利用主键及唯一属性、主外键、代码列的值域,自动生成检核规则;
业务规则模板:将检核规则定义在数据标准上,如:身份证号码作为一个标准信息项,定义它应该满足的规范要求(业务可理解形式)。当需要检核某个系统时,这个系统中相应的身份证号码字段就自动产生质量检核规则(SQL可执行形式)。
当前,部分厂商开始推广利用AI来提炼新增检核规则的解决方案,具体细节还不清楚。但从一般原理上讲,AI很难在规则提炼方面发挥作用。规则作为AI的产出,需要训练集,需要样本指导。但在数据的实时加工流程中,问题数据永远是“异常值”,之前不可能有训练样本和训练机会。
治理的线下决策领域,是数据治理的主要工作,这里AI的发挥余地更小。首先,治理是管理的范畴,重点协调各个环节的责权利,表现为各种流程、制度、规范、表单。再者,数据治理的日常工作按部就班即可。如果,发生了异常或者需要干预的事情,这往往都需要一事一议,根本没有机器学习、数据驱动的空间。反而是传统的知识库、BBS讨论区的作用更大。
总之,AI是工具范畴,数据治理方兴未艾,我们不能本末倒置,为了AI而AI,做AI我们不专业啊。
来源:数据管理及应用