数据治理的智能化

数据治理在业内推广十多年了，相关的理论方法、案例实践、经验教训都总结得比较完善。随着人工智能、机器学习的普及，最近两年智能化也开始进入数据治理领域。不过，智能化大多存在于宣传文案中，成功案例相对较少，间或有之也语焉不详。

智能化

人工智能发展的历史比数据治理、甚至数据仓库早多了。从早期的人工神经网络、专家系统、图像识别、决策辅助系统，到最新的深度学习、自动驾驶，智能化的核心就是代替人类进行决策，更快、更好地决策，从之前的管理领域决策，到现在的实时操作决策。

不同的智能化系统，除了应用于实时或非实时的场景外，还有两个重要的区别角度。

首先，决策的知识是结构化的还是非结构化的。结构化的决策知识，表现为规则库、决策树、回归模型等，最大的特点是专业人员可以描述、理解。而非结构化的决策知识，表现为人工神经网络、模拟复杂系统等，最大的特点是这些知识只能作为一个黑盒对结果进行监督评估。

第二个区分的角度：决策知识的更新模式。部分智能化系统的更新模式是阶段性的，如零售客户的信用评分模型、基于规则的反洗钱系统等。当前互联网领域的智能化系统，其知识的更新模式是在线的，或数据驱动的，如用户的推荐模型会随着用户的实时浏览记录而及时更新。

数据治理领域的智能化

首先，我们区分一下数据治理的应用场景：线下决策领域和线上实时操作。

线上操作领域是指数据治理直接融入到数据日常加工过程的环节中，包括：质量实时检测、质量问题的线上解决。目前，基于数据质量检核规则的：配置，执行，定位，解决，这个质量管理闭环是成熟的，在体系上没有多少优化空间。

目前检核规则是依赖经验及数据分析，由专业人员提炼而来。另外，为了提升质量规则的提炼新增效率，之前业内也做了很多努力：

技术规则模板：利用主键及唯一属性、主外键、代码列的值域，自动生成检核规则；

业务规则模板：将检核规则定义在数据标准上，如：身份证号码作为一个标准信息项，定义它应该满足的规范要求（业务可理解形式）。当需要检核某个系统时，这个系统中相应的身份证号码字段就自动产生质量检核规则（SQL可执行形式）。

当前，部分厂商开始推广利用AI来提炼新增检核规则的解决方案，具体细节还不清楚。但从一般原理上讲，AI很难在规则提炼方面发挥作用。规则作为AI的产出，需要训练集，需要样本指导。但在数据的实时加工流程中，问题数据永远是“异常值”，之前不可能有训练样本和训练机会。

治理的线下决策领域，是数据治理的主要工作，这里AI的发挥余地更小。首先，治理是管理的范畴，重点协调各个环节的责权利，表现为各种流程、制度、规范、表单。再者，数据治理的日常工作按部就班即可。如果，发生了异常或者需要干预的事情，这往往都需要一事一议，根本没有机器学习、数据驱动的空间。反而是传统的知识库、BBS讨论区的作用更大。

总之，AI是工具范畴，数据治理方兴未艾，我们不能本末倒置，为了AI而AI，做AI我们不专业啊。

来源：数据管理及应用

龙石数据·博客中心

龙石数据·博客中心

数据治理的智能化

龙石数据产品

热门文章

龙石数据·博客中心

龙石数据·博客中心

数据治理的智能化

相关文章：

龙石数据产品

热门文章