全部类型 AI+大数据数据中台 API平台数据交换数据集成数据质量数据标准数据安全行业好文数据政策

数据治理与人工智能

2020-02-17 21:17 浏览量：596

一直有人关心数据治理和人工智能（AI）的关系，今天在这里做个简单阐述。二者的关系可以总结为两个问题。

一、如何将AI工具引入数据治理领域？

AI工具包括神经网络、机器学习、深度学习、机器视觉、自然语言理解(NLP)等，这些工具几乎都很难在数据治理领域发挥作用。

有厂商宣称，其治理(管控)平台采用了NLP技术，来提高数据标准和元数据之间的匹配映射自动化程度。

我这里只强调两点：首先，目前主流的NLP技术大都采用大样本数理统计的方法，而治理领域的管理对象，无论是数据标准还是元数据，其样本数量太少。另外，这些厂商都没有给出提高自动化匹配程度的明确说明。实际上，我们更关心的是：自动化匹配后，人工是否需要进行干预纠正，这个确认的工作量是否降低了。这个问题的答案应该都是“NO”。

二、如何在数据治理工作中体现智能的特征？

上面是计划从工具层面体现智能，如果不可行，能否从最终效果层面体现智能呢？无论用什么手段，只要在治理工作中体现出智能的特征，就是极大的成功。

首先明确一下，一个系统具有哪些特征，我们就可以认为它是具有智能的。自动化、学习能力、专家规则，这些都不是关键特征，自适应能力才是智能的关键。自适应，指面对未来的不确定性，可以给出一个反应，且能够根据结果进行调整优化的能力。

比如说，管控平台的质量检测模块，根据已有的质量规则发现新的数据问题，这不是智能。导入新系统的元数据时，根据数据元名称自动匹配数据标准，这也不是智能。因为这些都是事前定义好的，基于规则的，可以预见的。

而AI的典型代表，无人驾驶汽车，其面对的运行场景是无法事前明确定义规划的，它的智能都是通过大样本训练集合加算法而得到的。

大样本训练集这一个前提条件，横亘在治理领域的面前。未来，治理领域的智能，还是更多体现在“数据专员”的聪明才智上，还是让我们更多关注治理团队本身的建设与发展吧。

来源：数据管理及应用