2020-02-17 21:17 浏览量:337
一直有人关心数据治理和人工智能(AI)的关系,今天在这里做个简单阐述。二者的关系可以总结为两个问题。
一、如何将AI工具引入数据治理领域?
AI工具包括神经网络、机器学习、深度学习、机器视觉、自然语言理解(NLP)等,这些工具几乎都很难在数据治理领域发挥作用。
有厂商宣称,其治理(管控)平台采用了NLP技术,来提高数据标准和元数据之间的匹配映射自动化程度。
我这里只强调两点:首先,目前主流的NLP技术大都采用大样本数理统计的方法,而治理领域的管理对象,无论是数据标准还是元数据,其样本数量太少。另外,这些厂商都没有给出提高自动化匹配程度的明确说明。实际上,我们更关心的是:自动化匹配后,人工是否需要进行干预纠正,这个确认的工作量是否降低了。这个问题的答案应该都是“NO”。
二、如何在数据治理工作中体现智能的特征?
上面是计划从工具层面体现智能,如果不可行,能否从最终效果层面体现智能呢?无论用什么手段,只要在治理工作中体现出智能的特征,就是极大的成功。
首先明确一下,一个系统具有哪些特征,我们就可以认为它是具有智能的。自动化、学习能力、专家规则,这些都不是关键特征,自适应能力才是智能的关键。自适应,指面对未来的不确定性,可以给出一个反应,且能够根据结果进行调整优化的能力。
比如说,管控平台的质量检测模块,根据已有的质量规则发现新的数据问题,这不是智能。导入新系统的元数据时,根据数据元名称自动匹配数据标准,这也不是智能。因为这些都是事前定义好的,基于规则的,可以预见的。
而AI的典型代表,无人驾驶汽车,其面对的运行场景是无法事前明确定义规划的,它的智能都是通过大样本训练集合加算法而得到的。
大样本训练集这一个前提条件,横亘在治理领域的面前。未来,治理领域的智能,还是更多体现在“数据专员”的聪明才智上,还是让我们更多关注治理团队本身的建设与发展吧。
来源:数据管理及应用