2023-05-29 08:01 浏览量:1372
数据治理的概念随着数据中台的普及,大部分人已经对数据治理非常熟悉了,那么当前的数据治理大部分是面向结构化数据,也就是处理的是关系型数据库的数据的数据治理,随着人工智能的发展,面向人工智能的多源异构数据的数据治理是当前数据治理发展的主要趋势。随着数字化转型的深入,数据治理需求普遍存在,非结构化数据成为价值挖掘的重难点。
1、数据常规的分类有哪些?
由艾瑞咨询对数据按照不同的维度进行分类,目前按照数据的格式,分为结构化数据、非结构化数据、半结构化数据。常见的结构化数据存储在关系型数据库,关系型数据库包含常见的RDBMS,也包含多维数据库和时态数据库,而非结构数据和半结构数据则存储在非关系型数据库中,非关系型数据库包含列式数据库,空间数据库,对象/多媒体数据库,键值对,三元组存储等。
2、数据治理包含哪些内容?
数据治理主要包含数据标准管理、数据集成管理、数据资产管理、数据模型管理、主数据管理,数据安全管理,数据服务管理,数据质量管理等。各个功能模块相互作用,共同提升数据质量。
3、数据治理发生了哪些变化?
数据治理的功能并没有发生太多变化,主要变化是需要治理的数据类型和应用场景发生了变化:
1、非机构化数据和半结构化的数据的数据治理在当前的数据治理软件中如何完成?
2、非结构化的数据和半结构化的数据主要的应用场景是AI模型的训练,那么这个应用场景中难度是实时性要求高,且处理难度大,如何能够治理好,影响模型训练的结果和推测的结果。
近年来,随着新技术模型出现、各行业应用场景价值打磨与海量数据积累下的产品效果提升,人工智能应用已从消费、互联网等泛C端领域,向制造、能源、电力等传统行业辐射。各行业企业在设计、采购、生产、管理、营销等经济生产活动主要环节的人工智能技术与应用成熟度在不断提升,加速人工智能在各环节的落地覆盖,逐渐将其与主营业务相结合,以实现产业地位提高或经营效益优化,进一步扩大自身优势。AI技术创新应用的大规模落地,带动了大数据智能市场的蓬勃发展,同样也为底层的数据治理服务注入了市场活力。
4、人工智能发展的情况如何?
据艾瑞咨询给出的数据,人工智能的发展正以20%左右的增速在发展,主要的应用行业是金融行业。
据艾瑞咨询统计测算,2021年涵盖大数据分析预测(机器学习/深度学习模型)、领域知识图谱及NLP应用的大数据智能市场规模约为553亿元,预计2026年市场规模将达到1456亿元,2021-2026 CAGR=21.3%。随着市场大数据基础的完善与数据需求的唤醒推动,大数据智能市场的规模将持续走高,但未来在行业理性建设与增量市场逐步完善的大背景下,大数据智能市场增速会出现下降趋势。从细分结构来看中,金融领域的数据价值率先得到释放,市场规模占比高达32%。
5、人工智能的落地对数据治理提出了哪些挑战?
企业在部署AI应用时,数据资源的优劣极大程度决定了AI应用的落地效果。因此,为推进AI应用的高质量落地,开展针对性的数据治理工作为首要且必要的环节。而对于企业本身已搭建的传统数据治理体系,目前多停留在对于结构性数据的治理优化,在数据质量、数据字段丰富度、数据分布和数据实时性等维度尚难满足AI应用对数据的高质量要求。为保证AI应用的高质效落地,企业仍需进行面向人工智能应用的二次数据治理工作。
AI 应用的数据对于数据治理提出的挑战,主要体现现在
1、AI模型的接入是需要将关系型数据和非关系型数据同时接入AI模型。所以数据治理就需要兼容多源异构数据
2、对于非结构化数据和半结构化数据的数据治理,和传统的数据治理不一样,对于非结构化数据的数据治理,主要体现在缺少值的补充,正确性的验证,特征工程,标签管理。且对于非结构化的数据治理同样一般是需要接入AI模型进行数据治理,例如,文本分类算法、文本情感算法、智能打标签算法,特征向量算法,语法校验算法等等
3、对非结构化、半结构化数据的实时性要求高。一般AI智能应用的场景分为交互类型的,即人和AI模型的交互,给到平台延时极短,包括对数据清洗和AI模型推理的时间。
6、面向人工智能的数据治理该怎么建设呢?
面向人工智能的数据治理是传统数据治理体系在以AI应用落地为导向下的体系“升级”。从数据管理维度来看,在接入并处理分析半结构化数据、非结构化数据与流式数据的多源异构数据基础上,面向人工智能的数据治理体系仍会根据数据结构化流向、数据资产管理需要、数据安全需求等角度顺应搭建元数据管理、数据资产管理、主数据管理、数据生命周期管理和数据安全隐私管理等组件模块。而在数据治理过程中,则会更强调底层实现多源数据融合、数据采集频率、数据标准建立、数据质量管理,满足AI模型所需数据的规模、质量和时效,以AI应用的数据需求为核心,优化对应模块的体系建设。
7、特征管理中台主要的功能模块包含哪些?
1、数据标准 接入半结构化和非结构化数据标准
2、数据预处理接入非机构化的质量处理
3、特征工程处理功能:特征抽取、特征构造、特征选择,模型训练,获取到的可以被机器理解的结构化数据,并且能够将该过程自动化,并且能够自我学习。
8、面向人工智能的数据治理的市场规模是多少?
从数智产业圈的参与立足点出发,艾瑞提取测算了大数据平台、数据中台、AI应用与数据治理服务的项目中与AI应用相关的数据治理市场规模并加总而得,2021年中国面向人工智能的数据治理市场规模约为40亿元。受数据平台服务、数据治理服务和AI应用建设的需求推动影响,面向人工智能的数据治理市场规模将持续上升,2026年突破百亿达105亿元,2021-2026 CAGR=21.3%。2021年,中国数据治理市场规模约为121亿元。作为数据服务的基础工作,中国数据治理市场规模将保持上扬态势,预计2026年市场规模达到294亿元,2021-2026 CAGR=19.5%。从发展曲线来看,中国数据治理与面向人工智能的数据治理市场规模增长均处于良性区间,共同巩固相关治理产业生态圈的向好形势。
9、基于AI应用的数据治理主要爆发的行业是哪个行业?
AI应用蓬勃发展,银行是主要需求方,随着数字化转型的不断深入,银行金融机构中是对IT技术投入最高,并AI布局较早的主体。
金融领域的AI应用多为业务导向型,即AI建设逻辑为应用落地先行,而AI应用面临的数据质量问题日渐凸显,一些银行开始寻求构建面向人工智能的数据治理体系的解决之道。
总结一下,数据治理随着数字化转型的深入,数据治理的数据范围从结构型拓展到非结构化和半结构化,从普通的数据分析、BI分析,深入到AI智能应用。随着伴随的数据治理的功能也需要进行相应的调整。
来源:ruby的数据漫谈
作者:ruby