简而言之:传统的基于人工编写规则和被动检查的数据质量体系,从未针对智能体人工智能进行设计。到2026年,当自主代理处理错误数据时,没有人会介入以发现问题。那些在人工智能领域取得成功的组织,并非从更好的模型入手,而是从构建数据信任层入手,该信任层能够在代理采取行动之前检测、修复并自我修复数据。这才是现代自主数据质量的真谛。 大多数组织都认为他们已经解决了数据质量问题。他们制定了一些规则,设置了一些检查机制,组建了数据治理团队并为其提供了一套框架。在很长一段时间里,这些就足够了。 这已经不够了。 如今大多数企业所处的数据环境与当初设计的数据治理框架所针对的环境几乎截然不同。十几年前,一个典型组织的数据来自少数几个ERP和CRM系统。结构化的表格,可预测的模式,范围可控,规则易于维护。理论上,一个人就能理解全局。 如今,平均每个企业管理着超过900个应用程序。每个应用程序都会生成数据。但它们之间大多无法有效通信。而几乎所有这些数据最终都应该流入企业领导层公开承诺、已列入预算并正面临交付责任的AI项目。 正是在这里,现代人工智能驱动的数据质量不再仅仅是数据团队需要关注的问题,而变成了业务连续性问题。 这些数字揭示了一个比大多数组织愿意听到的更残酷的真相。 Gartner 估计,平均每个组织每年因数据质量差而损失 1290 万美元。超过四分之一的组织报告称,每年损失超过 500 万美元,7% 的组织损失超过 2500 万美元。多年来,这些数字经常在董事会会议上被提及,通常是为了证明购买数据质量平台的必要性,然后就被悄悄地束之高阁。 到2026年,真正改变讨论走向的不是具体的金额,而是当下糟糕数据所造成的后续影响。 在传统的分析领域,人总是参与其中。一份报告显示数字错误,有人发现了,有人上报了情况。由于有人在问题扩大之前及时发现并处理,损失被控制在了有限范围内。 智能体人工智能彻底消除了这种缓冲。当自主智能体基于损坏的数据做出决策时,它不会停下来进行健全性检查,而是直接行动。它会配置错误的基础设施,触发错误的工作流程,并向客户提供错误的建议。而且,由于智能体以机器速度在深度互联的系统中运行,因此,在任何人意识到发生了什么之前,单个数据质量故障就可能蔓延到整个流程。 这是自动化数据质量基础设施在2026年需要解决的核心问题:不是为分析师发现错误,而是在客服人员采取行动之前就发现错误。 到2026年,全球人工智能支出预计将超过2万亿美元。每一美元的投资都取决于流经其中的数据质量。数据质量差不仅会降低人工智能的投资回报率,在智能体环境中,它还会造成大规模的危害。 我们一直以来衡量人工智能准备度的方式都是错误的。 57% 的组织表示,他们的数据尚未准备好用于当前或未来的 AI 应用场景。考虑到过去十年在数据基础设施方面投入的巨额资金,这一比例令人震惊。这不仅暴露出数据问题,也暴露出衡量标准问题。 大多数组织会从完整性、准确性和一致性三个方面评估数据质量。这些维度固然重要,但它们的设计初衷是基于最终用户是经过深思熟虑的人类分析师这一前提。对于自主人工智能系统而言,标准则截然不同,而且要高得多。 人工智能代理不仅需要知道某个字段是否有数据,还需要知道数据在上下文中语义是否正确,其值在相关数据点的背景下是否合理,数据来源是否可信,以及数据是否足够新,足以支持正在做出的决策。现代人工智能驱动的数据质量框架现在包括语义验证、跨源一致性检查、漂移检测和质量评分,这些功能可以告诉代理在特定时间点应该对特定数据源赋予多大的权重。 这是对质量的根本性不同定义,也需要采用根本性不同的方式来实现。 规则时代已经结束了 传统数据质量的根本问题在于:它的设计初衷就是被动的。人预先设想出某种故障模式,编写规则来捕获它,然后系统根据这条规则进行检查。这种模式在数据环境稳定、维护规则手册的人员能够及时应对变化时是有效的。 这两个条件都不再成立了。 如今,数据来自数百个来源,格式瞬息万变,并且被输入到原本设计时并未考虑互操作性的系统中。任何分析团队都无法快速编写规则来应对这种变化。任何静态的规则手册也无法预见数百个系统以始料未及的方式交互时出现的各种故障模式。 现代智能体人工智能数据质量的转变在于,它从人类定义的规则转向机器发现的模式。这体现在数据量、速度和分布方面的行为异常,以及由于数据集之间的关系从未被正式记录而导致的、任何规则都无法预料的参照漂移。此外,还体现在时间上的不一致性,这种不一致性只有在观察数据随时间推移的行为时才会显现,而不仅仅是观察其是否通过了某个特定时间点的检查。 当发现的模式与既定规则相结合时,质量系统便真正具备了自适应能力。它能够学习每个数据集的正常状态,检测偏离该基线的情况,并在不良数据到达任何处理环节之前及时上报。 举个具体的例子。零售平台的订单表应该反映美国数千个司法管辖区的准确州和地方销售税。这些税率不断变化。基于规则的系统可以对照已知表格进行核对。但是,如何才能在错误累积到数万笔交易之前,就发现新产品类别中税费计算错误的模式呢?这种检测需要行为建模,而不是规则匹配。 79%的AI代理未能投入生产环境的真正原因 近五分之四的企业已经以某种形式采用了人工智能代理。但只有九分之一的企业将其大规模地应用于生产环境。这一差距是2026年企业人工智能面临的核心挑战,而围绕这一挑战的大部分讨论都集中在模型成熟度、编排复杂性和人才短缺等方面。 这些都是真实存在的因素。但最容易被忽视的因素是数据信任。 智能体故障几乎总是上下文故障。语言模型或自主智能体需要的不仅仅是数据,还需要数据背后的上下文:这些值的含义、当前生效的定义版本、数据来源、数据经历了哪些转换,以及数据是否足够新,足以支持所请求的决策。缺少这些上下文,智能体就会产生错觉,获取错误的信息,并根据技术上有效但语义上错误的信号采取行动。 自愈式数据管道和自动化数据质量基础设施之所以引人注目,并非因为它们能减少数据团队的手动工作量(尽管它们确实能做到这一点),而是因为它们能够确保将自主代理安全地部署到生产工作流程中,并信任其行为。到2026年,那些在智能体人工智能领域取得成功的组织,并非因为它们拥有更优秀的模型,而是因为它们首先构建了数据信任层。 自主数据质量在实践中究竟是什么样子 现代数据质量管理方法并非每天早上由专人查看的监控仪表盘,而是一个持续运行的系统。该系统能够理解其处理的每个数据集的预期行为,实时检测偏离预期行为的情况,评估其对下游数据的影响,并自动进行修复,或者提供足够的信息以便人工快速处理。 到2027年,那些不优先考虑人工智能就绪数据的组织,在扩展全人工智能和智能体解决方案时,预计将面临15%的生产力损失。这并非是对数据质量的警告,而是对基础架构错误造成的累积性损失的警告,尤其是在构建于其上的系统不断扩展的情况下。 那些最终脱颖而出的组织,是那些将自动化数据质量视为基础设施,与计算和存储归为同一类,而不是将其视为与实际工作并行开展的项目的组织。 这就是转变所在。数据质量不再是补救措施,而是决定人工智能能否可靠运行的关键因素。 来源(公众号):数据驱动智能
2026-04-02 10:03 77
文 | 中国信息通信研究院副院长 魏亮 习近平总书记指出,数据是数字经济时代的基础性资源、重要生产力和关键生产要素。近年来大模型技术不断取得突破,其中大规模高质量训练数据的投入,起到了关键作用,也进一步将“以数据为中心的人工智能”推向一个新阶段。 近期发布的 Deep Seek 系列模型训练中大量高质量推理数据集的使用更加凸显了高质量数据的重要性,而大模型要与垂直领域深度融合同样需要高质量数据集的支撑。国家数据局围绕高质量数据集建设相关工作开展了一系列工作部署。2025年2月19日,高质量数据集建设工作启动会在北京组织召开,国家发展改革委、教育部、科技部、工业和信息化部等27个部门参会。下一步,高质量数据集建设工作将积极推进落实“人工智能+”行动,加快推动形成一批标志性成果,赋能行业高质量发展。 01 准确认识高质量数据集建设取得的进展和面临的挑战 高质量数据集构建是一项复杂而关键的任务,需要了解模型应用场景和需求,进而开发、构建和维护数据资源,提供持续有效的高质量数据集。当前,在顶层设计层面,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》,强化场景需求牵引,带动数据要素高质量供给、合规高效流通,高质量数据集建设取得积极进展。在地方层面,湖北、江苏、浙江等多省市明确了建设高质量数据集的数量、时间及激励机制; 湖北省数据局发布首批10个高质量数据集,推动构建高质量“数据集市”;苏州市发布首批30个工业制造、交通运输、金融服务等高质量数据集。在行业层面,智源研究院发布全球最大的多行业中英双语数据集IndustryCorpus 1.0,包含3.4TB开源行业预训练数据,覆盖18类行业;中国信通院推出我国首个面向行业的人工智能数据集质量评估体系,为数据质量提供客观、公立的评价能力和方法体系;北京国际大数据交易所累计发布约300个高质量数据集,形成10余个应用领域数据资源地图。与此同时,还应看到目前高质量数据集建设还存在不少挑战。 一是政府和业界不清楚行业高质量发展需要什么样的数据。一方面,行业大模型数据具有需求多样性的特点。不同行业部门对模型场景数据的需求各不相同,涉及分析、决策和生成不同的任务需求,这种多样性要求在人工智能高质量数据集建设中,必须深刻理解业务场景。另一方面,行业大模型数据具有需求复杂性的特点。大模型涉及预训练、微调、反馈强化学习等不同阶段,不同阶段都涉及到数据训练构建和优化策略,需要多个数据源、多种数据类型融合对齐,这增加了数据处理和管理的复杂度。 二是行业企业不知道高质量数据集如何构建。构建大模型数据集主要包含数据采集、数据清洗、数据标注、质量评估等核心环节。各环节需要根据大模型数据集具有的规模大、多样性足、行业垂直属性强等特点进行针对性的技术研发和适配。但是,行业企业对于数据的理解程度不同,面向大模型的数据治理方法和经验不足,传统的数据处理工具和技术无法满足大模型需求,需要引入先进的数据处理技术和工具提高数据处理效率和准确性。 三是业界不了解行业数据集质量如何评价。不同行业、不同数据源的数据完整性和准确性可能参差不齐,严重影响大模型的训练效果和预测准确性,造成训练资源浪费。此外,训练数据获取往往需要耗费大量时间和经济成本,包括数据收集、清洗、标注等环节。在行业大模型的实际建设中,对于构建和采买的数据没有统一的衡量标准,造成无法有效获取高质量数据集资源。 02 分类推动高质量数据集供给体系建设 数据之于大模型就像石油之于汽车,汽车无法直接使用原油,原油只有经过一系列复杂的过程炼化成汽油后,才能给汽车使用。同样,海量原始数据需要经过“炼化”形成高质量数据集,才能真正有效地用于大模型训练。行业大模型训练所需数据集,既要覆盖行业通识,也要蕴含专门知识。其中,通识数据是通用大模型能力提升的基础,行业通识数据是行业大模型训练的基底,行业专业数据是企业推动行业大模型的应用、部署私域模型能力的底座。为此要根据急用先行、分类推进、合理使用的原则,推进高质量数据集建设。 一是加快通识类高质量数据集建设。通识类高质量数据集是指由政府机构、科研机构、开源社区或大型互联网企业等公开数据构建的数据集,具有广泛性和通用性,覆盖多个领域,如自然语言处理、计算机视觉、语音识别等,能够为企业提供丰富的训练资源和基准测试环境,有助于行业大模型快速验证算法、提升模型的基础能力。此外,公共数据集还有助于促进跨行业、跨领域的数据共享和知识融合,推动行业大模型的持续进步和快速发展。 二是加快行业通用类高质量数据集建设。行业通用类高质数据集,是指针对某一特定行业或领域知识的具有事实性数据集,具有高度的专业性和针对性。这类数据集通常包含某一特定行业特有的知识、术语、场景和业务流程等信息,对于训练出适用于行业应用的大模型至关重要,能够覆盖行业领域专业知识,提高模型在行业通识领域的泛化能力。 三是加快行业专用类高质量数据集建设。行业专用数据集,是指根据行业企业自身业务场景和需求收集的数据集。这类数据集通常包含行业企业内部业务流程、用户行为、产品信息等关键信息,具有针对性和定制化的特点,能够为行业企业提供高度个性化的训练数据资源,构建专属大模型。通过行业企业场景化数据集的训练,可以定制化地优化大模型算法和参数设置,深度挖掘内部数据价值,实现模型的定制化优化与业务高度适配,使其更好地服务于业务需求和发展战略,带来更加精准和有效的业务洞察和决策支持。 03 加快提升高质量数据集构建能力 推动高质量数据建设,是一项系统工程,核心是提升行业数据集管理与运营效率、提升数据集质量和数量、充分挖掘数据资源价值、保障模型数据安全可信,需要系统性地加强能力建设。 一是完善行业数据集管理体系。编制行业数据资源目录,细化数据集的分类与分级,明确结构化、半结构化及非结构化等多种数据类型,按照数据清洗处理程度(手动、半自动至全自动),开展数据集资源管理。构建高效协同的组织架构,确保从数据采集到模型应用的每一步都能够得到有效管理和支持,建立数据治理与模型开发的协同架构。围绕数据技术、平台、应用及安全,制定详尽标准,涵盖数据生产、服务、质量评估及数据集管理。培养跨学科、跨专业的数据工程团队,强化数据科学与模型训练能力,为大模型的成功部署与持续优化奠定坚实基础。 二是提升行业数据集开发维护能力。着力提升数据采集汇聚、数据预处理、数据标注等关键环节,以及指令微调、反馈对齐关键阶段的技术工具能力。数据采集汇聚需具备高效的数据抓取、清洗与整合能力,确保数据的全面性和多样性;数据预处理阶段涵盖数据清洗、去噪、归一化等技术,以提升数据质量;数据标注环节要求深入理解数据特性,掌握高效的自动化和智能化标注技术。行业大模型数据集主要应用于指令微调阶段和反馈对齐阶段,通过有标注的指令数据对模型进行精细化调整,增强其任务执行能力,利用用户反馈优化模型提升实际应用效果。此外,还需要制定详细的数据技术处理要求和方案,以保证不同阶段的数据分布一致性。 三是增强行业数据集质量控制。在质量管理方面,从流程管理、质量评估和组织规范三方面对大模型数据集生产到管理的各环节进行能力规范和等级评定,从源头上确保数据集高质量生产和管理。在质量评估方面,针对行业大模型对数据质量进行更多维度的要求,提升数据集在模型应用上的实用效果。设计具体规则和方法,采用自动化标注和人工抽样的方式对数据集自身质量进行前置检测,采用模型验证和消融实验的方式对数据集在大模型的应用效果进行后置检测,通过模型效果反馈进行数据集质量优化。 做实、做深、做细高质量数据集建设工作,就要深入贯彻落实党中央、国务院决策部署,做好系统谋划、加强统筹协调、做好部门协调。此次高质量数据集建设工作启动会,为推动相关工作发出了动员令、吹响了集结号。相信通过国家数据局协同行业主管部门的政策牵引和政、产、学、研、用多方协同,我国高质量数据集建设步伐将越来越快,也必将为人工智能赋能实体经济注入强劲动力。 来源(网站):国家数据局
2025-03-13 10:12 1432
在数字化浪潮的推动下,电子政务作为提升政府行政效率和公共服务能力的重要手段,正日益受到广泛关注。随着电子政务的不断深入,政务数据的积累量也在迅速增长。然而,数据的快速积累也带来了诸多挑战,尤其是数据质量问题,成为制约电子政务进一步发展的瓶颈。这不仅影响了政府决策的准确性和效率,也可能对公共服务产生负面影响。因此,如何有效提升政务数据质量,成为当前亟待解决的问题。 一、政务数据质量管理的重要性与现状 政务数据的质量管理是确保电子政务系统稳定运行和高效服务的基础。高质量的数据能够为政府决策提供准确依据,优化资源配置,提升公共服务质量。反之,低质量的数据则可能导致决策失误,影响政府公信力,甚至造成资源浪费和损失。尽管我国政务数据质量管理已取得一定成效,但实际操作中仍面临诸多挑战。数据来源复杂、质检工具不标准、人员素质参差不齐等问题,使得政务数据质量管理工作困难重重。此外,随着数据量的持续增长,传统质检方式已难以满足需求,急需自动化、智能化的质检工具来提高质检效率。 二、政务数据质量管理的新挑战 当前,政务数据质量管理面临着多重挑战。一方面,数据来源的多样性和复杂性要求质检规则能够更加灵活、智能地适应不同情况;另一方面,政务数据的敏感性和重要性也对质检工具的安全性和可靠性提出了更高要求。同时,随着电子政务的不断发展,政务数据质量管理还需要建立起长效机制,以持续监测和改进数据质量。 三、破局之道:“AI+准度领航” 面对政务数据质量管理的新挑战,国脉互联提出“AI+准度领航”数据质控合规系统,以“构筑质量屏障,守护合规标准”为目标,建立持续、系统的数据质量检测机制,实现从数据精准定位到数据质量治理的全流程精细化管控,确保数据的准确性、完整性、一致性、规范性、时效性和可靠性,全面强化数据合规管理,确保数据合法合规使用。通过“AI+准度领航”,我们可以实现对数据的智能化摸底、精准制定规则、高效质检与评估,以及建立长效机制。 1.智能化摸底 “AI+准度领航”拥有强大的数据处理能力,能够全面梳理来自各类源头的数据。它可以有效地对数据进行分类,帮助我们清晰地识别出哪些数据尚未经过质检,哪些数据已经过质检但质量未达到预期,以及哪些数据属于高质量数据。这种智能化的摸底过程,为后续的数据质检工作奠定了坚实的基础,使质检工作能够更加精准地针对存在的问题展开。 2.精准制定规则 结合国家数据管理相关标准及行业特定要求,“AI+准度领航”为不同的数据集量身定制质量标准。它充分利用AI大模型和深度学习技术,深入剖析数据特性,从而制定出既符合统一标准又满足本地实际需求的检测规则,确保数据质量的准确性与可靠性。 3.高效质检与评估 “AI+准度领航”具备强大的自动化质检能力。它能够根据制定的检测规则对相关数据进行自动化质检,快速识别问题数据并自动生成详细的评估报告。这提高了质检效率,还为各部门提供了明确的改进方向。 4.建立长效机制 “AI+准度领航”不仅关注当前的质检需求,还着眼于未来的可持续发展。它具备实时动态检测的能力,能够同步生成实时检测报告,快速识别并处理任何潜在的数据问题。通过设置预警机制和定期审查调整检测规则,“AI+准度领航”助力政务数据质量管理实现持续优化和提升。 四、“AI+准度领航”的价值 “AI+准度领航”以其独特的设计思路和预期效果,与当前政务数据质量管理的需求高度契合。它不但能够解决数据来源复杂、质检规则不灵活等问题,还能够提高质检效率、降低人为错误、增强数据安全性。通过“AI+准度领航”的智能化摸底功能,政府部门能够全面评估各类数据的质量,准确区分出质检质量不高的数据,从而为后续的数据质检工作提供明确的方向和重点。 这种精准的质检模式,有助于政府部门及时发现并修正数据中的问题,确保数据的准确性和可靠性。同时,“AI+准度领航”还能为政府部门提供科学、高效的决策支持,助力电子政务的健康发展。通过持续监测数据质量,政府部门可以更加及时地调整政策、优化服务,从而提高公共服务的质量和效率。 五、结论 综上所述,面对政务数据质量管理的新挑战,“AI+准度领航”以其独特的设计思路和预期效果,为电子政务的健康发展提供了新的可能性。我们期待着这款工具能够尽快落地应用,为政府部门带来更加精准、高效的数据质量管理体验。同时,我们也相信,在未来技术的不断进步和应用的深入下,“AI+准度领航”将在政务数据质量管理领域发挥更加重要的作用。 来源(公众号):国脉研究院
2025-03-05 09:56 1137
基于交易产品和业务场景,为数据产品提供数据质量评估报告和提升建议,及交易后质量追踪,促进数据要素流通,满足数据消费者的需求,为数据资产评估提供依据。
2024-08-08 09:34 1732
数据质量规则是一组定义和规范,用于指导数据的收集、处理和存储的过程。它要求参与者遵守一定的标准来确保数据的有效性、准确性、完整性和一致性。
2024-07-17 09:44 3060
热门文章