人工智能社区痴迷于越来越大的模型、十亿令牌上下文窗口和GPU 的微调运行让人感到厌倦,而人工智能堆栈中最被忽视的力量倍增器却静静地位于这一切之下的一层:数据。 让我们明确一点:虽然扩展模型规模仍然很重要,但对于大多数现实世界的人工智能产品而言,性能提升越来越取决于数据质量和新鲜度,而不仅仅是参数数量。将模型规模翻倍以榨取边际收益不仅成本高昂,而且在环境方面也难以为继,因为惊人的电力和水成本根本无法扩展。 该瓶颈已从堆栈中移出。 构建 AI 原生产品的创始人和首席技术官开始意识到,他们的代理不会错过新兴市场信号,也不会给出空洞的见解,因为“模型”本身 “不够智能”——它之所以失败,是因为它盲目地处理过时、不相关或不完整的上下文。正因如此,Salesforce 于 2025 年 5 月斥资 80 亿美元收购了 Informatica,以增强其 AI 驱动的 Agentforce 平台。现在,他们可以访问高质量的实时数据,从而获得更准确、更可扩展的成果。 性能的成败取决于您能检索到什么,而不仅仅是您如何提示。除非您使用的是 H100 集群或运行着 API 预算无限的前沿模型,否则您超越巨头的最佳机会是在您负担得起的范围内为模型提供更智能的数据:领域特定、结构化、去重和新鲜的数据。 但在构建情境之前,它必须先存在。这意味着需要可靠、实时地访问开放网络——不仅仅是一次性的数据抓取或数据集,而是能够反映当前情况的强大管道。 各位,这就是基础设施。如果说计算让 NVIDIA 变得不可或缺,那么我认为下一个重大突破不是更多层,而是更多信号而不是噪声。而这始于将数据采集视为生产基础设施。 “好数据”是什么样的? 如果你正在构建一款 AI 原生产品,那么系统的智能程度将不再取决于你的提示有多巧妙,或者你能在上下文窗口中塞入多少个标记。而是取决于你能多好地为它提供当下重要的上下文。 但“好数据”的定义相当模糊。让我们来澄清一下。它对人工智能的意义如下: 领域特定:AI 辅助优化零售定价需要竞争对手数据、客户评论或区域趋势,而不是无关的噪音。你必须做到精准定位。 持续更新:网络瞬息万变。错过今日 X 趋势的情绪模型,或使用上周价格的供应链模型,都已经过时了。 结构化和去重:重复、不一致和噪声会浪费计算并稀释信号。结构胜过规模。干净胜过庞大。 实时可操作:过时的数据就是死数据。实时数据——价格变动、新闻、库存变化——能够为即时决策提供支持。但前提是收集数据必须合乎道德、可靠且规模化。 这就是 Salesforce 收购 Informatica 的原因——不是为了新模型,而是为了向 Agentforce 提供结构化的实时数据,以改善下游决策。 正因如此,IBM 于 2024 年 7 月斥资 23 亿美元收购了 StreamSets,用于打造 Watsonx。StreamSets 专注于从混合数据源提取数据、监控数据流并处理模式漂移——这使得 IBM 能够跨企业系统为 Watsonx 提供最新、一致的信号。对于需要基于实时状态(而非仅仅基于历史模式)进行推理的 AI 来说,这种基础设施能够带来 10 倍的增效效果。 这也是 Dataweps 转向Bright Data为飞利浦和华硕等电商客户收集实时竞争对手定价和市场趋势的原因。他们的 AI 驱动定价和竞价系统依赖于快速、准确的数据,而 Bright Data 的 API 驱动生态系统(包括代理、存档/数据集、支持 AI 代理的浏览器自动化工具等)使他们能够可靠且大规模地收集这些数据。Bright Data 不仅仅是数据抓取,它还提供了现实世界 AI 系统所需的弹性、容量和合规性。坦率地说,它是一家 AI 基础设施提供商。 关键在于:检索质量如今胜过提示工程。即使是最好的提示也无法修复模型在推理时提取过时或不相关数据的问题。 正是现在,正确的环境。这就是后 Deepseek 时代 AI 生存或消亡的关键所在。 第一步总是最难的 乍一看,数据基础设施听起来像是管道。采集管道、转换、存储?貌似无聊至极。但在 RAG 和代理 AI 时代,这种管道已变得至关重要。为什么?因为你的系统不再只是运行推理——它基于外部、不断变化的多模态实时信息进行推理。这改变了一切。 我是这样认为的:现代人工智能数据栈已经发展成为一个成熟的价值链,从信息的获取和提取,到信息的转换和丰富,到信息的整理和排序,再到存储和提供给合适的组件——无论是模型、代理还是人类。每一层都带来了实时挑战和现实后果。与传统的 ETL 管道不同,它不仅仅是将数据录入数据湖然后留在那里。 大多数团队在第一步就搞砸了:采集。糟糕的数据提取会毁掉上下文。如果你的采集层错过了关键更新,在边缘情况下默默地失败,或者以错误的结构或语言捕获信息,那么你的整个堆栈都会继承这种盲目性。 换句话说:你无法设计你未曾摄取的语境。这里有一篇有趣的论文,《AI 海洋中的塞壬之歌:大型语言模型中的幻觉调查》,作者是 Zhang 等人。该论文展示了在生产级系统中,未解决的摄取问题是“模型幻觉”和其他异常代理行为的最常见根源。 因此,在 RAG 和代理 AI 时代,摄取需要具有战略性,这是不容置疑的: 它必须对人工智能代理友好,也就是说,能够提供结构化的、即时的数据。 它必须处理动态 UI、CAPTCHA、变化的模式和混合提取(API + 抓取)。 多步骤AI代理既需要实时信号,也需要历史记忆——现在发生了什么,之前发生了什么,发生顺序如何,以及原因。因此,该基础设施必须支持定时提取、增量更新和TTL感知路由——所有这些都具有弹性、合规性,并且随时准备应对变化。 它必须具有规模可靠性,并能持续从数百万个来源提供最新信息。 并且必须符合网站条款和法律规范。 这就是为什么脆弱的抓取工具、静态数据集和一次性连接器不再足够好的原因,以及为什么像 Bright Data 这样专注于自动化友好、代理优先数据基础设施的平台正在变得像模型本身一样基础。 我见过像 Gemma 3 这样的开源、开放权重模型在狭窄领域中表现优于 GPT-4,仅仅是因为新鲜的、精选的、基于领域的数据让它们能够用于更好的检索系统。 我们来算一下。假设我们将检索到的上下文片段的总效用定义为: U=i=1ΣkRiFi 在哪里: R i∈[0,1] 是第i个检索到的片段与查询的相关性得分。 𝐹𝑖 [ 0 , 1 ] 是新鲜度得分,以随时间衰减的函数建模(例如指数或线性)。 k是检索到的上下文块的数量,受模型的上下文窗口约束。 即使假设语义搜索完美(即𝑅𝑖 已优化),最大化U也可能意味着丢弃高度相关但过时的数据,转而选择相关性稍低(但最新!)的信号。如果您的提取层跟不上,就会造成可见性损失和效用下降。第二个影响与第一个影响相辅相成:不仅无法获得新鲜内容,而且过时内容的存在还会降低性能。这会导致检索到的上下文质量的复合下降。 这就是为什么数据采集(包括但不限于计划更新、TTL 感知爬取、SERP 提取、提要解析等)不再仅仅是管道。 数据采集基础设施究竟是什么样子 那么,将数据采集视为一流的基础设施究竟意味着什么呢? 这意味着: 构建循环管道,而非负载。数据不应被一次性抓取并存档。它应该按计划进行流式传输、刷新和更新——并内置自动化、版本控制、重试逻辑和可追溯性。一次性转储无法提供持久的智能。 将新鲜度纳入检索逻辑。数据会老化。您的排名和检索系统应该将时间漂移视为首要信号——优先考虑能够反映当前世界状态的上下文。 使用基础设施级来源。从自制脚本中抓取原始 HTML 无法扩展。您需要访问层,这些层应提供 SLA、对验证码的弹性、模式漂移处理、重试、代理编排和合规性支持。 跨模态采集。有价值的信号存在于 PDF、仪表板、视频、表格、屏幕截图和嵌入式组件中。如果您的系统只能从纯 HTML 或 Markdown 中提取数据,那么您就错过了一半的信息。 构建事件原生数据采集架构。Kafka、Redpanda、Materialize 和时间序列数据库——这些并非只适用于后端基础设施团队。在 AI 原生系统中,它们将成为采集和重放时间敏感信号的神经系统。 简而言之,不要再把数据视为静态资源。要把它当成计算资源——需要编排、抽象、扩展和保护。这才是“数据采集即基础设施”的真正含义。 未来在于信息 > 规模 大多数 RAG 讨论都停留在模型层面。但如今正在兴起的 AI 栈,其模型可以互换,而数据基础设施才是长期的护城河。 摩尔定律或许已不复存在,但原始性能仍在稳步提升。但在不久的将来,我并不确信人工智能系统的性能将取决于微调或快速的魔法。我认为,最终的胜利将取决于你的系统掌握的知识以及它们获取知识的速度。最智能的人工智能系统并非拥有最大窗口的系统,而是拥有最佳上下文管理能力的系统——这得益于实时数据、动态内存和智能提取。 因此,作为工程师,我们不应将每一个新的数据源、反馈或实时数据流视为“内容”,而应将其视为能力。因此,每一个新的数据流也未必是噪音,而是信号。 也许你已经构建了这样一个关键的人工智能基础设施——只是你可能还没有这样称呼它。 也许你已经开始考虑将数据(例如 API)馈送到你自己的内部智能层,并且意识到:你不需要最大的模型。你只需要合适的管道。 拥有这种想法的团队,将网络规模的数据采集视为基础设施而不是一项次要任务,将会行动得更快、学到更多、用更少的费用获得成功。 来源(公众号):数据驱动智能
2025-08-07 15:27 162
围绕人工智能 (AI)和大模型语言模型 (LLM)的最初热潮已开始成熟。尽管基础的 LLM 本身正在迅速商品化,并通过API 和开源版本日益普及,但人工智能创新的步伐却远未放缓。相反,该行业的重点已急剧转向构建复杂的数据和人工智能解决方案,以提供可观的投资回报率 (ROI) 和切实的商业价值,并从单纯的实验转向战略实施。 企业最有防御力的竞争“护城河”在于其专有数据资产。 然而,这种战略优势在很大程度上取决于数据是否具有明显的高质量、可靠的一致性、丰富的上下文和严格的安全性。 数据固有的动态性意味着信息永远不会静止。随着数据流经复杂的工作流程,从源系统经过各种转换最终到达下游目标,这些关键数据管道的完整性和功能性可能会在其整个生命周期内反复显著下降。这种恶化通常源于多种因素,包括意外的上游数据模式变更、新字段的引入或底层业务逻辑的修改。至关重要的是,持续稳健地跟踪和管理这些变化,能够提供对数据整个沿袭和演变的深刻洞察。这种在单个数据管道和数据集层面保持的整体理解,对于确保持续的可靠性、实现有效的故障排除以及培养对下游分析产品的坚定信任至关重要。 本文探讨了全面的数据质量和可靠性框架应包含哪些内容,以及它如何使组织能够成功地进行分析。该框架强调了为什么如果不能及时全面地解决数据质量问题,数据和人工智能解决方案将无法满足企业的要求。 一 全面的数据质量和可靠性框架 数据质量是数据驱动决策成功的基石,因为决策结果的好坏取决于其所基于的数据。因此,确保数据的准确性、完整性、一致性、相关性、及时性和可访问性至关重要。全面的数据质量能够确保组织信任其使用的数据,从而做出更可靠、更有影响力的业务决策。 除了建立信任和可信度之外,有效的数据质量还能减少代价高昂的错误、错误的预测以及其他运营效率低下的问题。干净可靠的数据可以最大限度地减少返工,降低风险,并节省资源。 保持数据质量对于满足各行各业日益严格的监管标准和合规性要求至关重要。干净可靠的数据有助于避免法律处罚,并保护组织免受监管违规行为的侵害。 高质量的数据是探索新机遇、优化流程和推动创新的基础。正确捕捉和利用客户的偏好、行为和互动,还能提升客户满意度,从而提高客户忠诚度和客户粘性。换句话说,数据质量不仅仅是一项技术要求,更是业务的必要条件,是成功企业与失败企业之间真正的差异化因素。 但是数据团队能否确保他们充分处理数据质量和可靠性的各个方面?这需要一个如图1所示的综合框架。 图 1:结构化、全面的数据质量方法将带来可靠、可信的数据 这种集成方法利用元数据来确保用户能够获得实时、可信的洞察。一些供应商提供专注于特定领域的功能,但大多数企业寻求一套集成且全面的功能来全面管理端到端数据管道。这种方法统一了整个组织的数据管理实践,确保了一致性、准确性和可靠性。通过公开不同来源和系统的数据质量,可以建立统一的数据质量标准、策略和流程。当数据源分散在内部和外部时,孤立的团队往往会加剧数据质量问题。集成方法可以打破数据孤岛,鼓励各部门(例如 IT、数据管理、市场营销、财务)共同承担数据质量责任,从而促进跨部门协作。让我们检查一下每一层。 1.数据发现 数据发现是交付可靠数据和 AI 产品的首要基础要素,因为它能够全面概述所有可用的数据资产,包括其来源、格式、质量和关系。通过了解完整的数据格局,组织可以识别最符合其需求的数据,确保在数据和 AI 计划中仅使用准确、可靠和高质量的数据。了解现有数据及其当前状态有助于避免使用过时、不相关或错误的数据,从而避免损害数据和 AI 产品的质量。 随着组织越来越依赖数据来推动业务决策,发现、理解和有效利用数据的能力变得更加先进和重要。 数据发现曾经只是一个简单的数据源定位任务,如今已扩展为一个复杂的过程,它利用大型语言模型的强大功能来发现那些可能并不明显的关系。这些隐藏的模式和洞察有助于评估数据是否符合预期用途,并为后续的数据分析、编目、数据质量和可观察性步骤奠定基础。传统上,数据发现层连接结构化和非结构化数据源以及业务应用程序,以创建技术或操作元数据。在现代人工智能世界中,合成数据也应纳入数据发现的范围,因为这些人工生成的数据模仿了真实世界数据的特征,同时不会泄露任何实际用户信息或消除任何偏见。在许多情况下,真实世界的数据是不完整的,缺少构建稳健分析模型所需的关键记录或特征。合成数据可以通过创建代表性数据点来填补这些空白,确保数据集完整并可有效地用于分析或机器学习。 数据发现工具应该能够使用优化的原生连接器或开放标准(例如 ODBC/JDBC)以及 API(包括 RESTful 服务、SOAP 和 GraphQL)连接到数据源。原生连接器旨在始终满足高吞吐量、性能、安全性和可靠性需求,从而提高数据发现工作的效率。通常,连接器有助于实时提取数据源中新建或更新数据的元数据。这通过变更数据捕获 (CDC) 功能实现。 2.数据剖析 组织数据通常杂乱无章,存在诸多问题,例如质量问题(例如缺失值、重复数据、不一致数据)、缺乏理解以及跨不同数据源的集成挑战。因此,需要发现隐藏的关系并识别数据随时间的变化。这种透明度有助于优化数据处理工作流程,提高分析的可靠性,并有助于满足合规性要求。换句话说,如果没有这种清晰度,组织就有可能基于有缺陷的数据做出决策,从而导致效率低下和潜在的合规风险。 通过分析,组织可以清晰地了解其数据格局,确保数据准确、相关且易于理解。它可以帮助数据团队了解数据的特征,例如唯一性、基数、值范围和敏感度,从而丰富他们对所发现数据的认知。它涉及收集统计数据、元数据和其他数据信息,这些信息随后可用于数据管理、数据质量保证、法规遵从性和分析计划。 数据分析使用一套复杂的算法来评估各个维度的数据上下文和质量。此过程通常是自动化的,但应该根据组织的特定需求进行定制。这些需求可能涉及通过识别列之间的依赖关系和关系来合并来自不同来源的数据,或识别不必要的重复信息或高度相关的列,以优化数据并提高存储效率。其他需求可能涉及数据准备、异常检测、数据迁移、业务规则管理或降低因数据质量低下而导致的风险。 对源数据进行分析可能需要大量计算,并且可能会降低操作系统的运行速度。为了最大限度地降低源系统的负载,可以对用户定义的数据样本进行分析。另一种选择是使用 Apache Spark 等工具将数据提取到外部集群中。每种方案都有其自身的利弊,企业应该选择最符合自身需求的方案。 数据分析可以按需运行,也可以安排在特定时间间隔运行。此外,工作流有助于实现流程自动化。为了提高效率、可靠性和可扩展性,这些工作流应该能够与现成的编排引擎(例如 Apache Airflow)集成。自动化数据分析可以减少人工干预,最大限度地减少错误,并确保工作流程顺畅运行。 3.数据分类 数据一旦被分析,就必须被标记或分类为结构化格式,以改进数据管理、使用、治理和可用性。如果没有分类,数据可能会变得杂乱无章,从而给确保数据质量、保持合规性、保护敏感信息以及优化数据集成和分析带来挑战。未分类的数据可能会增加安全漏洞、违反法规和运营效率低下的风险,因为它会阻碍应用适当的控制和治理的能力。 数据分类标签充当元数据描述符,方便用户搜索、查找和访问相关数据,并根据数据的敏感性、用途和所有权对其进行分类。这些元数据可以为人工智能和机器学习模型提供上下文,从而减少幻觉。 创建标签或标记的分类过程也用于数据质量和可靠性框架的后期阶段,例如应用质量规则和访问策略。 机器学习算法再次用于自动创建标签,但现在大型语言模型 (LLM) 正被用于利用其对语义的理解,从而显著改进仅使用关键词和静态分类法的传统分类方法。例如,LLM 利用其对语言模式和上下文的理解,自动将文本分类到预定义的类别中,例如情绪分析(正面、负面、中性)。最后,LLM 还可用于对非结构化数据进行分类,例如电子邮件、聊天消息、社交媒体帖子和其他非传统数据格式。 为了确保数据分类的高标准,使用了两种测量方法: 精确度:衡量模型正向预测的准确度。更高的精确度表明分类相关且准确。高精度表示模型的误报率极低。如果出现误报,则会提交工单,请求数据所有者进行必要的补救。 召回率:衡量模型识别所有相关正实例的能力或其完整性。较高的召回率表明分类没有遗漏标记数据元素。 总之,自动分析和分类可以主动且经济有效地检测数据集中的异常、不一致和错误,并在潜在问题影响下游流程之前提醒数据工程师和管理员。 4.数据目录和语义层 组织数据通常彼此孤立,难以定位,记录不全,管理不一致,导致效率低下、错误百出和合规风险。用户难以找到正确的数据、理解其背景并信任其质量,这阻碍了数据驱动的决策和协作。 数据目录通过集中数据发现、加强数据治理和提升数据素养来解决这些问题,最终使整个组织能够更高效、更合规地使用数据。它帮助用户了解哪些数据可用、数据来源、如何使用以及数据的质量和治理状况。 元数据构成了数据目录的基础,它能够提供组织内数据资产的全面视图。在发现、分析和分类阶段生成的元数据存储在数据目录中,以便在决策过程中进行搜索和利用。目录中的元数据分为三种类型: (1)技术元数据 描述数据的技术方面,包括其结构、存储和处理细节,例如模式信息、列数据类型、数据分布直方图、索引等。 对于文件,数据目录显示数据格式,如 CSV、JSON 和 XML 等,如果未明确定义,则推断模式。 (2)操作元数据 关注数据的使用、性能和生命周期,例如所有权、数据保留策略、数据刷新计划频率和访问策略。 数据访问和安全策略信息有助于实施数据治理策略,以确保遵守法规(如 GDPR 或 CCPA),并提供数据使用、转换和共享方式的审计跟踪。 它还有助于可观察性和沿袭(稍后讨论),因为它包括使用情况统计数据(例如,访问频率、大多数查询表、最活跃的用户)和性能指标(例如,查询响应时间、系统负载)。 (3)业务元数据 为数据提供业务上下文,使其易于理解并与业务用户相关。该层也称为语义层,包含业务词汇表和术语(例如 KPI、指标、维度)、业务规则以及数据在业务流程中如何使用的上下文细节。 现在,借助 LLM 的功能,描述性和上下文相关的业务描述可以自动生成,并存储在数据目录中。这进一步简化了对元数据进行自然语言问答的功能。传统上,目录允许用户使用关键字进行搜索,但随着与 LLM 集成的出现,目录现在支持使用自然语言进行语义搜索。 业务术语表中的术语映射到底层技术元数据。领域专家可以定义更符合业务需求且直观易懂的术语,使其更贴近分析执行。该术语表还可以按层次结构组织术语,并提供变更审计日志,从而实现完全透明和历史记录。BPMN、OMG SBVR、对象角色建模、面向事实建模、RDF/OWL 和 SKOS 等多种标准可用于管理业务术语表,但这些标准不在本文档的讨论范围内。 近年来,数据目录的范围不断扩大,涵盖了所有类型的数据资产,包括数据产品、高级分析模型、报告、规则和 KPI 等。虽然数据目录最初是为了发现和搜索元数据而推出的,但现在它们正被用于开发新的资产。 例如,用户可以搜索某个数据产品,然后将其与其他资产组合,构建并发布新的数据产品。在这种情况下,数据目录就变成了一个提供可共享数据资产的市场。这些市场可能只是允许数据共享,也可能能够计算使用量并进行退款,从而实现数据货币化。这对于数据目录来说是一个激动人心的未来,因为它们将发展成为战略性产品,创造新的收入来源。 本质上,数据目录是数据生产者、工程师、数据消费者和业务利益相关者之间卓越的协作工作空间。用户可以对数据资产进行注释、评级和排序,让消费者能够轻松“选购”合适的产品并信赖它。数据合约是一个新兴概念,它定义了存储在数据目录中的数据资产的属性,以便消费者能够围绕其产品和服务构建服务级别协议 (SLA)。 总而言之,数据目录显著增强了释放各类数据和分析资产价值的能力,从而改善决策制定。数据已成为一种战略资产,它记录详实、元数据丰富、值得信赖且易于访问。通过提高数据利用率,企业可以提高效率、获得新的洞察并优化运营。 5.数据质量规则 数据质量是指确保数据集的准确性、一致性、完整性和可靠性,以便用于决策。对于任何旨在从数据资产中获取可操作见解并减少 LLM 幻觉的组织而言,高质量的数据都是基础。 传统上,数据质量评估是使用手动查询构建的自定义规则进行的。然而,随着数据的快速变化和新类型数据的不断涌现,手动流程因其动态特性而难以持续。这促使我们利用标准差和Z分数对已分析数据进行统计分析,以确定数据如何围绕均值聚集,从而识别异常值。随机森林尤其擅长识别已分析数据中某些数据集之间的潜在关系。编辑距离使用模糊匹配来检测潜在的重复项。其他机器学习算法可以进行调整,以精确定位数据值的频率,因为低频值可能表示异常。 这些机器学习算法有助于预测管道中的潜在故障或瓶颈,从而实现主动补救。它们会自动检测与预期模式的偏差,从而发出潜在的数据质量问题或管道故障信号。 6.数据可观测性 数据可观测性是指理解和监控数据管道健康状况的能力,确保数据从源头到目的地顺畅流动,且不会降低质量、可靠性或成本效益。随着企业数据运营规模的扩大,维护这些管道健康状况的可视性变得越来越复杂。因此,持续监控数据在管道中的流动情况,可以洞察每个阶段的异常、故障、性能下降、成本超支和准确性问题。 图 2 显示了数据可观察性工作流的关键组件,与不使用数据可观察性产品的情况相比,它有助于更快地识别和解决问题。 图 2. 数据可观测性工作流程 数据可观察性工作流程的各个组成部分包括: (1)监视 持续监控数据和元数据,能够在问题发生时立即发现模式和异常。组织应根据战略需求,确定关键数据元素和相关数据源的优先级,以保持有效的关注并减少不必要的警报。他们应监控数据漂移、数据量、质量、服务等级协议 (SLA) 和资源使用情况等关键指标,以确保全面监管。 (2)分析 数据和元数据分析有助于识别隐藏的模式、故障和异常,从而能够及时甚至主动地采取干预措施,防止下游影响。有效的可观测性工具能够动态检测偏差,优化资源使用,并持续重新训练模型,以保持系统的效率和准确性。 (3)警报 当大量细粒度警报生成时,响应人员会逐渐失去注意力。这种情况被称为“警报疲劳”。因此,数据可观测性工具必须能够智能地管理警报,并升级最关键的警报。 数据可观测性工具能够主动向团队发出异常警报,并通过根据正常范围智能调整阈值,以及对通知进行分类或自定义以减少不必要的通知,从而管理警报疲劳。这种方法有助于确保关键警报得到处理,从而提高管道的正常运行时间和问题解决速度。 (4)事件管理 事件管理支持根本原因分析,通过从源头而非下游解决问题来避免技术债务。此流程支持跨业务部门协作启动补救措施,从而提高整体系统可靠性。 异常修复通常需要手动操作,因为关键任务源系统可能有其自身严格的数据更新操作流程。通常,当数据质量或可靠性阈值被突破时,数据管理员团队会收到警报,然后根据通知的优先级采取必要的措施。 (5)反馈 数据可观测性中的反馈循环确保系统持续演进并满足 SLA。运营反馈(例如延迟或数据缺失)可推动即时改进,而业务反馈则通过增强数据质量检查和部署透明度来展示价值,从而促进采用。 人工智能正在进一步提升数据质量和可观测性。大语言模型 (LLM) 擅长理解语义,并使用欧氏距离寻找相似性。此外,如果副驾驶都能为我们编写功能齐全的代码,那么规则又何尝不可呢?我们的想法是利用人工智能推断隐藏的关系和上下文模式,从而自动检测、编写规则并应用它们。 数据可观测性功能可以精确定位源系统变更对下游系统的影响。此过程称为影响分析,依赖于对数据管道沿袭的理解。这是该框架的最后一步,我们将在下文中介绍。 7.血缘和影响分析 了解数据沿袭有助于组织追踪数据从源头到最终目的地的路径,提供对数据使用方式、准确性级别的洞察,并更容易识别和解决错误或不一致等问题。 血缘追踪并记录数据在组织内各个系统和流程中流动时的起源、移动和转换。它就像一张地图,显示数据的来源、处理或修改方式,以及最终的归宿。 其用例包括法规遵从性、数据质量管理或运营效率。因此,各种角色都会使用谱系输出。例如,非技术利益相关者了解数据流如何与业务运营、决策和报告要求保持一致。数据工程师收集技术栈内部流程的洞察,例如数据如何从原始输入转换为处理后的输出。数据科学家使用数据集和模型的谱系来管理可重复性、合规性和模型完整性。 将显示缩放图像 图 3:血统示例 在这个具有代表性的沿袭示例中,SQL Server 中的原始 CRM 数据经过提炼,并在云数据湖的消费区中可用。一个提供客户销售和客户流失洞察的 Tableau 工作簿正在消费此示例中的数据。数据质量得分 (89.8%) 也可在“客户产品销售”表中看到,并在 Tableau 项目中的消费区 (94.7) 中看到。 沿袭应该适用于任何物理层,例如模式和表,直至最低粒度级别(例如列),以便进行更精确的影响分析和调试。此外,沿袭还应包含资产之间的转换逻辑。这需要从 ETL/ELT、SQL 和 BI 工具中提取转换元数据。如果数据元素或转换发生变化,沿袭图应该能够清晰地理解其对上游和下游系统的影响。 为了帮助提高数据可靠性,可以将数据质量规则、维度、指标和分数叠加到谱系中,从而使业务用户能够识别相关质量控制的实施位置。 AI 可以使用相似的数据集自动推断和预测数据沿袭。这使组织能够快速识别数据来源,了解其旅程,并评估任何更改或错误(即使对于新数据集)的影响。通过简化这些复杂的流程,AI 有助于维护数据完整性,支持合规性工作,并通过提供对数据依赖关系和潜在风险的清晰洞察来增强决策能力。 目前,一个名为 Open Lineage 的新开放标准正处于测试阶段。一旦该标准正式发布,并被数据治理、ETL 和 BI 产品广泛接受,元数据的双向共享将变得更加便捷。 二 治理和政策管理 到目前为止,本文的重点一直集中在元数据的发现、分析、分类、存储和共享,以及创建衍生数据产品。但组织需要确保数据使用者遵守约定的使用和治理政策。治理和政策管理功能支持并将框架的所有其他部分紧密联系在一起。这些政策涉及定义、规则、指标、角色、职责、工作流程和流程: 数据政策:涉及分类、质量、使用/隐私、安全等 商业术语政策:词汇表、分类、指标等。 利益相关者管理政策:谁做什么,谁需要被通知等 流程政策:问题管理的流程是什么,政策、规则、指标的创建和批准的流程是什么 数据访问策略:确保数据消费者只能访问他们被授权查看的数据,以保护隐私、管理数据泄露风险并满足合规性准则。 组织出于各种原因执行策略,例如被遗忘权(技术上称为擦除权)、数据保留、访问控制和使用。数据治理平台充当跨所有底层技术平台管理安全策略的单一管理平台,从而确保一致性。 数据访问策略首先检测所有个人敏感数据在管道中的位置,然后根据安全、隐私、法律和合规性要求对其进行分类。这种可见性对于管理跨不同系统、应用程序和存储位置的数据流的数据隐私风险至关重要。它还可以检测是否存在冗余数据副本,以便引入流程,通过限制不必要的数据扩散来减少攻击面。数据最小化的概念已被许多合规法规(例如欧盟《通用数据保护条例》(GDPR))所强制执行。其他具有具体指导方针的常见法规包括 PCI DSS 4.0、加州消费者隐私法案 (CCPA) 和健康保险流通与责任法案 (HIPAA) 等。对这些法规的讨论超出了本文档的范围。 接下来是策略管理阶段,首先定义并执行访问和使用策略。组织应根据数据的敏感性和关键性确定保护措施的优先级,确保针对已确定的用例,优先保护风险最高的数据。 理想情况下,策略可以使用下拉选项以自然语言编写,因为管理员并不总是擅长使用 SQL 或 Python 等语言编写复杂的逻辑。数据可观测性工具将策略应用于在分类阶段创建并由相应所有者验证的相关标签。例如,如果社保号码被标记为敏感信息,则策略可能会规定,对于大多数数据消费者,除最后四位数字外,该数据应进行加密、标记化或编辑。 数据目录充当定义、管理和执行数据治理策略的中央存储库,而底层系统则负责处理这些策略的执行。这些系统可能位于本地,也可能跨不同的云提供商。访问策略的执行采用了基于角色的访问控制 (RBAC)、基于属性的访问控制 (ABAC)、屏蔽、标记化、匿名化、假名化以及其他各种较新的方法,例如差异噪声。这些方法用于遵守各种安全和合规性法规,尤其适用于个人身份信息 (PPI)、支付卡信息 (PCI) 和受保护的健康信息 (PHI) 等敏感数据。 在数据质量和可靠性框架的这一部分,重点主要放在保护数据资产上,但安全领域要广泛得多。它包括多因素身份验证 (MFA)、防火墙、入侵检测和防御系统 (IDPS)、防病毒软件、端点检测和响应 (EDR)、数据丢失防护 (DLP) 以及安全信息和事件管理 (SIEM) 等。这些用于监视和控制用户、网络流量和设备。 三 小结 那么,为什么良好治理(包括质量、可靠性、访问控制、血统、可观察性、语义层等)的需求比以往任何时候都更加重要? 因为比以往任何时候都有更多的人访问更多数据,用于更多业务用例。如果没有可信可靠的数据用于人工智能和分析,结果将会很糟糕,时间和金钱将会浪费,企业领导层也会对人工智能和分析失去热情和信心。结构化、全面的数据管理方法将使您的组织能够提供人工智能和分析成功所需的高质量、可靠的数据。 一些规范的方法可以加速人工智能和分析的开发和部署,并提高解决方案的准确性和性能。 提高数据质量透明度:通过提供对人工智能开发和运营数据质量不同维度(例如准确性、完整性和一致性)的可见性,数据质量透明度可降低人工智能应用中出现错误、偏差和不可靠输出的风险。 实现检索增强生成:通过访问可信可靠的数据,确保生成式人工智能模型输出的准确性。这种方法可以消除幻觉,并实现对生成式人工智能输出的事实核查和验证。 建立对AI输出的信任:通过提供对数据管道、数据处理方式以及AI系统实时行为的可视性,让客户、员工和监管机构确信AI输出在规定的操作范围内,并符合预期标准。 要想让您的组织走在运用人工智能和分析技术改善业务成果的前沿,就需要立即采取行动,利用可信可靠的数据为人工智能和分析引擎提供动力。使用高质量的数据来训练和增强您的人工智能模型,能够带来高质量的模型输出和更佳的业务成果。 来源(公众号):数据驱动智能
2025-08-05 10:40 205
文 | 中国科学院大学经济与管理学院教授 孙毅 近期,《全国数据资源调查报告(2024年)》(以下简称《报告》)正式发布。《报告》在2023年度数据规模、开发利用和应用情况等指标基础上,新增人工智能(AI)、大模型等热点领域调查指标,并对数据资源地区、行业分布情况做了分析测算。《报告》数据显示,2024年我国数据资源规模优势持续扩大,数据资源开发利用活跃度稳步提升,各类主体加快人工智能布局投入,数据要素市场化、价值化进程提速。 2024年3月,《政府工作报告》首次提出开展“人工智能+”行动。《“数据要素×”三年行动计划(2024—2026年)》、《可信数据空间发展行动计划(2024—2028年)》、《关于促进数据产业高质量发展的指导意见》等涵盖场景应用、产业发展的一系列政策陆续颁布,加快公共数据资源开发利用“1+3”政策体系初步形成。在一揽子促进数据资源开发利用和数据要素市场高质量发展的政策引领下,《报告》调查结果呈现出以下几个突出特点: 一是数据资源开发利用水平有效提升,结构化数据增幅成为亮点。《报告》显示,约66%的行业龙头企业和30%的数据技术企业购买过数据;高质量数据集数量同比增长27.4%;结构化数据同比增长36%,占存储总量比重为18.70%,大幅超过非结构化数据存储增速。这三组数据对照来看,2024年数据资源开发利用程度明显提高,数据开发利用、高质量数据集建设等工作成效显著。 二是“人工智能+”行动有序推进,数算一体化发展特征明显。人工智能与数据资源开发利用互相促进,“人工智能+”行动有效推动了人工智能和数据资源开发利用的双向反馈,数算一体化协同的格局逐步建立。《报告》显示,智能家居、智能网联汽车、无人机等“人工智能+”行动的重点领域智能设备数据增速位居前列;全国智能算力规模达90 EFLOPS,在算力总规模中占比提升至32%,为海量数据计算提供智能底座;开发或应用人工智能的企业数量同比增长36%,有力支撑人工智能训练和应用;利用大模型的数据技术企业同比增长57.21%,数据应用企业同比增长37.14%。 三是公共数据授权运营成效显著,民生保障领域数据应用提速。一方面,公共数据授权运营探索步伐加快。国家公共数据资源开发利用“1+3”政策文件发布后,超六成省(自治区、直辖市)、计划单列市启动授权运营工作,公共数据授权运营逐步规范化、有序化。其中,市级政府部门公共数据授权运营数据量为省级政府部门的2.53倍,公共数据资源供给不断扩大。另一方面,公共数据服务场景日益丰富。公共数据服务产品数量同比增长超过40%,交通、医疗等涉及公共服务与民生保障的应用领域发展迅速。 四是实数融合步伐加快,制造业数据生产量位居首位。《报告》显示,随着我国数字化、网络化、智能化进程加速,制造、金融、交通物流行业数据生产总量领先其他行业,金融、采矿、交通物流行业企业平均数据生产量位居前三。交通物流、电力行业数据资源开发利用活跃度远高于全国平均水平,分别为78.24%、75.83%。上述行业中,除金融行业由于前期数据资源开发利用水平较高、数字化投入较高,因此排名靠前之外,制造、交通物流、采矿、电力等均属于实体经济,以数据协同实体经济与数字经济深度融合,推动高端化、智能化、绿色化发展趋势显著。 总体而言,《报告》充分体现了2024年我国数字经济发展和数据要素市场化、价值化工作进展和工作成效,能够有效摸清数据资源底数,厘清数据产业发展的现状、问题和趋势,加快数据资源开发利用,释放数据要素价值,为做大做强数字经济、建设数字中国奠定坚实基础。 来源(公众号):北京数据
2025-07-31 23:22 178
文 | 复旦大学上海数学中心 李骏 王天栋 《全国数据资源调查报告(2024年)》显示,我国数据资源规模优势持续扩大,数据资源开发利用活跃度稳步提升,各类主体加快人工智能布局投入,数据要素市场化、价值化进程进一步提速。在数字经济快速发展和数据要素价值日益凸显的背景下,数据要素的生产、存储、计算、流通和应用等各个环节对经济社会发展的乘数效应进一步释放。海量数据资源与人工智能等新一代信息技术深度融合,应用于丰富的现实场景,能够显著地改善传统要素的配置效率,并激发市场活力与社会创新、增强经济发展的韧性与可持续性,为经济增长提供新动能、为国家竞争创造新优势。 01 数据要素多环节协同,驱动经济效率提升 《全国数据资源调查报告(2024年)》显示,2024年全国数据生产量达41.06泽字节(ZB),同比增长25%;数据存储总量为2.09泽字节(ZB),同比增长20.81%,存储空间利用率61%。数据生产规模的跃升与存储总量的稳步增长,直观展现出数据要素两大基础环节的蓬勃发展态势。数据要素作为数字经济关键生产要素,其价值释放依赖生产、存储、流通三大环节的动态耦合,各环节不仅独立赋能地区经济,更通过协同效应重塑经济增长动力与传导路径。 复旦大学上海数学中心李骏院士团队基于省级面板数据构建的统计模型量化了省际数据流通对经济增长的贡献率。针对2023-2024年度地区GDP变化特征,研究通过多元回归与结构方程模型等方法实现实证分析重要突破:一方面,运用回归模型量化省际数据流通对经济增长的贡献率,揭示数据要素流动对区域经济的拉动作用;另一方面,通过构建结构方程模型,深入剖析数据要素各环节与地区GDP之间的直接效应、间接效应及其传导路径,全面阐释数据生产、存储、流通等环节间的协同作用机制与复杂交互关系(如图1)。 研究表明,数据生产、存储及交互量均对地区GDP增长有显著正向驱动作用,其中数据交互(流通)环节的促进作用最为突出。结构方程模型显示,数据交互量是数字经济的核心枢纽,既承接数据生产与存储的成果,又推动区域经济发展。 (一)数据生产环节 数据生产是要素价值链的起点,其核心在于将原始信息转化为可用的数据资产。数据资源是数字经济时代的“新石油”。2024年全国数据生产总量的大幅增长,催生数据采集、生成与加工等新兴经济活动,拉动GDP增长;通过两大路径间接赋能经济,一方面生产环节积累的大规模、多样化数据可被上下游产业复用,促进算法优化与模型迭代,数据生产环节通过与其他要素协同,还可以形成复用增效与融合创新的乘数效应,加速新技术、新模式、新业态的产生,并溢出至制造业、农业、服务业等领域为区域经济注入持续创新动能。另一方面,企业通过生产数据实时分析优化运营流程,将传统经验决策升级为数据驱动决策,也可以降低试错成本与资源错配,实现决策和价值创造的优化。 (二)数据存储环节 根据《全国数据资源调查报告(2024年)》,全国数据存储总量呈增长趋势,印证了数据存储环节日益提升的经济影响力。数据存储作为数字经济的重要基石,其基础设施建设与运营深度嵌入传统经济指标。从土地租赁、设备采购到能源消耗,大规模数据中心、云平台的建设运营,不仅直接拉动上下游设备制造、能源、建筑等产业投资,形成显著的固定资产投资效应,更将分散的数据资源转化为可管理的数据资产,催生出存储服务、云计算等增值业务。同时,集中存储与云端托管降低了数据冗余与管理成本,使中小微企业能够以低成本获取存储服务,从而释放更多资金用于研发与市场开拓。而通过统一的存储标准与安全体系建设,也可以提高全社会数据资产的信任度与可用性,进而提升跨行业、跨区域的数据共享意愿,促进数据要素的广泛流动。 (三)数据流通环节 在流通环节,数据作为可交易商品,通过数据交易平台或市场完成定价与流转,直接产生交易规模与服务费收入,纳入第三产业统计范围,拉动服务业增值。数据流通还可以将数据产品推向更多应用场景,形成市场规模效应,进一步带动数据分析、咨询、应用开发等新的服务需求,增加地区服务业产出。随着流通规模扩大,参与主体增多,数据流通效率得到提升,不同数据集间的组合创新得到激发,可以形成正向循环,间接放大数据对产业结构升级的推动作用。 (四)各环节的协同作用与交互关系 数据的生产、存储及流通均对地区经济增长有显著的正向驱动作用,而各个环节的协同与交互将对经济增长产生倍增效应。数据的交互和流通环节是数字经济的核心枢纽,既承接数据生产与存储的成果,又推动区域经济发展。数据交互量的提升可优化要素配置、提高生产效率,进而增加存储需求,推动存储技术创新。同时,各环节之间形成了“流通促生产-生产带存储-存储助流通”的正向循环,数据流通的市场定价反馈指导了生产方向,而生产环节的实时数据采集可以倒逼存储技术升级,存储技术的进步和成本的下降又可以进一步促进交易规模扩大。数据要素三环节的协同作用可以产生指数级的收益,并共同提升经济的抗冲击性,通过持续释放数据要素活力驱动经济效率的提升。随着全国数据资源规模的持续扩容,三大环节间的协同效应将愈发显著,成为推动经济高质量发展的关键引擎。 2 数据要素价值凸显,拉动区域经济增长 在数字化浪潮中,省际数据流通已成为区域经济增长的新动力。作为新型生产要素,数据构建起了区域经济发展的新范式,它通过打破地理边界和重构资源配置规则突破了传统增长模式的物理约束与结构桎梏,实现更加高效的流动同时驱动着产业的协同与创新的扩散,推动了区域经济的稳步增长与经济结构的优化。 (一)突破地理疆界,重构经济空间形态 数据要素的跨域流动改变了“区位决定论”的旧有逻辑。传统经济活动中,地理距离构成了要素流动的天然壁垒,但省际的数据流通可以使不同省域间的经济主体能够在同一“数字大市场”中互动,降低了跨省交易成本与信息搜寻成本,有效地推动了数据要素在更大范围内自由流动,增强了全国一体化市场的深度和广度。同时,信息的不对称往往会加剧区域间的发展不平衡,而省际数据流通通过虚拟空间的零边际成本传输使偏远地区无需物理迁移即可接入发达区域的技术网络与市场体系。这不仅可以将发达地区的产业经验、技术标准及时传递至欠发达地区,促进产业要素逆向扩散和全国的数字化转型,还可以以数据连接消解地理区位的劣势,使每个区域形成基于数据禀赋的特色竞争优势,推动区域经济从非均衡集聚转向分布式协同。利用数据要素的流通,构建跨地理空间的价值交换通道,有助于改变区域分工的地理约束,推动经济空间从“梯度差异”向“网络节点”转型。 (二)消融产业边界,加速区域创新扩散 数据要素的通用性特征,使其成为贯通不同产业的“超级连接器”。在数据流动支持下,金融、物流、能源、制造等传统行业能够与数字产业深度融合,建立“数据+实体”融合发展的新模式,形成以数据为纽带的产业共同体,提高各要素的边际产出率,推动产业链整体价值提升。产业链从垂直整合转向网状互联,还可以创造“1+1>2”的复合价值,推动单一产业数据在跨域流通中发挥出指数级增值效应,使区域经济竞争力日益取决于产业数据的整合能力而非单一产业规模。此外,省际范围的数据集聚与共享能够产生强大的网络效应,数据量越大、数据类型越丰富,对于算法优化和模型训练等的支持就越充分,反过来又可以吸引更多主体参与数据交换,形成良性循环,最终带来产业创新能力倍增。当省域形成数据驱动的创新集群,其技术与经验也能够经由省际数据通道快速外溢至邻近及周边地区,加速产业升级与新兴业态扩散,从而提升整个区域的技术溢出效应与增长潜力。 (三)增强经济韧性,构建抗风险体系 数据要素的跨域配置为区域提供了多元化的需求与供应来源,赋予了区域经济更强的系统弹性。在供给冲击场景中,省际数据流通使产业链关键节点状态实时可视,企业可快速切换备用供应商或调整生产计划;在需求波动情境下,消费数据的跨区域分析助力精准预测市场趋势,避免产能过剩与资源错配。此外,当某一区域遭遇外部冲击时,其经济功能可通过数据迁移由其他节点承接,形成“去中心化”的风险缓冲机制。这种抗风险能力的本质提升,增强了区域经济发展的韧性与可持续性。 03 数据要素驱动经济增长的未来图景 数据要素在推动经济增长中的核心地位日益凸显,但数据要素的价值释放仍面临着如技术层面瓶颈制约要素市场化进程、市场生态呈现区域割裂与规则互斥等一些约束,需要从制度、技术与市场三方面采取综合举措,以系统性思维破解发展桎梏,进一步发挥数据要素效能,助力实现更高质量、更可持续的增长。 展望未来,数据要素将在制度创新与技术突破的双轮驱动下,逐步完成从“资源”到“资产”再到“资本”的价值跃迁,成为可核算、可交易的新型生产要素,推动增长逻辑从“要素堆积”转向“智能协同”,空间形态从“地理约束”升级为“数实融合”,促进算法与算力驱动的全要素生产率质变,形成跨域联动的“数字经济体”。在数据要素的驱动下,经济发展也将在规模持续扩张的同时实现复杂性提升、韧性增强与福祉普惠的均衡发展,为人类社会的可持续发展开辟新路径。 来源(公众号):北京数据
2025-07-29 22:20 207
AI Agents+大模型+RAG的架构,不只是技术的进步,也是思维方式的革命。它让数据真正成为每个人的武器,而不是少数人的特权。
2025-07-24 19:22 199
文 | 中国科学院科技战略咨询研究院大数据战略研究中心执行主任、研究员 冯海红 近年来,国家数据局等部门探索制定数据资源统计调查制度,健全数据资源协同调查机制,发布数据资源调查年度报告,初步形成动态监测我国数据资源的调查方法和工作机制。2025年4月29日,《全国数据资源调查报告(2024年)》(以下简称《报告》)在第八届数字中国建设峰会正式发布,对全国数据资源发展态势进行系统性调查分析、综合性评估研判,为纵深推进数据要素市场化价值化提供坚实的基础支撑。 聚焦数据要素价值释放,构建数据资源基础调查制度 准确掌握我国丰富的数据资源情况,是深化数据要素市场化配置改革、构建以数据为关键要素的数字经济的基础性工作,需要兼顾数据资源特征和统计调查规范,探索健全跟踪监测数据资源发展态势的专业性统计调查制度。 (一)紧扣国家数据发展战略导向与重点举措 当前,我国数据领域正以数据要素市场化配置改革为主线,围绕数据产权、收益分配等夯实制度体系,推动数据资源开发利用和数据产业发展,构建统一开放、繁荣活跃的数据市场,着力释放数据要素在各行业各领域的乘数效应,以深化数据领域“改革攻坚”加快数据要素市场化价值化进程。《报告》系统调查全国数据生产、存储、计算、流通和应用等关键环节的基本态势,并结合人工智能等热点领域进行测算评估,旨在摸清全国数据资源底数,及时全面反映我国数据资源全貌,将为研判我国数据领域发展趋势、优化政策措施、强化行业管理提供基础性的调研依据。 (二)遵循国家统计调查政策法规与现行模式 2025年初,国家数据局制定《全国数据资源统计调查制度》(以下简称《制度》),并由国家统计局批准实施,全国数据资源统计调查工作正式迈入制度化规范化新阶段。《制度》基本形成目标清晰、报表合理、实施有力、披露规范、聚焦新经济新领域的部门统计调查项目,既构建覆盖公共数据、科学数据、企业数据3个领域和12张报表的统计调查报表体系,也对调查目的、调查对象和统计范围、调查频率和时间、调查方法、组织实施、质量控制、信息共享等内容进行说明或明确。另外,《制度》根据国家统计基本单位名录库信息,开展名录库信息互惠共享,补充行业管理所需单位名录库信息,探索构建数据领域统计调查基本单位名录库。从调查数据回收情况来看,此次统计调查的有效样本覆盖了除国际组织外的所有国民经济行业门类,初步形成专业性强、覆盖面广的专项统计调查工作。 (三)探索数据资源统计调查方法与工作机制 从建立实施机制、明确调查对象、开展专业培训、确定测算方法等方面,探索形成系统性的调查方案和运行机制。实施机制方面,《制度》由国家数据局统一组织,调查数据以《报告》形式向社会发布。调查对象方面,覆盖合法拥有或控制数据的各类单位,主要包括省级数据管理部门、国家实验室、全国重点实验室、国家科学数据中心、中央企业、重点行业协会商会、数据交易机构、数据服务方和数据应用方企业等。专业培训方面,全国数据资源统计调查工作组针对重点指标、填报流程、平台操作、数据质量控制等内容,分类型分批次组织开展统计调查专题培训工作,有效提升调查对象的理解认识和统计操作。测算方法方面,基于分层抽样统计调查数据,《报告》根据调查企业的不同行业及规模特征,加权推算总体企业的数据生产和存储规模。 展现数据资源总体态势,系统刻画数据资源关键板块 基于统计调查和数据测算,《报告》覆盖数据资源的总量、增速、热点领域、活跃情况、区域分布、行业差异以及算力基础设施等方面内容,立体性、多维度勾勒出全国数据资源的整体情况。 (一)全国数据生产总量加速增长 《报告》从数据生产总量及增长态势、战略性新兴产业数据生产等方面,总结分析了全国数据资源生产情况。《报告》显示,2024年全国数据生产量达41.06泽字节(ZB),同比增长25%,增速提高2.56个百分点,呈现加速增长态势。智能家居、智能网联汽车等智能设备数据生产增速位居前列,在数据总量增长中发挥着强有力的带动作用。战略性新兴产业领域成为数据资源的新增长点,低空经济和机器人数据生产量增速超过30%。同时,《报告》展望认为,无人驾驶、具身智能、低空经济等战略性新兴产业和未来产业的数据资源规模将保持高速增长。 (二)全国数据存储结构持续优化 《报告》从数据存储总量及增长态势、数据存储的结构特征、数据存储空间利用等方面,概括总结了全国数据资源存储情况。《报告》显示,2024年全国数据存储总量、新增数据存储总量分别达到2.09泽字节(ZB)、1.15泽字节(ZB),同比增幅均超过20%。结构化数据存储规模同比增长36%,该增幅远超非结构化数据存储规模增速,表明全国数据资源整体质量及数据治理成效显著提升。另外,数据存储空间利用率达到61%,同比提升2个百分点,反映出全国数据存储与基础设施建设呈现较好的协调联动发展态势。 (三)数据资源区域行业分布不均 《报告》从区域和行业等方面揭示了我国数据资源分布不均衡现状,并研究分析了产生差异性的相关影响因素。《报告》发现,区域数据资源水平和经济发展高度相关,经济大省数据资源集聚效应明显,广东、江苏、山东、浙江、河南和四川6个省份数据生产量占全国比重达57.45%。《报告》认为,行业数据资源开发利用水平与数字化投入密切相关,制造、金融、交通物流行业数据生产总量领先其他行业,金融、采矿、交通物流行业企业平均数据生产量位居前三。 (四)算力基础设施建设提速升级 《报告》从算力规模、区域分布、算力结构、市场化算力供给等方面,总结了算力基础设施建设的基本态势。《报告》指出,国家枢纽节点算力资源持续集聚,2024年全国算力总规模达280EFLOPS(每秒百亿亿次浮点运算),八大国家枢纽节点算力总规模达到175EFLOPS。同时,智能算力布局加速,智能算力规模达90EFLOPS,在算力总规模中占比提升至32%,为海量数据计算提供智能底座。另外,市场对智能算力的需求呈爆发式增长,企业布局智能算力提速。中央企业和数据技术企业的算力规模分别增长近3倍、近1倍,智能算力占比分别达到40.22%、43.63%。 关注数据资源新兴热点,及时反映数据领域前沿动态 结合经济社会发展最新形势和数据要素市场化配置改革重点举措,围绕数据要素价值创造路径及模式,强化数据资源重点工作的统计调查和监测分析,为评估政策实施进展和数据赋能效应提供调研支撑。 (一)公共数据资源开发利用加快推进 《报告》结合公共数据资源相关的政策部署和系列工作,从数据共享、数据开放、授权运营、应用场景等方面形成公共数据资源开发利用的主要进展。数据共享方面,建成全国一体化政务数据共享枢纽,推动国务院部门垂管系统向基层“回流”数据8.2亿条,为“高效办成一件事”等提供有力的数据支撑。数据开放方面,2024年地市级以上公共数据开放平台数量增长7.5%,开放的数据量增长7.1%,公共数据集开放总量稳步增长。授权运营方面,超六成省(自治区、直辖市)、计划单列市启动授权运营工作,地市级公共数据授权运营数据量为省级的2.53倍,公共数据授权运营逐步规范化、有序化。应用场景方面,公共数据服务产品数量同比增长超过40%,涵盖交通、环保、医疗等经济社会各领域,涉及低空经济、多式联运、保险理赔、征信服务等场景,公共数据服务场景日益丰富。 (二)企业数据资源应用活力显著提升 《报告》结合数据要素市场化价值化的基本导向,从数据结构、数据利用、数据赋能、数据流通、直接收益等方面形成企业数据资源应用的基本态势。数据结构方面,活跃数据总量占企业存储数据总量为62.04%,活跃数据总量同比提升22.73%。数据利用方面,企业用数需求旺盛,2024年约66%的行业龙头企业和30%的数据技术企业购买过数据,企业数据与公共数据融合应用场景加速增长。数据赋能方面,企业数据在技术研发、生产协同、产品营销、售后服务等关键环节中发挥重要作用,同时支撑产业链供应链韧性不断提升。数据流通方面,平台企业成为数据流通的关键枢纽,促进企业数据与气象、交通、地理等公共数据加速融合,广泛应用于客户服务、精准营销、研发创新等场景。典型行业方面,交通物流、电力行业数据资源开发利用活跃度远高于全国平均水平,分别为78.24%、75.83%。直接收益方面,2024年利用数据获得直接收益的企业实现小幅提升。同时,《报告》展望认为,企业数据价值挖掘重心从服务自身数字化转型向数据要素化、市场化拓展,数据跨主体流通、跨行业应用、跨场景赋能的乘数效应加速释放。 (三)人工智能发展与数据资源利用深度融合 《报告》结合人工智能大模型发展前沿,调研分析了人工智能与数据资源开发利用相互促进的基本态势。一是数据领域企业积极开展人工智能训练和应用,开发或应用人工智能的企业数量同比增长36%,利用大模型的数据技术企业和数据应用企业数量分别增长57.21%、37.14%。二是智能应用带动数据资源规模加速增长,企业高质量数据集数量增速达27.4%,用于开发、训练和推理的数据量同比增长40.95%,智能家居、智能网联汽车等智能设备数据增速分别达到51.43%、29.28%。《报告》认为,大模型有望帮助企业降低非结构化数据加工成本,推动数据资源开发利用提档加速。 来源(公众号):北京数据
2025-07-22 18:19 248
在数字化转型的时代浪潮中,数据已然跃升为关键生产要素,住房城乡建设部发布的《“数字住建”建设整体布局规划》,强调以“四好”建设为主线,以数据资源为核心,全面推动住房城乡建设领域数字化、智能化转型,提升行业治理能力和服务水平,为城市高质量发展注入新动能。 一、政策内涵:数据驱动住建事业全方位变革 政策层面,“数字住建”的核心目标是通过构建统一、高效的数字基础设施和数据资源体系,打破传统住建领域的信息壁垒,实现数据的全生命周期管理与深度应用。打造部、省、市三级联动的“数字住建”工作平台,推动城市运行管理“一网统管”,这一部署从顶层设计上确立了数据要素在住建领域的核心地位。 从政策导向来看,“数字住建”绝非简单的技术叠加,而是要以数据赋能为关键路径,推动住建领域治理模式从“经验驱动”向“数据驱动”转变,从“分散管理”向“协同治理”升级。通过建立健全数据标准规范、安全保障体系,确保数据的真实性、准确性和可用性,为住建领域的科学决策、精准服务和高效监管提供坚实支撑。 二、重点方向:以数字底座为基石,推动住建领域数智升级 (一)夯实城市数字底座,筑牢数智化根基 数据要素的乘数效应需要技术底座的支撑,城市数字底座整合基础地理信息、建筑物、市政设施等全域空间数据,以及人口、经济、社会等非空间数据,构建统一的时空大数据平台,为数字住房、数字工程等应用提供“数据富矿”。同时,依托人工智能、大数据、区块链技术对底座数据进行深度挖掘,构建城市运行态势感知模型,实时监测城市住建领域的关键指标,为城市治理提供“千里眼”“顺风耳”,提升城市对各类风险的预判和处置能力。 (二)发展数字住房,重塑居住服务新范式 数字住房建设以数据要素为核心,推动住房全生命周期的数字化管理。在住房开发阶段,利用大数据分析市场需求、人口结构变化等因素,精准定位住房供给类型与规模。在建设阶段,通过BIM技术与物联网设备的结合,实现施工过程的数字化管控,保障住房建设品质。在住房交易与管理阶段,搭建数字化住房服务平台,整合房源信息、交易数据、产权登记等数据,实现住房交易全程线上化、透明化。同时,基于住户行为数据提供个性化服务,打造“人、房、服务”深度融合的数字生活场景,提升居民居住体验。 (三)推进数字工程,提升工程建设管理效能 数字工程建设聚焦工程全生命周期的数字化转型,借助大数据、人工智能技术优化工程管理流程。在项目策划阶段,通过分析历史工程数据、政策法规数据,实现项目可行性研究的智能化评估。在设计阶段,利用AI辅助设计工具与BIM技术的协同,提高设计效率和质量,减少设计变更。在施工阶段,部署物联网感知设备采集施工现场的人员、机械、物料等数据,实现对施工安全、进度、质量的实时监管。在运维阶段,建立工程运维数字档案,通过数据分析预测设施故障,实现主动运维、精准运维,延长工程使用寿命。 (四)打造数字城市,提升城市协同管理水平 发挥数据要素的乘数效应,要打破城市“数据孤岛”的壁垒,通过构建统一的数据共享交换平台,将分散在公安、交通、城管等部门的碎片化信息串联成完整的数据链条,这种跨领域的数据融合,让城市管理从“被动响应”转向“主动预判”,协同效率提升的同时,也降低了行政成本。同时,发展数智融合的公共服务,推动政务服务、社区服务等线上线下一体化,通过AI客服、智能审批等提升服务效率,让群众享受更便捷、高效的服务。 (五)赋能数字村镇,推动城乡协同发展 数字村镇建设聚焦乡村住房、基础设施、公共服务等领域的数字化改造。通过采集村镇地理信息、房屋数据、产业数据等,构建村镇数字孪生模型,为村镇规划、建设和管理提供数据支撑。在乡村住房建设方面,推广适合乡村的数字化设计标准,利用大数据指导农房建设,提升农房安全性和舒适性。同时,依托数字技术推动村镇公共服务升级,建立农村产权交易数字平台、乡村治理数字化系统,促进城乡要素双向流动。 三、价值与展望:开启住建数字化新征程 发挥数据要素的乘数效应在城市治理领域赛道的深度应用,正在激活住建领域的发展新动能。从短期来看,通过数据赋能提升了住建领域的管理效率和服务质量,降低了行政成本和社会运行成本。从长期来看,将推动住建领域形成数据驱动的创新生态,为城市可持续发展、城乡协调发展提供有力支撑。 展望未来,随着5G、人工智能、区块链等技术的不断成熟,数据要素在住建领域的应用将更加深入。数字住房将实现“千人千面”的个性化服务,数字工程将迈向全流程智能化管理,数字城市将达成“一屏观全域、一网管全城”的治理愿景。这一过程中,需要持续完善数据安全保障体系、健全数据共享机制,让数据要素在安全可控的前提下充分释放乘数价值,为住建领域高质量发展注入源源不断的动力。 作者:周小平 北京建筑大学智能科学与技术学院教授 来源(公众号):国家数据局
2025-07-18 16:40 138
热门文章