人工智能社区痴迷于越来越大的模型、十亿令牌上下文窗口和GPU 的微调运行让人感到厌倦,而人工智能堆栈中最被忽视的力量倍增器却静静地位于这一切之下的一层:数据。 让我们明确一点:虽然扩展模型规模仍然很重要,但对于大多数现实世界的人工智能产品而言,性能提升越来越取决于数据质量和新鲜度,而不仅仅是参数数量。将模型规模翻倍以榨取边际收益不仅成本高昂,而且在环境方面也难以为继,因为惊人的电力和水成本根本无法扩展。 该瓶颈已从堆栈中移出。 构建 AI 原生产品的创始人和首席技术官开始意识到,他们的代理不会错过新兴市场信号,也不会给出空洞的见解,因为“模型”本身 “不够智能”——它之所以失败,是因为它盲目地处理过时、不相关或不完整的上下文。正因如此,Salesforce 于 2025 年 5 月斥资 80 亿美元收购了 Informatica,以增强其 AI 驱动的 Agentforce 平台。现在,他们可以访问高质量的实时数据,从而获得更准确、更可扩展的成果。 性能的成败取决于您能检索到什么,而不仅仅是您如何提示。除非您使用的是 H100 集群或运行着 API 预算无限的前沿模型,否则您超越巨头的最佳机会是在您负担得起的范围内为模型提供更智能的数据:领域特定、结构化、去重和新鲜的数据。 但在构建情境之前,它必须先存在。这意味着需要可靠、实时地访问开放网络——不仅仅是一次性的数据抓取或数据集,而是能够反映当前情况的强大管道。 各位,这就是基础设施。如果说计算让 NVIDIA 变得不可或缺,那么我认为下一个重大突破不是更多层,而是更多信号而不是噪声。而这始于将数据采集视为生产基础设施。 “好数据”是什么样的? 如果你正在构建一款 AI 原生产品,那么系统的智能程度将不再取决于你的提示有多巧妙,或者你能在上下文窗口中塞入多少个标记。而是取决于你能多好地为它提供当下重要的上下文。 但“好数据”的定义相当模糊。让我们来澄清一下。它对人工智能的意义如下: 领域特定:AI 辅助优化零售定价需要竞争对手数据、客户评论或区域趋势,而不是无关的噪音。你必须做到精准定位。 持续更新:网络瞬息万变。错过今日 X 趋势的情绪模型,或使用上周价格的供应链模型,都已经过时了。 结构化和去重:重复、不一致和噪声会浪费计算并稀释信号。结构胜过规模。干净胜过庞大。 实时可操作:过时的数据就是死数据。实时数据——价格变动、新闻、库存变化——能够为即时决策提供支持。但前提是收集数据必须合乎道德、可靠且规模化。 这就是 Salesforce 收购 Informatica 的原因——不是为了新模型,而是为了向 Agentforce 提供结构化的实时数据,以改善下游决策。 正因如此,IBM 于 2024 年 7 月斥资 23 亿美元收购了 StreamSets,用于打造 Watsonx。StreamSets 专注于从混合数据源提取数据、监控数据流并处理模式漂移——这使得 IBM 能够跨企业系统为 Watsonx 提供最新、一致的信号。对于需要基于实时状态(而非仅仅基于历史模式)进行推理的 AI 来说,这种基础设施能够带来 10 倍的增效效果。 这也是 Dataweps 转向Bright Data为飞利浦和华硕等电商客户收集实时竞争对手定价和市场趋势的原因。他们的 AI 驱动定价和竞价系统依赖于快速、准确的数据,而 Bright Data 的 API 驱动生态系统(包括代理、存档/数据集、支持 AI 代理的浏览器自动化工具等)使他们能够可靠且大规模地收集这些数据。Bright Data 不仅仅是数据抓取,它还提供了现实世界 AI 系统所需的弹性、容量和合规性。坦率地说,它是一家 AI 基础设施提供商。 关键在于:检索质量如今胜过提示工程。即使是最好的提示也无法修复模型在推理时提取过时或不相关数据的问题。 正是现在,正确的环境。这就是后 Deepseek 时代 AI 生存或消亡的关键所在。 第一步总是最难的 乍一看,数据基础设施听起来像是管道。采集管道、转换、存储?貌似无聊至极。但在 RAG 和代理 AI 时代,这种管道已变得至关重要。为什么?因为你的系统不再只是运行推理——它基于外部、不断变化的多模态实时信息进行推理。这改变了一切。 我是这样认为的:现代人工智能数据栈已经发展成为一个成熟的价值链,从信息的获取和提取,到信息的转换和丰富,到信息的整理和排序,再到存储和提供给合适的组件——无论是模型、代理还是人类。每一层都带来了实时挑战和现实后果。与传统的 ETL 管道不同,它不仅仅是将数据录入数据湖然后留在那里。 大多数团队在第一步就搞砸了:采集。糟糕的数据提取会毁掉上下文。如果你的采集层错过了关键更新,在边缘情况下默默地失败,或者以错误的结构或语言捕获信息,那么你的整个堆栈都会继承这种盲目性。 换句话说:你无法设计你未曾摄取的语境。这里有一篇有趣的论文,《AI 海洋中的塞壬之歌:大型语言模型中的幻觉调查》,作者是 Zhang 等人。该论文展示了在生产级系统中,未解决的摄取问题是“模型幻觉”和其他异常代理行为的最常见根源。 因此,在 RAG 和代理 AI 时代,摄取需要具有战略性,这是不容置疑的: 它必须对人工智能代理友好,也就是说,能够提供结构化的、即时的数据。 它必须处理动态 UI、CAPTCHA、变化的模式和混合提取(API + 抓取)。 多步骤AI代理既需要实时信号,也需要历史记忆——现在发生了什么,之前发生了什么,发生顺序如何,以及原因。因此,该基础设施必须支持定时提取、增量更新和TTL感知路由——所有这些都具有弹性、合规性,并且随时准备应对变化。 它必须具有规模可靠性,并能持续从数百万个来源提供最新信息。 并且必须符合网站条款和法律规范。 这就是为什么脆弱的抓取工具、静态数据集和一次性连接器不再足够好的原因,以及为什么像 Bright Data 这样专注于自动化友好、代理优先数据基础设施的平台正在变得像模型本身一样基础。 我见过像 Gemma 3 这样的开源、开放权重模型在狭窄领域中表现优于 GPT-4,仅仅是因为新鲜的、精选的、基于领域的数据让它们能够用于更好的检索系统。 我们来算一下。假设我们将检索到的上下文片段的总效用定义为: U=i=1ΣkRiFi 在哪里: R i∈[0,1] 是第i个检索到的片段与查询的相关性得分。 𝐹𝑖 [ 0 , 1 ] 是新鲜度得分,以随时间衰减的函数建模(例如指数或线性)。 k是检索到的上下文块的数量,受模型的上下文窗口约束。 即使假设语义搜索完美(即𝑅𝑖 已优化),最大化U也可能意味着丢弃高度相关但过时的数据,转而选择相关性稍低(但最新!)的信号。如果您的提取层跟不上,就会造成可见性损失和效用下降。第二个影响与第一个影响相辅相成:不仅无法获得新鲜内容,而且过时内容的存在还会降低性能。这会导致检索到的上下文质量的复合下降。 这就是为什么数据采集(包括但不限于计划更新、TTL 感知爬取、SERP 提取、提要解析等)不再仅仅是管道。 数据采集基础设施究竟是什么样子 那么,将数据采集视为一流的基础设施究竟意味着什么呢? 这意味着: 构建循环管道,而非负载。数据不应被一次性抓取并存档。它应该按计划进行流式传输、刷新和更新——并内置自动化、版本控制、重试逻辑和可追溯性。一次性转储无法提供持久的智能。 将新鲜度纳入检索逻辑。数据会老化。您的排名和检索系统应该将时间漂移视为首要信号——优先考虑能够反映当前世界状态的上下文。 使用基础设施级来源。从自制脚本中抓取原始 HTML 无法扩展。您需要访问层,这些层应提供 SLA、对验证码的弹性、模式漂移处理、重试、代理编排和合规性支持。 跨模态采集。有价值的信号存在于 PDF、仪表板、视频、表格、屏幕截图和嵌入式组件中。如果您的系统只能从纯 HTML 或 Markdown 中提取数据,那么您就错过了一半的信息。 构建事件原生数据采集架构。Kafka、Redpanda、Materialize 和时间序列数据库——这些并非只适用于后端基础设施团队。在 AI 原生系统中,它们将成为采集和重放时间敏感信号的神经系统。 简而言之,不要再把数据视为静态资源。要把它当成计算资源——需要编排、抽象、扩展和保护。这才是“数据采集即基础设施”的真正含义。 未来在于信息 > 规模 大多数 RAG 讨论都停留在模型层面。但如今正在兴起的 AI 栈,其模型可以互换,而数据基础设施才是长期的护城河。 摩尔定律或许已不复存在,但原始性能仍在稳步提升。但在不久的将来,我并不确信人工智能系统的性能将取决于微调或快速的魔法。我认为,最终的胜利将取决于你的系统掌握的知识以及它们获取知识的速度。最智能的人工智能系统并非拥有最大窗口的系统,而是拥有最佳上下文管理能力的系统——这得益于实时数据、动态内存和智能提取。 因此,作为工程师,我们不应将每一个新的数据源、反馈或实时数据流视为“内容”,而应将其视为能力。因此,每一个新的数据流也未必是噪音,而是信号。 也许你已经构建了这样一个关键的人工智能基础设施——只是你可能还没有这样称呼它。 也许你已经开始考虑将数据(例如 API)馈送到你自己的内部智能层,并且意识到:你不需要最大的模型。你只需要合适的管道。 拥有这种想法的团队,将网络规模的数据采集视为基础设施而不是一项次要任务,将会行动得更快、学到更多、用更少的费用获得成功。 来源(公众号):数据驱动智能
2025-08-07 15:27 742
数据共享和数据应用才是数据真正焕发生机的地方。它不在于存储,也不在于管道,而在于被人、系统或模型实际使用。这才是数据从被动基础设施转变为主动利用的真正转折点。 我们为实现这一目标而建立的机制,包括目录、合约、访问协议和采用工作流程,并非无关紧要。它们是数据激活的基础要素。 无论最终用户是 AI 代理、业务用户还是应用程序,这一层都成为使数据变得易读、相关和可操作的界面。 因此,围绕数据共享的技术、流程和文化必须不断发展。它应成为一座桥梁,而非后端支持,连接控制与创造力、治理与应用、人的情境与机器执行。 本文涵盖以下内容: -通过基于场景的框架来识别反复出现的数据共享挑战。 -针对每种情况,制定先决条件、所需能力、风险因素和有意义的指标。 本文将两个互补的部分联系起来:需求和运营模式的定义,以及实施策略和架构模式的探索。 本文所描述的场景并非旨在进行僵化的分类。现实世界的环境往往更加复杂微妙,混合情况才是常态而非例外。尽管如此,通过清晰简洁的场景分析,本文旨在为您提供一些实用的参考资料,让您在不被复杂概念所困扰的情况下,能够轻松应对各种情况。其目的是让决策变得更加直接,也更加自信。 目的不是强迫读者接受单一的预定义模型,而是帮助读者识别其出发点的主要特征,即使这些特征是不完整的或不完善的。 这种非规范性的方法使你摆脱了僵化的结构,让你能够利用这种意识来指导战略和架构选择。 每个场景都遵循一致的结构,以便快速理解和应用: 1.必要前提条件 在启动该计划之前,必须存在或创造哪些条件? 2.需要发展的关键能力 需要哪些技能、流程或系统能力来支持它? 3.风险因素 如果不加以解决,哪些内在挑战和障碍可能会阻碍其成功? 4.监测指标 如何衡量进度并及早发现失败或偏差的迹象。 这种模块化结构使您可以独立阅读每个场景,进行比较,并批判性地思考哪些要素最适用于您当前的环境。 下表总结了典型的组织“触发因素”,这些现象表明需要启动或优先处理每个具体场景: 场景(Scenario) 典型触发现象(Typical Triggering Phenomena) 提升生产力和缩短上市时间 数据访问摩擦大,新分析项目上线周期长,数据工程工作重复。 应用组合优化 重叠数据集和冗余系统泛滥;数据平台维护成本高。 增强数据信任与质量 用户对数据不一致提出投诉,依赖人工检查,由于质量信号不明确导致复用率低。 扩展数据治理并建立数据分类体系 对数据含义存在频繁误解,定义不一致,跨领域治理存在空白。 基于事实的原型设计 商业举措不确定性高;需要在无正式项目承诺的情况下快速验证。 跨源数据整合 跨部门协作有限,用户主导的数据重复;资产被用户分割复制。 新业务模式 发现新兴的数据货币化机会;内部数据集的外部价值尚未被探索。 合规性 新的或更新的监管要求(如 GDPR、PSD2、DGA、数据法)要求可追溯、目的限定且可审计的数据共享。 情景一:提高生产效率并缩短产品上市时间 在大多数数据项目中,瓶颈不在于技术,而在于查找、评估和访问正确数据过程中的摩擦。执行阶段通常始于不确定性:我们需要的数据在哪里?谁拥有这些数据?数据是最新的吗?数据可以直接使用,还是需要清洗、转换或重新导入? 这些问题很少能事先得到解答。团队往往要花费数天甚至数周的时间来追踪未记录的数据集、逆向工程字段,或者等待他人批准访问权限。更糟糕的是,即使找到了数据集,其可用性也依赖于口述历史、个人知识或无法扩展的内部捷径。因此,每个项目的早期阶段都包含大量的“数据考古”工作:这是一项成本高昂且难以追踪的成本,隐藏在项目延误和重复工作背后。 每个项目数据开发者都曾苦苦寻找正确的数据。这种模式并非偶然:它是数据存在但未被转化为可重用产品并投入运营的必然结果。每个新项目都从零开始,缺乏结构化的方法来公开、评估和提供数据资产。这就造成了一个悖论:组织拥有丰富的数据,却难以访问这些数据。 从系统化角度来看,这种低效会随着时间的推移而加剧。随着项目数量的增长,浪费也随之增加,导致专家团队不堪重负、结果不一致,以及对数据环境缺乏信心。此外,由于缺乏支持可复用知识的基础设施,技能娴熟的专业人员也被推入低价值的工作岗位。 提示,数据预览:预览数据集,仅仅浏览其结构、几行数据和一些基本元数据看似微不足道,但却意义非凡。它能让用户了解足够的背景信息,判断数据是否值得深入研究,而无需启动完整的访问流程或引入额外的团队。 这种快速的审视往往能避免所有人出现分歧、反复沟通以及浪费时间。它并不能取代治理,但通常能澄清模糊之处,使生产者和消费者之间的对话更加具体。 为什么需要数据市场来提高生产力并缩短产品上市时间 市场通过以可发现、结构化和可查询的格式公开组织的数据资产来缓解这种效率低下的问题。 通过元数据、预览功能和过滤机制,搜索阶段得以大幅减少或消除。 在某些情况下,低风险产品的访问甚至可以实现自动化,使团队能够在不阻塞依赖项的情况下推进项目。对于面临快速交付压力的开发团队而言,这种转变可以显著提高生产力并缩短产品上市时间。 必要的前提条件 启动该方案前,您需要具备的最基本基础包括: 与核心数据源集成 制定产品分类法或分类方案 明确数据产品负责人和数据负责人的角色分配 具备的发展能力 针对此场景,必须实现的功能包括: 预览功能:允许用户在不拥有完全访问权限的情况下检查数据结构、元数据和示例内容。 数据提供机制:以最小的延迟实现请求、审批和访问工作流程。 风险因素 因素(Factor) 等级(Level) 备注(Notes) 广度(Breadth) 低(Low) 该举措涉及多个参与方,但不需要完全对齐。 完整性(Completeness) 中(Medium) 一旦前提条件具备,首批收益将迅速显现。 时间框架(Timeframe) 低(Low) 这是一项快速见效的举措;影响可早期衡量。 承诺度(Commitment) 低(Low) 相较于带来的价值,其设置和协调成本较低。 需要监控的指标 以下是用于监控该方案进展情况的关键指标: 访问或集成新数据集所需时间平均减少 通过市场界面处理的配置请求数量 平均请求访问完成时间 场景 2:应用组合合理化 随着时间的推移,许多组织会积累重叠的数据管道、报表解决方案和孤立的访问层:每个都与特定的工具、项目或部门绑定。最初出于务实目的的解决方案最终会变得难以为继:重复的数据集、多重数据版本、冗余的 ETL 作业以及不断攀升的运营成本。 这种方案正是为了解决这一痛点:减少数据浪费,提高数据环境的一致性。问题很少出在技术层面,而是关乎可见性和治理。团队无法重用找不到的数据,常常需要重新构建已有的数据,原因很简单:缺乏共享层使得数据产品难以查找、比较或信任。 合理化不仅是技术问题,也会影响业务用户。投资组合优化并非为了优化而优化,而是为了清晰地展现现有资源,发现重叠部分,核查实际使用情况,并以不影响交付的方式引导整合。其目标是实现清晰的流程,从而减少重复工作和影子系统,同时避免引发其他问题。 为什么需要数据市场来实现应用组合合理化 数据市场能够展现应用和数据格局。通过使已发布的数据产品可见、可搜索且版本化,可以简化跨域重复和碎片化数据的识别。当一个数据集多次出现,且所有者、描述或定义各不相同时,数据市场会突出显示该问题。 它作为一种治理工具,用于评估和监控重叠情况,并鼓励团队自愿融合,通过透明度而不是强制手段来减少摩擦。 最重要的是,市场平台提供了安全淘汰产品的必要基础设施:如果产品被弃用,消费者会收到通知,使用情况会被追踪,并在界面中推荐替代方案。这使得产品合理化从自上而下的指令转变为切实可行的操作实践。 必须的先决条件 启动该方案前,您需要具备的最基本基础包括: 已发布数据产品及其分类的共享目录 基本使用情况跟踪或消费者访问模式概览 明确每项公开资产的所有权 发展的关键能力 针对此场景,必须实现的功能包括: 请求跟踪——一种用于跟踪资源配置和使用情况演变的结构化流程 影响指标——用于评估重叠、覆盖范围和冗余趋势 FinOps治理模型——将产品的使用成本和运营成本联系起来 应用蓝图和开发指南——防止无序增长并强制执行收敛模式 风险因素 因素(Factor) 等级(Level) 备注(Notes) 广度(Breadth) 高(High) 影响多个团队、系统和利益相关方领域。 完整性(Completeness) 中(Medium) 不需要完整的地图,但良好的覆盖范围至关重要。 时间框架(Timeframe) 中(Medium) 影响仅在经过几个开发周期后才变得可见。 承诺度(Commitment) 高(High) 若缺乏持续支持和强制执行流程,局部优化问题将再次出现。 需要监控的指标 以下是用于监控该方案进展情况的关键指标: 投资组合增长趋势放缓(新产品与再利用产品) 冗余或重叠部件之间的结构变化率 再利用率与新产品净产量 场景 3:增强数据信任和质量 在许多组织中,结构化且普遍适用的数据质量实践十分罕见。即使存在,也往往仅限于监管义务、特定领域过去的负面经验,或是未能得到广泛应用的孤立举措。 数据民主化本身并不能解决数据质量方面的文化挑战,但至少可以通过降低质量控制的单位成本来提高普及率。 与生产者不同,消费者直接关心他们所消费的数据的质量,而生产者通常认为质量检查是不必要的微调或额外的负担。根据作者的经验,这种情况相当普遍。 另一个值得关注的现象是,消费者经常提出一些超出生产商能力范围的有效质量控制措施。即使出于好意,生产商也可能无法验证或完全解读这些控制措施。一个典型的例子是客户主数据,其中不同的领域(销售、市场营销、法务)需要特定领域的验证,而这些验证很难在上游进行协调。 人工智能的兴起加剧了这一挑战,因为它提高了对符合特定用途或“足够好”数据的需求。数据所有者往往缺乏时间、动力或技术知识,无法在运营周期内满足这些需求。此外,质量改进流程通常过于繁琐,涉及多层验证,这些验证流程往往会忽略而非吸收来自用户的宝贵反馈。 提示——适合性而非完美:在数据共享中,完美很少是目标,而且往往会分散注意力。真正重要的是数据集是否足以满足预期用途。存在时间延迟的数据流可能适用于报告,但无法用于人工智能;数据溯源不完整的数据集仍然可以安全地支持探索性分析。 适合性的概念提醒我们,质量并非绝对,而是取决于具体情况。这正是数据合同发挥关键作用的地方:它们正式化预期,声明已知的局限性,并为每个用例定义可接受的质量范围。信任的建立并非源于追求通用标准,而是源于使约束条件透明化和可协商。 提升信任度和质量并非追求完美状态,而是建立一套清晰透明的系统,让消费者能够了解他们正在使用的数据,理解其中的信号,并判断数据是否值得信赖。重点在于透明度和持续维护,而非完美无缺。 一种“新”范式:数据真实性 现代数据共享实践中出现的一个重要概念是数据真实性。 真实性指的是一种新的数据质量思维方式:重点不再是过滤、清理或“修复”上游数据集,而是通过明确的元数据和质量信号来揭示数据的真实状态,包括优势、局限性、已知风险和不确定性。 在以真实性为导向的模型中,数据供应链不会掩盖缺陷;它会记录这些缺陷并使其对用户开放。每个数据集都附带其上下文信息:来源信息、验证覆盖率、抽样偏差、更新策略以及已知的数据缺口。 这种方法能为消费者提供他们真正需要的:足够清晰的信息,以便他们做出明智且风险可控的决策,而不是仅仅寄希望于幕后一切都完美无缺。虽然这不是硬性要求,但将真实性融入决策过程会带来诸多实际优势: 减少对数据的误解和滥用。 通过简化和加快数据信任评估,加速数据重用。 通过将质量管理转变为可观察的协作过程,提高治理效率。 使消费者能够根据其具体使用场景定制控制和验证,而不会给生产商造成过重负担。 简而言之,真实性并不意味着提供完美的数据,而是提供透明的数据,从而加强数据共享生态系统的自主性和信任度。 为什么需要数据市场来增强数据信任和质量 提高信任度和质量不仅取决于采取了哪些控制措施,还取决于这些控制措施对消费者的透明度。 市场平台为此提供了理想的场所。它自然而然地成为生产者发布客观质量指标(例如验证检查、服务水平协议合规性和成熟度级别)的平台,而无需依赖一次性报告或孤立的工具。 通过将预览功能、反馈机制和认证流程整合到市场体验中,信任变得可见且不断累积。消费者可以看到产品是否经过认证、是否受到积极监控以及更新频率。如果发现任何缺失或不清楚的地方,他们可以通过正规渠道进行提问、评分或举报。市场不仅展示数据,还揭示数据的运行规律,从而帮助构建可靠的数据驱动决策基础。 必要的先决条件 启动该方案前,您需要具备的最基本基础包括: 实现一个参数化数据质量引擎,能够在生产环境中运行质量检查,并配备监控仪表板。 定义并发布产品可以逐步达到的成熟度级别或信任等级(例如,草案、已验证、已认证)。 将轻量级认证或验证检查点嵌入产品生命周期,而不是作为临时举措。 发展的关键能力 针对此场景,必须实现的功能包括: 自动化质量监控:持续跟踪关键指标并发现异常情况以便进行调查。 质量元数据丰富化:使用客观指标(例如,SLA 遵守率、验证频率、上次审核日期)扩展产品描述符。 消费者反馈循环:允许用户报告质量问题、请求改进或评价产品可靠性。 版本控制和弃用管理:确保改进可追溯,并适当地告知消费者变更或停用情况。 风险因素 因素(Factor) 等级(Level) 备注(Notes) 广度(Breadth) 中(Medium) 该举措涉及多个参与方,但不需要完全对齐。 完整性(Completeness) 低(Low) 即使仅有技术资产,也可启动;丰富的元数据并非严格必需。 时间框架(Timeframe) 低(Low) 结果可快速显现,通常在首次控制运行后即可看到。 承诺度(Commitment) 中(Medium) 分布式控制在将检查提升至认证状态时,可能带来中期的额外开销。 需要监控的指标 以下是用于监控该方案进展情况的关键指标: 数据质量覆盖率:已发布对象中至少启用一项质量检查的份额。 提升控制措施:从临时性检查过渡到认证状态的质量检查数量。 基于以上所述,我们将数据共享设想为一个循环生态系统,分为三个重叠区域(类似于维恩图,但更具有机性): 区域 1.孤立系统:将数据囤积在孤岛中的单个代理或应用程序(就像被包围的岛屿上的小城堡)。 区域 2.协调共享:连接各个信息孤岛的桥梁或纽带。可以想象成传递经过筛选、符合模式且经过同行验证的上下文信息的代理。 区域 3.涌现智能:形成一个核心系统,边缘有独立的模块(能够做出自己的决定),数据在其中自由流动(描绘成知识树或神经网络)。 场景 4:扩展数据治理并制定分类法 在许多组织中,数据治理孤立运作,脱离日常实践,被视为一种合规性驱动的举措,而非价值赋能的手段。元数据维护往往是被动的,通常仅响应监管要求,很快就会在实际运营环境中过时或失效。 这种脱节造成了一种悖论:治理机制存在却无法有效运作。业务用户绕过它,技术团队忽视它,新项目依靠的是经验之谈而非共享标准。问题的根源不在于缺乏治理框架,而在于缺乏激活:策略和元数据保持静态、被动且不可见的状态。 如果治理没有得到日常落实,它就会变成另一种形式的商业行为。扭转这一趋势需要从静态模型转向积极主动的治理方法,在这种方法中,元数据在系统中流动,为决策提供信息,并融入交付周期。强大的分类体系对于跨领域的一致性、可发现性和共享含义至关重要。 此方案着重于提升治理的可见性和价值。当元数据融入运营流程时,便能形成反馈循环,增强责任归属感,并提高数据质量和决策水平。此外,由于系统运行正常,人们会主动参与治理,而非出于偶然,因此也能减轻治理团队的负担。 为什么需要数据市场来扩展数据治理和发展分类体系 市场平台使治理变得相关、可见且自我强化。它直接在消费点公开元数据,将通常属于后端职责的治理转变为前端赋能。 它还能为生产者和管理者创造切实的激励:元数据更丰富的产品更容易被找到,更容易被重复使用,也更受消费者信任。这自然而然地激励人们保持文档的有效性:减少自上而下的监管,更多地依靠自发的维护。 提示——让分类体系“呼吸”:一个好的分类体系会随着使用者的成长而发展。当团队提出新的术语或指出不足之处时,这会被视为一种用心而非混乱。这样,分类体系才能保持其真实性和实用性。 最重要的是,市场机制实现了闭环:它使组织能够衡量元数据的质量、覆盖范围和使用情况,将治理从抽象层面转化为可衡量的指标。 必要的先决条件 启动该方案前,您需要具备的最基本基础包括: 数据域和产品的基础分类或分类系统 具有明确角色分配(例如,数据所有者、管理员、决策者)的治理模型 发展的关键能力 针对此场景,必须实现的功能包括: 元数据生命周期管理——确保元数据得到更新、版本控制,并与数据产品生命周期保持一致 分类法设计与维护——制定语义标准,指导标签、分类和可发现性 治理反馈循环——使用户能够报告过时或缺失的元数据并跟踪补救措施 基于使用情况的质量评分——将表面元数据的完整性和新鲜度作为市场中可见的信任信号 风险因素 因素(Factor) 等级(Level) 备注(Notes) 广度(Breadth) 高(High) 需要跨领域协作以及文化变革。 完整性(Completeness) 低(Low) 可以从部分覆盖开始,随时间逐步扩展。 时间框架(Timeframe) 低(Low) 明显改进在几次产品迭代后显现。 承诺度(Commitment) 高(High) 需要持续的ownership(所有权/责任归属),以避免元数据腐化和分类体系漂移,并建立协作文化。 需要监控的指标 追踪这一情景如何发展的关键指标: 元数据覆盖率——符合最低元数据标准的产品的百分比 治理反馈量——已报告和已解决的元数据问题数量 场景 5:基于事实的原型 原型设计常常被当作游乐场,被视为一个充满创意和实验性的阶段,迭代速度快、周期短、管理力度小。然而,在复杂的数据环境中,这个阶段很容易变得混乱,更多地依赖于直觉而非证据。团队在缺乏共同背景或对先前工作缺乏了解的情况下测试想法,导致原型要么默默失败,要么未经验证就直接投入生产。 在这种情况下,一个反复出现的反模式是“高薪人士效应”(HiPPO effect):即决定下一步开发什么产品的决策并非基于数据,而是基于房间里薪水最高的人的意见。即使是出于好意的管理者也会落入这个陷阱:他们优先考虑的是可见性或直觉,而不是使用信号、复用潜力或实际需求。结果可想而知:团队投资于那些在政治上安全,但在技术上冗余或与实际需求无关的想法。 大多数用例本身并没有错;它们要么不合时宜,要么对业务没有帮助。 本方案探索了一种不同的模式:基于证据的原型设计。它并非简单的“快速尝试,快速失败”,而是要明智地尝试,充分了解现有应用、以往尝试以及当前的需求信号。基于事实的原型设计流程并非限制创造力,而是将精力集中在更有可能产生影响的地方,并在实践中不断从生态系统中学习。 与其从零开始,不如基于结构化知识进行原型设计:技术指标、用户行为、复用信号和已监测到的差距。这样,即使是早期阶段的工作也能为更广泛的理解做出贡献,并避免重复失败的尝试。 为什么需要一个基于事实的原型市场? 在这种情况下,市场扮演着观察层的角色。系统能够观察到哪些产品正在被消费,哪些领域正在投入精力,以及哪些产品未被充分利用或正在兴起。 该市场平台通过展现需求模式、复用信号和访问趋势,使团队能够基于真实的使用数据而非层级结构或假设来制定原型设计决策。这有助于消除以高优先级产品(HiPPO)为主导的优先级排序,使使用情况数据清晰可见、可比且可操作。此外,它还提供了连续性:基于现有产品构建的原型可以继承文档、质量检查和合同条款,从而加快验证速度并在扩展时减少技术债务。 必要的先决条件 启动该方案前,您需要具备的最基本基础包括: 技术监控指标的可用性(例如,使用情况统计、SLA 违约、配置日志) 一个集中式市场界面,资产、需求和反馈都可见 发展的关键能力 针对此场景,必须实现的功能包括: 监控流程——定义观察内容以及如何收集使用信号 需求管理模型——一种对收到的需求和缺口进行评估、跟踪和分析的方法 实验的可追溯性——这样,失败的原型也能凭借其原因为集体知识做出贡献 风险因素 因素(Factor) 等级(Level) 备注(Notes) 广度(Breadth) 中(Medium) 涉及多个数据领域,但可从局部范围开始。 完整性(Completeness) 低(Low) 即使是部分指标也具有价值——无需完全覆盖即可启动。 时间框架(Timeframe) 低(Low) 早期即可获得洞察;成熟度逐步提升。 承诺度(Commitment) 中(Medium) 需要持续维护监控流程,并保持日志记录的规范性。 需要监控的指标 以下是用于监控该方案进展情况的关键指标: 与现有资产相关的原型项目数量 从请求到第一次迭代的提前期 优先级趋势(例如,需求类别与交付时间表) 推广原型(演变为产品的实验)的比例 场景 6:跨组织数据源 跨领域创新是指在不同领域或团队之间重新利用信息资产的能力;当数据产品、见解或中间成果能够跨组织界限访问时,创新的机会就会大大增加。 团队需要新鲜视角才能蓬勃发展:新的切入点、意想不到的联系、以及在信息孤岛中被忽略的模式。但跨域重用并非自然而然就能实现,它需要精心策划:让领域外的人员也能理解数据产品。 丰富的元数据、清晰的语义和简洁的上下文注释并非锦上添花,而是连接二者的桥梁。随着重用性的增长,对强边界的需求也日益迫切:清晰的边界能够确保含义的精准性和应用的规范性。 从本质上讲,跨界融合最终是一种有意识的设计选择——创作者不仅要考虑已知的消费者,还要考虑他们可能永远不会直接接触的潜在未来用户,并据此调整他们的产品。 为什么需要跨源数据市场 市场平台在实现跨领域数据共享方面发挥着核心作用,它使数据产品能够在其原始领域之外被发现。如果没有一个共享空间来对产品进行编目、记录和搜索,数据重用就只能依赖于非正式渠道或人脉关系,而这些渠道和关系难以扩展。市场平台充当团队之间的桥梁,让即使是缺乏深厚领域知识的用户也能轻松获取数据。 它还提供了安全有效重用所需的上下文框架:业务描述、预期用例、已知限制和受众标签。这些要素有助于防止语义漂移和误用,尤其是在跨领域场景中,因为不同领域的假设可能存在差异。简而言之,该市场将孤立的数据转化为可共享的资产,旨在服务于可能使用不同语言的当前和未来用户。 必要的先决条件 启动该方案前,您需要具备的最基本基础包括: 确保元数据足够丰富,以便能够自主理解,并最大限度地减少对非正式知识转移的依赖(由结构化数据目录支持)。 明确记录每个数据产品的原始背景、预期用途和已知局限性。 建立并跟踪贡献和反馈机制,以便消费者提出改进建议或指出不明确之处。 发展的关键能力 针对此场景,必须实现的功能包括: 增强的元数据管理:包括丰富的业务描述、使用示例和目标受众标签。 语义编目和对齐:使用标准词汇表、规范模型或轻量级映射来连接领域语言。 反馈与演进:让消费者塑造产品:结构化的输入循环,完善文档并改进使用信号。 情境感知访问:并非所有产品都一样。清晰地表明成熟度和意图。哪些产品已经成熟,哪些产品尚不完善,哪些产品目前还不成熟。 风险因素 因素(Factor) 等级(Level) 备注(Notes) 广度(Breadth) 高(High) 为实现切实价值,必须涉及广泛的领域和产品。 完整性(Completeness) 高(High) 需要具备较高的元数据成熟度和完整的产品文档支持。 时间框架(Timeframe) 高(High) 可衡量的结果很可能在中长期才能显现。 承诺度(Commitment) 高(High) 需要持续的跨领域协作以及生产方的持续支持才能成功。 需要监控的指标 以下是用于监控该方案进展情况的关键指标: 跨域访问率:消费者在生产者原始域之外访问产品的百分比。 重用发布比率:不同的重用事件数量除以市场上展示的产品数量。 反馈激活率:收到结构化消费者反馈、建议或使用说明的产品百分比。 发现到消费转化率:已发现的产品随后在各个领域被访问或请求的百分比。 元数据完整性得分:已填充的必填元数据字段(业务描述、所有者、术语表映射、预期用途)与标准预期值的百分比。 场景 7:新业务模式 数据变现是一个极具吸引力但又常常被误解的目标。将数据转化为收入听起来很棒,但往往更多的是炒作而非准备。无论是为合作伙伴提供洞察、数据集访问权限,还是数据驱动型服务,这不仅仅关乎雄心壮志或热情。它需要坚实的基础:信任、时机、产品契合度以及与实际商业价值的紧密联系。 制定新的数据驱动型商业战略绝不应被视为实现盈利的捷径,也不应将其作为投资数据能力的主要理由。数据变现是成熟发展的必然结果,而非起点。过早或过度关注商业开发往往会分散人们对基础工作的注意力(例如数据质量、治理、可发现性和使用情况追踪),而这些基础工作才是实现数据变现的根本所在。 盈利应该是成熟环境的自然结果,而不是首要目标。 本方案探讨了当组织准备就绪、内部重用整合、产品所有权明确,且合作伙伴或外部利益相关者表现出兴趣时应采取的措施。其重点在于如何在合同和运营控制下,安全且可持续地向外部开放数据产品或产品组。 警告——不要过分关注盈利:虽然盈利是一种合理且通常具有战略意义的方案,但它不应是构建数据平台或市场的主要驱动力。如果缺乏内部可见性、可重用性和信任,商业用途将变得脆弱甚至毫无意义。专注于构建可持续发展的基础,盈利自然会随之而来。 为什么需要数据市场来构筑新的商业模式 数据市场为将数据作为商业产品进行运营提供了基础。它集中了数据可见性,强制执行访问条件,并规范了所有权、许可和配置逻辑。如果没有数据市场或类似的结构化环境,数据货币化仍然是手动、不透明且仅限于一次性的。 至关重要的是,该市场平台还能区分内部使用和外部使用。产品只有满足特定标准才能被标记为“外部使用”,这些标准包括:质量、文档、服务水平协议 (SLA)、安全性和法律验证。这既是一种筛选机制,也是一种保障措施。它还有助于构建定价逻辑、用户注册流程、合同版本控制和产品弃用机制:这些对于可持续的外部使用至关重要。 最重要的是,该市场能够在不损害内部完整性的前提下实现盈利:对外公开的内容遵循受监管的路径,与企业内部的战术性或实验性数据使用是分开的。 必要的先决条件 启动该方案前,您需要具备的最基本基础包括: 明确数据产品所有权和合同结构 外部风险的法律和合规审查流程 明确区分仅供内部使用的产品和外部可见的产品 针对已发布产品制定了服务级别协议 (SLA) 和版本控制模型 发展的关键能力 针对此场景,必须实现的功能包括: 对外合同模板——包括许可协议、使用条款、服务水平协议 (SLA) 和支持模式 计费或会计接口——将使用量与成本或价值关联起来 消费者注册和审计跟踪 — 用于跟踪和追溯外部访问 产品标签和分级——用于区分内部产品、合作伙伴产品和公共级产品 风险因素 因素(Factor) 等级(Level) 备注(Notes) 广度(Breadth) 低(Low) 初始阶段仅限于选定的产品或领域。 完整性(Completeness) 低(Low) 外部暴露需对产品子集实现完整的元数据、质量、法律和运营覆盖。 时间框架(Timeframe) 中(Medium) 结果逐步显现;早期成果可能较小,但具有战略意义。 承诺度(Commitment) 高(High) 长期支持与跨职能协调至关重要。 需要监控的指标 以下是用于监控该方案进展情况的关键指标: 符合外部货币化条件的数据产品数量 产品的盈亏情况 每件产品的合同收入或价值贡献 情景 8:合规性 近年来,数据法规的数量、范围和复杂性都在不断增加。诸如GDPR、PSD2、DGA、AI法案以及即将出台的《数据法案》等框架,重新定义了哪些数据可以共享、如何共享、与谁共享、在哪些保障措施下共享以及出于哪些目的共享。 对许多组织而言,这些限制被视为障碍:需要在平台设计完成或用例定义之后再加以解决。但这种方法很少奏效。如果将合规性视为事后考虑,则会导致返工、摩擦或停滞不前。 市场可以成为推动合规的产业赋能者。这种方案则持相反观点:监管一致性可以从一开始就融入架构设计之中。系统并非硬编码例外情况,而是通过在适当条件下构建数据共享机制来实现数据共享,这并非降低目标,而是将用途限制、合同可执行性、可审计性和基于角色的访问控制等概念直接嵌入到数据共享平台中。 为什么需要合规数据市场 市场平台对于将合规流程从繁琐的纸质文件转变为精简的平台逻辑至关重要。它允许通过元数据和合同实现目标导向的访问,根据敏感性或法律依据实施差异化的配置流程,并通过使用日志和版本控制确保可见性和可追溯性。此外,它还提供符合监管要求的预打包治理模型,无需为每个项目创建新的模型。 对于个人隐私保护、 PSD2(银行业)、DGA(公私互操作性)或数据法案(确保各方之间的公平访问)等法规,市场创建了一个协作控制面,其中角色、权利和义务在参与者之间建立和执行,而不是隐藏在代码中或分散在 Excel 电子表格中。 必要的先决条件 启动此方案前,您需要具备以下最基本的基础: 符合法律和组织责任(数据所有者、消费者、权威机构)的榜样 数据分类、用途和处理权限的基本元数据 允许基于政策的访问控制的合同框架 发展的关键能力 将合规性融入运营工作流程的能力: 基于目的的合同模板(符合 GDPR 和 PSD2 等法规) 保留和访问可追溯性,可供审计 动态同意或使用许可模式(如适用) 跨域策略执行机制 风险因素 因素(Factor) 等级(Level) 备注(Notes) 广度(Breadth) 低(Low) 影响所有与受监管数据交互的领域。 完整性(Completeness) 中(Medium) 可从特定领域(如个人数据)开始,逐步扩展。 时间框架(Timeframe) 低(Low) 随着更多产品纳入合规元数据,影响将随时间增长。 承诺度(Commitment) 高(High) 需要法律、技术与数据团队之间在监管事务上长期对齐并协作。 需要监控的指标 关键指标应该是合规性指标。 快速回顾:可能性的艺术 本文并非旨在提供数据共享所有应用的完整分类。这既不可能,也容易误导读者。相反,本文精选了一系列反复出现的场景,这些场景的选择并非基于其理论的纯粹性,而是基于其实际应用价值。 你见过一些组织在建立内部信任之前就想把数据变现。还有一些组织谈论数据重用,却找不到自己已经构建的东西。有些组织是受监管压力驱动,有些则是出于实验目的。所有这些组织都真实存在,而且它们的起步都很混乱。 情景分析有助于理清混乱的局面。它是一种思考方式,一种框架,可以帮助你认识到你面临的挑战是什么,以及需要采取哪些措施来应对它。 他们帮助你: 应该说“这就是我们现在所处的位置”,而不是我们希望到达的位置。 即使在杂交情况下,也要关注显性性状。 区分哪些事紧急,哪些事只是有趣。 最重要的是,它们允许你无需一次性解决所有问题就能继续前进。 这些情况并非互斥。事实上,它们常常并存且相互竞争。 团队可能希望加快产品上市速度,而公司治理则需要更完善的文档记录。合规性要求严格管控,而业务部门则希望保持开放透明。关键在于识别每个阶段的主要制约因素,并采取相应的行动。 架构必须遵循这一约束。但如果你忽略了这些有用的要素,你的架构可能虽然优雅却毫无用处。因此,不要将这些场景视为需要实现的模型,而应将其视为决策框架。利用它们可以: 指出张力大小。 揭示权衡取舍。 引导投资。 如果他们能帮助你做到这一点,那么他们就完成了他们的工作。 来源(公众号):数据驱动智能
2025-12-30 18:42 263
人工智能 (AI) ——包括生成式 AI(用于创建新设计、内容或数据)和代理式 AI(能够感知和行动的自主代理)——正在改变几乎所有行业的制造业。下文将分析航空航天和国防领域采用 AI 的主要用例、优势、行业案例和挑战。 一 用例 航空航天和国防领域正在积极运用人工智能来增强飞机/航天器的制造及其周边的复杂操作。主要用例包括: 设计优化与生成式设计:人工智能用于设计更轻、更坚固的航空航天部件。工程师采用生成式设计算法来生成创新的结构设计(用于机翼、机身部件和内部部件),以满足严格的性能标准,同时最大限度地减轻重量。例如,空中客车公司与欧特克合作,创建了一个模仿骨骼结构的生成式设计的客舱隔板——与传统设计相比,它实现了 45% 的重量减轻。通常,人工智能驱动的设计工具可以快速迭代数千种航空航天部件(支架、发动机支架、隔热罩)的设计方案,并针对重量强度比和可制造性等因素进行优化。这些设计通常在物理原型制作之前通过人工智能模拟的压力测试进行验证 [41]。其结果是,飞机和航天器部件能够以显著减少的材料保持强度,直接提高燃油效率和有效载荷能力。 智能生产与质量控制:航空航天制造对精度和质量有极高的要求(安全攸关),而人工智能正被用于监控和改进生产流程。计算机视觉检测是一个至关重要的用例——人工智能驱动的视觉系统可以检查飞机部件(例如涡轮叶片、复合板、航空电子系统中的电路板)是否存在微小的缺陷或偏差。这些系统可以发现人类检查员可能遗漏的微裂纹或材料空隙,确保只组装完美无瑕的部件。例如,波音公司使用人工智能视觉检查机身部分是否存在钻孔错误或材料缺陷,奥地利钢铁制造商 Voestalpine(一家航空航天供应商)使用人工智能检测钢材的微观表面缺陷,将缺陷率降低了 20% 以上。此外,人工智能测试还用于无损评估——例如,分析焊缝和复合材料铺层 (layouts) 的 X 射线或超声波扫描,以更可靠地识别故障。人工智能还能实时优化工艺参数:先进的机器学习模型可以分析来自生产机器(数控铣床、3D打印机、复合材料高压釜)的数据,并调整控制措施以确保始终如一的质量。例如,在Howmet Aerospace(一家大型航空航天零部件制造商),人工智能监控加工和铸造过程,以保持严格的公差,从而减少废品和返工。总而言之,人工智能充当着全天候质量监督员的角色,其监督和预测性调整能力远超人工。 预测性维护与 MRO:在航空航天领域,生产设备以及飞机发动机和系统本身的维护至关重要。通用电气航空航天等制造商使用人工智能对其交付的工厂设备及其产品(喷气发动机)进行预测性维护。人工智能算法分析机器的振动、温度和性能数据,以预测故障的发生 [44],[48]。例如,Howmet Aerospace 采用机器学习模型预测其锻压机或数控机床何时需要维护,从而最大限度地减少停机时间和维护成本。在产品方面,公司使用人工智能对在役数据进行分析,以预测维护需求:例如,劳斯莱斯使用人工智能分析发动机传感器数据,以在最佳时间安排发动机大修,空客拥有一个人工智能系统来预测飞机部件何时需要维修,从而提高安全性并减少航班停机时间 [50],[51]。这种预测能力在航空航天领域至关重要,因为意外的设备故障可能会导致生产或机队停飞,从而造成巨大的成本。通过实施人工智能驱动的维护,早期采用者报告称计划外停机时间减少了两位数的百分比,直接节省了数百万美元。 供应链和库存优化:航空航天制造涉及复杂的全球供应链,涵盖数千个零部件。人工智能 (AI) 通过预测零部件需求、优化库存水平和跟踪供应链风险来帮助管理这种复杂性。例如, Howmet 的库存优化 AI通过分析海量数据来简化采购和生产计划。航空航天公司使用 AI 提前数月预测备件或原材料的需求,从而防止可能造成生产延误的短缺。AI 还协助供应商风险管理——监控地缘政治、质量和物流数据,以预警潜在的中断(供应商延迟或供应商的质量问题)。Gartner 的供应链 AI 框架将预测预计交付时间 (ETA)、供应商风险分析甚至自主物流等用例确定为对工业运营具有高价值的用例。通过采用这些技术,航空航天公司可以构建更具弹性的供应链。一些公司甚至在创建数字供应链孪生——整个供应网络的虚拟人工智能模型,以模拟各种场景(例如需求突然激增或材料短缺)并准备最佳响应。 数字孪生与实时过程控制:航空航天制造商是数字孪生技术的早期采用者。数字孪生是物理系统(如飞机发动机、生产线甚至整架飞机)的动态软件模型,它使用实时数据来镜像和预测系统行为。人工智能通过预测性和规范性分析增强了数字孪生。例如,通用电气航空航天公司在工厂车间拥有其喷气发动机的数字孪生;这些孪生中的人工智能可以监控装配过程和测试,立即发现任何偏差并提出纠正措施 [11],[58]。在生产中,制造单元(如发动机装配站)的数字孪生可以运行人工智能驱动的仿真,以优化装配顺序或刀具路径,从而缩短周期时间。通过利用这些人工智能增强的孪生,航空航天公司可以实现对性能的 360° 可视性,并使用预测性和规范性分析来提高产量、质量和吞吐量。例如,波音公司报告称,通过在其机翼装配流程中实施人工智能驱动的数字孪生,效率得到了提升,这有助于减少错误并简化工作流程。总体而言,数字孪生中的人工智能代理能够实现近乎实时的决策,使工厂更接近自我优化。 自主机器人与代理人工智能:飞机和国防系统的组装涉及许多复杂的任务;人工智能机器人和自动导引车越来越多地被部署来协助组装。这些机器人种类繁多,从能够适应人类同事进行铆接或钻孔的协作机器人,到在工厂内搬运重型飞机部件的自主运输机器人。人工智能赋予这些机器人更好的感知和决策能力——例如,人工智能引导的钻孔机器人可以动态调整压力和角度,以适应材料差异,从而实现减少返工的精度。在国防制造业中,产量较低但复杂度较高,代理人工智能系统可以协调灵活的制造:多智能体人工智能系统可以跨工作单元调度任务,以适应工程变更或紧急订单。一个值得注意的例子是:洛克希德·马丁公司使用人工智能驱动的机器人系统进行航天器组装,并正在其新的猎户座航天器生产中心探索自主操作。虽然完全自动化的工厂尚未成为航空航天领域的常态,但选择性使用代理人工智能(用于材料处理、零件配套等)正在减少劳动力并加快卫星制造和导弹组装等领域的生产速度。 二 优势 人工智能正在为航空航天和国防制造业带来变革性的优势——提高生产力、质量和创新能力。以下是一些主要优势: 更高的效率和产量:人工智能驱动的优化显著加快了生产速度。例如,洛克希德·马丁公司报告称,使用 AR/AI 工具可将某些航天器制造任务的装配时间缩短大约一半。一般而言,人工智能过程控制可以超越人类能力对操作进行微调,从而缩短周期时间(例如,某航空航天供应商采用人工智能优化的注塑工艺,将周期时间缩短了 18%)。通过最大限度地减少停机时间(通过预测性维护)和简化工作流程(通过数字化工作指令和调度算法),航空航天工厂可以从相同的资源中获得更高的产出。一个航空航天案例发现,在维护、质量和调度方面实施人工智能可以提高生产率,从而重新激发某个地区停滞不前的制造业生产力。 提升质量与安全性:质量在航空航天领域至关重要,而人工智能已通过减少缺陷和及早发现问题证明了其价值。用于检查零件的人工智能视觉系统显著降低了缺陷率——例如,塔塔钢铁公司(供应航空级钢材)通过使用人工智能监控轧机状况,将计划外停机时间减少了15%,并提高了质量。人工智能能够分析大量数据,这意味着可以检测到并处理暗示质量问题的细微异常,防止其恶化。这不仅可以防止安装有缺陷的部件,还可以提高安全性(无论是在生产过程中还是在现场,因为只有最优质的部件才能装配到飞机上)。此外,人工智能通过持续监控工艺参数,帮助确保严格遵守航空航天标准——例如,确保复合材料的固化温度或紧固件的扭矩值保持在规格范围内。其结果是生产更加稳定,并减少了因质量问题导致的代价高昂的返工或延误。 降低成本:航空航天制造成本高昂,但人工智能 (AI) 正在帮助其在多个环节削减成本。预测性维护通过预防灾难性设备故障和优化维护计划(减少加班时间和备件库存)来节省资金。通过人工智能进行工艺优化通常可以节省能源——例如,安赛乐米塔尔 (ArcelorMittal) 的人工智能优化熔炉控制在钢铁生产中节省了约 5% 的能源,这有助于降低能源密集型航空航天材料的使用成本。减少废料是另一个节约来源:当人工智能保持严格控制时,因缺陷而报废的零件会减少,从而节省原材料和劳动力。麦肯锡的一项分析指出,早期在工业运营中采用人工智能的企业主要通过提高效率和减少浪费实现了高达 14% 的成本节约。此外,人工智能可以加快设计和测试(虚拟仿真),从而降低开发成本——波音和空客通过使用人工智能仿真进行空气动力学和结构测试,缩短了设计周期,这意味着需要更少的物理原型。总体而言,虽然人工智能需要前期投资,但航空航天领域的投资回报通常体现在生产力提高和避免质量事故带来的数百万美元的节省。 创新与未来准备:人工智能正在赋能航空航天公司,使其能够更快地创新,并解决以往难以解决的问题。在研发领域,人工智能(尤其是生成模型)可以提出新的材料或制造技术建议(例如,生成式人工智能可用于设计新型金属合金和复合材料配方,从而加速传统上需要多年的材料研发)。通过利用人工智能的强力探索来增强人类工程师的创造力,企业可以更快地开发下一代飞机和国防解决方案。人工智能代理还突破了自主性的界限——这是迈向自主制造卫星或生产标准零件的全自动工厂等目标的垫脚石。重要的是,拥抱人工智能被视为提升竞争力的关键:世界经济论坛指出,制造业中的人工智能代理可以重新激发生产力增长并“重新定义竞争格局”。许多航空航天公司在竞标合同时将其人工智能能力视为一项战略资产(证明他们能够凭借数字化进步以更高的质量或更快的速度交付产品)。此外,人工智能还能帮助企业获取知识——经验丰富的工程师的洞见可以融入人工智能系统(例如质量专家系统或技术人员聊天机器人),从而在员工更替过程中保留机构知识。所有这些因素确保使用人工智能的企业能够更好地应对未来,拥有敏捷的运营和持续改进的文化。 三 关键行业参与者和驱动因素 几乎所有大型航空航天/国防公司都在利用人工智能。波音公司推出了多项“数字工厂”计划,并将机器学习应用于从优化生产计划到自动化巡检无人机等各个领域。空客公司一直是该领域的领导者,通过其 Skywise 平台将人工智能用于预测性维护,并合作开展生成式设计(仿生隔断项目),彻底改变了组件设计。通用电气航空航天公司和劳斯莱斯等发动机制造商处于工业人工智能的前沿——通用电气公司对其喷气发动机制造和测试的人工智能驱动监控提高了安全性和效率,而劳斯莱斯的 R² 数据实验室将人工智能应用于制造和在役发动机分析。洛克希德·马丁公司和诺斯罗普·格鲁曼公司内部都有针对制造业的 AI 研发,通常与 AR/VR 合作(洛克希德使用微软 HoloLens AR 来指导技术人员就是一个著名的例子,将培训时间缩短了 85%)。这些主要企业也与初创企业合作:例如洛克希德投资了 SparkCognition(该公司开发用于国防预测性维护和供应链的 AI)。在欧洲,达索航空公司在航空航天设计软件中使用 AI(CATIA 现已为设计师集成了 AI 功能),泰雷兹公司使用 AI 优化航空电子设备的电子制造。在研究方面,美国宇航局和欧空局资助用于先进制造(如航天器模块的自主组装)的 AI 项目。初创企业和科技公司是关键的推动者:西门子为 MindSphere 工业物联网平台提供广泛应用于航空航天工厂的 AI 分析;IBM 的 Watson IoT 被用于航空航天的预测分析(例如 IBM 帮助空客使用 AI 优化其生产计划)。 C3.ai 已与航空航天供应商合作,开展基于人工智能的产量优化。像 Neural Concept 这样的专业公司将深度学习应用于流体动力学,以协助航空航天工程师。甚至国防机构(例如美国国防部)也在运行将人工智能融入国防制造的项目,以更快地扩展新系统。行业联盟和报告是识别用例的重要驱动力:例如,德勤 2025 年航空航天与国防展望强调了人工智能在维护和供应链中日益增长的作用,工业互联网联盟发布了人工智能在高可靠性制造中的最佳实践。这些共同努力有助于在整个行业传播成功的用例。 四 用例发现方法 航空航天公司通常使用结构化方法来精准定位人工智能能够最大程度提升价值的领域。他们首先会审视价值链中的痛点和复杂性,例如生产中某个环节的高缺陷率,或者某个装配体的长周期。Gartner的用例棱镜或 BCG 的框架等技术可用于系统地评估潜在人工智能项目的可行性和影响力。例如,Gartner 的制造业棱镜可能会映射出诸如自动复合材料铺层检测或自主物料搬运等用例,并根据商业价值和技术成熟度对其进行评分。许多公司还会开展试点项目或数字创新挑战:他们会进行小范围的人工智能试点(例如使用机器学习优化某个制造步骤),如果取得了积极成果(例如效率提升 5%),他们就会扩大规模。这些试点项目的发现通常有助于发现相关的用例。另一种方法是产学研合作:鉴于航空航天行业的严格要求,企业经常与大学研究机构(麻省理工学院、普渡大学等都设有航空航天人工智能实验室)合作,探索前沿理念,例如用于实时控制的强化学习或用于先进材料的人工智能。研究原型的结果可以暗示未来的生产用例。SAE 和 AIA 等行业机构也会设立工作组,成员在竞争前的环境中分享新兴用例。总体而言,识别过程是迭代的和数据驱动的——航空航天公司利用其丰富的生产数据来识别效率低下的问题,然后考虑可以解决这些问题的人工智能工具。正如麦肯锡所指出的,该行业历来创新缓慢,但新一代人工智能和人工智能技术如今被视为航空航天制造业“改变几乎所有化学和材料领域”的一种手段,这鼓励人们广泛探索从工厂车间到材料实验室的人工智能应用。 五 挑战、伦理顾虑和局限性 尽管人们对人工智能抱有浓厚兴趣,但在航空航天/国防领域实施人工智能仍面临独特的挑战。数据管理是其中一项重要挑战——航空航天生产流程会产生海量数据(例如,美光科技的半导体工厂每周从 57 万个传感器收集数据,产生 230 万张图像),这些数据必须正确存储、清理和标记。确保各个孤立系统(设计、生产、测试)的数据质量和可用性可能非常困难。此外,国防项目通常处理机密数据或受《国际武器贸易条例》(ITAR)限制的数据,这使得基于云的人工智能解决方案更加复杂。法规遵从性和认证也带来了另一个限制:在航空领域,任何可能影响零件特性的制造变更都可能需要重新进行监管认证。因此,解释人工智能决策(“黑匣子”问题)至关重要——航空航天公司正在投资可解释的人工智能,以便向监管机构证明人工智能是如何得出结论或控制行动的。此外,还有安全和伦理方面的考虑:人工智能必须经过严格验证,因为一个未被发现的缺陷可能会对飞机造成灾难性的后果。公司遵循 DO-326A(针对机载电子硬件)等标准,并可能需要将其扩展到人工智能系统。在国防领域,人们对代理人工智能持谨慎态度——自主代理需要严格约束,以防止在敏感环境中出现意外行为。劳动力和文化是另一个挑战:熟练的航空航天技术人员最初可能抵制人工智能或担心工作流失。公司必须通过对员工进行再培训(例如,培训经验丰富的机械师使用人工智能决策支持工具)并强调人工智能是增强而不是取代人类专业知识来应对变革。该行业还面临数据科学方面的人才缺口——聘请懂航空航天工程的人工智能专家并非易事。许多公司最终选择与科技公司合作来填补这一空缺。最后,航空航天制造业的多品种、小批量特性意味着人工智能解决方案必须处理大量定制场景(这与以重复性任务为主的汽车制造业不同)。对于新的喷气式飞机项目或卫星设计,由于每个单元略有不同,人工智能模型可能会难以应对有限的数据。这需要适应性强的人工智能系统,有时还需要模拟生成的数据(通过生成式人工智能)来补充真实数据。总而言之,尽管人工智能的潜力巨大,但航空航天公司必须谨慎处理数据、安全、监管和人为因素,才能充分发挥其潜力。 六 影响指标和投资回报率 航空航天和国防通过多个角度衡量人工智能项目的成功:生产关键绩效指标(吞吐量、一次通过率、周期时间)、成本指标(废品率、维护成本、库存周转率)和项目计划遵守情况。例如,如果人工智能可以将飞机装配阶段从 20 天缩短到 15 天,那么这 25% 的改进将体现在更快的项目交付和更低的劳动力成本上——这是一个明显的投资回报率。报告的一项具体指标是洛克希德公司使用 AR(一种人工智能辅助技术),将钻孔的接触劳动减少了 45%,将紧固件扭矩的接触劳动减少了 50%,将特定装配任务的时间从 6 周缩短到了 2 周。这种时间节省在航空航天项目中极其有价值。预测性维护人工智能通常通过避免停机成本的投资回报率计算来证明:例如,防止一个可能延迟发动机交付的测试单元故障可以带来巨大的节省,这很容易超过人工智能系统成本。航空航天公司还会跟踪质量 KPI,例如减少缺陷或减少不合格品——例如,一家钢铁供应商的 AI 目视检查将表面缺陷发生率降低了 20% 以上,这意味着废品和返工的量化减少。另一个指标是安全性改进:更少的工人受伤(如果 AI 接管了危险的检查或重型起重)和更好的产品安全记录(如果 AI 发现可能导致使用中故障的问题)。虽然这些难以货币化,但对于国防合同和航空公司客户来说至关重要,因此被视为投资回报率的一部分。此外,AI 对开发速度的影响也是值得衡量的——阿斯利康(虽然属于制药行业,但同样注重研发)指出,生成 AI 将开发交付周期缩短了 50%,而在航空航天领域,类似的概念是缩短飞机设计迭代周期,这可以将开发时间缩短数月甚至数年(上市时间具有巨大的价值)。许多航空航天公司使用平衡记分卡或前述类似Gartner的记分卡,从资金以外的多个维度评估项目,包括战略价值(例如,为未来项目构建数字主线)和风险降低。在国防领域,投资回报率可能还会考虑任务准备情况——加速国防系统制造的人工智能可以从国家安全价值的角度来衡量。总体而言,从成本、质量和创新的全貌来看,航空航天领域人工智能的投资回报率通常非常引人注目,因此,尽管该行业较为谨慎,但仍在迅速扩大人工智能的部署规模。 七 案例研究与示例 通用电气航空航天公司提供了一个强有力的案例研究——通过将人工智能用于质量控制(人工智能视觉检查发动机部件的规格偏差)和发动机测试中的预测分析,通用电气提高了首次良率并缩短了测试时间,有助于按时交付更多发动机。Howmet Aerospace(上文详述的案例)展示了多方面的人工智能应用:避免停机的预测性维护,确保只运送公差范围内的喷气发动机部件的人工智能视觉,创造更好航空紧固件的人工智能生成设计,甚至将人工智能用于劳动力规划以最大限度地利用熟练劳动力。他们报告了诸如降低成本和提高可持续性等好处(人工智能帮助优化了熔炉的能源使用,支持了环境目标)。另一个案例是洛克希德·马丁公司在猎户座飞船生产线上应用人工智能和增强现实技术:如上所述,它不仅将装配时间缩短了一半,而且通过提供直观的增强现实技术引导,将技术人员的培训时间缩短了85%。在国防领域,雷神公司在其导弹生产中使用人工智能,自动检查电路板和焊点,提高了其国防产品的可靠性。美国宇航局喷气推进实验室利用人工智能优化行星探测器的装配,其中人工智能可以安排任务并帮助工程师快速诊断装配问题。这些现实世界的成功表明,人工智能在航空航天领域的应用并非仅限于理论——它正在为这个以严格要求标准而闻名的行业带来可衡量的改进。 来源(公众号):数据驱动智能
2025-08-12 18:58 1662
"小王,这个数据跑了三个小时还没出来,明天的AI模型训练怎么办?" 办公室里,数据科学家小李盯着电脑屏幕,眉头紧锁。屏幕上的进度条像蜗牛一样爬行,让人怀疑人生。 这个场景你熟悉否?在AI时代,如果数据真是新石油,那么数据科学家就真是炼油工了。大家都在谈论AI多么神奇,DeepSeek多么智能,模型多么强大。 可现实呢?90%的时间都在等数据,等数据传输,等数据清洗,等数据准备。 数据科学家们经常自嘲:"我们是AI时代的搬砖工。" 传统数据传输的痛点:慢到怀疑人生 让我们算一笔账。 一个中等规模的机器学习项目,需要处理10TB的数据。用传统的MySQL客户端或JDBC连接方式,传输速度大概是每秒几百MB。10TB数据需要传输多久? 整整一个通宵。 更要命的是,这还只是传输时间。数据到了本地,还要进行格式转换、清洗、预处理。原本的列存格式数据,要先转成行存传输,到了客户端再转回列存格式供算法使用。这个过程好比把一箱苹果先打散,装到一个个小袋子里运输,到了目的地再重新装箱。 "这不是脱裤子放屁吗?"一位资深算法工程师吐槽道。 传统方案的问题不止于此: 数据传输过程中要经历多次序列化和反序列化,CPU资源消耗巨大。内存占用也成倍增长,动不动就爆内存。网络带宽被低效利用,明明有千兆网络,却只能跑出百兆的效果。 更让人抓狂的是,很多数据科学项目需要反复试验,同样的数据要传输N次。每次调参、每次验证、每次重新训练,都要重新来一遍这个痛苦的过程。 Arrow Flight SQL:数据传输界的su7 Doris 2.1版本带来了一个救命性的功能:基于Arrow Flight SQL协议的高速数据传输链路。 什么概念?原来需要一晚上传输的10TB数据,现在可能只需要几十分钟。性能提升不是10%、20%,而是百倍级别的飞跃。 这真就从绿皮火车换到了高铁,从马车换到了小米su7。 Arrow Flight SQL的巧妙之处在于彻底颠覆了传统的数据传输思路。 Doris内部查询结果本身就是以列存格式的Block组织的。传统方案需要把这些Block转换成行存的Bytes传输,客户端接收后再反序列化为列存格式。 Arrow Flight SQL直接跳过了这个"脱裤子放屁"的过程。数据在Doris里是什么格式,传输过程中就是什么格式,到了客户端还是什么格式。零转换,零损耗。 这就像快递公司不再要求你把东西重新包装,而是直接用你的原包装发货。省时省力省心。 而真正让Doris在数据科学领域脱颖而出的,不仅仅是速度,更是它对生产环境复杂性的深度理解。 很多数据科学项目在实验室里跑得很好,一到生产环境就各种问题。网络不通、权限不够、配置复杂、扩展困难。 Doris的Arrow Flight SQL充分考虑了这些现实问题: 1. 多BE节点并行返回结果 当查询结果很大时,可以从多个节点同时获取数据,进一步提升传输效率。 2. 支持反向代理配置 生产环境中BE节点通常不直接对外暴露,Doris可以通过Nginx等反向代理实现数据转发,既保证了安全性,又维持了高性能。 3. 提供灵活的连接管理 支持长连接复用,减少连接建立开销;同时提供合理的超时和清理机制,避免资源泄露。 与大数据生态的深度融合 当然,数据科学项目很少是孤立的。 它们通常是更大数据处理流水线的一部分,需要与Spark、Flink等大数据框架协同工作。 Doris的Arrow Flight SQL为这种协同提供了完美的桥梁。Spark可以通过Arrow Flight SQL高效读取Doris数据,进行大规模特征工程;Flink可以实时消费Doris的流式数据,为在线机器学习提供支持。 更重要的是,Arrow作为一种标准化的内存数据格式,已经被越来越多的数据处理框架采用。这意味着基于Arrow Flight SQL的数据流水线具有很好的互操作性和可扩展性。 你的数据可以在Doris、Flink、Spark、Pandas、TensorFlow之间无缝流转,就像水在不同容器间流动一样自然。 用Python轻松驾驭海量数据 对数据科学家来说,最爽的事情是什么?当然是代码跑得飞快,数据来得及时。 import adbc_driver_manager import adbc_driver_flightsql.dbapi as flight_sql # 连接Doris conn = flight_sql.connect(uri="grpc://doris-fe:8070", db_kwargs={ adbc_driver_manager.DatabaseOptions.USERNAME.value: "user", adbc_driver_manager.DatabaseOptions.PASSWORD.value: "pass", }) cursor = conn.cursor() # 执行查询 cursor.execute("SELECT * FROM massive_table") df = cursor.fetch_df() # 直接返回pandas DataFrame ... 就这么简单。几行代码,亿级数据瞬间到手。不需要复杂的配置,不需要担心内存爆炸,不需要等待漫长的传输时间。 关键是cursor.fetch_df()这个方法。它直接返回pandas DataFrame,数据全程保持列存格式。科学家们可以立即开始数据分析,无缝对接NumPy、Pandas、Scikit-learn等主流数据科学库。 有位数据科学家兴奋地说:"这感觉就像从拨号上网时代一步跨入了光纤时代。" Java生态的全面支持 Java开发者也没有被遗忘。Doris提供了多种Java连接方式,适应不同的使用场景。 如果你的下游分析需要基于行存数据格式,可以使用标准的JDBC方式: String DB_URL = "jdbc:arrow-flight-sql://doris-fe:8070"; Connection conn = DriverManager.getConnection(DB_URL, "user", "pass"); Statement stmt = conn.createStatement(); ResultSet resultSet = stmt.executeQuery("SELECT * FROM data_table"); ... 如果你想充分利用Arrow的列存优势,可以使用ADBC Driver: final BufferAllocator allocator = new RootAllocator(); FlightSqlDriver driver = new FlightSqlDriver(allocator); AdbcDatabase adbcDatabase = driver.open(parameters); AdbcConnection connection = adbcDatabase.connect(); AdbcStatement stmt = connection.createStatement(); stmt.setSqlQuery("SELECT * FROM massive_dataset"); QueryResult queryResult = stmt.executeQuery(); ArrowReader reader = queryResult.getReader(); ... 这种方式返回的是原生Arrow格式数据,可以直接用于大数据分析框架,性能达到极致! 结语 回到文章开头的场景。现在的小李不再需要通宵等数据了。 "小王,昨天的10TB数据已经处理完了,新的模型训练可以开始了。"小李轻松地说道。 "这么快?"小王有些惊讶。 "Doris的Arrow Flight SQL,数据传输快得飞起。我现在有更多时间专注于算法优化,而不是等数据。" Doris的Arrow Flight SQL让数据科学真正起飞了,让AI应用的开发变得更加高效和可靠 来源(公众号):一臻数据
2025-08-13 15:03 599
近日,谷歌在《2026 AI智能体趋势报告》(AI agent trends 2026)中指出,决定商业格局的变革已悄然发生,AI智能体正从“辅助工具”跃升为“核心生产力引擎”。 报告基于对全球3466位企业决策者的调研,融合了谷歌云与DeepMind的内部洞察,并整合了TELUS、Salesforce等知名企业的实际落地经验,提出了五大核心趋势,揭示了2026年AI智能体将如何重构员工角色、业务流程、客户体验、安全体系与组织能力,最终推动企业实现“AI优先”的根本性转型。五大趋势构建了企业2026年AI智能体战略的完整蓝图: 面向每位员工,赋能个体实现最高生产力; 面向每个工作流,以落地型智能体系统驱动业务运转; 面向每位客户,以礼宾式体验创造极致满意度; 面向安全领域,从被动告警转变为主动行动; 面向规模化发展,人才技能提升是商业价值的终极驱动力。 趋势1:面向每个员工——从“任务执行者”到“智能体协作者” 在AI发展的背景下,2026年最为深刻的职场变革,并非效率的提升,而是以员工为核心的工作模式重构,其核心逻辑在于从“指令式”向“意图式”的工作革命。计算机交互从“人类下达指令(如分析表格、编写代码)”转向“人类明确目标,AI智能体规划路径”。员工的核心角色从“亲自完成琐事”转变为“智能体团队的战略指挥者与质量监督者”。 数据支撑: 52%的生成式AI应用企业已将AI智能体投入生产,覆盖多元场景; 应用占比前五位:客户服务(49%)、营销/安全运营(46%)、技术支持(45%)、产品创新/生产力提升(43%)。 报告提到在“人类+智能体”的协同模型中,员工成为“智能体的人类主管”,工作重心聚焦于:任务委派:识别重复性、事务性工作(如数据录入、基础报告),并分配给专用智能体;目标设定:明确期望结果,为智能体指明方向;战略指导:运用人类判断力处理AI无法应对的复杂决策(如品牌调性把控、客户情绪回应);质量验证:作为最终环节,确保智能体输出的准确性、合规性与适配性。 报告设想了一个营销经理的典型场景,2026年,营销经理无需再陷入文案撰写、数据整理等琐碎工作,而是借助五大专业智能体实现效能倍增: 一是数据智能体:筛选数百万结构化与非结构化数据,挖掘市场趋势中的可行动模式; 二是分析智能体:24小时监控竞品动态、社交媒体情绪,每日推送一页式核心洞察报告; 三是内容智能体:根据每周战略主题,以品牌语调生成社交媒体文案与博客文章,供经理审核; 四是报告智能体:连接企业分析平台,每周五输出营销活动数据摘要; 五是创意智能体:基于营销策略与文案,生成配套图片与视频素材。 趋势2:面向每个工作流——“数字装配线”驱动端到端自动化 如果说面向员工的智能体是“单兵作战”,面向工作流的智能体系统则是“集团军协同”。2026年,企业将通过“数字装配线”,由人类指导、多智能体协同的端到端工作流,重构采购、客服、安全运营等核心流程,实现7×24小时规模化高效运转。 数据支撑:88%的智能体早期采用者,已在至少一个生成式AI场景中获得正投资回报率。 核心价值:不仅提升单一流程效率,更能整合网络运营、现场服务、客户呼叫中心等孤立职能,实现跨部门无缝协作。 报告提到,“数字装配线”的实现,依赖两大核心协议的突破:其一是Agent2Agent(A2A)协议,开放式标准,让不同开发商、不同框架、不同组织的AI智能体实现无缝集成与协同,例如媒体公司的智能体可直接对接零售商智能体,展示流媒体内容中的产品详情与定价;其二是Model Context Protocol(MCP)协议,解决LLM的两大局限(知识固化、无法联动外部),通过标准化双向连接,让AI模型轻松对接CloudSQL、BigQuery等数据库与数据平台,获取实时数据并执行操作。 报告提到了Salesforce、Elanco等厂商的案例,其中,Elanco(全球动物健康领导者)通过AI模型,自动处理每个生产基地2500余份非结构化流程制度类文档,提取关键信息、降低因信息过时或前后矛盾可能引发的风险,避免了高达130万美元的生产力损失。 趋势3:面向每个客户——礼宾式体验重构客户互动 过去十年,客户服务自动化的核心是“预制聊天机器人”,仅能解答简单问题;2026年,随着大模型的发展,将从“被动响应”到“主动预判”的服务升级,将催生“礼宾式智能体”,能够记住客户偏好、关联历史交互,提供个性化、人性化的一对一体验,甚至主动预判并解决问题。 数据支撑:49%的智能体应用企业,已将其用于客户服务与体验优化。 客户无需重复提供订单号、身份信息,智能体可基于企业CRM、物流数据库等“落地数据”,直接精准响应需求。 报告提到了物流智能体主动服务的场景,物流智能体监测到配送失败后,自动执行三步操作。确认故障原因(配送车故障)、重新调度次日最早配送时段、发放10美元服务抵扣券,再通过短信告知客户并确认新时间,无需客户主动联系。 值得注意的是,报告强调个性化体验并非局限于C端,在制造业车间,智能体可针对班组绩效差异,分析设备参数并提供优化建议(如调整机器设定点、安排专项培训);在医疗领域,智能体可整合影像、电子病历、理赔数据,为临床医生提供主动洞察,推动医疗系统从“被动响应”向“预测性健康系统”转型。 趋势4:面向安全——从“告警过载”到“智能行动” 报告提到,安全运营中心(SOC)的分析师面临“告警疲劳”困境,82%的分析师担忧因告警数量过多而遗漏真实威胁。传统安全编排自动化响应(SOAR)解决方案仅能实现增量自动化,而AI智能体凭借“推理-行动-观察-调整”的闭环能力,将安全运营从“被动响应”升级为“主动防御”,成为安全团队的“超级助手”。 数据支撑:46%的智能体应用企业已将智能体应用于安全运营和网络安全领域,以增强其网络安全防护、检测、响应及预测能力。 核心价值:不仅提升威胁检测与响应速度,更能将分析师从重复的告警筛选工作中解放,聚焦战略防御。 AI智能体驱动的SOC,通过任务型智能体协同完成安全闭环:检测告警:智能体初步筛选海量告警,识别高风险信号;分诊调查:结合安全遥测数据,深入分析威胁来源与影响范围;威胁研究与狩猎:在分析师指导下,主动搜寻潜在风险;响应工程:制定并执行解决方案;升级与建议:复杂威胁自动升级至人类团队,提供完整分析摘要供决策。 安全运营周期图展现了人类与智能体的协同模式:AI智能体负责数据管理、分诊、分析等战术任务,人类则聚焦于升级决策、规则优化与战略防御。 趋势5:面向规模化——技能提升是商业价值的终极驱动 当企业聚焦AI模型、平台等技术时,容易忽视最核心的要素——人。2026年,AI的普及将加剧技能缺口,专业技能的“半衰期”已缩短至4年,科技领域更是仅为2年。只有通过系统化的技能提升,让员工掌握“智能体协作能力”,企业才能真正释放AI的规模化价值。 数据支撑: 82%的决策者认为,技术学习资源能帮助企业在AI领域保持领先; 71%的受访企业表示,参与学习资源后收入实现增长; 84%的员工希望组织更重视AI技能培养,61%的AI应用企业员工每日使用AI。 AI学习的五大支柱: 确立目标:设定可衡量的AI工具目标(如“100%员工在工作流中使用智能体”),确保与组织整体需求对齐; 获得支持:组建三大核心利益相关者团队——“赞助者”(提供资金与高层支持)、基层推动者(传播AI价值、收集员工想法)、AI加速器(将想法转化为实际解决方案); 持续推进与奖励创新:搭建“数字枢纽”,通过游戏化想法交流、排行榜、季度奖励等形式,鼓励员工分享AI应用案例,保持参与热度; 融入日常工作流:举办内部“马拉松”,让团队在协作实践中掌握AI工具的使用; 以可信框架应对风险:培训员工识别AI相关威胁(如AI驱动的社工攻击),明确数据使用边界,将安全责任落实到每个人。 来源:谷歌云《AI agent trends 2026》报告
2026-01-06 10:39 721
热门文章