大型语言模型(LLMs)如 OpenAI‑O3、DeepSeek‑R1 和 Qwen 系列,在解决数学问题、回答科学问题甚至进行多步骤推理方面展现出惊人能力。然而这些强大系统中一直隐藏着一个缺陷:它们经常过度思考。即使是像 这样简单的问题,也可能触发冗长曲折的思维链,消耗数千 token 并推高计算成本。 一项题为《DRQA: Dynamic Reasoning Quota Allocation for Controlling Overthinking in Reasoning Large Language Models》的最新研究揭示了一个惊人现象:当多个问题以批处理形式输入时,模型会自动压缩推理过程,生成比单独处理时更简短的答案。作者将这种 emergent 的「资源竞争压力」转化为系统性技术——动态推理配额分配(DRQA),使单问题推理也能获得同等效率。 1. 过度思考 作者从三个维度描述了该问题: 过度思考导致冗长且通常冗余的思维链及不必要的 token 消耗 后果包括推理延迟增加、GPU 内存占用扩大、API 成本上升以及实际应用的可扩展性降低 思考不足(另一极端)会导致解释过于简略、步骤缺失以及在难题上准确率下降,影响模型在挑战性基准测试中的表现 现代 LLMs 擅长思维链(CoT)提示,即模型在给出最终答案前逐步写出推理过程。这种方式能提升复杂任务的准确率,但在简单任务上可能造成浪费。该研究提出: “ 我们能否鱼与熊掌兼得? 模型能否学会在问题简单时保持简洁,在问题困难时保持严谨——而无需人工设置 token 预算? 2. 批处理推理的启示 2.1 作者的观察 实验:作者比较了三个数学问题被单独回答与批量回答时的 token 消耗量(图 1) 结果:批量回答节省约 45% 的 token(648 vs. 1205),且准确率相当 解读:当多个查询共享同一上下文窗口时,模型会直觉性地为有限推理配额展开竞争并修剪非必要步骤——作者称之为资源竞争压力 2.2 效应扩展性 作者测量了不同批量大小下每个问题的平均 token 消耗量(使用 DeepSeek‑R1 在 DeepScaleR 数据集约 3 万道数学题上测试): 即使批量增大,准确率仅轻微下降,证实模型会自动为难题分配更多推理资源,同时压缩简单问题的推理过程 3. 从观察到方法:DRQA 的实现 该研究的核心贡献是将批处理诱导的效率迁移至单问题推理的强化学习(RL)框架。以下详细解析各组件 3.1 框架概览图 3.2 逐步方法论 3.2.1 通过批处理推理收集数据 使用 DeepSeek‑R1 在 DeepScaleR 数据集(约 3 万道数学题)上运行批量大小为 2/3/5的提示,为每个问题提取对应 CoT “ 提供模型在资源竞争下自然压缩推理的真实样本 3.2.2 偏好标签构建 每个 CoT 被赋予以下标签之一: ‑ A:正确但可更简洁 ‑ B:正确且简洁(理想状态) ‑ C:错误 标注规则: ‑ 原始(单问题)CoT → 标签 A(正确)或 C(错误) ‑ 批量 CoT → 标签 B(正确)或 C(错误) “ 提供区分「足够好」推理与「不必要的冗长」推理的分级信号 3.2.3 偏好数据集 生成包含 5 万以上 (问题, 推理链, 三选一标签) 元组的数据集 “ 该数据集是 RL 智能体的训练场 3.2.4 基于 GRPO 的强化学习 通过组相对策略优化(GRPO) 训练模型。这种策略梯度方法在最大化正确标签概率的同时,惩罚与旧策略的较大 KL 散度(避免灾难性遗忘)。形式化表示为: 其中 是相对优势(选择标签与真实标签一致时为正,反之为负) “ 该目标函数显式奖励简洁且正确的推理(标签 B),抑制冗长或错误响应。KL 项用于稳定学习,防止模型「遗忘」解决难题的能力 3.2.5 推理(单问题模式) 测试时,模型接收单个问题并照常生成 CoT。但由于已内化对简洁性的偏好,它会根据难度评估自动分配推理配额 “ 无需额外提示、token 预算或手工规则——模型实时自主决策 3.3 为何监督微调(SFT)不足 SFT:作者首先尝试在批量生成的「简洁」数据上直接进行监督微调 结果:token 数大幅下降(GSM8K 上减少 69%),但准确率显著受损(如 AIME 2024 准确率从 74% 跌至 9%) 原因:模型学会了表面简洁性而未理解何时可简洁,导致灾难性遗忘深度推理能力 因此,需要基于奖励的方法(DRQA)来平衡这两个目标 4. 实验结果 4.1 基准测试与设置 数据集 领域 典型难度 GSM8K 小学数学 简单-中等 MATH‑500 代数、几何、数论 中等-困难 AIME 2024/2025 高中奥数 困难 AMC 2023 竞赛数学 中等 GPQA‑Diamond 研究生级科学问答 困难 / 分布外(OOD) 评估的两个蒸馏模型: DeepSeek‑R1‑Distill‑Qwen‑1.5B DeepSeek‑R1‑Distill‑Qwen‑7B 所有基线方法(GRPO、O1‑Pruner、DAST、Shorter‑Better 等)均在相同推理配置下复现(温度 0.6,最大长度 32 K) 4.2 主要结果(摘要) 原始模型(无 DRQA)在 GSM8K 上达到 84.67% 准确率,平均每问 1 929 token;在 AIME 2024 上获得 28.67% 准确率,消耗 14 395 token DRQA (1.5 B) 将 GSM8K 准确率提升至 86.67%(+2 个百分点),token 数降至 1 428(约 ‑26%);在 AIME 2024 上准确率升至 32.00%(+3.3 个百分点),token 数减至 11 008(约 ‑23%) DRQA (7 B) 在 GSM8K 上达到 92.67% 准确率,仅用 1 324 token(‑24%);在 AIME 2024 上获得 54.67% 准确率,消耗 10 008 token(‑27%) 激进压缩方法如 Shorter‑Better 虽大幅减少 token(GSM8K 上 ‑94%),但准确率崩溃(降至 63.67%) DAST 与 O1‑Pruner 获得中等 token 节省(‑70% 至 ‑76%),但准确率提升有限,均未达到 DRQA 的平衡性 总体而言,DRQA 在各类数学科学基准测试中持续减少约 30% token 用量,同时保持甚至提升准确率 4.3 消融研究(摘要) 批量-2(使用批量大小 2 训练)获得最佳权衡:token 减少约 30%,整体准确率约 79.6% 批量-3 与 批量-5 的 token 节省略少,准确率微降,表明过大的批量可能稀释「资源竞争」信号 使用非批量数据(如 Qwen2.5‑7B)或批判性微调(CFT) 会导致效率或准确率下降,证实批量生成的偏好数据与 RL 目标均不可或缺 4.4 分布外鲁棒性 在 GPQA‑Diamond 基准上,DRQA 仍减少约 31% token 消耗,同时保持 31.81% / 49.50% 的准确率,优于过度压缩或泛化失败的其他基线 5. 意义 成本节约——对于按 token 收费的服务(如 OpenAI API),DRQA 可在保持质量的前提下降低约三分之一月成本 延迟降低——更短的输出意味着更快的推理,对辅导机器人或科学助手等实时应用至关重要 可扩展部署——凭借更低的内存与计算占用,模型可在相同硬件上处理更多查询 无需人工 token 预算——与许多「早退」或 token 预算方法不同,DRQA 无需额外提示技巧,模型学会自主调节推理长度 6. 局限性与未来方向 当前局限 潜在改进方案 仅在数学与科学推理数据集上测试 将 DRQA 扩展至代码生成、对话或多模态任务 方法仍依赖批量生成的偏好数据集,对超大语料库成本较高 探索合成生成或自博弈以自举偏好数据 仅优化token 用量;未直接处理其他效率维度(如 GPU 内存、推理延迟) 将 DRQA 与动态早退或模型规模剪枝框架结合 7. 结论性思考 DRQA 框架巧妙捕捉了 LLMs 在共享上下文窗口时表现出的微妙涌现行为——资源竞争。通过将该现象转化为强化学习信号,作者赋予模型自调节推理配额的能力:问题简单时简短清晰,问题困难时深入严谨。 结果令人印象深刻:在多种数学科学基准测试中实现token 消耗降低 30%,同时保持甚至提升准确率。重要的是,DRQA 无需硬编码 token 限制或额外提示技巧,使其成为任何以推理为核心的 LLM 部署的即插即用式升级方案。 来源(公众号):AI Signal 前瞻
2025-09-01 18:15 18
1. 为什么大语言模型(LLMs)会“过度自信” 现代LLMs在数学、科学甚至代码推理方面表现惊人,这得益于一种称为带验证奖励的强化学习(RLVR)的训练范式。在RLVR中,模型生成答案,自动验证器检查其正确性,并据此给予奖励(或惩罚)。这一循环使模型无需人工编写的奖励信号即可自我改进。 但这里存在一个隐藏的问题。 在RLVR训练中,大多数流程会反复采样相同的“初始状态”(即原始问题)。随着模型学会解决这一特定提示分布,其策略熵(衡量其下一个token选择多样性的指标)会急剧下降。简而言之,模型开始依赖少数安全的答案模式,变得过度自信且低多样性。结果是熵崩溃:探索枯竭,学习停滞,进一步训练收效甚微。 研究人员尝试用提高采样温度、添加KL惩罚或裁剪高协方差token等技巧修补此问题。这些方法虽有一定效果,但通常需要针对任务精心调整超参数,且仍依赖同一组静态提示。我们真正需要的是在模型学习过程中向训练数据注入真正的新颖性。 2. 如何让模型保持“好奇” 当语言模型生成解决方案时,有时会真正犹豫该写哪个词或数学运算符。这些时刻反映为高token级熵——模型“举棋不定”。 如果我们在这些高熵点精确干预,可以在分叉前截断部分生成的答案,保留导致不确定性的连贯前缀,并将该前缀附加到原始问题后重新提示模型。模型现在面临一个略有不同的初始上下文——一个它从未见过的上下文——因此其后续决策被迫探索新的推理路径。 这就是CURE(关键token引导的重新拼接)的核心。CURE不调整损失函数或裁剪梯度,而是动态重塑数据分布,引导模型转向未充分探索的状态,从而延缓熵崩溃。 3. CURE简述——两个阶段 阶段1(探索)。 采样器被替换为以下流程:首先生成原始提示的多个 rollout,计算每个token的熵,选择一个关键token(从top-K中均匀采样的最高熵token),提取该token前的前缀,将其与原始问题拼接,然后从新提示生成额外 rollout。原始和重新提示的 rollout 组成训练组,输入GRPO风格的裁剪替代损失。 阶段2(利用)。 探索阶段后,训练与标准RLVR完全相同:模型在原始问题上微调(无重新拼接)。由于策略已接触更丰富的初始状态,现在可以安全地将熵缩减至确定性高精度状态,而不会崩溃。 4. 方法深入解析(阶段1) 以下是探索阶段的逐步说明,非专业人士也能理解。 采样初始 rollout 对训练集中的每个问题q,用当前策略π₀生成N₁(如4个)候选答案。 计算token级熵 生成每个答案时,模型在每一步对词汇表分配概率分布。该分布的熵, 量化其在token位置t的“不确定性”。高Hₜ表示模型在多个合理选项中犹豫。 选择关键token 按Hₜ排序所有位置。 取top-K(如K=20)最高熵位置。 从中均匀采样得到随机关键索引t⁎。 创建前沿前缀 提取前缀p = answer₁…answer₍ₜ⁎₋₁₎(关键token前的所有内容)。 重新拼接 构建新提示 其中“||”表示简单拼接。 生成重新提示的 rollout 从每个精炼提示q′生成N₂(如3个)额外答案。 组构建 对每个原始问题q,现在有一个组 原始重新提示的 该组输入GRPO风格的裁剪替代损失: 动态过滤(DAPO技巧) 丢弃并重新采样仅含全正确或全错误答案的组,确保每批包含混合信号。 优化 用AdamW(学习率=1e-6,无熵或KL正则化)最小化损失。故意省略KL项,因为重新拼接前缀被视为外生干预——无梯度流过,模型仅学习对新上下文的反应。 阶段1结果: 模型的策略熵在探索中实际增长,同时习得的知识融入权重。后续利用阶段后,熵适度下降(评估温度0.6时约30%),但准确率比仅用阶段1的基线提高约7%。 5. 实验 在六个标准数学推理基准上,CURE始终优于先前的RLVR方法。第一阶段(探索)后,多数数据集准确率绝对提升约2–3%。最终(利用)阶段表现最佳: 六基准平均准确率从阶段1后的 52.1% 升至阶段2后的 54.3% ——绝对提升约2%,相对最强RLVR基线改进约5%。 熵轨迹显示,探索阶段达到所有测试方法的最高策略熵,利用阶段平滑降低熵,同时高于DAPO或GRPO的平台期。定性分析(生成文本的词云)显示阶段1后连接词(“因此”“验证”等)使用更丰富,符合CURE鼓励更广推理路径的假设。 6. 结论——“好奇”LLMs的配方 CURE证明,一种以数据为中心的微调——在模型自身犹豫时刻重新提示——可显著延缓熵崩溃,并在挑战性推理基准上转化为真实性能提升。因其仅需两个额外超参数(rollout数量)和top-K设置,易于采用、计算廉价且兼容任何RLVR框架。 来源(公众号):AI Signal 前瞻
2025-08-28 23:11 52
在人工智能日新月异的发展浪潮中,构建更强大的语言模型往往伴随着高昂代价——计算与内存需求呈指数级增长。 谷歌DeepMind、KAIST AI和Mila的研究人员在其2025年发表的论文《Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation》中提出的混合递归框架(MoR),正是这一困局的破局者。 这一开创性架构能够在保持大规模语言模型性能的同时,大幅降低资源消耗,或将重新定义高效AI的未来图景。让我们深入解析MoR的革命性突破,探寻其被誉为"游戏规则改变者"的深层原因。 核心挑战:如何实现高效扩展 像GPT-3和PaLM这样的大型语言模型(LLMs)已展现出惊人能力——从诗歌创作到复杂问题求解无所不能。然而,它们的算力需求同样惊人。训练和部署这些模型需要消耗海量资源,导致其几乎成为资金雄厚的科技巨头专属品。 以往提升效率的努力通常聚焦于两种策略:参数共享(通过复用模型权重缩减规模)或自适应计算(根据输入动态分配算力资源)。但问题在于——这两种方法长期未能有效结合,直到 MoR 的出现。 MoR 通过将参数共享与自适应计算统一纳入递归 Transformer 框架,直击这一难题。最终实现的模型既能达到大模型的性能水准,又只需小模型的资源开销,为AI效率树立了全新的帕累托前沿。 什么是混合递归架构(MoR) MoR(混合递归)架构的核心是通过两种关键方式提升基于Transformer的语言模型效率: 递归式参数共享机制:不同于传统模型为每层计算分配独立参数,MoR采用共享的Transformer层堆叠结构进行多步递归计算。这种设计大幅减少唯一参数数量,使模型在训练和部署时更紧凑高效。 自适应token计算策略:模型通过轻量级路由网络动态分配不同递归深度——对复杂token进行深层计算,而简单token则提前退出。这种细粒度资源分配有效避免了冗余运算。 该架构还创新性地采用了动态KV缓存技术:仅选择性存储当前递归步骤活跃令牌的键值对,显著降低内存占用并提升推理速度。其变体递归KV共享更进一步复用首步递归的键值对,在几乎不影响性能的前提下,大幅减少预填充延迟和内存消耗。 MoR 如何运作 想象一个编辑团队正在润色一份复杂文档。在传统 Transformer 架构中,每个编辑(层)都是独立的,需要消耗大量资源。而 MoR 则如同一位技艺高超的编辑,通过多次迭代审阅来优化文档。以下是MoR的核心组件解析: 递归式Transformer架构 MoR将模型划分为递归块,通过重复应用同一组共享层实现优化。其参数共享策略包含三种模式: 循环模式:层参数按周期循环复用 序列模式:连续重复使用相同层 中间变体:保留首尾层的独立参数,共享中间层参数 这种设计减少了独特参数数量,既提升了训练效率,又通过"连续深度批处理"等技术消除了计算"气泡"。 动态递归路由 全新训练的路由模块会根据token的复杂度分配递归深度:复杂token获得更多计算资源,简单token则提前退出。与事后路由方案不同,MoR的路由机制在预训练阶段就深度集成,确保训练与推理行为的一致性,实现最优性能。 高效KV缓存 MoR采用"递归感知KV缓存"技术,仅存储当前递归步活跃token的键值对,大幅减少内存访问。其"递归KV共享"变体通过复用首轮递归的键值对,可降低50%内存占用,某些场景下推理速度提升达2倍。 MoR为何重要:结果说明一切 MoR框架在1.35亿至17亿参数的模型规模范围内进行了严格测试,结果令人瞩目: 性能优势:在同等训练计算量(FLOPs)条件下,相较于传统Transformer和现有递归基线模型,MoR以更小的模型规模显著降低了验证困惑度,并提升了少样本学习准确率。 吞吐量提升:通过聚焦活跃令牌的计算优化及KV缓存机制,MoR实现了更高的推理吞吐量,使部署速度更快、成本效益更优。 内存高效:该框架将KV缓存内存占用减少约50%,直击大语言模型部署中最关键的瓶颈之一。 扩展性强:MoR的设计兼容现有硬件和架构,成为现实场景应用的实用解决方案。 这些突破性进展确立了MoR作为效率新标杆的地位,以"大模型性能、小模型成本"实现了优质低耗的完美平衡。 迈向更智能、更廉价AI的关键一步 MoR 的意义不仅限于技术效率的提升。通过降低部署大语言模型的计算与资金门槛,这项技术使小型机构和研究者也能用上尖端AI模型,推动了先进人工智能的民主化进程。其自适应计算机制更模拟了某种"计算智能"——像人类分配脑力处理复杂任务那样,动态调配计算资源到最需要的地方。 X平台上的技术爱好者甚至将MoR称为"Transformer杀手",暗示它可能引发传统Transformer架构的范式转移。虽然这种说法略显夸张,但MoR通过参数共享与自适应计算的创新结合,确实为高效AI设计树立了新标杆。 挑战与未来方向 尽管混合递归(MoR)是一项重大突破,但它仍面临挑战。动态路由机制需要精细训练以避免性能下降,而递归KV共享的权衡方案仍需在不同任务中进一步探索。此外,与所有注重效率的方法一样,需要确保该技术在现实应用中始终保持稳健性能。 未来研究可在MoR基础上整合其他技术,如专家混合(MoE)或DeepMind自研的混合深度(MoD)。该框架的灵活性还为动态样本调度和连续深度批处理等创新开辟了道路,有望进一步提升吞吐量(某些情况下可实现高达2.76倍的加速)。 结论:面向未来的蓝图 混合递归不仅是一项技术创新,更是构建更智能、更经济、更高效AI的蓝图。通过统一参数共享与自适应计算,MoR实现了曾被视作不可能的目标:既能达到大规模模型的性能,又能保持小规模模型的效率。当AI界苦于扩展成本不可持续之际,MoR为平衡性能与实用性提供了可行路径。 随着DeepMind与合作者不断突破AI效率的边界,MoR以其创造性的架构设计证明了创新的力量。无论它是"Transformer杀手"还是变革性的一步,有一点毋庸置疑:混合递归正在为更普惠、更可持续的AI未来铺平道路。 “ 更多细节请参阅arXiv上的原始论文:《Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation》 来源(公众号):AI Signal 前瞻
2025-08-26 16:07 96
研究意义 阅读ChatGPT生成的摘要时,你或许会注意到一个奇特现象:模型尤其偏爱“delve”(探究)、“intricate”(复杂)、“nuanced”(微妙)这类光鲜的学术形容词。越来越多文献将这种词汇过度使用视为大语言模型(LLMs)与人类写作者差异的体现。但究竟是什么驱动了这些词汇选择? Juzek与Ward的研究试图解答这一问题。他们的研究探讨了人类反馈学习(LHF)环节——即人类对模型输出进行排序或比较的过程——是否会系统性推动LLMs偏向使用一小部分受青睐的术语。若确实如此,这种过度使用就并非神秘的程序错误,而是为了让模型更符合人类偏好而设计的流程所产生的副作用。 通俗解读核心发现 研究者对比了LHF训练前与LHF训练后的模型,识别出指令微调后使用频率显著上升的词汇,随后通过人类实验让参与者在两版仅含目标词汇差异的文本中做出选择。结果发现:经LHF训练的模型(Meta的Llama 3.2 Instruct)确实比基础模型更频繁使用某些词汇,而人类偏好那些包含更多此类词汇的版本(≈52% vs. 48%)。简言之:LHF似乎是词汇过度使用的主要推手,而它偏好的词汇恰恰也是反馈环节中人类更青睐的。 方法论逐步解析 3.1 模型选择 基础模型:Llama 3.2‑3B Base——未经人类反馈微调的标准语言模型。 指令微调模型:Llama 3.2‑3B Instruct——相同架构,但经过直接偏好优化(DPO)(一种通过最大化人类偏好分数实现LHF的技术)。 这对模型是唯一公开的、仅因LHF步骤产生差异的配对,适合进行纯净对比。 3.2 构建“词汇指纹” 数据源:从PubMed(2020年)选取10,000篇科学摘要(确保其成文于LLMs普及前,代表人类基准)。 过滤:剔除少于40词的摘要,保留9,853篇。 生成续写:将每篇摘要分为两半,以前半段为提示输入模型: 续写以下学术文章:'{前半段}' 模型生成续写内容(长度不超过输入的两倍)。 清洗:使用GPT‑4o自动去除生成循环、元评论及非摘要内容的杂项文本。 生成语料库: 基础模型续写:约230万词 指令模型续写:约220万词 3.3 标注与计数 词性标注:通过 spaCy (v3.8.3) 标记每个词汇(如名词、动词),区分同形异义词(如“run”作动词或名词)。 词元归并:将词汇还原为词典形式(如“delve”“delves”“delving”→“delve”)。 频率计算:对每个词元-词性组合计算每百万词出现次数(opm)。 3.4 统计检测过度使用词汇 卡方检验比较两语料库的词汇计数。 显著性上升(p < 0.01)的词汇被标记为潜在LHF诱导项。 3.5 从检测到实验验证 目标:证明人类在文本排序时偏好的词汇与LHF过程一致。 生成变体:将50篇随机PubMed摘要转化为关键词列表,输入Llama Instruct生成每篇500个变体(共25,000个)。清洗后保留8,710个有效变体。 评分:为每个目标词汇分配LHF分数(基于其在指令模型中的相对增幅),变体总分为所含词汇分数之和。 筛选对比组:对每篇摘要,选取LHF分数最低与最高的变体,最终保留差异最大的30组作为实验刺激集。 人类受试者:通过Prolific招募400名参与者(主要来自全球南方),每人评估25组(20组关键对比,5组控制组)。剔除低质量数据后保留4,039条有效评分(≈每组135次评分)。 统计分析:主检验为卡方检验(对比高/低LHF分数选择比例与50/50基准),辅以混合效应逻辑回归验证稳健性。 结果解读 实验揭示三大发现: 总体偏好:52.4%的案例中参与者选择高LHF分数变体,虽微弱但显著高于随机水平。 混合效应模型:逻辑回归(含受试者与项目的随机截距)确认固定效应显著,表明偏好模式跨文本与人群均成立。 词汇特异性:当高分数变体含“nuanced”时,偏好率反降至46.6%,暗示某些过度使用词汇若过于显眼可能适得其反。 核心结论:LHF评估者确实偏爱那些被后LHF模型过度生成的词汇,由此形成因果链:人类评估者→LHF微调→模型偏差。 影响与更广语境 对齐与错位:LHF旨在使模型对齐人类偏好,但实际对齐的是LHF劳动力(多为全球南方年轻群体)的偏好,可能与终端用户(学者、记者)反对的“delve效应”冲突。 语言演变:某些术语的过度使用早于LLMs,LHF可能加速代际语言变迁,使模型模仿反馈提供者的语言习惯。 数据透明度:不透明的LHF流程(未公开数据集、隐藏工作者人口统计)阻碍诊断与修正偏差。公开LHF数据可实现针对性去偏。 缓解措施:研究者的检测流程(第2部分)为开发者提供低成本自动化工具,可在模型发布前识别极端词汇过度使用。结合劳动力多样化或偏好数据再平衡,或减少“AI词汇”泛滥。 AI文本检测:过度使用词汇是LLM输出的标志,此方法可改进AI文本检测工具(如基于相对熵或概率曲率的工具)。 核心启示 人类反馈学习是一把双刃剑。它推动LLMs使用评估者(多为全球南方年轻工作者)偏好的语言,却导致模型过度使用少量华丽的学术词汇——许多读者视此现象为与更广泛用户期待的错位。 Juzek与Ward的研究首次实证连接LHF与词汇偏差,既提供诊断工具,也呼吁反馈环节的更高透明度。若要LLMs服务真正多元的受众,我们必须超越当前LHF劳动力,多样化其生成的数据,并警惕模型重复的词汇。 来源(公众号):AI Signal 前瞻
2025-08-25 18:27 80
当数据不再是孤岛,当查询不再是等待,当分析变成实时,企业的数字化转型才真正开始。
2025-08-14 21:40 104
"小王,这个数据跑了三个小时还没出来,明天的AI模型训练怎么办?" 办公室里,数据科学家小李盯着电脑屏幕,眉头紧锁。屏幕上的进度条像蜗牛一样爬行,让人怀疑人生。 这个场景你熟悉否?在AI时代,如果数据真是新石油,那么数据科学家就真是炼油工了。大家都在谈论AI多么神奇,DeepSeek多么智能,模型多么强大。 可现实呢?90%的时间都在等数据,等数据传输,等数据清洗,等数据准备。 数据科学家们经常自嘲:"我们是AI时代的搬砖工。" 传统数据传输的痛点:慢到怀疑人生 让我们算一笔账。 一个中等规模的机器学习项目,需要处理10TB的数据。用传统的MySQL客户端或JDBC连接方式,传输速度大概是每秒几百MB。10TB数据需要传输多久? 整整一个通宵。 更要命的是,这还只是传输时间。数据到了本地,还要进行格式转换、清洗、预处理。原本的列存格式数据,要先转成行存传输,到了客户端再转回列存格式供算法使用。这个过程好比把一箱苹果先打散,装到一个个小袋子里运输,到了目的地再重新装箱。 "这不是脱裤子放屁吗?"一位资深算法工程师吐槽道。 传统方案的问题不止于此: 数据传输过程中要经历多次序列化和反序列化,CPU资源消耗巨大。内存占用也成倍增长,动不动就爆内存。网络带宽被低效利用,明明有千兆网络,却只能跑出百兆的效果。 更让人抓狂的是,很多数据科学项目需要反复试验,同样的数据要传输N次。每次调参、每次验证、每次重新训练,都要重新来一遍这个痛苦的过程。 Arrow Flight SQL:数据传输界的su7 Doris 2.1版本带来了一个救命性的功能:基于Arrow Flight SQL协议的高速数据传输链路。 什么概念?原来需要一晚上传输的10TB数据,现在可能只需要几十分钟。性能提升不是10%、20%,而是百倍级别的飞跃。 这真就从绿皮火车换到了高铁,从马车换到了小米su7。 Arrow Flight SQL的巧妙之处在于彻底颠覆了传统的数据传输思路。 Doris内部查询结果本身就是以列存格式的Block组织的。传统方案需要把这些Block转换成行存的Bytes传输,客户端接收后再反序列化为列存格式。 Arrow Flight SQL直接跳过了这个"脱裤子放屁"的过程。数据在Doris里是什么格式,传输过程中就是什么格式,到了客户端还是什么格式。零转换,零损耗。 这就像快递公司不再要求你把东西重新包装,而是直接用你的原包装发货。省时省力省心。 而真正让Doris在数据科学领域脱颖而出的,不仅仅是速度,更是它对生产环境复杂性的深度理解。 很多数据科学项目在实验室里跑得很好,一到生产环境就各种问题。网络不通、权限不够、配置复杂、扩展困难。 Doris的Arrow Flight SQL充分考虑了这些现实问题: 1. 多BE节点并行返回结果 当查询结果很大时,可以从多个节点同时获取数据,进一步提升传输效率。 2. 支持反向代理配置 生产环境中BE节点通常不直接对外暴露,Doris可以通过Nginx等反向代理实现数据转发,既保证了安全性,又维持了高性能。 3. 提供灵活的连接管理 支持长连接复用,减少连接建立开销;同时提供合理的超时和清理机制,避免资源泄露。 与大数据生态的深度融合 当然,数据科学项目很少是孤立的。 它们通常是更大数据处理流水线的一部分,需要与Spark、Flink等大数据框架协同工作。 Doris的Arrow Flight SQL为这种协同提供了完美的桥梁。Spark可以通过Arrow Flight SQL高效读取Doris数据,进行大规模特征工程;Flink可以实时消费Doris的流式数据,为在线机器学习提供支持。 更重要的是,Arrow作为一种标准化的内存数据格式,已经被越来越多的数据处理框架采用。这意味着基于Arrow Flight SQL的数据流水线具有很好的互操作性和可扩展性。 你的数据可以在Doris、Flink、Spark、Pandas、TensorFlow之间无缝流转,就像水在不同容器间流动一样自然。 用Python轻松驾驭海量数据 对数据科学家来说,最爽的事情是什么?当然是代码跑得飞快,数据来得及时。 import adbc_driver_manager import adbc_driver_flightsql.dbapi as flight_sql # 连接Doris conn = flight_sql.connect(uri="grpc://doris-fe:8070", db_kwargs={ adbc_driver_manager.DatabaseOptions.USERNAME.value: "user", adbc_driver_manager.DatabaseOptions.PASSWORD.value: "pass", }) cursor = conn.cursor() # 执行查询 cursor.execute("SELECT * FROM massive_table") df = cursor.fetch_df() # 直接返回pandas DataFrame ... 就这么简单。几行代码,亿级数据瞬间到手。不需要复杂的配置,不需要担心内存爆炸,不需要等待漫长的传输时间。 关键是cursor.fetch_df()这个方法。它直接返回pandas DataFrame,数据全程保持列存格式。科学家们可以立即开始数据分析,无缝对接NumPy、Pandas、Scikit-learn等主流数据科学库。 有位数据科学家兴奋地说:"这感觉就像从拨号上网时代一步跨入了光纤时代。" Java生态的全面支持 Java开发者也没有被遗忘。Doris提供了多种Java连接方式,适应不同的使用场景。 如果你的下游分析需要基于行存数据格式,可以使用标准的JDBC方式: String DB_URL = "jdbc:arrow-flight-sql://doris-fe:8070"; Connection conn = DriverManager.getConnection(DB_URL, "user", "pass"); Statement stmt = conn.createStatement(); ResultSet resultSet = stmt.executeQuery("SELECT * FROM data_table"); ... 如果你想充分利用Arrow的列存优势,可以使用ADBC Driver: final BufferAllocator allocator = new RootAllocator(); FlightSqlDriver driver = new FlightSqlDriver(allocator); AdbcDatabase adbcDatabase = driver.open(parameters); AdbcConnection connection = adbcDatabase.connect(); AdbcStatement stmt = connection.createStatement(); stmt.setSqlQuery("SELECT * FROM massive_dataset"); QueryResult queryResult = stmt.executeQuery(); ArrowReader reader = queryResult.getReader(); ... 这种方式返回的是原生Arrow格式数据,可以直接用于大数据分析框架,性能达到极致! 结语 回到文章开头的场景。现在的小李不再需要通宵等数据了。 "小王,昨天的10TB数据已经处理完了,新的模型训练可以开始了。"小李轻松地说道。 "这么快?"小王有些惊讶。 "Doris的Arrow Flight SQL,数据传输快得飞起。我现在有更多时间专注于算法优化,而不是等数据。" Doris的Arrow Flight SQL让数据科学真正起飞了,让AI应用的开发变得更加高效和可靠 来源(公众号):一臻数据
2025-08-13 15:03 128
人工智能 (AI) ——包括生成式 AI(用于创建新设计、内容或数据)和代理式 AI(能够感知和行动的自主代理)——正在改变几乎所有行业的制造业。下文将分析航空航天和国防领域采用 AI 的主要用例、优势、行业案例和挑战。 一 用例 航空航天和国防领域正在积极运用人工智能来增强飞机/航天器的制造及其周边的复杂操作。主要用例包括: 设计优化与生成式设计:人工智能用于设计更轻、更坚固的航空航天部件。工程师采用生成式设计算法来生成创新的结构设计(用于机翼、机身部件和内部部件),以满足严格的性能标准,同时最大限度地减轻重量。例如,空中客车公司与欧特克合作,创建了一个模仿骨骼结构的生成式设计的客舱隔板——与传统设计相比,它实现了 45% 的重量减轻。通常,人工智能驱动的设计工具可以快速迭代数千种航空航天部件(支架、发动机支架、隔热罩)的设计方案,并针对重量强度比和可制造性等因素进行优化。这些设计通常在物理原型制作之前通过人工智能模拟的压力测试进行验证 [41]。其结果是,飞机和航天器部件能够以显著减少的材料保持强度,直接提高燃油效率和有效载荷能力。 智能生产与质量控制:航空航天制造对精度和质量有极高的要求(安全攸关),而人工智能正被用于监控和改进生产流程。计算机视觉检测是一个至关重要的用例——人工智能驱动的视觉系统可以检查飞机部件(例如涡轮叶片、复合板、航空电子系统中的电路板)是否存在微小的缺陷或偏差。这些系统可以发现人类检查员可能遗漏的微裂纹或材料空隙,确保只组装完美无瑕的部件。例如,波音公司使用人工智能视觉检查机身部分是否存在钻孔错误或材料缺陷,奥地利钢铁制造商 Voestalpine(一家航空航天供应商)使用人工智能检测钢材的微观表面缺陷,将缺陷率降低了 20% 以上。此外,人工智能测试还用于无损评估——例如,分析焊缝和复合材料铺层 (layouts) 的 X 射线或超声波扫描,以更可靠地识别故障。人工智能还能实时优化工艺参数:先进的机器学习模型可以分析来自生产机器(数控铣床、3D打印机、复合材料高压釜)的数据,并调整控制措施以确保始终如一的质量。例如,在Howmet Aerospace(一家大型航空航天零部件制造商),人工智能监控加工和铸造过程,以保持严格的公差,从而减少废品和返工。总而言之,人工智能充当着全天候质量监督员的角色,其监督和预测性调整能力远超人工。 预测性维护与 MRO:在航空航天领域,生产设备以及飞机发动机和系统本身的维护至关重要。通用电气航空航天等制造商使用人工智能对其交付的工厂设备及其产品(喷气发动机)进行预测性维护。人工智能算法分析机器的振动、温度和性能数据,以预测故障的发生 [44],[48]。例如,Howmet Aerospace 采用机器学习模型预测其锻压机或数控机床何时需要维护,从而最大限度地减少停机时间和维护成本。在产品方面,公司使用人工智能对在役数据进行分析,以预测维护需求:例如,劳斯莱斯使用人工智能分析发动机传感器数据,以在最佳时间安排发动机大修,空客拥有一个人工智能系统来预测飞机部件何时需要维修,从而提高安全性并减少航班停机时间 [50],[51]。这种预测能力在航空航天领域至关重要,因为意外的设备故障可能会导致生产或机队停飞,从而造成巨大的成本。通过实施人工智能驱动的维护,早期采用者报告称计划外停机时间减少了两位数的百分比,直接节省了数百万美元。 供应链和库存优化:航空航天制造涉及复杂的全球供应链,涵盖数千个零部件。人工智能 (AI) 通过预测零部件需求、优化库存水平和跟踪供应链风险来帮助管理这种复杂性。例如, Howmet 的库存优化 AI通过分析海量数据来简化采购和生产计划。航空航天公司使用 AI 提前数月预测备件或原材料的需求,从而防止可能造成生产延误的短缺。AI 还协助供应商风险管理——监控地缘政治、质量和物流数据,以预警潜在的中断(供应商延迟或供应商的质量问题)。Gartner 的供应链 AI 框架将预测预计交付时间 (ETA)、供应商风险分析甚至自主物流等用例确定为对工业运营具有高价值的用例。通过采用这些技术,航空航天公司可以构建更具弹性的供应链。一些公司甚至在创建数字供应链孪生——整个供应网络的虚拟人工智能模型,以模拟各种场景(例如需求突然激增或材料短缺)并准备最佳响应。 数字孪生与实时过程控制:航空航天制造商是数字孪生技术的早期采用者。数字孪生是物理系统(如飞机发动机、生产线甚至整架飞机)的动态软件模型,它使用实时数据来镜像和预测系统行为。人工智能通过预测性和规范性分析增强了数字孪生。例如,通用电气航空航天公司在工厂车间拥有其喷气发动机的数字孪生;这些孪生中的人工智能可以监控装配过程和测试,立即发现任何偏差并提出纠正措施 [11],[58]。在生产中,制造单元(如发动机装配站)的数字孪生可以运行人工智能驱动的仿真,以优化装配顺序或刀具路径,从而缩短周期时间。通过利用这些人工智能增强的孪生,航空航天公司可以实现对性能的 360° 可视性,并使用预测性和规范性分析来提高产量、质量和吞吐量。例如,波音公司报告称,通过在其机翼装配流程中实施人工智能驱动的数字孪生,效率得到了提升,这有助于减少错误并简化工作流程。总体而言,数字孪生中的人工智能代理能够实现近乎实时的决策,使工厂更接近自我优化。 自主机器人与代理人工智能:飞机和国防系统的组装涉及许多复杂的任务;人工智能机器人和自动导引车越来越多地被部署来协助组装。这些机器人种类繁多,从能够适应人类同事进行铆接或钻孔的协作机器人,到在工厂内搬运重型飞机部件的自主运输机器人。人工智能赋予这些机器人更好的感知和决策能力——例如,人工智能引导的钻孔机器人可以动态调整压力和角度,以适应材料差异,从而实现减少返工的精度。在国防制造业中,产量较低但复杂度较高,代理人工智能系统可以协调灵活的制造:多智能体人工智能系统可以跨工作单元调度任务,以适应工程变更或紧急订单。一个值得注意的例子是:洛克希德·马丁公司使用人工智能驱动的机器人系统进行航天器组装,并正在其新的猎户座航天器生产中心探索自主操作。虽然完全自动化的工厂尚未成为航空航天领域的常态,但选择性使用代理人工智能(用于材料处理、零件配套等)正在减少劳动力并加快卫星制造和导弹组装等领域的生产速度。 二 优势 人工智能正在为航空航天和国防制造业带来变革性的优势——提高生产力、质量和创新能力。以下是一些主要优势: 更高的效率和产量:人工智能驱动的优化显著加快了生产速度。例如,洛克希德·马丁公司报告称,使用 AR/AI 工具可将某些航天器制造任务的装配时间缩短大约一半。一般而言,人工智能过程控制可以超越人类能力对操作进行微调,从而缩短周期时间(例如,某航空航天供应商采用人工智能优化的注塑工艺,将周期时间缩短了 18%)。通过最大限度地减少停机时间(通过预测性维护)和简化工作流程(通过数字化工作指令和调度算法),航空航天工厂可以从相同的资源中获得更高的产出。一个航空航天案例发现,在维护、质量和调度方面实施人工智能可以提高生产率,从而重新激发某个地区停滞不前的制造业生产力。 提升质量与安全性:质量在航空航天领域至关重要,而人工智能已通过减少缺陷和及早发现问题证明了其价值。用于检查零件的人工智能视觉系统显著降低了缺陷率——例如,塔塔钢铁公司(供应航空级钢材)通过使用人工智能监控轧机状况,将计划外停机时间减少了15%,并提高了质量。人工智能能够分析大量数据,这意味着可以检测到并处理暗示质量问题的细微异常,防止其恶化。这不仅可以防止安装有缺陷的部件,还可以提高安全性(无论是在生产过程中还是在现场,因为只有最优质的部件才能装配到飞机上)。此外,人工智能通过持续监控工艺参数,帮助确保严格遵守航空航天标准——例如,确保复合材料的固化温度或紧固件的扭矩值保持在规格范围内。其结果是生产更加稳定,并减少了因质量问题导致的代价高昂的返工或延误。 降低成本:航空航天制造成本高昂,但人工智能 (AI) 正在帮助其在多个环节削减成本。预测性维护通过预防灾难性设备故障和优化维护计划(减少加班时间和备件库存)来节省资金。通过人工智能进行工艺优化通常可以节省能源——例如,安赛乐米塔尔 (ArcelorMittal) 的人工智能优化熔炉控制在钢铁生产中节省了约 5% 的能源,这有助于降低能源密集型航空航天材料的使用成本。减少废料是另一个节约来源:当人工智能保持严格控制时,因缺陷而报废的零件会减少,从而节省原材料和劳动力。麦肯锡的一项分析指出,早期在工业运营中采用人工智能的企业主要通过提高效率和减少浪费实现了高达 14% 的成本节约。此外,人工智能可以加快设计和测试(虚拟仿真),从而降低开发成本——波音和空客通过使用人工智能仿真进行空气动力学和结构测试,缩短了设计周期,这意味着需要更少的物理原型。总体而言,虽然人工智能需要前期投资,但航空航天领域的投资回报通常体现在生产力提高和避免质量事故带来的数百万美元的节省。 创新与未来准备:人工智能正在赋能航空航天公司,使其能够更快地创新,并解决以往难以解决的问题。在研发领域,人工智能(尤其是生成模型)可以提出新的材料或制造技术建议(例如,生成式人工智能可用于设计新型金属合金和复合材料配方,从而加速传统上需要多年的材料研发)。通过利用人工智能的强力探索来增强人类工程师的创造力,企业可以更快地开发下一代飞机和国防解决方案。人工智能代理还突破了自主性的界限——这是迈向自主制造卫星或生产标准零件的全自动工厂等目标的垫脚石。重要的是,拥抱人工智能被视为提升竞争力的关键:世界经济论坛指出,制造业中的人工智能代理可以重新激发生产力增长并“重新定义竞争格局”。许多航空航天公司在竞标合同时将其人工智能能力视为一项战略资产(证明他们能够凭借数字化进步以更高的质量或更快的速度交付产品)。此外,人工智能还能帮助企业获取知识——经验丰富的工程师的洞见可以融入人工智能系统(例如质量专家系统或技术人员聊天机器人),从而在员工更替过程中保留机构知识。所有这些因素确保使用人工智能的企业能够更好地应对未来,拥有敏捷的运营和持续改进的文化。 三 关键行业参与者和驱动因素 几乎所有大型航空航天/国防公司都在利用人工智能。波音公司推出了多项“数字工厂”计划,并将机器学习应用于从优化生产计划到自动化巡检无人机等各个领域。空客公司一直是该领域的领导者,通过其 Skywise 平台将人工智能用于预测性维护,并合作开展生成式设计(仿生隔断项目),彻底改变了组件设计。通用电气航空航天公司和劳斯莱斯等发动机制造商处于工业人工智能的前沿——通用电气公司对其喷气发动机制造和测试的人工智能驱动监控提高了安全性和效率,而劳斯莱斯的 R² 数据实验室将人工智能应用于制造和在役发动机分析。洛克希德·马丁公司和诺斯罗普·格鲁曼公司内部都有针对制造业的 AI 研发,通常与 AR/VR 合作(洛克希德使用微软 HoloLens AR 来指导技术人员就是一个著名的例子,将培训时间缩短了 85%)。这些主要企业也与初创企业合作:例如洛克希德投资了 SparkCognition(该公司开发用于国防预测性维护和供应链的 AI)。在欧洲,达索航空公司在航空航天设计软件中使用 AI(CATIA 现已为设计师集成了 AI 功能),泰雷兹公司使用 AI 优化航空电子设备的电子制造。在研究方面,美国宇航局和欧空局资助用于先进制造(如航天器模块的自主组装)的 AI 项目。初创企业和科技公司是关键的推动者:西门子为 MindSphere 工业物联网平台提供广泛应用于航空航天工厂的 AI 分析;IBM 的 Watson IoT 被用于航空航天的预测分析(例如 IBM 帮助空客使用 AI 优化其生产计划)。 C3.ai 已与航空航天供应商合作,开展基于人工智能的产量优化。像 Neural Concept 这样的专业公司将深度学习应用于流体动力学,以协助航空航天工程师。甚至国防机构(例如美国国防部)也在运行将人工智能融入国防制造的项目,以更快地扩展新系统。行业联盟和报告是识别用例的重要驱动力:例如,德勤 2025 年航空航天与国防展望强调了人工智能在维护和供应链中日益增长的作用,工业互联网联盟发布了人工智能在高可靠性制造中的最佳实践。这些共同努力有助于在整个行业传播成功的用例。 四 用例发现方法 航空航天公司通常使用结构化方法来精准定位人工智能能够最大程度提升价值的领域。他们首先会审视价值链中的痛点和复杂性,例如生产中某个环节的高缺陷率,或者某个装配体的长周期。Gartner的用例棱镜或 BCG 的框架等技术可用于系统地评估潜在人工智能项目的可行性和影响力。例如,Gartner 的制造业棱镜可能会映射出诸如自动复合材料铺层检测或自主物料搬运等用例,并根据商业价值和技术成熟度对其进行评分。许多公司还会开展试点项目或数字创新挑战:他们会进行小范围的人工智能试点(例如使用机器学习优化某个制造步骤),如果取得了积极成果(例如效率提升 5%),他们就会扩大规模。这些试点项目的发现通常有助于发现相关的用例。另一种方法是产学研合作:鉴于航空航天行业的严格要求,企业经常与大学研究机构(麻省理工学院、普渡大学等都设有航空航天人工智能实验室)合作,探索前沿理念,例如用于实时控制的强化学习或用于先进材料的人工智能。研究原型的结果可以暗示未来的生产用例。SAE 和 AIA 等行业机构也会设立工作组,成员在竞争前的环境中分享新兴用例。总体而言,识别过程是迭代的和数据驱动的——航空航天公司利用其丰富的生产数据来识别效率低下的问题,然后考虑可以解决这些问题的人工智能工具。正如麦肯锡所指出的,该行业历来创新缓慢,但新一代人工智能和人工智能技术如今被视为航空航天制造业“改变几乎所有化学和材料领域”的一种手段,这鼓励人们广泛探索从工厂车间到材料实验室的人工智能应用。 五 挑战、伦理顾虑和局限性 尽管人们对人工智能抱有浓厚兴趣,但在航空航天/国防领域实施人工智能仍面临独特的挑战。数据管理是其中一项重要挑战——航空航天生产流程会产生海量数据(例如,美光科技的半导体工厂每周从 57 万个传感器收集数据,产生 230 万张图像),这些数据必须正确存储、清理和标记。确保各个孤立系统(设计、生产、测试)的数据质量和可用性可能非常困难。此外,国防项目通常处理机密数据或受《国际武器贸易条例》(ITAR)限制的数据,这使得基于云的人工智能解决方案更加复杂。法规遵从性和认证也带来了另一个限制:在航空领域,任何可能影响零件特性的制造变更都可能需要重新进行监管认证。因此,解释人工智能决策(“黑匣子”问题)至关重要——航空航天公司正在投资可解释的人工智能,以便向监管机构证明人工智能是如何得出结论或控制行动的。此外,还有安全和伦理方面的考虑:人工智能必须经过严格验证,因为一个未被发现的缺陷可能会对飞机造成灾难性的后果。公司遵循 DO-326A(针对机载电子硬件)等标准,并可能需要将其扩展到人工智能系统。在国防领域,人们对代理人工智能持谨慎态度——自主代理需要严格约束,以防止在敏感环境中出现意外行为。劳动力和文化是另一个挑战:熟练的航空航天技术人员最初可能抵制人工智能或担心工作流失。公司必须通过对员工进行再培训(例如,培训经验丰富的机械师使用人工智能决策支持工具)并强调人工智能是增强而不是取代人类专业知识来应对变革。该行业还面临数据科学方面的人才缺口——聘请懂航空航天工程的人工智能专家并非易事。许多公司最终选择与科技公司合作来填补这一空缺。最后,航空航天制造业的多品种、小批量特性意味着人工智能解决方案必须处理大量定制场景(这与以重复性任务为主的汽车制造业不同)。对于新的喷气式飞机项目或卫星设计,由于每个单元略有不同,人工智能模型可能会难以应对有限的数据。这需要适应性强的人工智能系统,有时还需要模拟生成的数据(通过生成式人工智能)来补充真实数据。总而言之,尽管人工智能的潜力巨大,但航空航天公司必须谨慎处理数据、安全、监管和人为因素,才能充分发挥其潜力。 六 影响指标和投资回报率 航空航天和国防通过多个角度衡量人工智能项目的成功:生产关键绩效指标(吞吐量、一次通过率、周期时间)、成本指标(废品率、维护成本、库存周转率)和项目计划遵守情况。例如,如果人工智能可以将飞机装配阶段从 20 天缩短到 15 天,那么这 25% 的改进将体现在更快的项目交付和更低的劳动力成本上——这是一个明显的投资回报率。报告的一项具体指标是洛克希德公司使用 AR(一种人工智能辅助技术),将钻孔的接触劳动减少了 45%,将紧固件扭矩的接触劳动减少了 50%,将特定装配任务的时间从 6 周缩短到了 2 周。这种时间节省在航空航天项目中极其有价值。预测性维护人工智能通常通过避免停机成本的投资回报率计算来证明:例如,防止一个可能延迟发动机交付的测试单元故障可以带来巨大的节省,这很容易超过人工智能系统成本。航空航天公司还会跟踪质量 KPI,例如减少缺陷或减少不合格品——例如,一家钢铁供应商的 AI 目视检查将表面缺陷发生率降低了 20% 以上,这意味着废品和返工的量化减少。另一个指标是安全性改进:更少的工人受伤(如果 AI 接管了危险的检查或重型起重)和更好的产品安全记录(如果 AI 发现可能导致使用中故障的问题)。虽然这些难以货币化,但对于国防合同和航空公司客户来说至关重要,因此被视为投资回报率的一部分。此外,AI 对开发速度的影响也是值得衡量的——阿斯利康(虽然属于制药行业,但同样注重研发)指出,生成 AI 将开发交付周期缩短了 50%,而在航空航天领域,类似的概念是缩短飞机设计迭代周期,这可以将开发时间缩短数月甚至数年(上市时间具有巨大的价值)。许多航空航天公司使用平衡记分卡或前述类似Gartner的记分卡,从资金以外的多个维度评估项目,包括战略价值(例如,为未来项目构建数字主线)和风险降低。在国防领域,投资回报率可能还会考虑任务准备情况——加速国防系统制造的人工智能可以从国家安全价值的角度来衡量。总体而言,从成本、质量和创新的全貌来看,航空航天领域人工智能的投资回报率通常非常引人注目,因此,尽管该行业较为谨慎,但仍在迅速扩大人工智能的部署规模。 七 案例研究与示例 通用电气航空航天公司提供了一个强有力的案例研究——通过将人工智能用于质量控制(人工智能视觉检查发动机部件的规格偏差)和发动机测试中的预测分析,通用电气提高了首次良率并缩短了测试时间,有助于按时交付更多发动机。Howmet Aerospace(上文详述的案例)展示了多方面的人工智能应用:避免停机的预测性维护,确保只运送公差范围内的喷气发动机部件的人工智能视觉,创造更好航空紧固件的人工智能生成设计,甚至将人工智能用于劳动力规划以最大限度地利用熟练劳动力。他们报告了诸如降低成本和提高可持续性等好处(人工智能帮助优化了熔炉的能源使用,支持了环境目标)。另一个案例是洛克希德·马丁公司在猎户座飞船生产线上应用人工智能和增强现实技术:如上所述,它不仅将装配时间缩短了一半,而且通过提供直观的增强现实技术引导,将技术人员的培训时间缩短了85%。在国防领域,雷神公司在其导弹生产中使用人工智能,自动检查电路板和焊点,提高了其国防产品的可靠性。美国宇航局喷气推进实验室利用人工智能优化行星探测器的装配,其中人工智能可以安排任务并帮助工程师快速诊断装配问题。这些现实世界的成功表明,人工智能在航空航天领域的应用并非仅限于理论——它正在为这个以严格要求标准而闻名的行业带来可衡量的改进。 来源(公众号):数据驱动智能
2025-08-12 18:58 208
热门文章