当数据不再是孤岛,当查询不再是等待,当分析变成实时,企业的数字化转型才真正开始。
2025-08-14 21:40 101
"小王,这个数据跑了三个小时还没出来,明天的AI模型训练怎么办?" 办公室里,数据科学家小李盯着电脑屏幕,眉头紧锁。屏幕上的进度条像蜗牛一样爬行,让人怀疑人生。 这个场景你熟悉否?在AI时代,如果数据真是新石油,那么数据科学家就真是炼油工了。大家都在谈论AI多么神奇,DeepSeek多么智能,模型多么强大。 可现实呢?90%的时间都在等数据,等数据传输,等数据清洗,等数据准备。 数据科学家们经常自嘲:"我们是AI时代的搬砖工。" 传统数据传输的痛点:慢到怀疑人生 让我们算一笔账。 一个中等规模的机器学习项目,需要处理10TB的数据。用传统的MySQL客户端或JDBC连接方式,传输速度大概是每秒几百MB。10TB数据需要传输多久? 整整一个通宵。 更要命的是,这还只是传输时间。数据到了本地,还要进行格式转换、清洗、预处理。原本的列存格式数据,要先转成行存传输,到了客户端再转回列存格式供算法使用。这个过程好比把一箱苹果先打散,装到一个个小袋子里运输,到了目的地再重新装箱。 "这不是脱裤子放屁吗?"一位资深算法工程师吐槽道。 传统方案的问题不止于此: 数据传输过程中要经历多次序列化和反序列化,CPU资源消耗巨大。内存占用也成倍增长,动不动就爆内存。网络带宽被低效利用,明明有千兆网络,却只能跑出百兆的效果。 更让人抓狂的是,很多数据科学项目需要反复试验,同样的数据要传输N次。每次调参、每次验证、每次重新训练,都要重新来一遍这个痛苦的过程。 Arrow Flight SQL:数据传输界的su7 Doris 2.1版本带来了一个救命性的功能:基于Arrow Flight SQL协议的高速数据传输链路。 什么概念?原来需要一晚上传输的10TB数据,现在可能只需要几十分钟。性能提升不是10%、20%,而是百倍级别的飞跃。 这真就从绿皮火车换到了高铁,从马车换到了小米su7。 Arrow Flight SQL的巧妙之处在于彻底颠覆了传统的数据传输思路。 Doris内部查询结果本身就是以列存格式的Block组织的。传统方案需要把这些Block转换成行存的Bytes传输,客户端接收后再反序列化为列存格式。 Arrow Flight SQL直接跳过了这个"脱裤子放屁"的过程。数据在Doris里是什么格式,传输过程中就是什么格式,到了客户端还是什么格式。零转换,零损耗。 这就像快递公司不再要求你把东西重新包装,而是直接用你的原包装发货。省时省力省心。 而真正让Doris在数据科学领域脱颖而出的,不仅仅是速度,更是它对生产环境复杂性的深度理解。 很多数据科学项目在实验室里跑得很好,一到生产环境就各种问题。网络不通、权限不够、配置复杂、扩展困难。 Doris的Arrow Flight SQL充分考虑了这些现实问题: 1. 多BE节点并行返回结果 当查询结果很大时,可以从多个节点同时获取数据,进一步提升传输效率。 2. 支持反向代理配置 生产环境中BE节点通常不直接对外暴露,Doris可以通过Nginx等反向代理实现数据转发,既保证了安全性,又维持了高性能。 3. 提供灵活的连接管理 支持长连接复用,减少连接建立开销;同时提供合理的超时和清理机制,避免资源泄露。 与大数据生态的深度融合 当然,数据科学项目很少是孤立的。 它们通常是更大数据处理流水线的一部分,需要与Spark、Flink等大数据框架协同工作。 Doris的Arrow Flight SQL为这种协同提供了完美的桥梁。Spark可以通过Arrow Flight SQL高效读取Doris数据,进行大规模特征工程;Flink可以实时消费Doris的流式数据,为在线机器学习提供支持。 更重要的是,Arrow作为一种标准化的内存数据格式,已经被越来越多的数据处理框架采用。这意味着基于Arrow Flight SQL的数据流水线具有很好的互操作性和可扩展性。 你的数据可以在Doris、Flink、Spark、Pandas、TensorFlow之间无缝流转,就像水在不同容器间流动一样自然。 用Python轻松驾驭海量数据 对数据科学家来说,最爽的事情是什么?当然是代码跑得飞快,数据来得及时。 import adbc_driver_manager import adbc_driver_flightsql.dbapi as flight_sql # 连接Doris conn = flight_sql.connect(uri="grpc://doris-fe:8070", db_kwargs={ adbc_driver_manager.DatabaseOptions.USERNAME.value: "user", adbc_driver_manager.DatabaseOptions.PASSWORD.value: "pass", }) cursor = conn.cursor() # 执行查询 cursor.execute("SELECT * FROM massive_table") df = cursor.fetch_df() # 直接返回pandas DataFrame ... 就这么简单。几行代码,亿级数据瞬间到手。不需要复杂的配置,不需要担心内存爆炸,不需要等待漫长的传输时间。 关键是cursor.fetch_df()这个方法。它直接返回pandas DataFrame,数据全程保持列存格式。科学家们可以立即开始数据分析,无缝对接NumPy、Pandas、Scikit-learn等主流数据科学库。 有位数据科学家兴奋地说:"这感觉就像从拨号上网时代一步跨入了光纤时代。" Java生态的全面支持 Java开发者也没有被遗忘。Doris提供了多种Java连接方式,适应不同的使用场景。 如果你的下游分析需要基于行存数据格式,可以使用标准的JDBC方式: String DB_URL = "jdbc:arrow-flight-sql://doris-fe:8070"; Connection conn = DriverManager.getConnection(DB_URL, "user", "pass"); Statement stmt = conn.createStatement(); ResultSet resultSet = stmt.executeQuery("SELECT * FROM data_table"); ... 如果你想充分利用Arrow的列存优势,可以使用ADBC Driver: final BufferAllocator allocator = new RootAllocator(); FlightSqlDriver driver = new FlightSqlDriver(allocator); AdbcDatabase adbcDatabase = driver.open(parameters); AdbcConnection connection = adbcDatabase.connect(); AdbcStatement stmt = connection.createStatement(); stmt.setSqlQuery("SELECT * FROM massive_dataset"); QueryResult queryResult = stmt.executeQuery(); ArrowReader reader = queryResult.getReader(); ... 这种方式返回的是原生Arrow格式数据,可以直接用于大数据分析框架,性能达到极致! 结语 回到文章开头的场景。现在的小李不再需要通宵等数据了。 "小王,昨天的10TB数据已经处理完了,新的模型训练可以开始了。"小李轻松地说道。 "这么快?"小王有些惊讶。 "Doris的Arrow Flight SQL,数据传输快得飞起。我现在有更多时间专注于算法优化,而不是等数据。" Doris的Arrow Flight SQL让数据科学真正起飞了,让AI应用的开发变得更加高效和可靠 来源(公众号):一臻数据
2025-08-13 15:03 110
人工智能 (AI) ——包括生成式 AI(用于创建新设计、内容或数据)和代理式 AI(能够感知和行动的自主代理)——正在改变几乎所有行业的制造业。下文将分析航空航天和国防领域采用 AI 的主要用例、优势、行业案例和挑战。 一 用例 航空航天和国防领域正在积极运用人工智能来增强飞机/航天器的制造及其周边的复杂操作。主要用例包括: 设计优化与生成式设计:人工智能用于设计更轻、更坚固的航空航天部件。工程师采用生成式设计算法来生成创新的结构设计(用于机翼、机身部件和内部部件),以满足严格的性能标准,同时最大限度地减轻重量。例如,空中客车公司与欧特克合作,创建了一个模仿骨骼结构的生成式设计的客舱隔板——与传统设计相比,它实现了 45% 的重量减轻。通常,人工智能驱动的设计工具可以快速迭代数千种航空航天部件(支架、发动机支架、隔热罩)的设计方案,并针对重量强度比和可制造性等因素进行优化。这些设计通常在物理原型制作之前通过人工智能模拟的压力测试进行验证 [41]。其结果是,飞机和航天器部件能够以显著减少的材料保持强度,直接提高燃油效率和有效载荷能力。 智能生产与质量控制:航空航天制造对精度和质量有极高的要求(安全攸关),而人工智能正被用于监控和改进生产流程。计算机视觉检测是一个至关重要的用例——人工智能驱动的视觉系统可以检查飞机部件(例如涡轮叶片、复合板、航空电子系统中的电路板)是否存在微小的缺陷或偏差。这些系统可以发现人类检查员可能遗漏的微裂纹或材料空隙,确保只组装完美无瑕的部件。例如,波音公司使用人工智能视觉检查机身部分是否存在钻孔错误或材料缺陷,奥地利钢铁制造商 Voestalpine(一家航空航天供应商)使用人工智能检测钢材的微观表面缺陷,将缺陷率降低了 20% 以上。此外,人工智能测试还用于无损评估——例如,分析焊缝和复合材料铺层 (layouts) 的 X 射线或超声波扫描,以更可靠地识别故障。人工智能还能实时优化工艺参数:先进的机器学习模型可以分析来自生产机器(数控铣床、3D打印机、复合材料高压釜)的数据,并调整控制措施以确保始终如一的质量。例如,在Howmet Aerospace(一家大型航空航天零部件制造商),人工智能监控加工和铸造过程,以保持严格的公差,从而减少废品和返工。总而言之,人工智能充当着全天候质量监督员的角色,其监督和预测性调整能力远超人工。 预测性维护与 MRO:在航空航天领域,生产设备以及飞机发动机和系统本身的维护至关重要。通用电气航空航天等制造商使用人工智能对其交付的工厂设备及其产品(喷气发动机)进行预测性维护。人工智能算法分析机器的振动、温度和性能数据,以预测故障的发生 [44],[48]。例如,Howmet Aerospace 采用机器学习模型预测其锻压机或数控机床何时需要维护,从而最大限度地减少停机时间和维护成本。在产品方面,公司使用人工智能对在役数据进行分析,以预测维护需求:例如,劳斯莱斯使用人工智能分析发动机传感器数据,以在最佳时间安排发动机大修,空客拥有一个人工智能系统来预测飞机部件何时需要维修,从而提高安全性并减少航班停机时间 [50],[51]。这种预测能力在航空航天领域至关重要,因为意外的设备故障可能会导致生产或机队停飞,从而造成巨大的成本。通过实施人工智能驱动的维护,早期采用者报告称计划外停机时间减少了两位数的百分比,直接节省了数百万美元。 供应链和库存优化:航空航天制造涉及复杂的全球供应链,涵盖数千个零部件。人工智能 (AI) 通过预测零部件需求、优化库存水平和跟踪供应链风险来帮助管理这种复杂性。例如, Howmet 的库存优化 AI通过分析海量数据来简化采购和生产计划。航空航天公司使用 AI 提前数月预测备件或原材料的需求,从而防止可能造成生产延误的短缺。AI 还协助供应商风险管理——监控地缘政治、质量和物流数据,以预警潜在的中断(供应商延迟或供应商的质量问题)。Gartner 的供应链 AI 框架将预测预计交付时间 (ETA)、供应商风险分析甚至自主物流等用例确定为对工业运营具有高价值的用例。通过采用这些技术,航空航天公司可以构建更具弹性的供应链。一些公司甚至在创建数字供应链孪生——整个供应网络的虚拟人工智能模型,以模拟各种场景(例如需求突然激增或材料短缺)并准备最佳响应。 数字孪生与实时过程控制:航空航天制造商是数字孪生技术的早期采用者。数字孪生是物理系统(如飞机发动机、生产线甚至整架飞机)的动态软件模型,它使用实时数据来镜像和预测系统行为。人工智能通过预测性和规范性分析增强了数字孪生。例如,通用电气航空航天公司在工厂车间拥有其喷气发动机的数字孪生;这些孪生中的人工智能可以监控装配过程和测试,立即发现任何偏差并提出纠正措施 [11],[58]。在生产中,制造单元(如发动机装配站)的数字孪生可以运行人工智能驱动的仿真,以优化装配顺序或刀具路径,从而缩短周期时间。通过利用这些人工智能增强的孪生,航空航天公司可以实现对性能的 360° 可视性,并使用预测性和规范性分析来提高产量、质量和吞吐量。例如,波音公司报告称,通过在其机翼装配流程中实施人工智能驱动的数字孪生,效率得到了提升,这有助于减少错误并简化工作流程。总体而言,数字孪生中的人工智能代理能够实现近乎实时的决策,使工厂更接近自我优化。 自主机器人与代理人工智能:飞机和国防系统的组装涉及许多复杂的任务;人工智能机器人和自动导引车越来越多地被部署来协助组装。这些机器人种类繁多,从能够适应人类同事进行铆接或钻孔的协作机器人,到在工厂内搬运重型飞机部件的自主运输机器人。人工智能赋予这些机器人更好的感知和决策能力——例如,人工智能引导的钻孔机器人可以动态调整压力和角度,以适应材料差异,从而实现减少返工的精度。在国防制造业中,产量较低但复杂度较高,代理人工智能系统可以协调灵活的制造:多智能体人工智能系统可以跨工作单元调度任务,以适应工程变更或紧急订单。一个值得注意的例子是:洛克希德·马丁公司使用人工智能驱动的机器人系统进行航天器组装,并正在其新的猎户座航天器生产中心探索自主操作。虽然完全自动化的工厂尚未成为航空航天领域的常态,但选择性使用代理人工智能(用于材料处理、零件配套等)正在减少劳动力并加快卫星制造和导弹组装等领域的生产速度。 二 优势 人工智能正在为航空航天和国防制造业带来变革性的优势——提高生产力、质量和创新能力。以下是一些主要优势: 更高的效率和产量:人工智能驱动的优化显著加快了生产速度。例如,洛克希德·马丁公司报告称,使用 AR/AI 工具可将某些航天器制造任务的装配时间缩短大约一半。一般而言,人工智能过程控制可以超越人类能力对操作进行微调,从而缩短周期时间(例如,某航空航天供应商采用人工智能优化的注塑工艺,将周期时间缩短了 18%)。通过最大限度地减少停机时间(通过预测性维护)和简化工作流程(通过数字化工作指令和调度算法),航空航天工厂可以从相同的资源中获得更高的产出。一个航空航天案例发现,在维护、质量和调度方面实施人工智能可以提高生产率,从而重新激发某个地区停滞不前的制造业生产力。 提升质量与安全性:质量在航空航天领域至关重要,而人工智能已通过减少缺陷和及早发现问题证明了其价值。用于检查零件的人工智能视觉系统显著降低了缺陷率——例如,塔塔钢铁公司(供应航空级钢材)通过使用人工智能监控轧机状况,将计划外停机时间减少了15%,并提高了质量。人工智能能够分析大量数据,这意味着可以检测到并处理暗示质量问题的细微异常,防止其恶化。这不仅可以防止安装有缺陷的部件,还可以提高安全性(无论是在生产过程中还是在现场,因为只有最优质的部件才能装配到飞机上)。此外,人工智能通过持续监控工艺参数,帮助确保严格遵守航空航天标准——例如,确保复合材料的固化温度或紧固件的扭矩值保持在规格范围内。其结果是生产更加稳定,并减少了因质量问题导致的代价高昂的返工或延误。 降低成本:航空航天制造成本高昂,但人工智能 (AI) 正在帮助其在多个环节削减成本。预测性维护通过预防灾难性设备故障和优化维护计划(减少加班时间和备件库存)来节省资金。通过人工智能进行工艺优化通常可以节省能源——例如,安赛乐米塔尔 (ArcelorMittal) 的人工智能优化熔炉控制在钢铁生产中节省了约 5% 的能源,这有助于降低能源密集型航空航天材料的使用成本。减少废料是另一个节约来源:当人工智能保持严格控制时,因缺陷而报废的零件会减少,从而节省原材料和劳动力。麦肯锡的一项分析指出,早期在工业运营中采用人工智能的企业主要通过提高效率和减少浪费实现了高达 14% 的成本节约。此外,人工智能可以加快设计和测试(虚拟仿真),从而降低开发成本——波音和空客通过使用人工智能仿真进行空气动力学和结构测试,缩短了设计周期,这意味着需要更少的物理原型。总体而言,虽然人工智能需要前期投资,但航空航天领域的投资回报通常体现在生产力提高和避免质量事故带来的数百万美元的节省。 创新与未来准备:人工智能正在赋能航空航天公司,使其能够更快地创新,并解决以往难以解决的问题。在研发领域,人工智能(尤其是生成模型)可以提出新的材料或制造技术建议(例如,生成式人工智能可用于设计新型金属合金和复合材料配方,从而加速传统上需要多年的材料研发)。通过利用人工智能的强力探索来增强人类工程师的创造力,企业可以更快地开发下一代飞机和国防解决方案。人工智能代理还突破了自主性的界限——这是迈向自主制造卫星或生产标准零件的全自动工厂等目标的垫脚石。重要的是,拥抱人工智能被视为提升竞争力的关键:世界经济论坛指出,制造业中的人工智能代理可以重新激发生产力增长并“重新定义竞争格局”。许多航空航天公司在竞标合同时将其人工智能能力视为一项战略资产(证明他们能够凭借数字化进步以更高的质量或更快的速度交付产品)。此外,人工智能还能帮助企业获取知识——经验丰富的工程师的洞见可以融入人工智能系统(例如质量专家系统或技术人员聊天机器人),从而在员工更替过程中保留机构知识。所有这些因素确保使用人工智能的企业能够更好地应对未来,拥有敏捷的运营和持续改进的文化。 三 关键行业参与者和驱动因素 几乎所有大型航空航天/国防公司都在利用人工智能。波音公司推出了多项“数字工厂”计划,并将机器学习应用于从优化生产计划到自动化巡检无人机等各个领域。空客公司一直是该领域的领导者,通过其 Skywise 平台将人工智能用于预测性维护,并合作开展生成式设计(仿生隔断项目),彻底改变了组件设计。通用电气航空航天公司和劳斯莱斯等发动机制造商处于工业人工智能的前沿——通用电气公司对其喷气发动机制造和测试的人工智能驱动监控提高了安全性和效率,而劳斯莱斯的 R² 数据实验室将人工智能应用于制造和在役发动机分析。洛克希德·马丁公司和诺斯罗普·格鲁曼公司内部都有针对制造业的 AI 研发,通常与 AR/VR 合作(洛克希德使用微软 HoloLens AR 来指导技术人员就是一个著名的例子,将培训时间缩短了 85%)。这些主要企业也与初创企业合作:例如洛克希德投资了 SparkCognition(该公司开发用于国防预测性维护和供应链的 AI)。在欧洲,达索航空公司在航空航天设计软件中使用 AI(CATIA 现已为设计师集成了 AI 功能),泰雷兹公司使用 AI 优化航空电子设备的电子制造。在研究方面,美国宇航局和欧空局资助用于先进制造(如航天器模块的自主组装)的 AI 项目。初创企业和科技公司是关键的推动者:西门子为 MindSphere 工业物联网平台提供广泛应用于航空航天工厂的 AI 分析;IBM 的 Watson IoT 被用于航空航天的预测分析(例如 IBM 帮助空客使用 AI 优化其生产计划)。 C3.ai 已与航空航天供应商合作,开展基于人工智能的产量优化。像 Neural Concept 这样的专业公司将深度学习应用于流体动力学,以协助航空航天工程师。甚至国防机构(例如美国国防部)也在运行将人工智能融入国防制造的项目,以更快地扩展新系统。行业联盟和报告是识别用例的重要驱动力:例如,德勤 2025 年航空航天与国防展望强调了人工智能在维护和供应链中日益增长的作用,工业互联网联盟发布了人工智能在高可靠性制造中的最佳实践。这些共同努力有助于在整个行业传播成功的用例。 四 用例发现方法 航空航天公司通常使用结构化方法来精准定位人工智能能够最大程度提升价值的领域。他们首先会审视价值链中的痛点和复杂性,例如生产中某个环节的高缺陷率,或者某个装配体的长周期。Gartner的用例棱镜或 BCG 的框架等技术可用于系统地评估潜在人工智能项目的可行性和影响力。例如,Gartner 的制造业棱镜可能会映射出诸如自动复合材料铺层检测或自主物料搬运等用例,并根据商业价值和技术成熟度对其进行评分。许多公司还会开展试点项目或数字创新挑战:他们会进行小范围的人工智能试点(例如使用机器学习优化某个制造步骤),如果取得了积极成果(例如效率提升 5%),他们就会扩大规模。这些试点项目的发现通常有助于发现相关的用例。另一种方法是产学研合作:鉴于航空航天行业的严格要求,企业经常与大学研究机构(麻省理工学院、普渡大学等都设有航空航天人工智能实验室)合作,探索前沿理念,例如用于实时控制的强化学习或用于先进材料的人工智能。研究原型的结果可以暗示未来的生产用例。SAE 和 AIA 等行业机构也会设立工作组,成员在竞争前的环境中分享新兴用例。总体而言,识别过程是迭代的和数据驱动的——航空航天公司利用其丰富的生产数据来识别效率低下的问题,然后考虑可以解决这些问题的人工智能工具。正如麦肯锡所指出的,该行业历来创新缓慢,但新一代人工智能和人工智能技术如今被视为航空航天制造业“改变几乎所有化学和材料领域”的一种手段,这鼓励人们广泛探索从工厂车间到材料实验室的人工智能应用。 五 挑战、伦理顾虑和局限性 尽管人们对人工智能抱有浓厚兴趣,但在航空航天/国防领域实施人工智能仍面临独特的挑战。数据管理是其中一项重要挑战——航空航天生产流程会产生海量数据(例如,美光科技的半导体工厂每周从 57 万个传感器收集数据,产生 230 万张图像),这些数据必须正确存储、清理和标记。确保各个孤立系统(设计、生产、测试)的数据质量和可用性可能非常困难。此外,国防项目通常处理机密数据或受《国际武器贸易条例》(ITAR)限制的数据,这使得基于云的人工智能解决方案更加复杂。法规遵从性和认证也带来了另一个限制:在航空领域,任何可能影响零件特性的制造变更都可能需要重新进行监管认证。因此,解释人工智能决策(“黑匣子”问题)至关重要——航空航天公司正在投资可解释的人工智能,以便向监管机构证明人工智能是如何得出结论或控制行动的。此外,还有安全和伦理方面的考虑:人工智能必须经过严格验证,因为一个未被发现的缺陷可能会对飞机造成灾难性的后果。公司遵循 DO-326A(针对机载电子硬件)等标准,并可能需要将其扩展到人工智能系统。在国防领域,人们对代理人工智能持谨慎态度——自主代理需要严格约束,以防止在敏感环境中出现意外行为。劳动力和文化是另一个挑战:熟练的航空航天技术人员最初可能抵制人工智能或担心工作流失。公司必须通过对员工进行再培训(例如,培训经验丰富的机械师使用人工智能决策支持工具)并强调人工智能是增强而不是取代人类专业知识来应对变革。该行业还面临数据科学方面的人才缺口——聘请懂航空航天工程的人工智能专家并非易事。许多公司最终选择与科技公司合作来填补这一空缺。最后,航空航天制造业的多品种、小批量特性意味着人工智能解决方案必须处理大量定制场景(这与以重复性任务为主的汽车制造业不同)。对于新的喷气式飞机项目或卫星设计,由于每个单元略有不同,人工智能模型可能会难以应对有限的数据。这需要适应性强的人工智能系统,有时还需要模拟生成的数据(通过生成式人工智能)来补充真实数据。总而言之,尽管人工智能的潜力巨大,但航空航天公司必须谨慎处理数据、安全、监管和人为因素,才能充分发挥其潜力。 六 影响指标和投资回报率 航空航天和国防通过多个角度衡量人工智能项目的成功:生产关键绩效指标(吞吐量、一次通过率、周期时间)、成本指标(废品率、维护成本、库存周转率)和项目计划遵守情况。例如,如果人工智能可以将飞机装配阶段从 20 天缩短到 15 天,那么这 25% 的改进将体现在更快的项目交付和更低的劳动力成本上——这是一个明显的投资回报率。报告的一项具体指标是洛克希德公司使用 AR(一种人工智能辅助技术),将钻孔的接触劳动减少了 45%,将紧固件扭矩的接触劳动减少了 50%,将特定装配任务的时间从 6 周缩短到了 2 周。这种时间节省在航空航天项目中极其有价值。预测性维护人工智能通常通过避免停机成本的投资回报率计算来证明:例如,防止一个可能延迟发动机交付的测试单元故障可以带来巨大的节省,这很容易超过人工智能系统成本。航空航天公司还会跟踪质量 KPI,例如减少缺陷或减少不合格品——例如,一家钢铁供应商的 AI 目视检查将表面缺陷发生率降低了 20% 以上,这意味着废品和返工的量化减少。另一个指标是安全性改进:更少的工人受伤(如果 AI 接管了危险的检查或重型起重)和更好的产品安全记录(如果 AI 发现可能导致使用中故障的问题)。虽然这些难以货币化,但对于国防合同和航空公司客户来说至关重要,因此被视为投资回报率的一部分。此外,AI 对开发速度的影响也是值得衡量的——阿斯利康(虽然属于制药行业,但同样注重研发)指出,生成 AI 将开发交付周期缩短了 50%,而在航空航天领域,类似的概念是缩短飞机设计迭代周期,这可以将开发时间缩短数月甚至数年(上市时间具有巨大的价值)。许多航空航天公司使用平衡记分卡或前述类似Gartner的记分卡,从资金以外的多个维度评估项目,包括战略价值(例如,为未来项目构建数字主线)和风险降低。在国防领域,投资回报率可能还会考虑任务准备情况——加速国防系统制造的人工智能可以从国家安全价值的角度来衡量。总体而言,从成本、质量和创新的全貌来看,航空航天领域人工智能的投资回报率通常非常引人注目,因此,尽管该行业较为谨慎,但仍在迅速扩大人工智能的部署规模。 七 案例研究与示例 通用电气航空航天公司提供了一个强有力的案例研究——通过将人工智能用于质量控制(人工智能视觉检查发动机部件的规格偏差)和发动机测试中的预测分析,通用电气提高了首次良率并缩短了测试时间,有助于按时交付更多发动机。Howmet Aerospace(上文详述的案例)展示了多方面的人工智能应用:避免停机的预测性维护,确保只运送公差范围内的喷气发动机部件的人工智能视觉,创造更好航空紧固件的人工智能生成设计,甚至将人工智能用于劳动力规划以最大限度地利用熟练劳动力。他们报告了诸如降低成本和提高可持续性等好处(人工智能帮助优化了熔炉的能源使用,支持了环境目标)。另一个案例是洛克希德·马丁公司在猎户座飞船生产线上应用人工智能和增强现实技术:如上所述,它不仅将装配时间缩短了一半,而且通过提供直观的增强现实技术引导,将技术人员的培训时间缩短了85%。在国防领域,雷神公司在其导弹生产中使用人工智能,自动检查电路板和焊点,提高了其国防产品的可靠性。美国宇航局喷气推进实验室利用人工智能优化行星探测器的装配,其中人工智能可以安排任务并帮助工程师快速诊断装配问题。这些现实世界的成功表明,人工智能在航空航天领域的应用并非仅限于理论——它正在为这个以严格要求标准而闻名的行业带来可衡量的改进。 来源(公众号):数据驱动智能
2025-08-12 18:58 162
人工智能社区痴迷于越来越大的模型、十亿令牌上下文窗口和GPU 的微调运行让人感到厌倦,而人工智能堆栈中最被忽视的力量倍增器却静静地位于这一切之下的一层:数据。 让我们明确一点:虽然扩展模型规模仍然很重要,但对于大多数现实世界的人工智能产品而言,性能提升越来越取决于数据质量和新鲜度,而不仅仅是参数数量。将模型规模翻倍以榨取边际收益不仅成本高昂,而且在环境方面也难以为继,因为惊人的电力和水成本根本无法扩展。 该瓶颈已从堆栈中移出。 构建 AI 原生产品的创始人和首席技术官开始意识到,他们的代理不会错过新兴市场信号,也不会给出空洞的见解,因为“模型”本身 “不够智能”——它之所以失败,是因为它盲目地处理过时、不相关或不完整的上下文。正因如此,Salesforce 于 2025 年 5 月斥资 80 亿美元收购了 Informatica,以增强其 AI 驱动的 Agentforce 平台。现在,他们可以访问高质量的实时数据,从而获得更准确、更可扩展的成果。 性能的成败取决于您能检索到什么,而不仅仅是您如何提示。除非您使用的是 H100 集群或运行着 API 预算无限的前沿模型,否则您超越巨头的最佳机会是在您负担得起的范围内为模型提供更智能的数据:领域特定、结构化、去重和新鲜的数据。 但在构建情境之前,它必须先存在。这意味着需要可靠、实时地访问开放网络——不仅仅是一次性的数据抓取或数据集,而是能够反映当前情况的强大管道。 各位,这就是基础设施。如果说计算让 NVIDIA 变得不可或缺,那么我认为下一个重大突破不是更多层,而是更多信号而不是噪声。而这始于将数据采集视为生产基础设施。 “好数据”是什么样的? 如果你正在构建一款 AI 原生产品,那么系统的智能程度将不再取决于你的提示有多巧妙,或者你能在上下文窗口中塞入多少个标记。而是取决于你能多好地为它提供当下重要的上下文。 但“好数据”的定义相当模糊。让我们来澄清一下。它对人工智能的意义如下: 领域特定:AI 辅助优化零售定价需要竞争对手数据、客户评论或区域趋势,而不是无关的噪音。你必须做到精准定位。 持续更新:网络瞬息万变。错过今日 X 趋势的情绪模型,或使用上周价格的供应链模型,都已经过时了。 结构化和去重:重复、不一致和噪声会浪费计算并稀释信号。结构胜过规模。干净胜过庞大。 实时可操作:过时的数据就是死数据。实时数据——价格变动、新闻、库存变化——能够为即时决策提供支持。但前提是收集数据必须合乎道德、可靠且规模化。 这就是 Salesforce 收购 Informatica 的原因——不是为了新模型,而是为了向 Agentforce 提供结构化的实时数据,以改善下游决策。 正因如此,IBM 于 2024 年 7 月斥资 23 亿美元收购了 StreamSets,用于打造 Watsonx。StreamSets 专注于从混合数据源提取数据、监控数据流并处理模式漂移——这使得 IBM 能够跨企业系统为 Watsonx 提供最新、一致的信号。对于需要基于实时状态(而非仅仅基于历史模式)进行推理的 AI 来说,这种基础设施能够带来 10 倍的增效效果。 这也是 Dataweps 转向Bright Data为飞利浦和华硕等电商客户收集实时竞争对手定价和市场趋势的原因。他们的 AI 驱动定价和竞价系统依赖于快速、准确的数据,而 Bright Data 的 API 驱动生态系统(包括代理、存档/数据集、支持 AI 代理的浏览器自动化工具等)使他们能够可靠且大规模地收集这些数据。Bright Data 不仅仅是数据抓取,它还提供了现实世界 AI 系统所需的弹性、容量和合规性。坦率地说,它是一家 AI 基础设施提供商。 关键在于:检索质量如今胜过提示工程。即使是最好的提示也无法修复模型在推理时提取过时或不相关数据的问题。 正是现在,正确的环境。这就是后 Deepseek 时代 AI 生存或消亡的关键所在。 第一步总是最难的 乍一看,数据基础设施听起来像是管道。采集管道、转换、存储?貌似无聊至极。但在 RAG 和代理 AI 时代,这种管道已变得至关重要。为什么?因为你的系统不再只是运行推理——它基于外部、不断变化的多模态实时信息进行推理。这改变了一切。 我是这样认为的:现代人工智能数据栈已经发展成为一个成熟的价值链,从信息的获取和提取,到信息的转换和丰富,到信息的整理和排序,再到存储和提供给合适的组件——无论是模型、代理还是人类。每一层都带来了实时挑战和现实后果。与传统的 ETL 管道不同,它不仅仅是将数据录入数据湖然后留在那里。 大多数团队在第一步就搞砸了:采集。糟糕的数据提取会毁掉上下文。如果你的采集层错过了关键更新,在边缘情况下默默地失败,或者以错误的结构或语言捕获信息,那么你的整个堆栈都会继承这种盲目性。 换句话说:你无法设计你未曾摄取的语境。这里有一篇有趣的论文,《AI 海洋中的塞壬之歌:大型语言模型中的幻觉调查》,作者是 Zhang 等人。该论文展示了在生产级系统中,未解决的摄取问题是“模型幻觉”和其他异常代理行为的最常见根源。 因此,在 RAG 和代理 AI 时代,摄取需要具有战略性,这是不容置疑的: 它必须对人工智能代理友好,也就是说,能够提供结构化的、即时的数据。 它必须处理动态 UI、CAPTCHA、变化的模式和混合提取(API + 抓取)。 多步骤AI代理既需要实时信号,也需要历史记忆——现在发生了什么,之前发生了什么,发生顺序如何,以及原因。因此,该基础设施必须支持定时提取、增量更新和TTL感知路由——所有这些都具有弹性、合规性,并且随时准备应对变化。 它必须具有规模可靠性,并能持续从数百万个来源提供最新信息。 并且必须符合网站条款和法律规范。 这就是为什么脆弱的抓取工具、静态数据集和一次性连接器不再足够好的原因,以及为什么像 Bright Data 这样专注于自动化友好、代理优先数据基础设施的平台正在变得像模型本身一样基础。 我见过像 Gemma 3 这样的开源、开放权重模型在狭窄领域中表现优于 GPT-4,仅仅是因为新鲜的、精选的、基于领域的数据让它们能够用于更好的检索系统。 我们来算一下。假设我们将检索到的上下文片段的总效用定义为: U=i=1ΣkRiFi 在哪里: R i∈[0,1] 是第i个检索到的片段与查询的相关性得分。 𝐹𝑖 [ 0 , 1 ] 是新鲜度得分,以随时间衰减的函数建模(例如指数或线性)。 k是检索到的上下文块的数量,受模型的上下文窗口约束。 即使假设语义搜索完美(即𝑅𝑖 已优化),最大化U也可能意味着丢弃高度相关但过时的数据,转而选择相关性稍低(但最新!)的信号。如果您的提取层跟不上,就会造成可见性损失和效用下降。第二个影响与第一个影响相辅相成:不仅无法获得新鲜内容,而且过时内容的存在还会降低性能。这会导致检索到的上下文质量的复合下降。 这就是为什么数据采集(包括但不限于计划更新、TTL 感知爬取、SERP 提取、提要解析等)不再仅仅是管道。 数据采集基础设施究竟是什么样子 那么,将数据采集视为一流的基础设施究竟意味着什么呢? 这意味着: 构建循环管道,而非负载。数据不应被一次性抓取并存档。它应该按计划进行流式传输、刷新和更新——并内置自动化、版本控制、重试逻辑和可追溯性。一次性转储无法提供持久的智能。 将新鲜度纳入检索逻辑。数据会老化。您的排名和检索系统应该将时间漂移视为首要信号——优先考虑能够反映当前世界状态的上下文。 使用基础设施级来源。从自制脚本中抓取原始 HTML 无法扩展。您需要访问层,这些层应提供 SLA、对验证码的弹性、模式漂移处理、重试、代理编排和合规性支持。 跨模态采集。有价值的信号存在于 PDF、仪表板、视频、表格、屏幕截图和嵌入式组件中。如果您的系统只能从纯 HTML 或 Markdown 中提取数据,那么您就错过了一半的信息。 构建事件原生数据采集架构。Kafka、Redpanda、Materialize 和时间序列数据库——这些并非只适用于后端基础设施团队。在 AI 原生系统中,它们将成为采集和重放时间敏感信号的神经系统。 简而言之,不要再把数据视为静态资源。要把它当成计算资源——需要编排、抽象、扩展和保护。这才是“数据采集即基础设施”的真正含义。 未来在于信息 > 规模 大多数 RAG 讨论都停留在模型层面。但如今正在兴起的 AI 栈,其模型可以互换,而数据基础设施才是长期的护城河。 摩尔定律或许已不复存在,但原始性能仍在稳步提升。但在不久的将来,我并不确信人工智能系统的性能将取决于微调或快速的魔法。我认为,最终的胜利将取决于你的系统掌握的知识以及它们获取知识的速度。最智能的人工智能系统并非拥有最大窗口的系统,而是拥有最佳上下文管理能力的系统——这得益于实时数据、动态内存和智能提取。 因此,作为工程师,我们不应将每一个新的数据源、反馈或实时数据流视为“内容”,而应将其视为能力。因此,每一个新的数据流也未必是噪音,而是信号。 也许你已经构建了这样一个关键的人工智能基础设施——只是你可能还没有这样称呼它。 也许你已经开始考虑将数据(例如 API)馈送到你自己的内部智能层,并且意识到:你不需要最大的模型。你只需要合适的管道。 拥有这种想法的团队,将网络规模的数据采集视为基础设施而不是一项次要任务,将会行动得更快、学到更多、用更少的费用获得成功。 来源(公众号):数据驱动智能
2025-08-07 15:27 142
围绕人工智能 (AI)和大模型语言模型 (LLM)的最初热潮已开始成熟。尽管基础的 LLM 本身正在迅速商品化,并通过API 和开源版本日益普及,但人工智能创新的步伐却远未放缓。相反,该行业的重点已急剧转向构建复杂的数据和人工智能解决方案,以提供可观的投资回报率 (ROI) 和切实的商业价值,并从单纯的实验转向战略实施。 企业最有防御力的竞争“护城河”在于其专有数据资产。 然而,这种战略优势在很大程度上取决于数据是否具有明显的高质量、可靠的一致性、丰富的上下文和严格的安全性。 数据固有的动态性意味着信息永远不会静止。随着数据流经复杂的工作流程,从源系统经过各种转换最终到达下游目标,这些关键数据管道的完整性和功能性可能会在其整个生命周期内反复显著下降。这种恶化通常源于多种因素,包括意外的上游数据模式变更、新字段的引入或底层业务逻辑的修改。至关重要的是,持续稳健地跟踪和管理这些变化,能够提供对数据整个沿袭和演变的深刻洞察。这种在单个数据管道和数据集层面保持的整体理解,对于确保持续的可靠性、实现有效的故障排除以及培养对下游分析产品的坚定信任至关重要。 本文探讨了全面的数据质量和可靠性框架应包含哪些内容,以及它如何使组织能够成功地进行分析。该框架强调了为什么如果不能及时全面地解决数据质量问题,数据和人工智能解决方案将无法满足企业的要求。 一 全面的数据质量和可靠性框架 数据质量是数据驱动决策成功的基石,因为决策结果的好坏取决于其所基于的数据。因此,确保数据的准确性、完整性、一致性、相关性、及时性和可访问性至关重要。全面的数据质量能够确保组织信任其使用的数据,从而做出更可靠、更有影响力的业务决策。 除了建立信任和可信度之外,有效的数据质量还能减少代价高昂的错误、错误的预测以及其他运营效率低下的问题。干净可靠的数据可以最大限度地减少返工,降低风险,并节省资源。 保持数据质量对于满足各行各业日益严格的监管标准和合规性要求至关重要。干净可靠的数据有助于避免法律处罚,并保护组织免受监管违规行为的侵害。 高质量的数据是探索新机遇、优化流程和推动创新的基础。正确捕捉和利用客户的偏好、行为和互动,还能提升客户满意度,从而提高客户忠诚度和客户粘性。换句话说,数据质量不仅仅是一项技术要求,更是业务的必要条件,是成功企业与失败企业之间真正的差异化因素。 但是数据团队能否确保他们充分处理数据质量和可靠性的各个方面?这需要一个如图1所示的综合框架。 图 1:结构化、全面的数据质量方法将带来可靠、可信的数据 这种集成方法利用元数据来确保用户能够获得实时、可信的洞察。一些供应商提供专注于特定领域的功能,但大多数企业寻求一套集成且全面的功能来全面管理端到端数据管道。这种方法统一了整个组织的数据管理实践,确保了一致性、准确性和可靠性。通过公开不同来源和系统的数据质量,可以建立统一的数据质量标准、策略和流程。当数据源分散在内部和外部时,孤立的团队往往会加剧数据质量问题。集成方法可以打破数据孤岛,鼓励各部门(例如 IT、数据管理、市场营销、财务)共同承担数据质量责任,从而促进跨部门协作。让我们检查一下每一层。 1.数据发现 数据发现是交付可靠数据和 AI 产品的首要基础要素,因为它能够全面概述所有可用的数据资产,包括其来源、格式、质量和关系。通过了解完整的数据格局,组织可以识别最符合其需求的数据,确保在数据和 AI 计划中仅使用准确、可靠和高质量的数据。了解现有数据及其当前状态有助于避免使用过时、不相关或错误的数据,从而避免损害数据和 AI 产品的质量。 随着组织越来越依赖数据来推动业务决策,发现、理解和有效利用数据的能力变得更加先进和重要。 数据发现曾经只是一个简单的数据源定位任务,如今已扩展为一个复杂的过程,它利用大型语言模型的强大功能来发现那些可能并不明显的关系。这些隐藏的模式和洞察有助于评估数据是否符合预期用途,并为后续的数据分析、编目、数据质量和可观察性步骤奠定基础。传统上,数据发现层连接结构化和非结构化数据源以及业务应用程序,以创建技术或操作元数据。在现代人工智能世界中,合成数据也应纳入数据发现的范围,因为这些人工生成的数据模仿了真实世界数据的特征,同时不会泄露任何实际用户信息或消除任何偏见。在许多情况下,真实世界的数据是不完整的,缺少构建稳健分析模型所需的关键记录或特征。合成数据可以通过创建代表性数据点来填补这些空白,确保数据集完整并可有效地用于分析或机器学习。 数据发现工具应该能够使用优化的原生连接器或开放标准(例如 ODBC/JDBC)以及 API(包括 RESTful 服务、SOAP 和 GraphQL)连接到数据源。原生连接器旨在始终满足高吞吐量、性能、安全性和可靠性需求,从而提高数据发现工作的效率。通常,连接器有助于实时提取数据源中新建或更新数据的元数据。这通过变更数据捕获 (CDC) 功能实现。 2.数据剖析 组织数据通常杂乱无章,存在诸多问题,例如质量问题(例如缺失值、重复数据、不一致数据)、缺乏理解以及跨不同数据源的集成挑战。因此,需要发现隐藏的关系并识别数据随时间的变化。这种透明度有助于优化数据处理工作流程,提高分析的可靠性,并有助于满足合规性要求。换句话说,如果没有这种清晰度,组织就有可能基于有缺陷的数据做出决策,从而导致效率低下和潜在的合规风险。 通过分析,组织可以清晰地了解其数据格局,确保数据准确、相关且易于理解。它可以帮助数据团队了解数据的特征,例如唯一性、基数、值范围和敏感度,从而丰富他们对所发现数据的认知。它涉及收集统计数据、元数据和其他数据信息,这些信息随后可用于数据管理、数据质量保证、法规遵从性和分析计划。 数据分析使用一套复杂的算法来评估各个维度的数据上下文和质量。此过程通常是自动化的,但应该根据组织的特定需求进行定制。这些需求可能涉及通过识别列之间的依赖关系和关系来合并来自不同来源的数据,或识别不必要的重复信息或高度相关的列,以优化数据并提高存储效率。其他需求可能涉及数据准备、异常检测、数据迁移、业务规则管理或降低因数据质量低下而导致的风险。 对源数据进行分析可能需要大量计算,并且可能会降低操作系统的运行速度。为了最大限度地降低源系统的负载,可以对用户定义的数据样本进行分析。另一种选择是使用 Apache Spark 等工具将数据提取到外部集群中。每种方案都有其自身的利弊,企业应该选择最符合自身需求的方案。 数据分析可以按需运行,也可以安排在特定时间间隔运行。此外,工作流有助于实现流程自动化。为了提高效率、可靠性和可扩展性,这些工作流应该能够与现成的编排引擎(例如 Apache Airflow)集成。自动化数据分析可以减少人工干预,最大限度地减少错误,并确保工作流程顺畅运行。 3.数据分类 数据一旦被分析,就必须被标记或分类为结构化格式,以改进数据管理、使用、治理和可用性。如果没有分类,数据可能会变得杂乱无章,从而给确保数据质量、保持合规性、保护敏感信息以及优化数据集成和分析带来挑战。未分类的数据可能会增加安全漏洞、违反法规和运营效率低下的风险,因为它会阻碍应用适当的控制和治理的能力。 数据分类标签充当元数据描述符,方便用户搜索、查找和访问相关数据,并根据数据的敏感性、用途和所有权对其进行分类。这些元数据可以为人工智能和机器学习模型提供上下文,从而减少幻觉。 创建标签或标记的分类过程也用于数据质量和可靠性框架的后期阶段,例如应用质量规则和访问策略。 机器学习算法再次用于自动创建标签,但现在大型语言模型 (LLM) 正被用于利用其对语义的理解,从而显著改进仅使用关键词和静态分类法的传统分类方法。例如,LLM 利用其对语言模式和上下文的理解,自动将文本分类到预定义的类别中,例如情绪分析(正面、负面、中性)。最后,LLM 还可用于对非结构化数据进行分类,例如电子邮件、聊天消息、社交媒体帖子和其他非传统数据格式。 为了确保数据分类的高标准,使用了两种测量方法: 精确度:衡量模型正向预测的准确度。更高的精确度表明分类相关且准确。高精度表示模型的误报率极低。如果出现误报,则会提交工单,请求数据所有者进行必要的补救。 召回率:衡量模型识别所有相关正实例的能力或其完整性。较高的召回率表明分类没有遗漏标记数据元素。 总之,自动分析和分类可以主动且经济有效地检测数据集中的异常、不一致和错误,并在潜在问题影响下游流程之前提醒数据工程师和管理员。 4.数据目录和语义层 组织数据通常彼此孤立,难以定位,记录不全,管理不一致,导致效率低下、错误百出和合规风险。用户难以找到正确的数据、理解其背景并信任其质量,这阻碍了数据驱动的决策和协作。 数据目录通过集中数据发现、加强数据治理和提升数据素养来解决这些问题,最终使整个组织能够更高效、更合规地使用数据。它帮助用户了解哪些数据可用、数据来源、如何使用以及数据的质量和治理状况。 元数据构成了数据目录的基础,它能够提供组织内数据资产的全面视图。在发现、分析和分类阶段生成的元数据存储在数据目录中,以便在决策过程中进行搜索和利用。目录中的元数据分为三种类型: (1)技术元数据 描述数据的技术方面,包括其结构、存储和处理细节,例如模式信息、列数据类型、数据分布直方图、索引等。 对于文件,数据目录显示数据格式,如 CSV、JSON 和 XML 等,如果未明确定义,则推断模式。 (2)操作元数据 关注数据的使用、性能和生命周期,例如所有权、数据保留策略、数据刷新计划频率和访问策略。 数据访问和安全策略信息有助于实施数据治理策略,以确保遵守法规(如 GDPR 或 CCPA),并提供数据使用、转换和共享方式的审计跟踪。 它还有助于可观察性和沿袭(稍后讨论),因为它包括使用情况统计数据(例如,访问频率、大多数查询表、最活跃的用户)和性能指标(例如,查询响应时间、系统负载)。 (3)业务元数据 为数据提供业务上下文,使其易于理解并与业务用户相关。该层也称为语义层,包含业务词汇表和术语(例如 KPI、指标、维度)、业务规则以及数据在业务流程中如何使用的上下文细节。 现在,借助 LLM 的功能,描述性和上下文相关的业务描述可以自动生成,并存储在数据目录中。这进一步简化了对元数据进行自然语言问答的功能。传统上,目录允许用户使用关键字进行搜索,但随着与 LLM 集成的出现,目录现在支持使用自然语言进行语义搜索。 业务术语表中的术语映射到底层技术元数据。领域专家可以定义更符合业务需求且直观易懂的术语,使其更贴近分析执行。该术语表还可以按层次结构组织术语,并提供变更审计日志,从而实现完全透明和历史记录。BPMN、OMG SBVR、对象角色建模、面向事实建模、RDF/OWL 和 SKOS 等多种标准可用于管理业务术语表,但这些标准不在本文档的讨论范围内。 近年来,数据目录的范围不断扩大,涵盖了所有类型的数据资产,包括数据产品、高级分析模型、报告、规则和 KPI 等。虽然数据目录最初是为了发现和搜索元数据而推出的,但现在它们正被用于开发新的资产。 例如,用户可以搜索某个数据产品,然后将其与其他资产组合,构建并发布新的数据产品。在这种情况下,数据目录就变成了一个提供可共享数据资产的市场。这些市场可能只是允许数据共享,也可能能够计算使用量并进行退款,从而实现数据货币化。这对于数据目录来说是一个激动人心的未来,因为它们将发展成为战略性产品,创造新的收入来源。 本质上,数据目录是数据生产者、工程师、数据消费者和业务利益相关者之间卓越的协作工作空间。用户可以对数据资产进行注释、评级和排序,让消费者能够轻松“选购”合适的产品并信赖它。数据合约是一个新兴概念,它定义了存储在数据目录中的数据资产的属性,以便消费者能够围绕其产品和服务构建服务级别协议 (SLA)。 总而言之,数据目录显著增强了释放各类数据和分析资产价值的能力,从而改善决策制定。数据已成为一种战略资产,它记录详实、元数据丰富、值得信赖且易于访问。通过提高数据利用率,企业可以提高效率、获得新的洞察并优化运营。 5.数据质量规则 数据质量是指确保数据集的准确性、一致性、完整性和可靠性,以便用于决策。对于任何旨在从数据资产中获取可操作见解并减少 LLM 幻觉的组织而言,高质量的数据都是基础。 传统上,数据质量评估是使用手动查询构建的自定义规则进行的。然而,随着数据的快速变化和新类型数据的不断涌现,手动流程因其动态特性而难以持续。这促使我们利用标准差和Z分数对已分析数据进行统计分析,以确定数据如何围绕均值聚集,从而识别异常值。随机森林尤其擅长识别已分析数据中某些数据集之间的潜在关系。编辑距离使用模糊匹配来检测潜在的重复项。其他机器学习算法可以进行调整,以精确定位数据值的频率,因为低频值可能表示异常。 这些机器学习算法有助于预测管道中的潜在故障或瓶颈,从而实现主动补救。它们会自动检测与预期模式的偏差,从而发出潜在的数据质量问题或管道故障信号。 6.数据可观测性 数据可观测性是指理解和监控数据管道健康状况的能力,确保数据从源头到目的地顺畅流动,且不会降低质量、可靠性或成本效益。随着企业数据运营规模的扩大,维护这些管道健康状况的可视性变得越来越复杂。因此,持续监控数据在管道中的流动情况,可以洞察每个阶段的异常、故障、性能下降、成本超支和准确性问题。 图 2 显示了数据可观察性工作流的关键组件,与不使用数据可观察性产品的情况相比,它有助于更快地识别和解决问题。 图 2. 数据可观测性工作流程 数据可观察性工作流程的各个组成部分包括: (1)监视 持续监控数据和元数据,能够在问题发生时立即发现模式和异常。组织应根据战略需求,确定关键数据元素和相关数据源的优先级,以保持有效的关注并减少不必要的警报。他们应监控数据漂移、数据量、质量、服务等级协议 (SLA) 和资源使用情况等关键指标,以确保全面监管。 (2)分析 数据和元数据分析有助于识别隐藏的模式、故障和异常,从而能够及时甚至主动地采取干预措施,防止下游影响。有效的可观测性工具能够动态检测偏差,优化资源使用,并持续重新训练模型,以保持系统的效率和准确性。 (3)警报 当大量细粒度警报生成时,响应人员会逐渐失去注意力。这种情况被称为“警报疲劳”。因此,数据可观测性工具必须能够智能地管理警报,并升级最关键的警报。 数据可观测性工具能够主动向团队发出异常警报,并通过根据正常范围智能调整阈值,以及对通知进行分类或自定义以减少不必要的通知,从而管理警报疲劳。这种方法有助于确保关键警报得到处理,从而提高管道的正常运行时间和问题解决速度。 (4)事件管理 事件管理支持根本原因分析,通过从源头而非下游解决问题来避免技术债务。此流程支持跨业务部门协作启动补救措施,从而提高整体系统可靠性。 异常修复通常需要手动操作,因为关键任务源系统可能有其自身严格的数据更新操作流程。通常,当数据质量或可靠性阈值被突破时,数据管理员团队会收到警报,然后根据通知的优先级采取必要的措施。 (5)反馈 数据可观测性中的反馈循环确保系统持续演进并满足 SLA。运营反馈(例如延迟或数据缺失)可推动即时改进,而业务反馈则通过增强数据质量检查和部署透明度来展示价值,从而促进采用。 人工智能正在进一步提升数据质量和可观测性。大语言模型 (LLM) 擅长理解语义,并使用欧氏距离寻找相似性。此外,如果副驾驶都能为我们编写功能齐全的代码,那么规则又何尝不可呢?我们的想法是利用人工智能推断隐藏的关系和上下文模式,从而自动检测、编写规则并应用它们。 数据可观测性功能可以精确定位源系统变更对下游系统的影响。此过程称为影响分析,依赖于对数据管道沿袭的理解。这是该框架的最后一步,我们将在下文中介绍。 7.血缘和影响分析 了解数据沿袭有助于组织追踪数据从源头到最终目的地的路径,提供对数据使用方式、准确性级别的洞察,并更容易识别和解决错误或不一致等问题。 血缘追踪并记录数据在组织内各个系统和流程中流动时的起源、移动和转换。它就像一张地图,显示数据的来源、处理或修改方式,以及最终的归宿。 其用例包括法规遵从性、数据质量管理或运营效率。因此,各种角色都会使用谱系输出。例如,非技术利益相关者了解数据流如何与业务运营、决策和报告要求保持一致。数据工程师收集技术栈内部流程的洞察,例如数据如何从原始输入转换为处理后的输出。数据科学家使用数据集和模型的谱系来管理可重复性、合规性和模型完整性。 将显示缩放图像 图 3:血统示例 在这个具有代表性的沿袭示例中,SQL Server 中的原始 CRM 数据经过提炼,并在云数据湖的消费区中可用。一个提供客户销售和客户流失洞察的 Tableau 工作簿正在消费此示例中的数据。数据质量得分 (89.8%) 也可在“客户产品销售”表中看到,并在 Tableau 项目中的消费区 (94.7) 中看到。 沿袭应该适用于任何物理层,例如模式和表,直至最低粒度级别(例如列),以便进行更精确的影响分析和调试。此外,沿袭还应包含资产之间的转换逻辑。这需要从 ETL/ELT、SQL 和 BI 工具中提取转换元数据。如果数据元素或转换发生变化,沿袭图应该能够清晰地理解其对上游和下游系统的影响。 为了帮助提高数据可靠性,可以将数据质量规则、维度、指标和分数叠加到谱系中,从而使业务用户能够识别相关质量控制的实施位置。 AI 可以使用相似的数据集自动推断和预测数据沿袭。这使组织能够快速识别数据来源,了解其旅程,并评估任何更改或错误(即使对于新数据集)的影响。通过简化这些复杂的流程,AI 有助于维护数据完整性,支持合规性工作,并通过提供对数据依赖关系和潜在风险的清晰洞察来增强决策能力。 目前,一个名为 Open Lineage 的新开放标准正处于测试阶段。一旦该标准正式发布,并被数据治理、ETL 和 BI 产品广泛接受,元数据的双向共享将变得更加便捷。 二 治理和政策管理 到目前为止,本文的重点一直集中在元数据的发现、分析、分类、存储和共享,以及创建衍生数据产品。但组织需要确保数据使用者遵守约定的使用和治理政策。治理和政策管理功能支持并将框架的所有其他部分紧密联系在一起。这些政策涉及定义、规则、指标、角色、职责、工作流程和流程: 数据政策:涉及分类、质量、使用/隐私、安全等 商业术语政策:词汇表、分类、指标等。 利益相关者管理政策:谁做什么,谁需要被通知等 流程政策:问题管理的流程是什么,政策、规则、指标的创建和批准的流程是什么 数据访问策略:确保数据消费者只能访问他们被授权查看的数据,以保护隐私、管理数据泄露风险并满足合规性准则。 组织出于各种原因执行策略,例如被遗忘权(技术上称为擦除权)、数据保留、访问控制和使用。数据治理平台充当跨所有底层技术平台管理安全策略的单一管理平台,从而确保一致性。 数据访问策略首先检测所有个人敏感数据在管道中的位置,然后根据安全、隐私、法律和合规性要求对其进行分类。这种可见性对于管理跨不同系统、应用程序和存储位置的数据流的数据隐私风险至关重要。它还可以检测是否存在冗余数据副本,以便引入流程,通过限制不必要的数据扩散来减少攻击面。数据最小化的概念已被许多合规法规(例如欧盟《通用数据保护条例》(GDPR))所强制执行。其他具有具体指导方针的常见法规包括 PCI DSS 4.0、加州消费者隐私法案 (CCPA) 和健康保险流通与责任法案 (HIPAA) 等。对这些法规的讨论超出了本文档的范围。 接下来是策略管理阶段,首先定义并执行访问和使用策略。组织应根据数据的敏感性和关键性确定保护措施的优先级,确保针对已确定的用例,优先保护风险最高的数据。 理想情况下,策略可以使用下拉选项以自然语言编写,因为管理员并不总是擅长使用 SQL 或 Python 等语言编写复杂的逻辑。数据可观测性工具将策略应用于在分类阶段创建并由相应所有者验证的相关标签。例如,如果社保号码被标记为敏感信息,则策略可能会规定,对于大多数数据消费者,除最后四位数字外,该数据应进行加密、标记化或编辑。 数据目录充当定义、管理和执行数据治理策略的中央存储库,而底层系统则负责处理这些策略的执行。这些系统可能位于本地,也可能跨不同的云提供商。访问策略的执行采用了基于角色的访问控制 (RBAC)、基于属性的访问控制 (ABAC)、屏蔽、标记化、匿名化、假名化以及其他各种较新的方法,例如差异噪声。这些方法用于遵守各种安全和合规性法规,尤其适用于个人身份信息 (PPI)、支付卡信息 (PCI) 和受保护的健康信息 (PHI) 等敏感数据。 在数据质量和可靠性框架的这一部分,重点主要放在保护数据资产上,但安全领域要广泛得多。它包括多因素身份验证 (MFA)、防火墙、入侵检测和防御系统 (IDPS)、防病毒软件、端点检测和响应 (EDR)、数据丢失防护 (DLP) 以及安全信息和事件管理 (SIEM) 等。这些用于监视和控制用户、网络流量和设备。 三 小结 那么,为什么良好治理(包括质量、可靠性、访问控制、血统、可观察性、语义层等)的需求比以往任何时候都更加重要? 因为比以往任何时候都有更多的人访问更多数据,用于更多业务用例。如果没有可信可靠的数据用于人工智能和分析,结果将会很糟糕,时间和金钱将会浪费,企业领导层也会对人工智能和分析失去热情和信心。结构化、全面的数据管理方法将使您的组织能够提供人工智能和分析成功所需的高质量、可靠的数据。 一些规范的方法可以加速人工智能和分析的开发和部署,并提高解决方案的准确性和性能。 提高数据质量透明度:通过提供对人工智能开发和运营数据质量不同维度(例如准确性、完整性和一致性)的可见性,数据质量透明度可降低人工智能应用中出现错误、偏差和不可靠输出的风险。 实现检索增强生成:通过访问可信可靠的数据,确保生成式人工智能模型输出的准确性。这种方法可以消除幻觉,并实现对生成式人工智能输出的事实核查和验证。 建立对AI输出的信任:通过提供对数据管道、数据处理方式以及AI系统实时行为的可视性,让客户、员工和监管机构确信AI输出在规定的操作范围内,并符合预期标准。 要想让您的组织走在运用人工智能和分析技术改善业务成果的前沿,就需要立即采取行动,利用可信可靠的数据为人工智能和分析引擎提供动力。使用高质量的数据来训练和增强您的人工智能模型,能够带来高质量的模型输出和更佳的业务成果。 来源(公众号):数据驱动智能
2025-08-05 10:40 183
2025 年 7 月 30 日, 龙石数据自主研发的 “AI 智能用数平台 V1.0”在2025人工智能产品应用博览会上正式亮相。这一创新性平台的发布,不仅是数据应用工具的一次重大升级,更标志着龙石数据在数据要素智能化应用领域迈出了关键一步,为推动行业数字经济高质量发展、数字中国建设注入了新动能。 龙石数据总经理兼创始人 练海荣 龙石数据 AI 智能用数平台 V1.0,创新性地运用数据中台的建设成果,结合大语言模型(如 DeepSeek 等)技术,用户仅需一句话即可完成自助式、智能化的实时数据查询、分析与可视化呈现,准确率达100%。 该平台首创元数据增强技术,依托用数知识库攻克数据识别难题,以可视化方式向用户呈现数据查询结果,大幅降低了数据使用人员的时间成本。AI 智能用数不仅是用数工具的升级,更推动了数据应用从 “传统人工” 向 “AI驱动” 的范式变革。 AI智能用数平台 V1.0 截图 在发布会上,龙石数据总经理练海荣分享了平台的技术测试报告。测试基于某大型招聘平台的SQL能力测试题库展开,结果显示:在基础查询任务中准确率达100%,在复杂分析场景中也表现优异,平台已具备互联网大厂工程师相当的数据处理能力。 目前,龙石数据已将 AI 智能用数平台与各行业数字化转型需求深度结合,打造了覆盖政务、营销、制造、热力、燃气等多个领域的场景化解决方案,通过标准化数据治理流程与智能化分析工具的有机结合,助力各类组织提升数字化转型效率,为 AI 技术与数据要素融合创新提供了可复制、可推广的实践范本。 此次龙石数据 AI 智能用数平台 V1.0 的发布,不仅彰显了龙石数据在人工智能与数据应用融合领域的创新实力,更对推动各行业数字化转型、促进数字经济与实体经济深度融合具有重要意义。
2025-08-01 15:43 369
热门文章