文 | 清华大学电子工程系信息系统研究所副所长 王钺 2025年1月,国家发展改革委、国家数据局等6部门联合印发《关于完善数据流通安全治理 更好促进数据要素市场化价值化的实施方案》(以下简称《方案》),旨在统筹数据发展和安全的内在要求,完善数据流通安全治理机制,以推动数据要素合规高效流通。《方案》针对企业数据、公共数据、个人数据三种典型的数据流通与应用场景,梳理了安全问题,明确了安全责任、细化了安全规则,并强调通过制度、技术、市场的协同,最大化安全治理的效能。 落实《方案》任务,国家数据局组织遴选了数据流通安全治理典型案例,以具体的案例为切口,详细分析场景中数据流通的安全风险和合规问题,凝聚业务实践过程中形成的共识,规范实践行为,细化安全规则。 一、以小切口破题,细化数据流通安全规则 《基于金融业跨银行企业资金流水核验场景的安全多方计算技术应用案例》(以下简称《案例》)涉及金融行业内跨机构的数据流通安全问题。为提升金融风险管理水平,建立起银行间高效合规的数据交互与协同机制具有重要的意义。但金融行业业务复杂,数据敏感性高,监管要求严,建立金融行业数据共享生态面临巨大挑战。《案例》从贷款申请时跨银行的资金流水核验这一小场景切入,尝试打通银行之间的数据壁垒,推动数据在银行间的安全流动。 小切口破题是推动数据流通安全治理工作的要点。《案例》依据业务需求,将跨主体的数据查询简化成为数据核验服务,这种简化带来了两方面的好处:首先,核验由申请贷款的对公客户发起,查询银行与客户签署了信息查询使用授权书、客户借款合同等文件,这些明确的授权操作,保障了数据使用的合规;其次,核验服务只需返回一致与否的简单结果,可以避免复杂明文查询信息的交互,降低敏感信息直接流通的风险,更便于引入隐私计算等技术手段保护数据主体的权益。场景和问题聚焦之后,才能够进一步从安全技术、制度保障等方面细化落实数据流通安全治理的具体操作。 引入上述跨行核验服务后,对公客户申请贷款时,不再需要客户往返于银行间办理各种证明材料,而是转为委托贷款申请的受理银行进行跨行的资金流水核验,简化了贷款申请的流程,同时也丰富了银行识别、监测客户真实经营活动的方式和手段。跨主体的数据流通和交互,即便只是最简单的数据核验,也切实地体现出了数据的价值。 二、以技术为手段,提高数据流通安全保障能力 聚焦于跨主体的数据核验服务,需要细化具体的安全规则和技术要求。《案例》以具体的数据流通技术手段细化落实了国家、行业数据安全管理要求。《案例》采用安全多方计算技术实现银行间最小必要的数据交互。一方面,被查询银行不知道查询的是哪个主体、哪笔流水;另一方面,所有核验计算均在密态下进行,确保被查询银行对外提供的是密文计算的比对结果,而非原始敏感数据。最终实现银行间的数据安全交互。 更进一步,《案例》对数据流通的技术要求进行了细化。要求查询银行与被查询银行按照统一标准对资金流水数据进行预处理,按照统一标准部署安全多方计算节点,按照统一的协议进行加密和安全传输。同时,为保障数据保密性、完整性、可用性,还要求系统建设与应用单位从架构安全、传输安全、算法安全、系统安全等方面依据《金融业数据能力建设指引》(JR/T 0218-2021)等要求开展技术安全性评估。 三、以制度为核心,加强数据流通安全治理 近年来,商业银行不断提升自身数据治理水平,通过内控管理和风险管理的细化,提升整体合规管理的效能。数据流通安全治理不仅仅关系到安全技术的应用、安全平台的建设,还必须配套相关的安全管理制度,控制业务合规风险,确保数据流通全过程的安全可控。实践中,经常存在对数据流通安全治理复杂性低估的问题,认为只要运用了隐私计算等安全技术,实现了“原始数据不出域、数据可用不可见”,就实现了数据流通的安全合规。事实上,在安全治理过程中,还需要技术体系建设与制度建设深度融合,用技术控制风险、用制度推动合规。 《案例》中,与系统建设相配套,增加了以下管控措施:一是开展技术安全性评估,从架构安全、传输安全、算法安全、系统安全等方面对安全技术和系统进行评估,出具“基于隐私保护计算技术的他行资金流水核验服务”技术安全性评估报告;二是开展业务合法合规性评估,由系统应用单位出具合法合规性评估报告;三是建立风险补偿机制,制定了风险补偿方案,明确风险认定方式、制订风险赔付机制;四是明确退出机制,确保一旦发生安全事件,银行可根据多方签署的相关协议中约定的期限,在保障用户资金和信息安全的前提下,进行系统平稳退出。这一系列措施的细化落实,强化了《案例》场景中的风险管控能力。 来源(公众号):北京数据
传统的数据应用场景中,业务人员想要获取数据,尤其是想要获取一些加工后的数据,往往需要掌握复杂的SQL语法或依赖IT部门进行数据查询;这种模式不仅门槛高、周期长,还严重制约了数据价值的快速释放。 本次V3.8.2版本推出的 AI 用数智能体,旨在通过自然语言交互,让业务人员像与同事对话一样轻松获取数据洞察,实现“即问即得、即见即用”的智能化数据服务体验。 一、自然语言交互,数据查询大提速 1 零门槛数据查询,自然语言实现数据洞察 用户只需用自然语言描述数据需求(如"查询2024年各地区的生产总值"、"分析本季度销售趋势"等),AI用数智能体即可自动理解用户意图,将自然语言转换为标准SQL查询语句,调用数据仓库获取查询结果。 系统支持多轮对话,帮助用户逐步细化需求,精准定位所需数据,告别复杂的SQL编写和漫长的需求排期。 二、多样化数据展示 针对数据查询的返回结果,系统自动选择最适合的图表类型来展示数据。(饼图适合展示占比关系,柱状图适合对比不同维度的数据,折线图适合展示趋势变化) 同时,系统会对原始数据进行格式化处理,包括汇总、排序等,并用自然语言封装查询结果,以直观、可理解的方式为用户提供数据洞察。 三、知识库持续优化,更懂你的业务 1 元数据增强技术 在现有数据仓库与元数据库基础上,通过元数据增强技术补充业务术语、数据关联等业务属性,帮助 AI 用数智能体精准理解业务场景,避免因技术与业务语言差异导致的需求误解。 2 智能体微调 系统将用户操作中的负反馈样本纳入知识库,结合 prompt 技术、示例提示、多轮提示优化等手段,不断迭代优化模型提示策略,持续提升 AI 对复杂业务需求的理解能力与响应精准度。 四、构建AI问数智能体运营体系,准确率直逼100% 为保障数据查询的准确性,平台构建了一套完整的 AI 问数智能体运营体系。 当用户对查询结果存疑时,可随时提交工单反馈,技术部门将及时跟进补充数据或微调 AI 模型,并快速向用户反馈处理结果,形成 “用户反馈 - 模型优化 - 效果提升” 的持续迭代闭环。 运营体系的构建,推动AI用数准确率从95%向100%无限接近,每一次用户反馈都会让AI用数智能体变得越来越懂业务,越来越精准。 AI用数智能体的出现,让数据查询从技术门槛变成了业务能力。 业务人员不再需要学习复杂的技术,就能快速获取数据洞察,真正实现了"让数据为业务服务"的理念。无论是日常的业务监控,还是临时的数据分析需求,AI用数智能体都能快速响应,让数据价值得到最大化的释放。
“数据架构”这个词,搞数据的同行们天天都在说。 但你真的能一句话讲清楚它到底是啥、为啥那么重要、又该怎么设计吗? 是不是一提到它,脑子里就蹦出来一堆技术名词和分层模型,比如 ODS、DWD、DWS、ADS? 打住!数据架构可远不只是技术的堆砌。 今天,我就抛开那些模糊的概念和花哨的术语,用大白话手把手拆解数据架构的核心逻辑—— 数据架构到底是什么? 为什么需要数据架构?它有什么作用? 该怎么设计数据架构才能真正帮到业务? 读完这篇,保证你能把数据架构讲得明明白白! 一、数据架构到底是什么 很多人一提到数据架构,第一反应就是: "不就是数据分层吗?ODS→DWD→DWS→ADS,再套个Lambda架构或者Kappa架构?" 这种想法: 把数据架构弄窄了,当成了技术组件的排列组合,却忘了它的本质是连接业务目标和技术实现的"数字骨架"。 说个实际点的例子: 一家连锁超市想搞"千店千面"的选品策略,需要的数据可能来自: POS系统(实时销量) 会员系统(消费偏好) 天气平台(区域气温) 供应链(库存周转) 这些数据得先预处理: 最后才能给到前端APP的选品推荐模块。 支撑这个流程的,不是单一的数据库或ETL工具,而是一整套逻辑: 数据从哪来(多源异构数据的接入标准得明确); 存什么、怎么存(哪些进数据湖、哪些进数据仓、哪些放实时缓存里); 如何加工(批量处理和实时计算的边界得划清); 怎么用(API接口的权限要控制,业务人员得能自己取数); 如何管(数据质量谁负责、元数据怎么追踪、血缘关系怎么监控)。 这些问题的答案,合在一起才是数据架构的核心。 所以说: 数据架构不是一成不变的技术蓝图,是跟着业务目标、数据规模、技术发展随时调整的"活系统"。它得跟着企业的实际情况动,不是建完就万事大吉了。 二、数据架构设计的四个关键维度 明白了数据架构的本质,接下来就得解决"怎么设计"的问题。 传统方法常把数据架构分成"采集-存储-处理-服务-治理"五层,但这么分容易让人钻进"技术至上"的牛角尖。 我从实战里总结出四个关键维度,能覆盖从业务需求到落地的全流程。 1. 责任分明的分层设计 数据分层包括: ODS原始层 DWD明细层 DWS汇总层 ADS应用层 本质是通过分层降低复杂度,把各层的责任边界划清楚。 但很多企业在分层设计上容易出两个问题: 分层太细:比如把DWD层再拆成"基础明细层""公共明细层",结果ETL任务链变得老长,调试起来费时又费力; 分层混乱:业务人员直接从ODS层取数,跳过明细层和汇总层,导致重复计算,而且数据口径也对不上。 说白了,正确的分层逻辑应该是"按使用场景划分责任主体": 所以说: 分层的关键不在技术实现,而在通过责任分离减少跨团队协作成本。 2. 最合适的技术选型 数据架构的技术选型是很多人头疼的事,比如: 用Hive还是Spark处理离线数据 用ClickHouse还是Doris做实时查询 但实话实说,没有哪种技术能解决所有场景的需求。 我总结了三条选型原则,你可以参考: 匹配数据特征:如果数据是高并发、低延迟的(比如APP实时点击流),用Kafka+Flink做流处理更合适;如果是T+1的批量数据(比如财务报表),用Spark+Hive会更稳定; 考虑团队能力:如果团队熟悉SQL生态,优先选Hudi/Delta Lake这类支持ACID的事务湖,别硬上ClickHouse集群,不然维护起来费劲; 预留扩展空间:别过度依赖单一技术(比如全用HBase),可以通过湖仓一体(比如Apache Iceberg)实现"一份数据多场景用",降低被单一技术绑定的风险。 3. 全流程嵌入的治理体系 数据治理常被误会成"贴标签、建元数据、做质量检查"。 但实际上: 60%的数据问题都是因为治理体系没嵌到数据处理的全流程里。 真正有用的治理,得包含三个关键动作: 4. 支撑业务的演进路径 数据架构不是一锤子买卖,得跟着业务发展慢慢演进。 我观察到三种典型的演进阶段,你可以看看自己的团队在哪个阶段: 生存期(0-3年):业务扩张快,数据需求零散。这时候架构的核心是"快速支撑",允许一定冗余,但得留着数据打通的可能; 发展期(3-5年):业务进入稳定期,数据问题集中爆发。这时候得"集中治理",通过湖仓一体平台把分散的数据整合起来,建立全局的数据标准和治理体系; 成熟期(5年以上):数据成了核心生产要素,得"智能驱动"。这时候架构要能支持AI能力,还得通过数据产品化,让业务人员用起来更方便。 三、数据架构的三个常见误区 在数据架构设计上,我见过太多"用力太猛"或"因小失大"的情况。下面这三个常见误区,你可得避开: 1. 别为了"技术先进"丢了"业务价值" 很多企业盲目追新技术,刚接触数据湖就想把数据仓全迁过去,或者为了搞实时计算,把所有ETL都改成流处理,结果开发成本涨了一大截,业务人员却用不起来。 但实际上: 技术的价值是解决业务问题,不是用来证明自己多厉害。 如果: 一个业务的日数据量只有100GB,用Hive做批量处理比用Flink做实时计算更稳定、更省钱,没必要非得用新技术。 2. 别把"数据治理"做成"面子工程" 有些企业花大价钱买元数据管理工具,做了漂亮的血缘图谱,可数据质量问题还是不断。 问题出在哪? 治理没和业务流程绑在一起。比如: 用户信息修改,得经过数据质量校验才能入库,不能等数据进了湖再清洗。 所以说: 治理得"往前放",别等出了问题再补,那时候就晚了。 3. 别追求"完美架构",忘了"动态调整" 数据架构没有"最优解",只有"最适合当前阶段的解"。 之前找我咨询的一家零售企业: 在业务扩张期,非要搞**"大一统"的数据架构**,要求所有业务线用统一的标签体系。 结果呢? 生鲜事业部的"促销敏感用户"标签和美妆事业部的"复购周期"标签合不到一起,反而拖慢了业务创新。 所以说: 好的架构得允许"局部最优",慢慢再整合,一口吃不成胖子。 总结 数据架构不是技术的堆砌,是业务的翻译官——把业务目标变成数据需求,再把数据价值变成业务成果。 下次你再为数据架构头疼时,不妨问问自己: 这套架构真的支撑了当前最核心的业务目标吗? 数据从产生到使用的每个环节,责任都清楚吗? 业务需求变了,架构能快速调整吗? 想清楚这三个问题,你离"把数据架构讲清楚"就不远了。 来源(公众号):五分钟学大数据
“哥,Doris 4.0 把 AI 塞进数据库了!” 凌晨一点,DBA老周在群里甩出这句话,附带一张截图:一条 SQL 直接调通简历筛选,把 30 万份数据 3 秒跑完。 我盯着屏幕,咖啡差点洒键盘——这年头,连数据库都开始抢 HR 的饭碗?
在数字化浪潮席卷的当下,数据已成为企业核心资产,但“沉睡”的数据难以创造价值。如何打破数据孤岛、提升数据质量、挖掘数据潜能?数据治理正是关键钥匙!它通过构建流通底座、强化质量管控、驱动智能决策等举措,让数据真正“跑起来”。 接下来,让我们深入探讨数据治理如何助力企业实现价值跃升!具体可从以下五个层面展开分析: 一、打破数据孤岛:构建流通与共享的“数据高速公路” 技术整合 通过数据集成平台、数据湖等技术,实现多源异构数据的统一采集与存储。例如,某市卫计委构建区域医疗健康大数据平台,整合医院、社区、第三方机构的数据,打破信息壁垒,使患者病历、检查报告等数据跨机构流通,提升诊疗效率。 组织协作 设立数据治理委员会或跨部门团队,明确数据所有权与管理责任。例如,某企业建立公司级数据管理部,统一信息架构与数据标准,推动业务数据分类存储与快速调用,实现全球100多个国家和地区的业务协同。 共享机制 构建数据共享平台,支持多协议、扩展性强的数据交换。例如,某制造企业与上游供应商打通系统,同步生产计划与供应规划,供应商根据共享数据调整生产与配送计划,实现上下游高效协同。 二、提升数据质量:筑牢数据价值的“基石” 标准化管理 制定统一的数据标准(如命名规范、编码规则、业务术语),确保数据一致性。例如,某地产企业通过建立“楼盘字典”,人工采集与录入房源数据,解决行业“假房源”问题,为后续服务提供可靠基础。 质量监控 建立数据质量评估机制,定期清洗、校验数据。例如,某银行采集客户身份、贷款额度等数据,构建信用评分模型,自动预测违约风险,减少潜在损失。 全生命周期管理 从数据采集、存储、处理到退役,实施全流程管控。例如,某区政府数据共享交换平台制定数据保留期限与处置方式,确保数据安全退役,降低存储成本。 三、强化数据安全与合规:构建数据流通的“防护网” 技术防护 采用数据加密、访问控制、脱敏等技术,保障数据传输与存储安全。例如,企业通过数据分级授权,限制敏感数据访问权限,防止泄露。 合规管理 遵守GDPR、CCPA等法规,建立数据安全政策与审计机制。例如,某企业在全球化扩张中,严格遵守各国数据安全法规,避免法律风险。 风险控制 基于知识图谱构建风险分析服务,如360°客户画像、企业关系图谱,实现供应链与投融资的风险预警。例如,某企业通过分析食品来源与成分数据,管理公共领域风险。 四、驱动数智决策:让数据成为业务的“指南针” 数据分析与挖掘 利用大数据、人工智能等技术,发现数据深层价值。例如,某企业融合外部行业趋势数据与内部产品反馈数据,洞察客户需求,优化新品研发。 智能化应用 构建智能决策系统,如搜索引擎、问答系统,提升决策效率。例如,知识图谱结合自然语言识别技术,支持企业快速查询与分析数据。 业务场景赋能 将数据应用于具体业务场景,如医疗健康、金融风控、智能制造。例如,基层医疗机构通过分析社区老年人健康数据,推进医防融合,提升服务质量。 五、培育数据文化:营造数据驱动的“生态圈” 领导力推动 高层领导以身作则,推动数据文化普及。例如,企业管理层通过数据了解业务全貌,降低决策偏离风险。 绩效考核 建立数据治理考核机制,激励员工参与。例如,将数据质量指标纳入部门KPI,推动跨部门协作。 培训与宣传 通过内部培训、研讨会等方式,提升全员数据素养。例如,鼓励员工学习DAMA-CDGA/CDGP认证,培养数据治理专业人才。 来源(公众号):数据治理研究院
结论很简单:场景驱动、路径正确,中台就有价值;否则,就是负担。
习近平总书记强调,要密切关注天气变化,加强监测研判,及时发布预警预报信息。气象数据作为国家战略性、基础性资源,是推进气象科技能力现代化和社会服务现代化的重要支撑。为充分释放气象数据要素价值、培育发展新质生产力,亟须创新更多可转化的应用场景。2023年,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》,明确提出“数据要素×气象服务”重点行动。2024年,中国气象局印发《“气象数据要素×”三年实施方案(2024—2026年)》,推动气象数据要素发挥乘数效应,赋能经济社会高质量发展。2025年“数据要素×”大赛气象服务赛道旨在加快气象数据要素与应用场景深度融合,通过利用气象信息和相关技术,增强风险应对能力,提升气象服务能力和效益,更好赋能经济社会高质量发展。 一、提升气象防灾减灾能力 通过气象数据与自然资源、交通运输、农业农村、住建、水利等数据深度融合,强化气象灾害风险预报预警产品精细化水平,支撑基础设施安全底线,提升城市运行的智慧化、韧性化水平,为新型城镇化提供坚实保障。 一是提升气象灾害预警能力。围绕实施新型城镇化战略,融入城市智慧高效治理新体系,聚焦城市内涝、农业旱涝、地质灾害等特定场景,通过数据协同挖掘灾害链关联规律,创新动态风险评估、预警信息精准推送或应急决策支撑技术,提升灾害防控的时空精细化与智能化水平,助力基础设施协同规划与高效运行。 二是加强重大工程等气候适应能力。强化重大工程、基础设施全周期气象服务,重点突破极端天气事件下的多源数据实时融合、关键基础设施脆弱性动态评估、灾害链式传播模拟等关键技术,开发场景化、定制化、精准化的预警产品及决策支撑工具,为城市安全运行提供“监测-预警-处置-评估-后处理”全链条解决方案,从规划、建设到运行全程赋能安全保障。 三是聚焦多灾种早期预警能力建设。针对城市安全韧性提升,重点突破极端气候事件下的城市规划脆弱性诊断、重大工程气候适应性优化设计、建设运维全周期气象风险预警等关键技术,构建具有时空精细化特征的“气象-规划-工程”协同决策平台,增强极端天气下城市生命线工程的抗风险能力。 二、提升气象赋能行业能力 围绕低空经济、能源气象及高价值数据产品,构建协同气象数据要素市场化配置机制。 一是护航低空经济赛道。融入低空经济基础设施与监管平台建设,构建空地一体的气象监测网、数据网和服务网。重点突破低空气象精准预报、飞行航线合理规划、极端天气风险预警等关键技术,通过精准监测、实时数据传输和定制化服务,为低空飞行器导航、空域管理、应急救援等提供支撑,推动低空物流、航空旅游等新业态安全发展,助力低空经济成为新质生产力增长极。 二是创新数据服务新业态。围绕新型电力系统构建能源气象服务体系,摸清风电、光伏资源底数,建立覆盖能源生产、输送、储存全链条的气象保障机制。开发风能太阳能资源评估、风能太阳能发电精细化气象服务、电力设施安全气象服务等创新应用,辅助电力调度优化,提升能源供应稳定性。同时,融入冰雪经济、银发经济,与景区、康养机构等经营主体联合,打造旅游、健康气象数据服务新业态。 三是释放气象数据要素价值。深入挖掘气象数据要素价值,推进气象数据要素市场化配置改革,健全产权保护、交易流通等机制,加强标准化数据集供给,探索建立可信数据空间、数据交易中心与授权运营平台,培育数商模式,推动数据赋能金融、农业等行业,通过数据流通与创新应用,释放气象数据高价值,激发产业发展新动能。 三、提升应对气候变化能力 从识别、防范到金融支撑,构建气候风险全链条应对体系,赋能生态文明建设与行业高质量发展。 一是加强风险识别能力。通过整合气象与其他领域数据,运用大数据分析与机器学习算法,健全气候承载力、影响与风险评估体系,完善数据技术标准。加强重点区域风险识别,精准评估极端天气、生态退化等风险,为风险防控提供科学依据。 二是提升气候风险防范能力。建立气候安全评估和早期预警系统,构建综合评估模型,完善实时、精准的风险预警与决策机制,并借助数据融合,创新风险转移机制。强化极端天气气候事件的监测预警,提升重点行业、生态区域风险应对能力,降低气候风险对经济社会的影响。 三是创新金融气象数据产品。研发气候投融资金融工具,将气候风险纳入投融资评估,完善巨灾保险等机制。开发精细化天气指数保险产品及天气衍生品,通过金融气象指数应用,引导资本投向气候适应项目,形成风险管控与资金保障联动机制,助力有效管控气候风险。 作者:张志富 国家气象信息中心正高级工程师 来源(公众号):北京数据
来源(公众号):大数据AI 智能圈 上周在一个技术交流会上,听到两位技术总监争得面红耳赤。一位坚持说RAG就够了,简单高效还省钱;另一位则认为不微调根本做不出专业应用。 这场争论让我想起很多企业在落地AI项目时的迷茫:到底该选哪条路? 其实这个问题本身就暴露了一个认知误区。 RAG和微调从来不是二选一的单选题,而是要看你想解决什么问题。就像医生开药,头疼和胃疼用的方子能一样吗? 先搞清楚它们到底在干什么 有个做金融科技的朋友跟我抱怨,他们公司花了大价钱微调了一个模型,结果每次监管政策更新,就得重新训练一遍。 两个月后他们改用RAG方案,新政策直接扔进知识库,第二天就能用。 这个案例很典型。RAG的工作原理说白了就是给模型配了个外挂搜索引擎。用户问问题时,系统先去向量数据库里找相关文档,然后把找到的内容和问题一起给模型,让它基于这些材料回答。整个过程模型本身一个参数都没变。 这种方式最大的优势是灵活。 我见过一家电商公司,产品库每天更新几百个SKU,用RAG做的客服系统,新品上架五分钟后就能准确回答用户咨询。换成微调的话,这种频率根本扛不住。 再说微调。它是真的在改造模型的内在能力。通过大量标注数据训练,让模型把特定领域的知识和思维方式刻进参数里。这就像是让一个人真正学会一门手艺,而不是拿着说明书照着做。 我认识一位做医疗AI的架构师,他们给诊断助手做微调时,不只是灌医学知识,更重要的是训练模型学会医生的临床思维。 比如看到某几个症状组合,会自动往特定方向追问,这种推理模式是RAG做不到的。 成本上也有意思。RAG前期投入小,搭个系统可能一周就能跑起来。但它是个长期消耗品,每次查询都要调用检索和生成,访问量大了账单也不少。 微调恰好相反,前期需要GPU资源和数据标注的重投入,但训练完成后推理成本相对固定。有家做ToB产品的公司算过账,用户量超过五万后,微调方案反而更经济。 场景才是决定技术的关键 前段时间帮一家制造企业做技术选型咨询。 他们有两个需求:一是建立设备维修知识库,二是优化生产调度算法建议。 我直接建议第一个用RAG,第二个必须微调。 为什么? 维修知识库的特点是内容多、更新快、需要溯源。老师傅的维修笔记、设备厂商的最新手册、历史故障案例,这些资料每周都在增加。用RAG的话,技术人员上传文档后立刻就能被检索到。而且系统可以明确告诉维修工,这个方案来自哪份文档的第几页,增强可信度。 但生产调度就不一样了。它需要的不是查资料,而是理解生产线的复杂约束,学会平衡效率、成本、交期的权衡逻辑。这种深层次的业务理解,必须通过微调把历史调度数据的规律固化到模型里。 RAG只能告诉你文档里写了什么,微调才能让模型真正学会怎么做决策。 法律行业也有类似的分化。 智能检索用RAG没问题,输入案情关键词,系统从海量判例库里找出相关案件。但如果要做诉讼策略建议,就得微调。因为优秀律师的价值不在于记住多少法条,而在于理解案件的细微差别,预判法官的思路,这需要模型具备真正的专业判断力。 代码生成领域更明显。GitHub Copilot早期版本主要靠预训练模型,效果一般。后来针对各种编程语言和框架做了大量微调,生成代码的质量才有了质的飞跃。它学会了不同语言的惯用写法,理解了项目结构的最佳实践。这种能力是通过RAG检索代码片段拼凑不出来的。 我观察到一个趋势:很多成熟团队在走混合路线。 先微调一个具备领域基础能力的模型,再用RAG补充实时知识。有家做智能投顾的公司就是这么干的,用微调让模型学会金融分析的基本功,用RAG接入最新的市场资讯和研报。两者配合,既专业又及时。 落地时的真实挑战 理论说得再漂亮,落地时总会遇到各种坑。 一位做过多个项目的技术负责人跟我分享了他的踩坑经历: RAG最大的问题是召回质量。 他们做企业知识库时发现,同一个问题换个问法,检索出来的文档可能完全不同。 后来花了大力气优化向量模型和切片策略,才把准确率提上去。 还有个容易忽视的点是知识库的维护成本,文档格式五花八门,清洗和结构化处理比想象中麻烦。 微调的坑更隐蔽。 数据质量直接决定效果,但高质量标注数据往往非常稀缺。 他们给客服机器人做微调时,发现真正有价值的对话案例可能只占总量的百分之十。而且微调容易过拟合,在训练集上表现完美,一到真实场景就翻车。需要反复调整数据配比和训练策略。 还有个现实问题是团队能力。 RAG对工程能力要求高,需要搞定向量数据库、检索优化、Prompt工程这一套。微调则需要懂算法调优、数据工程、模型评估的人。很多中小企业其实两方面的人才都缺,这时候可能先用商业化的RAG方案起步更靠谱。 结语 回到开头那个争论。两位技术总监其实都没错,只是站在各自业务场景的角度得出了不同结论。 RAG的灵活性和微调的专业性,本质上服务于不同层次的需求。 如果你的核心痛点是知识频繁更新、需要溯源、预算有限,RAG是更合理的选择。如果你要打造深度行业能力、追求极致性能、用户量足够支撑成本,微调值得投入。 更多时候,聪明的做法是混合使用,让两种技术各自发挥所长。 技术选型没有银弹。重要的是搞清楚业务本质需求,评估团队能力边界,算清楚长期账本。那些真正把AI用起来的企业,都是在这些务实维度上做对了决策。工具再好,用错了场景也是浪费。 用对了,才能真正释放价值。
让数据变成看得见、管得住、用得好的资产。
数智时代,数据已成为推动科技进步和产业发展的关键要素。2024年10月,国家数据局局长刘烈宏在《人民日报》上刊文指出,充分发挥数据的基础资源作用和创新引擎作用,有利于带动各类生产要素创新性配置,促进各类先进生产要素向发展新质生产力集聚,提升全要素生产率,为发展新质生产力开辟新空间。要加快构建自立自强的数字技术创新体系,依托数据驱动科技创新,持续增强科技实力和创新能力,深化科技与产业融合,推动产业创新。2025年“数据要素×”大赛科技创新赛道紧扣“科学数据赋能科技及产业发展”核心目标,设置一系列极具前瞻性与现实意义的赛题,为行业发展指引新方向。 一、鼓励科学数据汇聚共享:筑牢协同服务网络基石 科学数据是国家科技创新发展和经济社会发展的重要基础性战略资源,科学数据的汇聚共享是实现科学数据价值最大化的基础。本赛题聚焦科学数据开放共享机制,重点关注海量多源科学数据治理、数据安全与隐私保护等场景。当前,重大科技基础设施与项目产生的各类科学数据,亟须有效汇聚与高效治理,才能串联起价值链条。大赛通过打造可信科学数据空间,实现跨领域流通的科学数据协同服务网络,将推动打破数据孤岛,让数据在不同领域间自由流动。发展综合型、智能化、交互式等新型科学数据发现服务模式,将帮助科研人员高效定位数据,推动科学数据有序开放共享和融合利用。 二、推动科技领域人工智能大模型开发:夯实智能创新根基 科学数据的质量和准确性是人工智能大模型开发的关键所在。本赛题聚焦科学数据标注分类、领域大模型预训练、微调与推理应用等,深度挖掘科学数据和文献价值。通过细粒度知识抽取和多源知识融合,构建科学知识资源底座,建设高质量语料库和基础科学数据集,为大模型提供充足“养分”。本赛题将有力支持科技领域大模型的开发训练,提升其理解和解决复杂的科学问题的能力,为科研和技术创新注入强大智能动力。 三、科学数据助力科学研究和技术创新:成为产业升级引擎 跨领域科学数据与人工智能等技术的深度融合,蕴藏巨大创新潜力。本赛题聚焦科学数据成果赋能技术创新和产业发展等场景,推动其全方位、深层次融合应用与挖掘。大赛通过搭建创新交流平台,为科研人员提供高质量的数据资源与知识服务,结合大模型等新技术,助力科研人员突破传统局限,大胆探索未知领域。特别是在生物育种、新材料等重点领域,以数智融合为引擎,驱动科学创新涌现与转化,推动产业升级迈向新高度。 四、科学数据加速科研新范式变革:催生科研新质生产力 AI for Science在各学科领域的研究与落地,标志着科研范式正迎来深刻变革。本赛题依托各类数据库与知识库,借助人工智能、大数据等技术,推进跨学科、跨领域协同创新。数据驱动的科研模式能够发现新规律、创造新知识、发明新方法,推动科学研究方法不断进步。这种变革不仅加速了科学研究范式的转变,更为新质生产力发展注入强大动力。同时,新质生产力的发展为科技创新提供更广阔的应用场景和发展空间。二者相辅相成,协同共进。大赛积极助推科研范式变革,将进一步提升我国在全球科技竞争中的优势地位,推动科技与产业朝着更高水平更具创新性的方向稳步迈进。 科技创新赛道赛题体系完整有机,紧扣科学数据赋能科技及产业发展目标,从汇聚共享、大模型开发到科研创新驱动范式变革,助力培育和发展新质生产力。本次大赛为产学研用搭建展示创新能力的舞台,有望催生一系列具有重大价值的科研成果和产业应用,为国家科技自立自强和高质量发展贡献力量。 作者:周园春 中国科学院计算机网络信息中心副主任 来源(公众号):北京数据