来源(公众号):大数据AI智能圈 "老板,这个产品我觉得挺好的,应该能火。" "为什么?" "凭感觉。" 这样的对话,在很多公司都不陌生。有多少决策,就是这样"拍脑袋"出来的?又有多少钱,就这样打了水漂? 昨天跟一个朋友聊天,他们公司刚刚因为一个"感觉很好"的项目,损失了几百万。如果当初有一套完整的数据分析体系,也许结果会完全不同。 数据分析体系的三重价值 很多人把数据分析想得太复杂,其实它的价值很简单,就三个字:看得清。 看得清现状你知道自己的用户是谁,他们在做什么,产品的真实表现如何。不再是靠猜测,而是用数据说话。 看得清趋势市场在变,用户在变,你能提前感知到变化的信号,而不是等到问题爆发了才知道。 看得清机会数据会告诉你哪里有增长空间,哪里有优化潜力,钱该怎么花才最有效。 一个朋友的电商公司,之前每次大促都是凭感觉备货,要么库存积压,要么断货。搭建了数据分析体系后,通过历史销售数据、用户行为分析、外部市场信号的综合分析,预测准确率提升了80%。这就是数据的力量。 构建体系的四个关键环节 搭建数据分析体系,很多人一上来就想着搞个大数据平台,买各种工具。其实,核心就四个环节。 第一步:明确目标 很多公司搭建数据分析体系,就像买了一堆健身器材但不知道要练什么。你得先问自己:最想解决什么问题?一家SaaS公司的CEO跟我说,他们最大的痛点是用户流失率高。那数据分析的目标就很清楚了:找到流失的关键节点,提升用户留存。所有的数据采集和分析,都围绕这个目标展开。 第二步:数据采集 数据采集不是越多越好,而是越准越好。就像钓鱼,你得知道鱼在哪里,用什么饵。用户行为数据:页面停留时间、点击路径、功能使用频次。这些看似简单的数据,能告诉你用户的真实想法。业务数据:订单转化率、客单价、复购率。这些直接关系到公司的收入。记住一个原则:先把核心数据搞准,再考虑扩展。很多公司一上来就想采集所有数据,结果数据质量差,分析起来一团糟。 第三步:数据分析 数据分析的核心不是复杂的算法,而是问对问题。为什么这个月的转化率下降了?是流量质量变差了,还是产品出了问题?通过对比分析,层层拆解,最终找到根本原因。哪些用户最有价值?通过用户分群,找到高价值用户的共同特征,然后针对性地获取和运营这类用户。 第四步:应用反馈 分析结果不落地,就是纸上谈兵。每一个数据洞察,都要能指导具体的业务行动。发现某个渠道的用户质量特别高?加大投入。发现产品某个功能使用率极低?要么优化,要么砍掉。发现用户在某个环节大量流失?重点优化这个环节。 不同规模企业的差异化策略 构建数据分析体系,不能一刀切。创业公司和大企业的玩法完全不一样。 中小企业:做减法,抓重点 资源有限的情况下,要学会做减法。不要想着一步到位,先解决最痛的问题。一家30人的电商公司,他们只关注三个核心指标:获客成本、转化率、复购率。每天早会,CEO就看这三个数字。简单,但有效。工具选择上,免费的Analytics、简单的Excel分析,足够了。不要一上来就想着买昂贵的BI工具,先把基础打好! 大型企业:做加法,建体系 大企业的优势是资源充足,可以做更复杂的分析。但挑战在于数据源多、业务复杂,需要体系化思考。某大型银行,他们的数据分析体系覆盖了风控、营销、运营等各个环节。通过机器学习算法,实现了实时风险预警;通过用户画像分析,提升了营销精准度。关键是要有专门的数据团队,建立数据标准,确保各个业务系统的数据能够有效整合。 结语 数据分析体系不是技术问题,是思维问题。很多公司花了大价钱买工具,招了专业的数据分析师,但效果平平。为什么?没有数据驱动的文化。真正的数据驱动,是每个人都习惯用数据说话,每个决策都有数据支撑。这需要自上而下的推动,也需要循序渐进的培养。从今天开始,试着问自己几个问题: 1. 我们最核心的业务指标是什么? 2. 这些指标最近的趋势如何? 3. 如果要提升这些指标,应该从哪里入手?当你能清楚地回答这些问题时,你的数据分析体系就算入门了。 记住,数据不是目的,洞察才是。洞察不是目的,行动才是。从"拍脑袋"到"数据说话",这条路并不容易,但绝对值得。
2025-06-03 18:49 593
党中央、国务院高度重视政务数据共享工作。近日,国务院总理李强签署国务院令,公布《政务数据共享条例》(以下简称《条例》)。《条例》是我国第一部专门规范和推进政务数据共享的行政法规,是我国数字政府建设顶层设计的又一里程碑事件。《条例》的出台既是党的十八大以来政务数据共享工作的实践总结,也是新阶段以数字化驱动中国式现代化的时代要求,标志着经过充分的酝酿和探索,我国政务数据共享工作进入法治化、规范化的新阶段,这部承载着制度创新使命的行政法规,不仅是对传统治理模式的系统性革新,更是面向数字文明时代政府治理现代化的主动布局,对提升政府数字化治理能力和政务服务效能,全面建设数字政府具有重大现实意义和深远历史意义。 一、构建“四个一”制度设计,以体制机制创新推动政务数据共享新格局 在数字经济时代,政务数据作为国家基础性战略资源的地位日益凸显。《条例》以制度建设为重点,系统集成了近年来各地区各部门推动政务数据共享的制度创新和经验成果,从构建数据全生命周期管理体系的角度出发,提出建立健全管理体制“一盘棋”统筹、数据目录“一本账”管理、共享使用“一站式”服务、共享平台“一体化”运行的“四个一”制度设计,提出了很多突破性、原创性举措。 一是“一盘棋”统筹,推动政务数据共享统筹协同治理。管理体制是政务数据共享的先决条件。长期以来,纵向层级制的权责分割、横向部门化的信息壁垒、技术标准的多重异构等问题,严重制约了政务数据共享效能,这些矛盾看似技术问题实为制度问题,也深刻反映了传统治理模式与数字时代治理需求之间的不平衡。《条例》首次在国家层面围绕管理体制、目录管理、共享使用、平台支撑、保障措施、法律责任等方面确立了政务数据共享的总体框架,并从强化政务数据源头治理角度,将政务数据共享列入政府部门的重要职责范围,明确了数据收集、目录编制、申请审核、共享应用、数据校核、数据安全、使用记录等工作要求。这种制度设计使政务数据共享从技术操作层面跃升为履行职责的法治要求,本质上是对科层制治理范式的结构性改革,为破解政务数据“不愿共享、不敢共享、不会共享”的问题提供了法治化解决方案。 二是“一本账”管理,推动政务数据共享动态规范管理。目录管理是政务数据共享的必要前提。长期以来,政务数据资源存在底数不清、重复采集、来源不一等问题,亟须进一步加强政务数据目录规范化管理。《条例》通过建立统一数据目录体系,按照应编尽编的原则,推动各地区各部门建立全量覆盖、互联互通的高质量全国一体化政务数据目录,将分散在各级政府部门的数据资源转化为可调度的治理要素,打通了数据高效共享的“最先一公里”, 以数字时代的“车同轨、书同文”破解“方言不通”难题。这种制度设计使得政务数据资源能够突破行政边界,实现数据要素高效流通,形成跨部门、跨层级、跨区域的数据要素,为政务数据规模化开发利用奠定坚实基础。 三是“一站式”服务,推动政务数据共享供需精准匹配。共享使用是政务数据治理的核心目标。长期以来,政务数据共享需求不明确、供给不积极、供需不匹配、共享不充分等问题较为突出。《条例》强化服务理念,围绕谁来共享、共享什么、在哪共享、怎么共享、成效如何,推动政务数据共享供需精准匹配、高效对接。同时,《条例》细化了政务数据收集、共享申请、共享服务、数据回流、校核机制等政务数据共享的具体操作流程,提升政务数据共享效率,有效满足各地区各部门政务数据共享需求。这种制度设计的核心价值不仅在于规范政务数据共享的规则要求,更在于通过流程优化构建政务数据价值释放的可持续机制,有效弥补政务数据资源的结构性短缺,推动实现政务数据资源高效率配置、高质量供给和高水平应用。 四是“一体化”运行,推动政务数据共享平台集约建设。平台支撑是政务数据共享的基础根基。长期以来,由于分散建设、标准不一等客观原因,政务系统间形成了众多“数据孤岛”,不仅造成资源浪费和重复建设,而且制约了政府服务效率和治理能力的提升。《条例》提出,要统筹数据基础设施建设,提高政务数据安全防护能力,整合构建标准统一、布局合理、管理协同、安全可靠的全国一体化政务大数据体系,实现各级各类政务数据平台互联互通。这种制度设计通过构建国家、地方、部门的“1+32+N”立体化框架结构,重构了政务数据的共享流通模式,系统性破解了政务数据“条块分割”难题,以统一平台推进跨层级、跨地域、跨系统、跨部门、跨业务的政务数据安全有序高效共享利用。 二、从“业务数据化”向“数据业务化”转变,推动构建政府数字化转型新模式 党的二十届三中全会审议通过的《中共中央关于进一步全面深化改革、推进中国式现代化的决定》中,首次提出“数智技术”,12次提到“数字”,7次提到“数据”,数据、算力、算法以及新质生产力等关键词交织成未来数字化发展的新画卷。从农业社会的“经验治理”到工业社会的“规则治理”,再到信息社会的“数据治理”,政务数据作为发展新质生产力的核心动能,作为提升行政效能、优化政务服务的关键驱动,将对政府的治理理念、治理模式、治理手段产生深刻影响。 一是要充分发挥政务数据共享协调机制作用。一方面,要依托政务数据共享协调机制,从部门职责、主体责任、工作机构等方面,建立与数字化发展相适应的数据共享制度体系和管理规则,细化数据归集、共享、应用、安全等责任,形成各方面职责清晰、分工有序、协调有力的政务数据共享格局。另一方面,要积极引导各方共创共建数据协同治理模式,充分发挥《条例》有序引导和规范发展的作用,协调多方力量参与政务数据共享基础性工作和能力建设,构建多方协同的治理模式。 二是建立健全政务数据共享配套制度和标准体系。一方面,要推动各地各部门及时清理、修订与政务数据共享不相适应的法规规章、规范性文件,重点破解数据共享责任、隐私保护、安全监管等制度瓶颈,用制度和法律规范促进政务数据高效共享,推动政务数据共享法治化、制度化、程序化。另一方面,要建立健全政务数据共享总体框架标准和业务体系,建立健全政务数据供需对接机制,完善数据质量管理规则和标准,提高数据完整性、准确性、可用性和时效性。 三是以业务应用场景牵引政务数据治理和高效共享。应用场景是政务数据共享的核心驱动力和价值体现,没有应用支撑的政务数据是无源之水,没有政务数据支撑的应用是无本之木。一方面,要坚持需求导向,从企业和群众需求出发,从政府履职场景入手,以政务数据共享推动业务、决策、执行等方面流程再造,推进面向应用和服务的政务数据共享应用。另一方面,要以应用场景为牵引,通过业务需求倒逼,有序推进国务院部门垂直管理业务系统与地方数据平台、业务系统数据双向共享。同时,以场景应用检验政务数据质量与协同效能,以场景成效提升政务数据生产和供给能力,形成“以用促享、以享提质”的良性循环。 四是要加强政务数据全方位监管和保护。一方面,要强化政务数据安全治理的主体责任,统筹政务数据治理安全和发展,把安全贯穿政务数据供给、流通、使用全过程,守住安全底线,明确安全红线,牢固树立政务数据共享各主体的安全责任意识和自律意识,保障政务数据安全。另一方面,要扎紧政务数据安全篱笆,强化各方监管责任,从严管控非必要采集政务数据行为,依法依规打击政务数据超范围使用、隐私泄露等数据滥用行为,确保政务数据善用。 站在“十四五”与“十五五”的历史交汇点,数据赋能以指数级速度重塑着政府治理格局。下一步,要以《条例》实施为契机,发挥数据的基础资源作用和创新引擎作用,从构建数据全生命周期管理体系的角度出发,实现从“业务数据化”向“数据业务化”的量变到质变,推动构建以“数”为核心、以“转”为路径的数字赋能政府治理模式,提高政府决策科学化水平和管理服务效率。 作者:刘旭涛(中国行政体制改革研究会副会长、秘书长,中央党校(国家行政学院)教授) 来源(网站):中华人民共和国司法部
2025-06-04 10:27 578
本文重点阐述为什么运营模式(而不仅仅是工具或战略)决定了你将数据转化为业务成果的能力。 要从数据中释放真正的价值,需要的不仅仅是针对你想要创造的价值类型量身定制的稳健战略。它还需要一个围绕产品思维、平台赋能和清晰责任机制而设计的运营模式。随着生成式人工智能迅速改变人们的预期,确保这一模式正确运行的紧迫性比以往任何时候都更高。 大多数首席数据与分析官 (CDAO) 的失败并非源于缺乏愿景,而是源于其运营模式无法实现愿景。你可以设计出最精妙的组织架构图,但如果它无法培养员工的责任感、促进资源复用并建立规模化的信任,那么它就无法产生任何成果。组织架构图并非交付物,而是交付成果。 一 从分散到集中:驾驭混乱与控制 在 eBay,数据之旅始于一种分散的方式。每个团队都拥有自主权,自行招聘分析师并管理数据。起初,这种本地化的授权方式提高了速度并促进了业务协同。但很快,它就导致了混乱和高昂的成本:数据孤岛、重复劳动以及缺乏统一的治理。 为了解决这个问题就转向了集中式模型。一个核心数据团队负责管理共享的财务报告和商业智能 (BI)。这显著提高了数据质量和一致性。公司各团队现在使用统一的数据语言,采用统一的模式和通用的关键绩效指标 (KPI)。 然而,集中化也带来了自身的挑战。中央数据团队与快速变化的业务需求脱节。响应时间滞后,出现瓶颈,并且该模式难以应对不断增长的需求。 二 平衡自主性和控制力:中心辐射型模型 为了寻求平衡转型为中心辐射式架构,将数据团队嵌入到各个业务部门,同时保持集中治理。目标是将集中化的一致性与分散化的敏捷性相结合。 这种模式在一段时间内运作良好。各个领域团队提供量身定制的洞察和快速的反馈机制。中央团队则专注于基础性任务,例如管理共享的关键绩效指标 (KPI) 和商业智能 (BI) 基础设施。然而,我们很快意识到,明确的职责划分至关重要。如果没有明确的职责定义,尤其是在专业数据任务方面,就会出现混乱。在 eBay,通过建立实践社区(例如分析领导委员会和各个领域团队)来缓解这个问题,并确保与业务领导层保持持续的协调一致。 三 联邦模型与数据网格:何时有效,何时无效 最终,探索了一种联邦式模型。业务部门拥有各自领域的数据产品,而中央团队则提供通用的基础设施、目录和治理。这种分散式所有权提高了响应速度,并增强了业务问责制。 然而,联邦制模式并非万能灵药。成功实施需要大量投资: 明确的域名所有权和数据产品责任。 各个领域都需要具备足够的数据技能,否则任何方面的不平衡都可能迅速破坏整个方法。 强有力的管理层支持和企业领导层对公司治理的认可。 Zalando 和 Intuit 等公司之所以能够成功采用这种模式,是因为它们事先解决了这些先决条件。Gartner强调,如果企业不致力于培养数据人才,数据网格战略往往会适得其反。 四 数据网格并非总是最佳解决方案 尽管联邦数据网格备受追捧,并且对某些公司来说也取得了不可否认的成功,但它并不适合所有组织。集中式或中心辐射式模式,如果能与组织的规模和需求相匹配,同样可以非常有效: 集中式模型最适合需要高度控制的小型组织,其复杂程度各不相同。 中心辐射型模式兼顾自主性和控制力,是中大型企业的理想选择。 联邦(数据网格)模型在致力于对数据人才和治理进行大量投资的大型复杂组织中蓬勃发展。 合适的模型取决于您的具体情况和战略目标,而不是最新的行业趋势。 五 无论你采用何种模式,都要将你的数据视为产品 无论你选择何种架构,将数据视为产品都至关重要。数据产品拥有明确的所有权、明确的用户、服务级别协议 (SLA)、接口和反馈机制。它超越了后端支持,成为任务关键型组件。拥有可靠的营销活动绩效模型的营销团队会将数据积极融入到战略规划中。这种方法有助于在营销、销售、产品和运营团队之间实现有效的战略协同。 这种思维转变是“从产出到影响”系列的核心。产品思维能帮助你从创建仪表盘和流程表,转向交付真正影响业务决策的成果。它提供了将原始数据转化为可信赖、可重用、高价值资产所需的结构和思维模式。 产品思维可以而且应该像应用于联邦式架构一样有效地应用于集中式和中心辐射式架构。它将数据转化为连接业务和技术的通用语言。 中央团队:从把关人到赋能者 中央数据团队应该发挥推动作用,而不是成为瓶颈。这包括: 通过拥有非常强大的数据目录的自助服务平台,将基础设施产品化。 将最佳实践直接嵌入工具中,不再仅仅依赖文档。 实施指标和反馈循环,以监控和持续改进这些平台。 您的平台和治理本身应该就是产品,包括使用指标、采用率和清晰的服务水平协议 (SLA)。 六 不要忽视数据素养和高管支持 归根结底,数据战略的成功取决于组织内部的广泛采纳,而这又植根于高层领导倡导的共同愿景。数据素养培训至关重要,它能将战略转化为组织内各个层面的日常决策。 实施有意义的绩效指标,例如洞察时间与经济影响。跟踪平台采用情况和治理一致性。在这些方面表现卓越的组织,会将分析驱动的决策深深融入到其文化和绩效管理中。 七 生成式人工智能:数据运营模式的压力测试 生成式人工智能会迅速暴露出运营模式内部在所有权、数据质量和一致性方面的不足。每种运营模式——无论是集中式、中心辐射式还是联邦式——都面临着不同的压力测试。集中式模式可能难以跟上人工智能实验的步伐。中心辐射式架构存在各领域与中心团队之间目标不一致的风险。联邦式模型只有在治理、数据契约和数据素养都万无一失的情况下才能成功。 那些已经实践了严谨的数据产品管理的组织,必将蓬勃发展。API、数据契约以及明确的AI用例部署路径至关重要。那些不仅衡量仪表盘,还衡量采用率和信任度的组织,将会脱颖而出。 简而言之,并不存在最佳的单一模式——只有最符合您的业务、人才和战略的模型。重点在于问责制、产品思维和赋能。记住:目标不是构建数据网格,而是让您的数据方法适应您的组织并创造切实价值。 来源(公众号):数据驱动智能
2025-12-03 17:33 172
近日,国务院公布《政务数据共享条例》(以下简称《条例》),将党中央、国务院关于推进政务数据共享的决策部署,以及实践中行之有效的做法确立为法律制度。 国家电子政务专家委员会主任王钦敏在接受专访时指出,《条例》充分继承和发展了政务数据共享理论和实践,既促进政府部门之间政务数据的高质量共享、业务协同,又明确加强政务数据的安全保护,进一步夯实了促进政务数据共享的法治根基。 《条例》将推进经济社会数字化发展和国家治理体系现代化 政务数据在政府决策、经济调节、公共服务、市场监管、社会治理等方面发挥着越来越重要的作用,但实践中各政府部门之间的政务信息系统缺乏统筹、自成体系,“数据烟囱”、数据底数不清问题仍一定程度上存在,难以充分发挥政务数据的价值。 王钦敏指出,推进政务数据安全有序高效共享不仅是提升政府行政效能的技术命题,更是高质量推进数字中国建设,完善国家治理体系现代化的系统性工程。《条例》作为第一部促进政务数据共享流通的行政法规,紧扣政府数字化转型需求,进一步深入探索具有中国特色的政务数据共享发展路径。 近年来,“高效办成一件事”已成为连接政府与企业群众、推动服务型政府建设的一体化纽带。 王钦敏认为,“高效办成一件事”有助于打破思维定式和行为惯性,从管理思维转向服务思维、从局部思维转向整体思维,为加强协调联动、集成服务,打破信息壁垒、加强数据共享打下了关键基础。《条例》聚焦当前政府部门之间的政务数据共享活动统筹机制不够完善、供需对接不够充分、应用水平有待提高、责任边界亟需厘清等问题,构建完善政务数据共享工作体系,系统规范政务数据共享各方权利义务和工作要求,推动政务数据有效共享和高效利用,为全面提升政府数字化治理和服务水平提供了有力制度保障。 《条例》筑牢了促进政务数据高效共享的制度规范 在王钦敏看来,《条例》对政务数据共享工作的总体要求、管理体制、目录管理、共享使用要求、平台支撑、保障措施等方面提出具体要求,具有很强的系统性、创新性和时代性。 一是健全管理体制。《条例》明确了各级人民政府、政务数据共享主管部门、政府部门及其政务数据共享工作机构的职责,提出了政务数据共享工作坚持党的领导,遵循统筹协调、标准统一、依法共享、合理利用、安全可控的原则,确立了政务数据共享的责任主体,有利于打破条块间的壁垒。 二是优化目录管理。《条例》针对当前政务数据资源底数不清,数据目录不完整、不规范等问题,提出了政务数据实施统一目录管理,明确目录编制、发布以及动态更新要求,确定政务数据共享属性分类,特别提出禁止通过擅自增设条件等方式阻碍和影响政务数据共享,确保政务数据的可检索、可溯源。 三是细化共享使用规则。针对当前基层普遍反映的数据多头收集问题,《条例》明确了通过共享获取政务数据能够满足履职需要的,政府部门不得重复收集,并明确了数源部门的职责,规定上级政府部门推动解决政务数据回流共享难的问题。 四是统一平台支撑。《条例》规定整合构建全国一体化政务大数据体系,要求已建政务数据平台应当纳入政务大数据体系。政府部门通过全国一体化政务大数据体系开展政务数据共享申请、受理、审核、提供、校核纠错、争议处理等工作,推动解决政务数据共享交换系统较为分散,“点对点”共享、拉专线对接较多,数据服务标准化集约化不足等突出问题。 五是强化保障措施。《条例》明确政务数据共享各环节安全责任主体和数据分类分级管理要求,强调需求部门在使用政务数据过程中的安全管理责任和监督受托方履行政务数据安全保护义务。同时,将政务数据共享情况作为确定政府信息化项目投资、运行维护经费和项目后评价结果的重要依据。 《条例》将开启政务数据共享法治化新阶段 “当前,全面提升政府数字化治理和服务水平是大势所趋,政务数据作为数字时代的新型生产要素的作用更加凸显。要以《条例》出台为契机,在法治轨道上持续推进政务数据高效共享有序利用。”王钦敏提出三方面建议: 一是构建更加完备的政务数据共享法规体系。推动各地区各部门及时清理、修订不适应《条例》要求的法规规章和规范性文件,破除数据共享的制度障碍。建立健全配套制度规范,提高政务数据共享支撑保障能力,细化安全责任,严格落实数据安全管理要求。 二是构建更加高效的政务数据共享法规实施体系。持续深化《条例》各项制度施行,坚持统筹促进数据高效共享和保障数据安全管理相统一,促进基于政务数据目录系统的数据高质高效共享和业务协同,促进各地区各部门形成工作合力,探索建立数据共享的激励约束机制。 三是构建更加有力的政务数据共享保障体系。强化政务数据共享宣贯,适时总结推广政务数据共享的典型案例和经验做法,积极探索政务数据在推动政府治理和公共服务生态链上的资源价值,赋能经济社会高质量发展。 来源(公众号):国家数据局
2025-06-05 18:29 589
标题:Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management 日期:2025-10-08 机构:ByteDance Seed, Stanford University, Carnegie Mellon University 链接:http://arxiv.org/pdf/2510.06727v1 一句话总结:本文提出了SUPO强化学习框架,通过训练大型语言模型生成摘要来管理上下文,使其能够解决超出固定上下文限制的复杂长程任务。 大语言模型的记忆限制:复杂多步任务的瓶颈 大语言模型(LLM)已展现出作为通用问题解决器的巨大潜力。当通过强化学习(RL)进行训练时,这些模型可以转变为能够处理需要与外部工具交互的复杂多步任务的智能体,例如数学推理、编程和深度网络研究。这些进展预示着一个未来:自主LLM智能体能够处理日益多样化和具有挑战性的问题。 然而,一个根本性的挑战阻碍了这一进展:LLM有限的上下文窗口。对于长周期任务,智能体可能需要执行数十次甚至数百次工具调用,导致累积的提示、行动和观察历史迅速增长。这种不受控制的上下文增长给RL训练带来了几个关键难题: 指令遵循能力退化: 经验证据表明,当上下文变得过长时,LLM的推理和准确遵循指令的能力会下降。这使得智能体在长周期场景中难以生成成功的行动序列。 过高的轨迹生成成本: RL训练依赖于生成大量"轨迹"或交互序列。更长的上下文导致推理时间变慢,使得轨迹生成过程成为训练流程中的主要瓶颈,并显著增加计算成本。 严格的上下文长度限制: 最重要的是,底层LLM的固定上下文长度对RL训练的范围施加了硬性限制。这阻止了智能体尝试那些解决方案所需交互步骤超过单个上下文窗口容量的任务。 总之,这些限制构成了一个显著的可扩展性障碍。如果没有明确的管理上下文机制,将很难训练LLM智能体在极其需要它们的长周期环境中有效运作。 一种新颖方法:利用AI生成摘要管理上下文 为了克服上下文长度瓶颈,研究人员提出了一种新颖方法:基于摘要的上下文管理。其核心思想是通过定期将智能体的交互历史压缩成简洁的AI生成摘要,来防止上下文无限增长。 智能体在达到特定上下文长度阈值时,不是简单地拼接每个新的行动和观察,而是被提示去总结其迄今为止的历程。该摘要随后取代冗长的历史,形成任务下一阶段新的紧凑起点。因此,智能体的工作上下文被重置,包含初始任务提示和所有过去交互的任务相关摘要。此过程如图1所示。 关键在于,该摘要并非使用固定的、基于规则的模板创建。它是由LLM智能体自身作为其决策过程的一部分生成的。这意味着可以通过RL训练智能体,使其学会保留哪些关键信息、如何抽象复杂细节以及可以安全丢弃哪些无关信息。通过联合优化智能体的行动及其摘要策略,该方法使模型能够维持一个紧凑但信息量丰富的历史表征,从而将其推理能力扩展到远超固定上下文窗口的范围。 介绍SUPO:一个支持端到端RL与摘要的框架 基于这一见解,该研究引入了一个原则性框架,将摘要直接集成到RL训练循环中。这是通过将用于多轮工具使用的标准马尔可夫决策过程(MDP)重新表述为摘要增强的MDP(记为)来实现的。 在LLM智能体的标准MDP中,任何步骤的状态通常是所有先前提示、行动和观察的拼接。随着智能体行动,状态单调增长:。然而,在摘要增强的MDP中,状态转换被修改。智能体仍然将其行动和观察附加到当前状态。但如果生成的上下文长度超过预定义阈值,则会触发摘要步骤。模型被提示生成摘要,下一个状态变为仅包含初始提示和新摘要的压缩表征。状态转换由以下规则定义: 若且若且若 这里,是一个特殊指令,提示智能体总结其当前上下文。这种表述(如图1下半部分所示)允许智能体的工作上下文长度保持有界,同时仍保留长历史中的基本信息。 为了将该框架付诸实践,论文引入了摘要增强的策略优化(SUPO),这是一种可扩展的RL算法,旨在以端到端的方式联合优化工具使用行为和摘要策略。 SUPO如何工作:联合学习行动与摘要 SUPO是一种策略梯度算法,使LLM智能体能够学习如何行动以及何时总结、总结什么。其设计基于一个使训练可行且高效的关键理论结果。 分解的策略梯度 SUPO的基石是一种新颖的策略梯度公式(定理3.2)。它证明了一个可能涉及多个摘要步骤的整个长周期轨迹的策略梯度,可以分解为几个较短"子轨迹"的梯度之和。每个子轨迹以对过去的摘要(或初始提示)开始,以智能体为当前工作片段生成新摘要结束。 这种分解是强大的,因为它允许对现有的、为标准的非摘要轨迹优化的RL训练基础设施进行最小修改即可使用。一个单一的、复杂的、带摘要的轨迹可以被视为一批较小的、独立的轨迹,从而大大简化了实现。 关键算法组件 SUPO基于此基础,通过几个关键设计细节来稳定训练并促进有效学习: 轨迹管理: 在训练期间,每个长轨迹在摘要点被分割成多个完整的轨迹。这直接与分解的策略梯度定理对齐,并允许高效处理。 组相对优势估计: 为了计算优势(衡量某个行动比平均行动好多少的指标),SUPO将整个轨迹的最终奖励分摊到其所有子轨迹中。然后,每个标记的优势是相对于同一批次中其他轨迹计算的。这种简单而有效的方法,表示为,被发现比更复杂的替代方法更有效。 超长掩码: 这是长周期任务的关键机制。训练目标会掩码掉任何未能在最大步数()或最大摘要次数()内产生最终答案的轨迹的梯度。没有这个机制,模型会因尝试长但最终失败的任务而受到惩罚,导致其抑制摘要并完全避免长轨迹。此掩码鼓励智能体探索和学习针对真正困难问题的有效摘要策略。 上下文长度的精细控制: 为防止非常长的观察将上下文远远推过摘要阈值,SUPO在生成摘要前丢弃最后的行动-观察对。这确保用于摘要的上下文长度保持在严格控制的范围内。 实践检验:SUPO在编程和网络搜索中的表现 SUPO在两个具有挑战性的多轮工具使用环境中进行了评估:CodeGym(一个需要迭代函数调用来解决编程问题的合成环境)和BrowseComp-Plus(一项要求高的网络搜索任务)。 表1所示的结果证明了SUPO的有效性。在BrowseComp-Plus上,SUPO实现了 53.0% 的最终成功率,比基线GRPO算法绝对提升了 +14.0% ,即使使用了相同的64K工作上下文长度。在CodeGym上,SUPO能够实现比使用32K上下文的基线更高的成功率(+3.2%),而SUPO本身仅使用 4K工作上下文 结合最多7次摘要步骤(等效上下文为32K)。这凸显了SUPO在显著降低轨迹生成期间计算需求的同时实现强大性能的能力。 图2中的训练和验证曲线表明SUPO能够稳定有效地学习。对训练动态的进一步分析揭示了关键见解: 增加的工具使用:图4显示,SUPO激励智能体使用其工具的频率比基线高出最多3倍,这对于收集足够信息以解决复杂问题至关重要。 有效的摘要学习: 如图3所示,智能体很快学会触发摘要,更重要的是,这些带摘要的轨迹的成功率在训练期间持续增加。这证实了模型正在联合学习有效行动和摘要。 高质量摘要:表2所示的定性分析揭示了摘要质量的显著差异。在训练前,智能体的摘要泛泛而谈,常常遗漏关键信息。经过SUPO训练后,智能体学会保留精确、可操作的细节——例如在CodeGym中它正在迭代的确切索引,或在BrowseComp-Plus中关键证据的具体文档ID——这些对于后续步骤至关重要。 消融研究也证实,超长掩码和所选的优势估计策略对于实现这些最先进的结果至关重要。 超越限制:扩展训练后智能体能力 也许最令人兴奋的结果是SUPO将其学到的摘要技能泛化到训练期间未见条件之外的能力。研究人员提出了一个问题:一个在最多轮摘要条件下训练的模型,能否在测试时扩展到处理更多轮摘要? 假设是,如果智能体学会了一种真正可泛化的摘要策略,它应该能够重复应用该策略来解决需要更长历史的更复杂问题。为了测试这一点,在BrowseComp-Plus上以最多次摘要训练的模型,在测试时以允许增加的摘要轮数进行评估。 图5所示的结果非常显著。使用SUPO训练的模型的准确率不仅超过了所有基线,而且随着测试时允许的摘要轮数增加而持续增长,达到了 60.0% 的峰值准确率。这表明SUPO所做的不仅仅是管理内存限制;它赋予了智能体一种稳健、可扩展的推理能力。通过学习将其经验提炼成有效的摘要,智能体可以动态扩展其问题解决范围,应对远比其明确训练过的任务更复杂的挑战。这一卓越发现展示了基于摘要的上下文管理作为一种原则性强大的方法,用于构建下一代智能LLM智能体。 来源(公众号):AI SIgnal 前瞻
2025-10-31 17:15 532
热门文章