本次数据中台V3.8.4版本聚焦实时数据流转与用户操作体验,覆盖数据集成,数据治理、监控预警等多个模块,让数据管理更高效、更稳定、更易用。 一、数据集成 1 数据归集 - 新增心跳测试机制 我们发现在实时数据归集功能中,若来源库长时间无新数据产生,来源库的数据库日志会被定期清理,后续有新数据接入时,任务因缺失同步节点会导致归集任务出错 此次升级,增加心跳测试功能,通过定期推送任务最新日志,避免因来源表长时间不更新、日志删除导致的游标缺失报错问题,保障数据实时流转稳定性。 心跳检测是通过网络周期性发送的状态监测信号,主要用于判断机器、存储器节点的在线状态与运行健康度。其核心原理是通过定期发送微小数据包(心跳包)来确认通信双方或集群节点的可用性。 主要作用: · 连接维持:防止网络中间设备(如路由器、防火墙)因长时间无数据流而关闭连接。 · 故障探测:快速发现宕机节点,提升分布式系统的可靠性。 2 数据源接入 - 优化文件管理体验 新增单个/批量下载文件,数据获取更灵活。 优化重名文件上传逻辑:上传重名文件时,支持用户自主选择“覆盖原文件”或“保留原文件”,操作更可控。 二、数据治理|数据质量模块 1 模式重构 - 简化流程,聚焦核心需求 数据质量模块由“派发模式”改为“不派发模式“,去除冗余流转环节。 精简功能菜单:删除「问题数据管理」、「按来源部门 / 责任人自动派发」、「手工派发」、「问题派发日志」、「退回问题设置」、「数据异议管理」、「数据质量评测报告」、「规则质量分析」等 8 项非核心菜单。 新增「问题数据查看」模块:仅保留“待修复”、“已关闭”两种状态的问题数据;“待修复”为评测出的问题数据;“已关闭”为源头修复后系统自动核销的记录。 2 评测模型管理 - 优化配置逻辑 数据源选择:仅显示质量模块支持的数据源类型,并优化为多层级选择样式。 主题创建:取消组织机构关联要求,无需下拉选择部门,简化创建流程。 评测对象管理:新增评测对象时,取消物理表来源部门的校验,无需关联来源部门即可完成添加。 规则管理:隐藏更新频率规则和规则库,简化配置项。 3 评测任务管理 - 新增实用功能 操作优化:新增“立即执行“按钮,支持规则一键全选/取消功能,操作更高效; 执行策略升级:优化为4种执行策略(手工触发、重复执行、定时一次、Cron表达式),适配更多场景。 三、 评测任务管理 - 新增实用功能 数据质量洞察升级 数据治理分析模块新增2大核心功能:「问题数据统计」、「时效性分析报告」模块,助力全面洞察数据质量状况,为决策提供数据支撑。 四、 运维监控 新增「质量评测任务监控」功能,实现核心任务全流程监控。 扩展预警渠道:在数据归集监控、数据清洗监控、数据共享监控模块中,增加企业群消息预警功能,实现异常信息及时同步。 五、基础配置 消息通知配置:新增企业微信群消息配置。 安全强化:对AgentID、密钥、Webhook地址、邮箱密码等敏感信息采用脱敏显示,提升系统信息安全性。 龙石新书|欢迎共创 龙石数据编写的书籍《数据治理实战指南—“理采存管用”落地方法、步骤与模版》已在官网连载了前7章内容,供大家参考交流。 这不是一本晦涩的理论著作。对于实施人员,这是一本手把手帮带的指导书。对于管理人员,这是一本提升成效的检查单。 更特别的是,本书采用了开放式共创的编撰模式,诚邀大家审阅、研讨、共创和交流。 点击图片进入共创空间,与作者直连、获电子版书稿
2026-01-23 13:14 26
近日,江苏省人民政府印发《江苏省 “人工智能+”行动方案》(以下简称《方案》)。目标提出到2030年,人工智能产业规模超万亿元,智能经济成为全省经济发展的重要增长极。《方案》提出要大力培育智能原生新业态。支持人工智能“一人公司(OPC)”创新创业模式。探索适配人工智能发展的数据产权制度,实现基于价值贡献的数据成本补偿和收益分配。 《方案》提出: 建立全场景具身智能数据采集体系,探索构建世界模型仿真平台,科学布局具身智能机器人数据采集训练中心。 大力培育智能原生新业态。支持人工智能“一人公司(OPC)”创新创业模式。 构建能源领域高质量数据集,打造动态能耗大模型和能源可信数据空间。 建设文旅大模型和可信数据空间,打造虚拟现实大空间、导览机器人等数字体验场景。 建设医疗健康高质量数据集,加快医疗健康数智创新实验室、医保数据赋能实验室、卫生健康和医保行业可信数据空间等建设。 引导企业规范开展数据资源跨境流动,健全江苏自贸试验区数据出境负面清单管理体系,支持南京、苏州国际数据港建设“走出去”一站式服务平台。 加大数据资源供给,促进高质量数据集、语料库开放共享和流通交易,加强数据知识产权保护,探索适配人工智能发展的数据产权制度,实现基于价值贡献的数据成本补偿和收益分配。 省政府关于印发江苏省 “人工智能+”行动方案的通知 (苏政发〔2025〕108号) 各市、县(市、区)人民政府,省各委办厅局,省各直属单位: 现将《江苏省“人工智能+”行动方案》印发给你们,请认真贯彻落实。 江苏省人民政府 2025年12月29日 (此件公开发布) 江苏省“人工智能+”行动方案 为贯彻落实党中央、国务院关于深入实施“人工智能+”行动部署要求,抢占人工智能产业应用制高点,制定本行动方案。 一、总体目标 充分发挥江苏产业、数据、场景、人才等优势,加快人工智能技术创新,强化算力、算法、数据等高效供给,推动人工智能赋能千行百业、进入千商万店和千家万户。到2027年,率先实现人工智能广泛深度融合,新一代智能终端、智能体等应用普及率70%以上,产业规模快速增长。到2030年,新一代智能终端、智能体等应用普及率90%以上,形成一批国内领先的大模型,打造一批规模化商业化应用场景,人工智能产业规模超万亿元,智能经济成为全省经济发展的重要增长极。到2035年,建成国内领先的“人工智能+”创新策源地、产业新高地和融合应用先导区,全面步入智能经济和智能社会发展新阶段。 二、重点行动 (一)“人工智能+”科学研究。 1﹒促进科学研究范式变革。组织实施省基础研究计划,设立人工智能赋能科学专题,积极探索科学前沿新理论、新模型、新算法。鼓励高校、科研机构、企业面向天体物理、地球科学、生物结构、新药创制、疾病诊断、材料科学、量子科技、大气水利等科学领域,打造一批垂类科学计算大模型。 2﹒推动科技创新一体化协同。聚焦人工智能与生物制造、新材料、量子科技、第六代移动通信等领域技术协同创新,布局一批人工智能重点实验室、创新联合体和高价值专利培育中心,推动建设一批人工智能领域标准、应用场景、企业、科创园区,构建“技术策源-应用牵引-企业孵化-产业集聚”全生命周期培育体系。 (二)“人工智能+”产业升级。 3﹒推动工业制造智能化转型。聚焦先进制造业体系,组织工业大模型、智能传感器等方向攻关,加快重点行业智能改造。持续开展基础级、先进级、卓越级、领航级智能工厂建设,支持生成式设计、数字孪生仿真等工业软件发展,推动工业互联网平台智能融合应用,加快工业全要素智能联动。 4﹒全面提升农业智能化水平。鼓励涉农高校、科研机构和企业研究开发作物生长、动物行为和体征识别、设施环境多因素联动调控等农业算法模型,支持智能农机研发制造推广应用一体化试点。强化育种数据集成共享,支撑育种大模型训练。加快智慧农场、智慧牧场、智慧渔场建设,推动人工智能技术在农情监测、规模养殖、无人作业中的应用。 5﹒促进现代服务业提档升级。面向科技服务、数据服务、交通物流、金融服务、商贸流通、法律服务等领域,推广模型驱动的智能体服务,打造首用场景样板。重点培育数字孪生、智慧供应链、无人仓储等新业态。聚焦车货智能匹配与调度、多式联运智能协同、供应链全链路优化,打造物流行业大模型,建设一批典型应用场景。推动人工智能技术在智能信贷审批、数字化支付清算、供应链金融、数字人民币等场景的创新应用。 (三)“人工智能+”新兴产业。 6﹒大力培育智能原生新业态。以模型即服务、数据即服务为牵引,构建面向智能原生的技术、产品和服务体系。积极探索普惠高效开源应用新模式。加快智能体开发平台、自动化标注工具、开源算子库等通用产品开发,完善具身智能机器人、智能穿戴、智能家居、智能装备、大模型一体机、智能安防等智能原生硬件产业链,鼓励信息技术企业向数智企业转型,培育一批独角兽企业。支持人工智能“一人公司(OPC)”创新创业模式。 7﹒推动具身智能机器人产业发展。研发具身智能操作系统和具身智能应用框架,提升环境感知、语言交互、推理决策和高度泛化能力。建立全场景具身智能数据采集体系,探索构建世界模型仿真平台,科学布局具身智能机器人数据采集训练中心。面向制造业等工业场景、特种环境和个性化场景,开发具身智能机器人整机。 8﹒加快推进自动驾驶行业应用。加快大模型在辅助驾驶与自动驾驶系统中的研发部署,构建全流程数据驱动的算法体系,推动适配高阶自动驾驶的智能座舱研发。探索建设自动驾驶空间智能与世界模型创新平台。推进智能网联汽车“车路云一体化”应用试点,建设智能化路侧基础设施,在限定区域内实现全线交通设施联网识别和自动驾驶模式运行。 9﹒强化低空经济创新应用。加强低空智能飞行控制与管理开发,攻克空地协同一体化管控技术。持续深化国土空间基础信息平台建设与应用,提供实景三维及时型低空数字服务,积极探索大模型在低空运营管理服务中的应用,逐步完善智能巡检监控、智能物流配送等服务,拓展农业植保、低空文旅、应急救援等场景应用,加强空域数字栅格、多源数据融合等新技术应用。 10﹒增强生物医药研发创新能力。推动人工智能在药物靶标筛选、药物分子设计、医疗器械制造等场景中的推广应用。建设“人工智能+”公共服务平台,打造合成生物元件、小分子药物、类器官测评等专家模型,面向中小企业开放分子设计、蛋白质预测、虚拟筛选等工具链。 11﹒推动能源领域智能化发展。持续深化具身智能、时序预测等在能源领域的场景应用研究,构建能源领域高质量数据集,打造动态能耗大模型和能源可信数据空间。强化人工智能赋能能源生产过程中的节能和碳排放管理,推动人工智能在虚拟电厂、新型储能、电动汽车车网互动、零碳园区、智能电网、油气勘探开采、算电协同中的应用。加快“双碳”领域模型算法创新,建立城市级“双碳”大脑。支持国家车网互动规模化应用试点城市建设。 (四)“人工智能+”消费提质。 12﹒加快智能终端产品研发应用。推动消费产品与大模型融合创新,强化跨应用、跨系统、跨终端交互协作。面向工业、商业、金融、能源、物流、医疗、教育等重点行业,开发新型智能终端,推动存量终端与大模型适配优化。应用人工智能技术开发可穿戴终端、无人驾驶航空器(船艇)、智能工业终端、脑机接口等智能产品。 13﹒拓展商贸服务消费新场景。鼓励电商企业利用人工智能技术优化供应链,实现客户精准画像,赋能制造业转型升级,推动智能化设计、定制化生产。加强与龙头电商平台企业合作,推广数字人导购、机器人客服、精准营销投放、智能品质查验等模式,帮助企业降本增效。积极探索“人工智能+消费”的商业新模式,推动中小平台应用人工智能技术创新发展,拓展体验消费、个性消费、认知和情感消费等服务消费新场景。探索建设一刻钟便民生活圈智慧服务平台。 14﹒加快数字文旅和数字体育创新发展。建设文旅大模型和可信数据空间,打造虚拟现实大空间、导览机器人等数字体验场景。推进国家文化产业示范园、数字电影产业园等数字化提升工程。推动人工智能赋能体育赛事活动全链条场景创新。建设广播电视和网络视听人工智能实验室。研发数字传媒大模型。 (五)“人工智能+”民生服务。 15﹒提升社会保障服务效能。构建“人工智能+人社”体系,打造数智就业、数字社保、智能人才服务、智慧劳动关系等应用场景,推动人社行业数字化转型和智能化升级。构建民政大模型和智能体。推动具身智能机器人在居家、社区和机构养老等场景应用,提升失能失智照护、情感陪护等服务照料水平。建设覆盖全省的智慧托育服务和管理系统。 16﹒实施人工智能赋能教育行动。推广智能学伴、智能教师、自主学习等人机协同教育教学新模式。加强教育专用大模型、学科大模型等研发和广泛应用。开发人工智能科普和应用课程,建设人工智能科普体验平台,提升全民人工智能素养。 17﹒普及医疗健康智能化服务。推进大模型在临床诊疗、疾病预防、基层卫生、中医药服务、托育康养、医疗管理、医疗保险等场景的融合应用,建设覆盖全生命周期的多层次、多模态医疗健康高质量数据集。加快医疗健康数智创新实验室、医保数据赋能实验室、卫生健康和医保行业可信数据空间等建设。 (六)“人工智能+”社会治理。 18﹒打造智能便捷政务服务体系。打造政务大模型和虚拟政务服务大厅,开展大模型政务领域应用试点,推广政务助手、政务数字人和“智慧晓苏”政务智能体等一批“小巧灵”应用。推进大模型在公共资源交易场景中的应用,开发公共资源交易垂直大模型。 19﹒构建城乡智慧高效治理体系。打造城市运行智能中枢,试点开展城市智能体应用,集中部署轨迹追踪、消防安全、巡检巡查等通用算法模型。建设城市可信数据空间,推动城市人、地、事、物、情、组织等数据共享融通。建立城市基础设施生命线安全行业大模型,探索运用智能化手段提升房屋安全管理质效。拓展人工智能在“好房子”全生命周期的应用。建设城市运行管理服务平台,拓展智能化应用场景,推动实现城市运行管理服务“一网通管”。推进江苏社会工作一体化平台建设。打造水上智慧哨卡、路网智慧管控等垂直大模型,推广危险货物运输全链条监管、公路疏堵保畅、网约车智能网办等场景应用。 20﹒完善平安江苏智能监管体系。建设公安大模型应用平台,推动机器人、数字人在公共安全预警、社会治安管理等场景中的应用。构建应急管理高质量数据集,试点开展化工、工贸、矿山等行业领域影像智能分析,积极打造应急管理领域政务服务、监测预警、监管执法、指挥救援等典型应用场景。建设食品安全“人工智能+监管平台”。实施智网工程,加强人工智能在网络空间治理中的应用。 21﹒健全美丽江苏生态治理体系。强化“空天地海”多源感知数据汇聚,优化提升“一张图”平台服务能力。聚焦环境影响评价、环境执法、生态修复等构建高质量数据集,做精做强环境垂直大模型。构建水利行业大模型服务平台。 (七)“人工智能+”对外合作。 22﹒推动人工智能企业“走出去”。鼓励企业优化业务布局,强化国际产业交流和市场开拓,探索产业链分工、开源协同等合作机制。引导企业规范开展数据资源跨境流动,健全江苏自贸试验区数据出境负面清单管理体系,支持南京、苏州国际数据港建设“走出去”一站式服务平台。鼓励高校与人工智能领域世界一流大学和领军企业合作,建设国际合作联合实验室。支持人工智能企业参与国际标准制定。积极与国家人工智能应用合作中心等出海平台开展合作。 三、政策支持 23﹒降低算力使用成本。引导智算中心集群化发展、集约化建设,优化边缘智算节点布局,加快城域“毫秒用算”,探索多元异构智能算力体系和绿电直供智算中心新模式。鼓励发展标准化、可扩展的算力云服务。支持有条件的地方发放“算力券”。 24﹒加速算法模型研发。鼓励新型模型底层架构研发应用,加快世界模型、空间智能等前沿新技术发展。支持有条件的地方发放“模型券”。 25﹒打造高质量数据集。统筹行业高质量数据集的建设和推广,发布一批揭榜挂帅任务。加大数据资源供给,促进高质量数据集、语料库开放共享和流通交易,加强数据知识产权保护,探索适配人工智能发展的数据产权制度,实现基于价值贡献的数据成本补偿和收益分配。支持有条件的地方发放“语料券”。 26﹒推动场景开放创新。加快国家人工智能应用中试基地建设。布局一批场景开放创新中心,推动各行业开放应用需求,组织开展人工智能应用路演。省级每年遴选一批人工智能典型场景项目,对符合条件的给予资金支持。 四、组织实施 省各有关部门负责本行业本领域人工智能应用推进和场景建设,积极开展跨部门跨行业跨地区场景共建和资源共享。培育长期耐心资本,积极引导各类基金投入。推动安全能力建设,构建人工智能服务和应用技术监测、风险预警、应急响应体系,完善相关制度、标准和监管规则,加强知识产权保护、转化与协同应用。强化宣传引导,广泛凝聚社会共识,营造全社会共同参与良好氛围。各设区市要紧密结合实际,发挥特色优势,找准重点方向,开展创新试点,加快应用推广,因地制宜培育各类企业,确保各项目标任务落地见效。 来源(网站):江苏省人民政府网站
2026-01-22 15:04 13
数据要素行业丨研究报告 核心摘要: 数据作为第五生产要素由于其非竞争、可复制、无限增长与供给的特性,其价值挖掘流程的复杂程度远高于其他传统生产要素,从数据来源的合法性、权属划分到后续的价值评估与增值管理,数据要素价值的提升对于政策明晰的制度框架与实施路径有较高依赖,随着市场化体系的健全,以地方性数据交易机构、数商为代表的产业模式正逐步成为推动数据要素市场发展的核心,以“政产联动”建立良好的供数、用数生态,促进“供得出、流得动、用得好、保安全”的阶段性目标达成。 近况解读:国内数据要素行业现状分析 在政策指导与产业建设的共同作用下,以数据、科技与基建为核心的数据要素市场体系逐步完善,推动行业向更高价值的“政产联动”迈进 政策剖析:近年数据要素行业政策解读 数据产业链价值流通体系的政策性完善与地方性数据体系的健全成为国内数据要素价值链流通的重要保障,数字产业进入“质量提升”新阶段 规模核算:中国数据要素行业市场规模 数字经济核心产业成为推动国内整体经济体系发展的重要驱动,预计国内数据要素市场将以约20.26%的复合增长率于2028年突破3000亿元 近年国内数据要素产业发展呈现稳步增长态势,中国数字经济规模由2017年的27.2万亿增长至2023年的53.9万亿,六年整体规模翻了一倍,复合增长率约为12.07%。2024年以数字产品制造业、数字技术应用业为代表的数据经济核心产业增加值达到13.49万亿元,约为同年期GDP的10%,成为推动国内经济整体发展的重要驱动力。随着数据产业标准化体系的完善、创新案例与产业试点规模的扩充以及服务前沿技术场景的外延价值提升,国内数据要素行业规模将以约20.26%的复合增长率保持高速增长,预计2025年整体规模将达到2000亿左右,2028年将正式突破3000亿。其中以数据加工与分析为核心的数据处理环节,将成为数据要素产业规模占比最高的细分产业,预计2028年其整体规模即将达到1440亿元。 数据要素价值流通体系建设 以前沿技术能力与监管合规体系为支撑,围绕数据要素价值阶段性开发的流通链路体系建设 数据价值链流通(一):数据合规与确权 以“数据二十条”为基础的数据要素权属体系建设是保障数据价值链高效流通的重要前提,监管刚性更强的确权法律体系备受业内期待 随着数字经济的发展与数字中国战略的实施,数据作为“第五大生产要素”其资产化流通链路的完善与价值释放体系的建设成为当前国内市场的关注重点,清晰的数据要素权属制度与统一的数据资产登记体系将成为保障数据要素价值链建设的重要前提。但由于数据资产的非损耗、非排他与非竞争属性,导致传统生产要素的分配模式无法在数据要素市场套用,建立专属于数据资产的权属划分体系成为推动行业发展的“当务之急”。自2022年国务院颁布“数据二十条”政策以来,国内数据要素的确权制度体系开始逐步完善,“数据二十条”政策不仅明确了以公共数据为代表的三大数据源的分类分级确权制度,还将数据资源的持有权、加工使用权与产品经营权进行了划分,力求保障数据价值链每位参与者的固有权益,为建设合规高效的数据流通交易制度与安全可控的数据治理体系奠定基础,后续国家发改委、国家数据局及各地方数据管理机构陆续颁布了围绕数据管理、数据资源授权与数据知识产权登记等条例,进一步完善国内数据市场确权、登记体系。但在实践过程中,公共数据开放度不够、企业数据流通受阻、自产自用以及个人数据信息边界不清、合规使用标准模糊等问题依旧存在,此外单一维度的数据分类也难以兼顾大数据时代下对于数据安全、经济效率与公共利益的三方追求,执行稳定性与刚性更强、适配于多样化应用场景的数据要素权属法律体系建设,成为新时代改善确权矛盾、提升数据使用效率的关键。 数据价值链流通(二):数据登记 数据登记的管理方式和责任单位与其形态密切相关,“1+3”的政策体系与资源登记枢纽共同构建国内公共数据资源管理的基本框架 数据产权登记作为保障数据资产权属划分、促进数据价值释放的重要环节,其核心工作原理是在数据确权的基础之上,由登记机构将数据资产的信息与权属情况审核、登记、公示,之后发放登记证书,作为日后数据交易、融资抵债、会计核算等资产化、资本化场景的应用依据。根据数据资源、数据产品及数据资产三类数据要素的形态差异,负责登记的机构也存在差别,根据地区性数据要素登记管理办法,数据资源(包括数据知识产权)的登记工作由相关行政事业单位负责,强调对于数据资源及信息的保护,而经济价值更显著的数据产品及数据资产则由数据交易机构确认登记,意在推动数据要素的市场化流通与创新数据资产的融资应用。在登记的数据当中,公共数据作为规模庞大、潜在价值丰富的核心数据资源体,如何对其实现高效的开发、应用成为现阶段国内数据行业的关注要点。针对于此,国家发改委与国家数据局颁布了一系列围绕公共数据资源登记管理、授权运营、价格形成机制的指导政策,构建起以《中共中央办公厅 国务院办公厅关于加快公共数据资源开发利用的意见》为核心的“1+3”政策体系,推动国内公共数据资源管理进入“有规可依”的新时代,通过“一个标准、两级平台”的建设路径,以国家公共数据资源登记平台作为全国一体化公共数据资源登记的“总枢纽”,对接各省级公共数据资源平台,打破地区与部门间的“数据隔阂”,实现公共数据登记资讯的互联互通。 数据价值链流通(三):数据价值评估 数据评价政策体系建设日渐完善,公共数据资源量化标准成为业内重要的参考标杆,以价值易变性为代表的实践性定价难题有待后续解决 价值评估作为在数据要素确权与登记的基础上保障数据价值挖掘与市场化流通的重要节点,其评价体系的准确性与完善度将成为保障数据要素交易、相关利益分配与激励机制确立的基础,是推动数据要素价值释放与持续创造性建设的关键。自2019年起,《资产评估专家指引第9号——数据资产评估》的发布开启了国内数据资产的计量时代,数据评估的对象、方法及报告的编纂形式有了政策性依据,后续《数据资产评估指导意见》与《企业数据资源相关会计处理暂行规定》进一步提升了数据评估的实践性,在评估对象、操作要求、评估方法、会计处理等方面提供了更详实的参考依据。于今年6月最新发布的《公共数据资源社会价值与经济价值评价》直接将视角聚焦公共数据资源的社会与经济价值,为公共数据的价值评估提供了客观、可量化的指标体系,填补了领域标准的空白。 随着数据评价逐步由政策引导迈向产业实践,数据资产的非实体性、价值易变性等传统实物资产不具备的异质性特征,导致实际价值评估流程的难度与复杂程度远高于预期,数据价值随产品化建设与场景应用的不同而动态变化,在完成初步价值评估之后贯穿数据资产生命周期的阶段性评估与价值调整,将成为数据产品价值精准性的重要保障。作为流通商品,国内数据市场的供需关系也将极大的影响到数据产品的价值,市场公允价值评估对于该行业的信息透明度与传输效率提出了更高的要求,此外,在确定数据价值模型的输入参数中,偏执因素、折现率、未来收益等部分指标的数值确定依赖于行业专家的主观经验判断,如何确保选择的模型、输入参数与当前使用场景的适配程度,需要政策性定价体系的进一步完善与标杆案例的深度指导。 数据价值链流通(四):数据资产入表 数据资产入表拉动数据市场、资本市场多层经济效应,由数据资产价值波动带来的衍生资本风险应受到业内重视 数据资产入表是数据要素资本化实践的核心环节,也是近年国内数据要素市场关注的热门话题。自2024年1月1日起,《企业数据资源相关会计处理暂行规定》的实施标志着我国数据资产入表正式迈入制度化新时代,在完成数据资源盘点、合规审查与价值评估之后,按照会计处理的要求将数据资源以无形资产、开发支出、存货等形式计入财务报表,实现数据资源从“隐性资产”向“显性资产”的转化,在改善资本负债结构、提升企业融资增信方面效果显著,是奠定数据资本化运作的重要环节。自2024年起上市企业新增数据入表数量逐步提升,涉及包括信息传输、软件和信息服务、制造业、金融业等多个领域,企业的数据治理与场景深化能力进一步提升。从入表资产登记的使用场景来看,对外提供的产品或服务、内部降本增效与AI大模型的开发成为三大主流应用场景,而选择在数据交易所产品登记、上架的企业比例不高,整体交易流通的活跃度不达预期。目前市场对于入表数据资产的资本化应用程度远高于最初设想的产品端应用,如何管理数据资产资本化风险、推动数据产品市场发展将成为新阶段的重要课题。此外,在“强制披露+资源披露”的要求下, 业内数据入表信息的披露标准仍存在差异,业务模式相近的企业对于类似资源的数据资产处理方法不同,导致彼此间数据资产价值的可比性分析难度较大,数据资产入表的细节问题仍需期待相关政策与行业标准的完善。 数据价值链流通(五):数据资产交易 数据市场交易呈现“内冷外热”的分布模式,场内交易的体系化、标准化与场外交易的客制化、灵活度共同推动国内数据资产交易体系的完善 数据资产的产品化封装与市场化流通是数据要素价值释放的重要环节。随着数据经济的蓬勃发展,数据交易所作为由政府设立的官方数据交易平台,其设立数量、产品丰富度、入驻数商数量、平台覆盖维度等多方面表现提升显著,以“京沪广深贵”为代表五大头部交易所在交易规模、标准制定、资产分类、跨境合作等领域充分发挥了行业主导作用,推动国内数据资产场内交易体系的完善与“全国统一大市场+区域特色专区”的建设。虽然近年数据交易所的交易规模有所提升,但受到场内交易流程复杂、交流成本高、数据场内留痕、市场多样化不足等负面因素的影响,目前国内的数据交易呈现“内冷外热”的分布模式,“点对点”的场外交易依旧占据市场主导地位。与场内市场相比,数据资产的场外交易具备更强的灵活性与多样性,能够根据客户端的场景驱动定义、适配恰当的数据服务,推动市场内数据交易的流通与资源的快速对接,于24年初颁布的《“数据要素”x三年行动计划》将征求意见稿中的“场内交易大幅提升”调整为“场内交易与场外交易协调发展”,从政策角度认可了场外交易对于推动数据要素市场发展的重要意义,但如何在缺少透明化、标准化、集中化的市场中保障数据信息安全与合规交易成为新阶段行业发展面临的首要问题。此外,在没有法定中间商的情况下,如何确认数据产品各方的权属关系,合理、合法的分配利润也将成为影响场外交易持续、稳定、合规发展的关键。 数据价值链流通(六):数据资本化应用 以数据资产服务企业融资与参与股权投资成为业内最广泛的资本化运营模式,金融杠杆效应将同步扩大数据资产的价值属性与资本市场风险 近年数据要素的资本化应用成为数据价值释放的核心方式,与服务数据产品交易的资产化模式相比,数据要素资本化在价值变现路径与释放充分度方面更具优势,通过认可数据资产的货币价值与实用价值,优化数据密集型企业的资产负债结构,拓展低成本、高效率的融资渠道,为企业,特别是缺少传统资产抵押物的新兴科技企业,提供更便捷的融资方式,加速金融资源在科技、数据领域的流通与合理分配,实现“科技-产业-金融”的良性循环。此外,政府也从监管层面认可了数据资产的“投资用途”,赋予其与传统资产类似的实物属性,同时数据资产所包含的数据信息资源将服务企业的实体经营,在客户管理、运营优化、市场分析等多个场景提供量化指导。资本市场的杠杆作用在帮助数据资产提升自身价值的同时,也扩大了其负面因素带来的市场风险,对于数据资产价值的判断与动态评估成为把控数据资本化运营风险的关键。 数据价值链流通(七):数据资产通证化 将实物资产数字化与数字资产货币化相结合的数据资产通证体系,以数据连接实物与资本市场,实现从“真数据”向“金资产”的价值升级 数据资产通证化是目前数据要素价值应用的最高阶体现,与前几个阶段不同,数据资产通证化不仅围绕狭义的数据要素价值流通,而是在传统数据资产来源的基础上增加了实物资产的数字化环节,通过RWA(RealWorldAssets)将企业中无法衡量的业务积累与实物资产的相关权利转化为区块链中流通的数字资产,实现实体经济在数字经济体系下的价值映射,在此基础上,RDA(RealDataAssets)作为由上海数交所提出的、锚定实数融合实体资产的“升级版稳定币”,通过数据资产壳、自登共证、权威背书和行业标准四大创新模式,将区块链中流通的普通数据转化为具备稳定收益预期和融资能力的“金资产”,除了信贷融资与股权融资之外,以数据资产未来现金流为底层资产支持的数据资产ABS与RDA体系下境内、海外资产的对接融资渠道,都将成为推动数据要素价值化与多种要素融合发展的核心方式。为保障可信数据资产流通安全,上海数交所提出了以“一桥、两所、两轴”为底层架构的DCB(Dat-CapitalBridge)体系,结合交易底链、资产链与价值链的组合实现基础设施对于数据资产通证化有序推进的保障。 产业实践:各产业规模拆分 数据资源密集型产业成为数据要素市场的核心组成部分,具备“乘数效应”的金融业与“技术优势”的互联网共同占据约一半的市场份额 数据作为多产业体系中承载信息流、价值流与工作流的重要生产要素,随着其产品化、市场化、资产化体系的完善,合规场景下的价值开发与信息交换成为数据要素市场的重要实践场景,各产业通过对原生数据的整理与挖掘、产业间数据要素的交易与补充,形成服务于自身业务场景与产业发展的数字化价值体系。从各产业拆分的规模来看,金融行业作为近年数智化转型效果显著、数据价值多元化体系完善的数据密集型产业,或将以RWA、RDA、股债融资等资本形式占据约三分之一的数据要素市场规模。聚集大量线上数据资源的互联网产业将凭借其在数据流量引入与聚集、前沿技术开发及应用等领域的优势,成为占据市场约20%规模的第二核心产业。除此之外,通讯、制造、政务、医疗、交通等产业也将随着数据交易场景的完善与数据处理技术的成熟逐步提升自身数据产业规模,实现数据价值的深度释放与数智化业务场景建设。 实践场景(一):金融业 产业间数据联动极大的提升了金融机构在风控、营销、投资三大核心业务场景的实践表现,金融机构的数智化技术输出能力备受行业期待 “数据要素x”在金融行业的创新生态建设主要围绕多元数据的融合与跨行业金融活动的嵌入两方面展开,通过打通产业链、公共数据与金融数据之间的壁垒,将传统财务报表、抵押物等结构化数据与用户行为、社交媒体信息等非结构化数据相结合,实现金融场景数据与社交数据、物流以及物联网等产业端场景数据的互联互通,降低由于信息不对称、数据缺失对金融业务的负面影响,提升金融机构在信贷风控、营销拓客、产业投资等领域的业务表现,实现数智化对于金融服务能力与用户金融服务体验的提升。此外,金融机构作为数据资源与技术能力的持有方,其对于技术欠缺产业、中小企业的数智化转型推动能力受到广泛关注,《推动数字金融高质量发展行动方案》明确鼓励金融机构在技术能力、平台服务资源等领域的输出,以机构自身的科技优势助力中小企业的数智化转型。2024年年初,以北京、上海、广州、深圳、贵阳为代表的五大数交所陆续上架了2060款金融场景数据产业及服务,随着数据交易体系的完善以及数据处理技术的成熟,预计金融行业的数据要素规模将以约19.06%的复合增长率,于2028年突破1000亿元,成为推动国内数据要素市场发展的核心产业。 实践场景(二):工业制造业 以可信数据空间与高质量数据集为核心的工业制造业“数据要素x”实践将充分发挥业内数据红利,推动数智时代工业制造的产业升级 工业制造是城市产业发展的基石,工业数据是推动产业经济发展的重要驱动。数智时代,工业制造的产业升级需求将推动其对于跨企业、跨行业的数据资源需求,在高端制造业产品研发、运营流程科学决策及稳固产业链、供应链协同效应等业务场景中,工业数据的标准化、安全性与业务场景数据应用实践水平将成为影响产业升级效果与数智化表现的核心因素。随着区块链、生成式AI等前沿技术逐步成为工业制造的新质生产力,联动产业链上下游的可信数据空间与工业高质量数据集建设将推动工业制造业实现由“规模红利”向“质量红利”和“数据红利”的转型,预计未来产业整体在数据要素领域的市场规模将以约24.22%的复合增长率,由2025年的157亿增长至2028年的302亿,未来三年内实现产业规模的翻倍式增长。 实践场景(三):医疗健康业 医疗数据的合规应用将推动“三医”产业协同发展,如何保障个人健康数据的安全成为医疗产业数智化应关注的核心问题 随着我国大健康产业的蓬勃发展,以医疗、医保、医药为核心的“三医”产业数据联动与协同发展成为数智时代医疗产业发展的重要主题,从就诊流程的优化、预报结算的革新,到面对公共卫生防疫的早期预警与精准防控,以及后续应用“AI+”强计算与智慧涌现能力对非标准化医疗经验的数据归类与精准建模,医疗产业的数智化进程将推动产业模式实现由“经验传承”到“数据验证”的转变,医疗资源的配置能力与医疗服务效率将显著提升。此外,医疗数据体系的完善也将为保险产业提供更加丰富的数据资源支持,促进保险产品的个性化定制与“一站式”理赔流程的优化,推动“三医协同”与多层次医疗体系的健全,但同时医疗数据作为与个人信息紧密相连的生产要素,如何保障其跨产业应用的合规性与安全性将成为新阶段价值开发关注的焦点。从行业发展的整体规模来看,服务于医疗产业的数据要素规模将以约23.69%的复合增长率稳步提升,预计2028年将突破250亿元。 趋势一:高质量数据集建设 高质量数据集成为推动人工智能产业发展的关键要素,国内数据产业迈入从“单点突破”向“全域发展”的新阶段 高质量数据集是指将原始数据按照特定标准进行系统性采集、清洗、归类、标注、增强合成等智能化处理后形成的高价值、高密度、标准化的数据集合,能够为人工智能训练、产业数字化升级与区域性数字经济发展等场景提供信息内容明确、准确性强的数据资源支持,提升算力资源合理利用效率。随着基础模型开源成为业内主流,技术服务商之间在算力与算法方面的差距被逐步削弱,数据要素的质量成为决定大模型产品质量的关键因素。2025年5月《数字中国建设2025年行动方案》将人工智能高质量数据集、重点领域数据标注等领域作为重点布局对象,以《高质量数据建设指南》为代表的技术文件要求为高质量数据集建设提供标准参考,各地数据局也纷纷设立本年度高质量数据集建设目标、发布高质量集典型案例与奖励措施,通过推动多行业、零散数据要素的体系化、高质量建设,提升“人工智能+”产业发展。截至2025年上半年,我国7个数据标注基底已建设数据集524个,规模超过29PB,服务大模型163个。新阶段国家数据集将着力打造“数据标注+高质量数据集+模型+应用场景+市场化价值化”的闭环生态,推进数据要素市场配置改革和“人工智能+”行动力同向发力、同频共振。 趋势二:可信数据空间建设 以可信管控、资源交互、价值共创为核心的可信数据空间将成为新阶段保障数据要素流通与高价值应用的重要基础 可信数据空间是基于共识规则,联接多方主体,实现数据资源共享共用的数据流通架构体系,类似“有围栏的数据沙箱”,数据资源能够在可信安全的空间内流通共享、授权计算,数据的提供方与使用方在“可用不可见”的前提下实现数据价值的共创。作为可信数据空间建设的元年,2025年以《可信数据空间发展行动计划(2024-2028年)》为代表的可信数据空间标准管理与试点方案陆续出台,推动企业、行业、城市、个人的可信数据空间建设,以及服务跨国科研、供应链协同、企业管理等应用场景下的跨境可信空间建设。2025年7月16日,国家数据局公布了首批可信数据空间创新发展试点名单,63个入选试点项目中涵盖了13个城市、22个行业以及28个企业的可信数据空间,2028年全国可信数据空间建设数量计划突破100个,初步形成与我国经济社会发展水平相适应的数据生态体系。 来源(公众号):艾瑞咨询
2026-01-20 18:41 78
本次龙石数据中台V3.8.3版本升级的重点聚焦于数据共享、数据集成与数据应用三大核心模块,重点提升数据流转效率、接入能力与协作安全性,助力各组织实现更高效、更可控的数据管理。 一、数据共享|API共享模块 1 新增「数据处理任务」组件 在API 管理模块的 API 编排流程中,新增“数据处理任务“组件,支持在流程中直接触发批量归集、数据清洗、数据编排等任务。 此前,数据集成、清洗等模块相互独立,数据传输后需手动跨模块发起任务,操作繁琐且流转耗时。新增组件后,用户可通过API触发数据处理任务。 2 优化鉴权指引 在中台下载的API文档中,补充“鉴权模式“说明,提供3种鉴权模式的详细说明,帮助用户快速理解并掌握鉴权配置方法。 二、数据集成 1 数据源接入扩展 新增2种数据库类型支持 本次升级进一步丰富数据源适配类型,新增海量数据库G100、华为GaussDB两种数据库的接入支持。 2 任务日志体验优化 新增任务分组查询 批量归集/清洗/编排任务日志可按分组筛选,支持筛选分组下各任务的执行情况。 规范术语 将列表页及详情页中的“最近执行状态”统一更名为“执行状态”,表述更精准。 扩充查询维度 新增“执行状态“、“执行日期”查询维度,支持用户快速筛选目标任务日志。 三、数据应用|数据可视化模块 1 新增报表“赋权”功能 支持工作空间管理员针对当前空间内的报表资源,向其他用户精准授予报表查看权限。既保障了报表数据的访问安全,又提升了多角色协作下的数据资源共享效率。 龙石新书|欢迎共创 龙石数据编写的书籍《数据治理实战指南—“理采存管用”落地方法、步骤与模版》已在官网连载了前7章内容,供大家参考交流。 这不是一本晦涩的理论著作。对于实施人员,这是一本手把手帮带的指导书。对于管理人员,这是一本提升成效的检查单。 更特别的是,本书采用了开放式共创的编撰模式,诚邀大家审阅、研讨、共创和交流。 点击图片进入共创空间,与作者直连、获电子版书稿
2026-01-16 13:33 84
❝ 上周五下午五点半,老张刚准备下班,产品经理突然冲到工位前:"张工张工!老板要看全国各区域的销售数据汇总,现在就要!" 老张抬头看了看窗外,心里一万头草泥马呼啸而过...华东的数据在杭州集群,华北的在北京集群,华南的在深圳集群,这要跨三个Doris集群做联合查询! 按照以前的套路,要么写JDBC Catalog慢慢等,要么就得临时把数据同步到一个集群——前者慢得让人怀疑人生,后者等数据同步完周末都过去了。 老张急忙翻阅了下 Doris 4.0.2版本的 release note,突然不紧不慢地说道:"给我半小时..." Doris跨集群查询的老大难,终于有解了 说起跨集群数据分析,做过大数据的人都知道这有多头疼。 你们公司是不是也这样:业务发展快了,一个Doris集群不够用,就搞了好几个。交易数据在A集群,物流数据在B集群,用户画像在C集群。 平时各自安好,但老板一句"我要看全局数据",技术团队就开始抓狂。 传统的JDBC Catalog确实能用,但用过的人都懂那个痛。 协议开销大得吓人,查询优化策略用不上,简单查询还行,遇到复杂的Join和聚合,性能能把人逼疯。 有个朋友跟我吐槽过,他们用JDBC Catalog跨集群查个订单履约率,单表聚合查询愣是跑了45秒,老板在会议室等得直拍桌子。 更要命的是,数据量一大,JDBC那套基于MySQL协议的玩法就彻底歇菜。 你看着查询进度条一点点爬,心里默念"快点快点",但它就是快不了。这不是咱技术同学偷懒,而是协议层面的先天不足! but,Doris团队这次是真狠,连自己都不放过。 他们大概也意识到,光支持Iceberg、Paimon、Hudi、JDBC...这些外部数据湖还不够,Doris自己跨集群访问性能不行,这个湖仓一体的故事就讲不圆。 于是乎,Doris Catalog应运而生,专门用来解决Doris集群之间的高效联邦查询。 测试数据更是让人眼前一亮。 在TPC-DS基准测试中,单表聚合查询场景下,Doris Catalog虚拟集群模式的查询耗时只有0.21秒,而JDBC Catalog需要40+秒——性能提升超过200倍。 这已然不是小打小闹的优化了,可谓是质的飞跃。多表关联查询也有42%的性能提升。虽然没有单表聚合那么夸张,但对于复杂业务分析来说,这个提升已经足够显著。 两种模式各显神通,按需选择 Doris Catalog提供了两种访问模式:Arrow Flight模式和虚拟集群模式。 这个设计思路挺有意思,不是一刀切的方案,而是让你根据实际场景灵活选择。 Arrow Flight模式的设计很聪明。 它让本地集群的FE节点生成查询计划,针对远端表生成单表查询SQL,然后通过Arrow Flight协议直接从远端BE节点拉取数据。 整个过程就像是在本地集群做了个"远程调用",简单直接。 这种模式特别适合那种查询逻辑简单、但远端集群规模大的场景。 比如你只是想从另一个集群拉取某张表的数据做个UNION操作,用Arrow Flight模式最合适不过。 协议开销小,传输效率高,不需要复杂的查询优化。 虚拟集群模式就更有意思了。 它把远端集群的BE节点当成虚拟BE,直接同步完整的元数据信息,然后生成全局统一的执行计划。 在Doris看来,两个集群的BE节点就是一个大集群,查询计划可以无缝分发执行。 这种设计带来的好处是显而易见的:所有Doris内表的优化策略都能用上,Runtime Filter、分区裁剪、列裁剪这些优化手段全部生效。 对于那种需要复杂Join和聚合的分析场景,虚拟集群模式是不二之选。 回到文章开头老张的故事,他用的就是虚拟集群模式。 配置Doris Catalog只需要一条SQL,指定远端FE的HTTP地址、Thrift地址、用户名密码,设置use_arrow_flight为false,就搞定了。 然后在查询时,用全限定名直接关联本地表和远端表,一条SQL解决战斗: -- 创建Doris Catalog,启用虚拟集群模式(复用内表优化) CREATECATALOGIFNOTEXISTS remote_ctl PROPERTIES ( 'type' = 'doris', -- 固定类型 'fe_http_hosts' = 'http://logistics-fe1:8030,http://logistics-fe2:8030', -- 远端FE HTTP地址 'fe_arrow_hosts' = 'logistics-fe1:8040,http://logistics-fe2:8040', -- 远端FE Arrow Flight地址 'fe_thrift_hosts' = 'logistics-fe1:9020,http://logistics-fe2:9020', -- 远端FE Thrift地址 'use_arrow_flight' = 'false', -- false=虚拟集群模式,true=Arrow Flight模式 'user' = 'doris_admin', -- 远端集群登录用户 'password' = 'Doris@123456', -- 远端集群登录密码 'compatible' = 'false', -- 集群版本接近(4.0.3 vs 4.0.2),无需兼容 'query_timeout_sec' = '30'-- 延长查询超时时间(默认15秒) ); -- 查询 SELECT local.region, SUM(remote.sales_amount) as total_sales FROM internal.sales_db.orders local JOIN remote_ctl.logistics_db.delivery remote ON local.order_id = remote.order_id WHERE local.create_date >= '2025-01-01' GROUPBY local.region; 这种写法和在单集群查询没什么区别,唯一的差别是多了个Catalog前缀。 但对于查询引擎来说,这背后的优化逻辑完全不同——它会智能地把计算下推到远端集群,减少数据传输量,最大化利用两边的计算资源。 有个做电商的小伙伴用Doris Catalog解决了订单履约率分析的问题。他们的订单数据在交易集群,履约数据在物流集群,以前用JDBC Catalog跑一次查询要好几分钟。换成Doris Catalog虚拟集群模式后,查询时间直接降到秒级,业务人员终于不用盯着进度条发呆了。 面对两种模式,很多人会纠结该用哪个: 其实选择逻辑很简单。 如果你的查询主要是简单的单表过滤、投影操作,或者需要跨集群做UNION,那Arrow Flight模式就够用了。它轻量、高效,不需要同步完整元数据,对FE内存压力小。 但如果你的分析涉及复杂的Join、聚合操作,或者需要依赖Doris的各种查询优化特性,那毫不犹豫选虚拟集群模式。虽然它会同步元数据,对FE内存有一定要求,但换来的性能提升是实打实的。 还有一个考虑因素是集群版本。如果你的多个Doris集群版本不一致,用Arrow Flight模式更稳妥,兼容性更好。 结语 Doris Catalog目前还是实验性特性,官方明确表示会持续优化。 说到底,Doris Catalog的出现,让湖仓一体这个概念更加完整了。 以前Doris可以无缝对接各种外部数据湖,现在连自己的多个集群也能高效互联,真正做到了无界。 数据在哪里不重要,重要的是你能不能高效地查询和分析它。 这种对内对外都不妥协的态度,才是一个成熟数据库应有的样子吧。 来源(公众号):一臻数据
2026-01-15 14:16 67
大型语言模型展现出的智能程度是以往软件所无法比拟的。你可以让它解释复杂的主题、改写电子邮件或帮助你理清思路,而它的回答往往听起来冷静、自信且深思熟虑。这自然而然地引出了人们不断追问的问题:人工智能真的在思考吗? 诚实的答案很微妙。这些系统的思维方式与人类不同,但它们所做的事情也远不止于简单地重复记忆的文本。要理解人工智能为何如此人性化,就需要了解这些模型真正接受过哪些训练,以及它们没有接受过哪些训练。 现代人工智能模型的基本原理是训练预测下一个词。在训练过程中,模型会接触大量文本,并反复学习如何回答一个简单的问题:根据目前为止的所有信息,下一个最有可能出现的词是什么?随着时间的推移,这个简单的目标会迫使模型内化语言模式、事实、推理方式,甚至人类解释事物的方式。 这就是为什么“这只是自动补全”的解释既正确又具有误导性。正确之处在于,预测确实是其核心机制。误导之处在于,当预测规模扩展到数万亿个单词和数十亿个参数时,系统会开始构建一些内部结构,这些结构看起来很像概念。并非人类意义上的概念,而是稳定的模式,当模型处理诸如数字、城市、情感或因果关系之类的概念时,这些模式会持续激活。 如果你让模型解决一个多步骤问题,它通常会生成一些类似于推理过程的中间步骤。它可能会定义术语、探索其他方案,或者排除之前的可能性。这一切的发生并非因为模型本身的目标就是给出正确的答案。而是因为在它所训练的数据中,正确的答案往往伴随着连贯的解释链。生成这些解释链会增加后续步骤产生合理结果的概率。 换句话说,推理行为的出现是因为它对预测有用,而不是因为模型知道自己在推理。 这种区别至关重要。人类通过推理得出结论。语言模型之所以生成符合推理逻辑的文本,是因为统计上这种文本能带来更好的自动补全效果。因果关系的方向颠倒了。 如果这听起来有些含糊不清,那么最近的可解释性研究已经开始让这些内部模式显现出来。在Anthropic及其合作者的研究中,研究人员开发了一些工具,可以追踪信息在模型内部的流动方式,类似于生物学家使用显微镜观察活体生物体内的细胞。 我们基于近期研究成果,引入了一套用于识别特征并绘制特征间连接图的新工具——类似于神经科学家绘制大脑的“线路图”。我们大量运用了一种名为归因图的工具,它使我们能够部分追踪模型将特定输入提示转化为输出响应所使用的中间步骤链。 如果将模型的内部活动想象成一种隐藏的计算网络,那么这些归因图就如同图表,展示了模型决定写作内容的主要路径。研究人员甚至用类似于简化电路图的图表来可视化这些路径,其中每个节点代表一个学习到的概念,而边则显示了不同概念如何影响输出。 论文中重点介绍的一个例子涉及基本的地理推理。当给出“事实:达拉斯所在的州的首府是……”这样的提示时,模型会补全为“奥斯汀”。研究人员利用他们的工具表明,在幕后,该模型实际上使用了中间概念步骤来得出这个答案。它首先将“达拉斯”表示为位于“德克萨斯州”,然后以此为基础确定“奥斯汀”是首府,所有这些步骤都发生在最终文本出现之前。 Haiku 用一个“多步骤”图表来完成句子,顺序为达拉斯 → 德克萨斯州 → 奥斯汀。 该模型内部执行真正的两步推理,与快捷推理并存……决定说奥斯汀取决于一系列中间计算步骤。 在研究的另一部分,研究人员发现模型在创作诗歌时表现出惊人的特性。在生成诗歌的每一行之前,模型内部的电路通常会激活潜在的押韵词,并利用这些潜在的押韵目标来构建诗行。本质上,尽管模型的目标函数仅用于预测下一个词,但它却能提前规划下一个词之后的内容。 在开始编写每一行之前,该模型会识别出可能出现在句末的押韵词。这些预先选定的押韵选项随后会影响模型构建整行的方式。 另一项令研究人员感到惊讶的发现是,某些内部模式在不同语言中是共通的。当相同的提示被翻译成不同的语言时,模型内部计算中会激活类似的回路路径。这暗示了该模型使用了一种抽象表征,这种表征并非严格局限于单一的人类语言,而是映射到跨语言共享的概念结构。 我们发现该模型使用了特定于语言的电路和抽象的、与语言无关的电路的混合……与较小、功能较弱的模型相比,Claude 3.5 Haiku 中与语言无关的电路更为突出。 这一切都很重要,因为它有助于解释为什么人工智能的回答在多句话中往往显得连贯一致。当你提出问题时,模型并非盲目猜测下一个词。它通常会运用内部对答案类型的理解,然后将其翻译成类似人类语言的表达方式。 但这并不意味着模型理解了它所表达的意思。一个便于理解的方法是想象一个人读过几乎所有书籍,但却没有任何直接的现实世界经验。这个人或许能够解释悲伤是如何产生的,法律体系是如何运作的,或者一家初创公司应该如何运营,而这一切仅仅是通过对所读内容进行模式匹配来实现的。这种解释或许非常精辟,但仍然是二手信息。 这有助于解释一个常见的误解。人们常常认为,如果一个模型能够始终如一地谈论某个概念,那么它一定像人类一样“拥有”这个概念。实际上,模型学习了一套内部表征,这些表征有助于在合适的语境中使用正确的词语。这些表征可能非常稳定,但它们并非基于经验、意图或理解。 这也是为什么模型有时会显得自信满满,但实际上却可能出错的原因。自信只是文本中的一种模式。模型已经学习到,权威的解释往往遵循某些特定的语言形式。如果这些形式在统计学上是合理的,模型就会使用它们,而不管其背后的内容是否正确。 从这个角度来看,现代人工智能系统的行为就更容易理解了。它们之所以强大,是因为它们能将海量的人类知识压缩成一种可以按需重组的形式。它们的局限性在于,它们缺乏人类用来发现错误、寻求澄清或根据现实世界反馈更新信念的机制。 我认为这种框架比任何极端观点都更有用。这些系统并非意识系统,也与意识相去甚远。但它们也绝非肤浅的技巧。一个单一的训练目标就能产生支持翻译、解释、类似计划的行为和抽象思维的内部结构,这的确令人惊叹。 理解其运作原理并非仅仅是学术探讨,它会影响我们如何负责任地部署这些系统。一旦你不再假设模型“知道”何时正确,你就会开始设计能够验证、约束和巩固其输出的系统。你不再依赖流畅性来判断正确性,而是将其视为一种表面信号。 人工智能本身并不思考。但它所产生的行为与从外部视角观察到的思考方式存在重叠。这种重叠既强大到足以发挥作用,也危险到需要我们谨慎对待。我认为,对于任何想要认真研究这些系统的人来说,同时认识到这两点才是正确的出发点。 来源(公众号):数据驱动智能
2026-01-14 11:31 65
热门文章