文 | 中国科学院大学经济与管理学院教授 孙毅 近期,《全国数据资源调查报告(2024年)》(以下简称《报告》)正式发布。《报告》在2023年度数据规模、开发利用和应用情况等指标基础上,新增人工智能(AI)、大模型等热点领域调查指标,并对数据资源地区、行业分布情况做了分析测算。《报告》数据显示,2024年我国数据资源规模优势持续扩大,数据资源开发利用活跃度稳步提升,各类主体加快人工智能布局投入,数据要素市场化、价值化进程提速。 2024年3月,《政府工作报告》首次提出开展“人工智能+”行动。《“数据要素×”三年行动计划(2024—2026年)》、《可信数据空间发展行动计划(2024—2028年)》、《关于促进数据产业高质量发展的指导意见》等涵盖场景应用、产业发展的一系列政策陆续颁布,加快公共数据资源开发利用“1+3”政策体系初步形成。在一揽子促进数据资源开发利用和数据要素市场高质量发展的政策引领下,《报告》调查结果呈现出以下几个突出特点: 一是数据资源开发利用水平有效提升,结构化数据增幅成为亮点。《报告》显示,约66%的行业龙头企业和30%的数据技术企业购买过数据;高质量数据集数量同比增长27.4%;结构化数据同比增长36%,占存储总量比重为18.70%,大幅超过非结构化数据存储增速。这三组数据对照来看,2024年数据资源开发利用程度明显提高,数据开发利用、高质量数据集建设等工作成效显著。 二是“人工智能+”行动有序推进,数算一体化发展特征明显。人工智能与数据资源开发利用互相促进,“人工智能+”行动有效推动了人工智能和数据资源开发利用的双向反馈,数算一体化协同的格局逐步建立。《报告》显示,智能家居、智能网联汽车、无人机等“人工智能+”行动的重点领域智能设备数据增速位居前列;全国智能算力规模达90 EFLOPS,在算力总规模中占比提升至32%,为海量数据计算提供智能底座;开发或应用人工智能的企业数量同比增长36%,有力支撑人工智能训练和应用;利用大模型的数据技术企业同比增长57.21%,数据应用企业同比增长37.14%。 三是公共数据授权运营成效显著,民生保障领域数据应用提速。一方面,公共数据授权运营探索步伐加快。国家公共数据资源开发利用“1+3”政策文件发布后,超六成省(自治区、直辖市)、计划单列市启动授权运营工作,公共数据授权运营逐步规范化、有序化。其中,市级政府部门公共数据授权运营数据量为省级政府部门的2.53倍,公共数据资源供给不断扩大。另一方面,公共数据服务场景日益丰富。公共数据服务产品数量同比增长超过40%,交通、医疗等涉及公共服务与民生保障的应用领域发展迅速。 四是实数融合步伐加快,制造业数据生产量位居首位。《报告》显示,随着我国数字化、网络化、智能化进程加速,制造、金融、交通物流行业数据生产总量领先其他行业,金融、采矿、交通物流行业企业平均数据生产量位居前三。交通物流、电力行业数据资源开发利用活跃度远高于全国平均水平,分别为78.24%、75.83%。上述行业中,除金融行业由于前期数据资源开发利用水平较高、数字化投入较高,因此排名靠前之外,制造、交通物流、采矿、电力等均属于实体经济,以数据协同实体经济与数字经济深度融合,推动高端化、智能化、绿色化发展趋势显著。 总体而言,《报告》充分体现了2024年我国数字经济发展和数据要素市场化、价值化工作进展和工作成效,能够有效摸清数据资源底数,厘清数据产业发展的现状、问题和趋势,加快数据资源开发利用,释放数据要素价值,为做大做强数字经济、建设数字中国奠定坚实基础。 来源(公众号):北京数据
文 | 复旦大学上海数学中心 李骏 王天栋 《全国数据资源调查报告(2024年)》显示,我国数据资源规模优势持续扩大,数据资源开发利用活跃度稳步提升,各类主体加快人工智能布局投入,数据要素市场化、价值化进程进一步提速。在数字经济快速发展和数据要素价值日益凸显的背景下,数据要素的生产、存储、计算、流通和应用等各个环节对经济社会发展的乘数效应进一步释放。海量数据资源与人工智能等新一代信息技术深度融合,应用于丰富的现实场景,能够显著地改善传统要素的配置效率,并激发市场活力与社会创新、增强经济发展的韧性与可持续性,为经济增长提供新动能、为国家竞争创造新优势。 01 数据要素多环节协同,驱动经济效率提升 《全国数据资源调查报告(2024年)》显示,2024年全国数据生产量达41.06泽字节(ZB),同比增长25%;数据存储总量为2.09泽字节(ZB),同比增长20.81%,存储空间利用率61%。数据生产规模的跃升与存储总量的稳步增长,直观展现出数据要素两大基础环节的蓬勃发展态势。数据要素作为数字经济关键生产要素,其价值释放依赖生产、存储、流通三大环节的动态耦合,各环节不仅独立赋能地区经济,更通过协同效应重塑经济增长动力与传导路径。 复旦大学上海数学中心李骏院士团队基于省级面板数据构建的统计模型量化了省际数据流通对经济增长的贡献率。针对2023-2024年度地区GDP变化特征,研究通过多元回归与结构方程模型等方法实现实证分析重要突破:一方面,运用回归模型量化省际数据流通对经济增长的贡献率,揭示数据要素流动对区域经济的拉动作用;另一方面,通过构建结构方程模型,深入剖析数据要素各环节与地区GDP之间的直接效应、间接效应及其传导路径,全面阐释数据生产、存储、流通等环节间的协同作用机制与复杂交互关系(如图1)。 研究表明,数据生产、存储及交互量均对地区GDP增长有显著正向驱动作用,其中数据交互(流通)环节的促进作用最为突出。结构方程模型显示,数据交互量是数字经济的核心枢纽,既承接数据生产与存储的成果,又推动区域经济发展。 (一)数据生产环节 数据生产是要素价值链的起点,其核心在于将原始信息转化为可用的数据资产。数据资源是数字经济时代的“新石油”。2024年全国数据生产总量的大幅增长,催生数据采集、生成与加工等新兴经济活动,拉动GDP增长;通过两大路径间接赋能经济,一方面生产环节积累的大规模、多样化数据可被上下游产业复用,促进算法优化与模型迭代,数据生产环节通过与其他要素协同,还可以形成复用增效与融合创新的乘数效应,加速新技术、新模式、新业态的产生,并溢出至制造业、农业、服务业等领域为区域经济注入持续创新动能。另一方面,企业通过生产数据实时分析优化运营流程,将传统经验决策升级为数据驱动决策,也可以降低试错成本与资源错配,实现决策和价值创造的优化。 (二)数据存储环节 根据《全国数据资源调查报告(2024年)》,全国数据存储总量呈增长趋势,印证了数据存储环节日益提升的经济影响力。数据存储作为数字经济的重要基石,其基础设施建设与运营深度嵌入传统经济指标。从土地租赁、设备采购到能源消耗,大规模数据中心、云平台的建设运营,不仅直接拉动上下游设备制造、能源、建筑等产业投资,形成显著的固定资产投资效应,更将分散的数据资源转化为可管理的数据资产,催生出存储服务、云计算等增值业务。同时,集中存储与云端托管降低了数据冗余与管理成本,使中小微企业能够以低成本获取存储服务,从而释放更多资金用于研发与市场开拓。而通过统一的存储标准与安全体系建设,也可以提高全社会数据资产的信任度与可用性,进而提升跨行业、跨区域的数据共享意愿,促进数据要素的广泛流动。 (三)数据流通环节 在流通环节,数据作为可交易商品,通过数据交易平台或市场完成定价与流转,直接产生交易规模与服务费收入,纳入第三产业统计范围,拉动服务业增值。数据流通还可以将数据产品推向更多应用场景,形成市场规模效应,进一步带动数据分析、咨询、应用开发等新的服务需求,增加地区服务业产出。随着流通规模扩大,参与主体增多,数据流通效率得到提升,不同数据集间的组合创新得到激发,可以形成正向循环,间接放大数据对产业结构升级的推动作用。 (四)各环节的协同作用与交互关系 数据的生产、存储及流通均对地区经济增长有显著的正向驱动作用,而各个环节的协同与交互将对经济增长产生倍增效应。数据的交互和流通环节是数字经济的核心枢纽,既承接数据生产与存储的成果,又推动区域经济发展。数据交互量的提升可优化要素配置、提高生产效率,进而增加存储需求,推动存储技术创新。同时,各环节之间形成了“流通促生产-生产带存储-存储助流通”的正向循环,数据流通的市场定价反馈指导了生产方向,而生产环节的实时数据采集可以倒逼存储技术升级,存储技术的进步和成本的下降又可以进一步促进交易规模扩大。数据要素三环节的协同作用可以产生指数级的收益,并共同提升经济的抗冲击性,通过持续释放数据要素活力驱动经济效率的提升。随着全国数据资源规模的持续扩容,三大环节间的协同效应将愈发显著,成为推动经济高质量发展的关键引擎。 2 数据要素价值凸显,拉动区域经济增长 在数字化浪潮中,省际数据流通已成为区域经济增长的新动力。作为新型生产要素,数据构建起了区域经济发展的新范式,它通过打破地理边界和重构资源配置规则突破了传统增长模式的物理约束与结构桎梏,实现更加高效的流动同时驱动着产业的协同与创新的扩散,推动了区域经济的稳步增长与经济结构的优化。 (一)突破地理疆界,重构经济空间形态 数据要素的跨域流动改变了“区位决定论”的旧有逻辑。传统经济活动中,地理距离构成了要素流动的天然壁垒,但省际的数据流通可以使不同省域间的经济主体能够在同一“数字大市场”中互动,降低了跨省交易成本与信息搜寻成本,有效地推动了数据要素在更大范围内自由流动,增强了全国一体化市场的深度和广度。同时,信息的不对称往往会加剧区域间的发展不平衡,而省际数据流通通过虚拟空间的零边际成本传输使偏远地区无需物理迁移即可接入发达区域的技术网络与市场体系。这不仅可以将发达地区的产业经验、技术标准及时传递至欠发达地区,促进产业要素逆向扩散和全国的数字化转型,还可以以数据连接消解地理区位的劣势,使每个区域形成基于数据禀赋的特色竞争优势,推动区域经济从非均衡集聚转向分布式协同。利用数据要素的流通,构建跨地理空间的价值交换通道,有助于改变区域分工的地理约束,推动经济空间从“梯度差异”向“网络节点”转型。 (二)消融产业边界,加速区域创新扩散 数据要素的通用性特征,使其成为贯通不同产业的“超级连接器”。在数据流动支持下,金融、物流、能源、制造等传统行业能够与数字产业深度融合,建立“数据+实体”融合发展的新模式,形成以数据为纽带的产业共同体,提高各要素的边际产出率,推动产业链整体价值提升。产业链从垂直整合转向网状互联,还可以创造“1+1>2”的复合价值,推动单一产业数据在跨域流通中发挥出指数级增值效应,使区域经济竞争力日益取决于产业数据的整合能力而非单一产业规模。此外,省际范围的数据集聚与共享能够产生强大的网络效应,数据量越大、数据类型越丰富,对于算法优化和模型训练等的支持就越充分,反过来又可以吸引更多主体参与数据交换,形成良性循环,最终带来产业创新能力倍增。当省域形成数据驱动的创新集群,其技术与经验也能够经由省际数据通道快速外溢至邻近及周边地区,加速产业升级与新兴业态扩散,从而提升整个区域的技术溢出效应与增长潜力。 (三)增强经济韧性,构建抗风险体系 数据要素的跨域配置为区域提供了多元化的需求与供应来源,赋予了区域经济更强的系统弹性。在供给冲击场景中,省际数据流通使产业链关键节点状态实时可视,企业可快速切换备用供应商或调整生产计划;在需求波动情境下,消费数据的跨区域分析助力精准预测市场趋势,避免产能过剩与资源错配。此外,当某一区域遭遇外部冲击时,其经济功能可通过数据迁移由其他节点承接,形成“去中心化”的风险缓冲机制。这种抗风险能力的本质提升,增强了区域经济发展的韧性与可持续性。 03 数据要素驱动经济增长的未来图景 数据要素在推动经济增长中的核心地位日益凸显,但数据要素的价值释放仍面临着如技术层面瓶颈制约要素市场化进程、市场生态呈现区域割裂与规则互斥等一些约束,需要从制度、技术与市场三方面采取综合举措,以系统性思维破解发展桎梏,进一步发挥数据要素效能,助力实现更高质量、更可持续的增长。 展望未来,数据要素将在制度创新与技术突破的双轮驱动下,逐步完成从“资源”到“资产”再到“资本”的价值跃迁,成为可核算、可交易的新型生产要素,推动增长逻辑从“要素堆积”转向“智能协同”,空间形态从“地理约束”升级为“数实融合”,促进算法与算力驱动的全要素生产率质变,形成跨域联动的“数字经济体”。在数据要素的驱动下,经济发展也将在规模持续扩张的同时实现复杂性提升、韧性增强与福祉普惠的均衡发展,为人类社会的可持续发展开辟新路径。 来源(公众号):北京数据
为什么大厂的模型就是比创业公司强? 不是因为他们的算法有多高明,而是因为他们有数据。
AI Agents+大模型+RAG的架构,不只是技术的进步,也是思维方式的革命。它让数据真正成为每个人的武器,而不是少数人的特权。
文 | 中国科学院科技战略咨询研究院大数据战略研究中心执行主任、研究员 冯海红 近年来,国家数据局等部门探索制定数据资源统计调查制度,健全数据资源协同调查机制,发布数据资源调查年度报告,初步形成动态监测我国数据资源的调查方法和工作机制。2025年4月29日,《全国数据资源调查报告(2024年)》(以下简称《报告》)在第八届数字中国建设峰会正式发布,对全国数据资源发展态势进行系统性调查分析、综合性评估研判,为纵深推进数据要素市场化价值化提供坚实的基础支撑。 聚焦数据要素价值释放,构建数据资源基础调查制度 准确掌握我国丰富的数据资源情况,是深化数据要素市场化配置改革、构建以数据为关键要素的数字经济的基础性工作,需要兼顾数据资源特征和统计调查规范,探索健全跟踪监测数据资源发展态势的专业性统计调查制度。 (一)紧扣国家数据发展战略导向与重点举措 当前,我国数据领域正以数据要素市场化配置改革为主线,围绕数据产权、收益分配等夯实制度体系,推动数据资源开发利用和数据产业发展,构建统一开放、繁荣活跃的数据市场,着力释放数据要素在各行业各领域的乘数效应,以深化数据领域“改革攻坚”加快数据要素市场化价值化进程。《报告》系统调查全国数据生产、存储、计算、流通和应用等关键环节的基本态势,并结合人工智能等热点领域进行测算评估,旨在摸清全国数据资源底数,及时全面反映我国数据资源全貌,将为研判我国数据领域发展趋势、优化政策措施、强化行业管理提供基础性的调研依据。 (二)遵循国家统计调查政策法规与现行模式 2025年初,国家数据局制定《全国数据资源统计调查制度》(以下简称《制度》),并由国家统计局批准实施,全国数据资源统计调查工作正式迈入制度化规范化新阶段。《制度》基本形成目标清晰、报表合理、实施有力、披露规范、聚焦新经济新领域的部门统计调查项目,既构建覆盖公共数据、科学数据、企业数据3个领域和12张报表的统计调查报表体系,也对调查目的、调查对象和统计范围、调查频率和时间、调查方法、组织实施、质量控制、信息共享等内容进行说明或明确。另外,《制度》根据国家统计基本单位名录库信息,开展名录库信息互惠共享,补充行业管理所需单位名录库信息,探索构建数据领域统计调查基本单位名录库。从调查数据回收情况来看,此次统计调查的有效样本覆盖了除国际组织外的所有国民经济行业门类,初步形成专业性强、覆盖面广的专项统计调查工作。 (三)探索数据资源统计调查方法与工作机制 从建立实施机制、明确调查对象、开展专业培训、确定测算方法等方面,探索形成系统性的调查方案和运行机制。实施机制方面,《制度》由国家数据局统一组织,调查数据以《报告》形式向社会发布。调查对象方面,覆盖合法拥有或控制数据的各类单位,主要包括省级数据管理部门、国家实验室、全国重点实验室、国家科学数据中心、中央企业、重点行业协会商会、数据交易机构、数据服务方和数据应用方企业等。专业培训方面,全国数据资源统计调查工作组针对重点指标、填报流程、平台操作、数据质量控制等内容,分类型分批次组织开展统计调查专题培训工作,有效提升调查对象的理解认识和统计操作。测算方法方面,基于分层抽样统计调查数据,《报告》根据调查企业的不同行业及规模特征,加权推算总体企业的数据生产和存储规模。 展现数据资源总体态势,系统刻画数据资源关键板块 基于统计调查和数据测算,《报告》覆盖数据资源的总量、增速、热点领域、活跃情况、区域分布、行业差异以及算力基础设施等方面内容,立体性、多维度勾勒出全国数据资源的整体情况。 (一)全国数据生产总量加速增长 《报告》从数据生产总量及增长态势、战略性新兴产业数据生产等方面,总结分析了全国数据资源生产情况。《报告》显示,2024年全国数据生产量达41.06泽字节(ZB),同比增长25%,增速提高2.56个百分点,呈现加速增长态势。智能家居、智能网联汽车等智能设备数据生产增速位居前列,在数据总量增长中发挥着强有力的带动作用。战略性新兴产业领域成为数据资源的新增长点,低空经济和机器人数据生产量增速超过30%。同时,《报告》展望认为,无人驾驶、具身智能、低空经济等战略性新兴产业和未来产业的数据资源规模将保持高速增长。 (二)全国数据存储结构持续优化 《报告》从数据存储总量及增长态势、数据存储的结构特征、数据存储空间利用等方面,概括总结了全国数据资源存储情况。《报告》显示,2024年全国数据存储总量、新增数据存储总量分别达到2.09泽字节(ZB)、1.15泽字节(ZB),同比增幅均超过20%。结构化数据存储规模同比增长36%,该增幅远超非结构化数据存储规模增速,表明全国数据资源整体质量及数据治理成效显著提升。另外,数据存储空间利用率达到61%,同比提升2个百分点,反映出全国数据存储与基础设施建设呈现较好的协调联动发展态势。 (三)数据资源区域行业分布不均 《报告》从区域和行业等方面揭示了我国数据资源分布不均衡现状,并研究分析了产生差异性的相关影响因素。《报告》发现,区域数据资源水平和经济发展高度相关,经济大省数据资源集聚效应明显,广东、江苏、山东、浙江、河南和四川6个省份数据生产量占全国比重达57.45%。《报告》认为,行业数据资源开发利用水平与数字化投入密切相关,制造、金融、交通物流行业数据生产总量领先其他行业,金融、采矿、交通物流行业企业平均数据生产量位居前三。 (四)算力基础设施建设提速升级 《报告》从算力规模、区域分布、算力结构、市场化算力供给等方面,总结了算力基础设施建设的基本态势。《报告》指出,国家枢纽节点算力资源持续集聚,2024年全国算力总规模达280EFLOPS(每秒百亿亿次浮点运算),八大国家枢纽节点算力总规模达到175EFLOPS。同时,智能算力布局加速,智能算力规模达90EFLOPS,在算力总规模中占比提升至32%,为海量数据计算提供智能底座。另外,市场对智能算力的需求呈爆发式增长,企业布局智能算力提速。中央企业和数据技术企业的算力规模分别增长近3倍、近1倍,智能算力占比分别达到40.22%、43.63%。 关注数据资源新兴热点,及时反映数据领域前沿动态 结合经济社会发展最新形势和数据要素市场化配置改革重点举措,围绕数据要素价值创造路径及模式,强化数据资源重点工作的统计调查和监测分析,为评估政策实施进展和数据赋能效应提供调研支撑。 (一)公共数据资源开发利用加快推进 《报告》结合公共数据资源相关的政策部署和系列工作,从数据共享、数据开放、授权运营、应用场景等方面形成公共数据资源开发利用的主要进展。数据共享方面,建成全国一体化政务数据共享枢纽,推动国务院部门垂管系统向基层“回流”数据8.2亿条,为“高效办成一件事”等提供有力的数据支撑。数据开放方面,2024年地市级以上公共数据开放平台数量增长7.5%,开放的数据量增长7.1%,公共数据集开放总量稳步增长。授权运营方面,超六成省(自治区、直辖市)、计划单列市启动授权运营工作,地市级公共数据授权运营数据量为省级的2.53倍,公共数据授权运营逐步规范化、有序化。应用场景方面,公共数据服务产品数量同比增长超过40%,涵盖交通、环保、医疗等经济社会各领域,涉及低空经济、多式联运、保险理赔、征信服务等场景,公共数据服务场景日益丰富。 (二)企业数据资源应用活力显著提升 《报告》结合数据要素市场化价值化的基本导向,从数据结构、数据利用、数据赋能、数据流通、直接收益等方面形成企业数据资源应用的基本态势。数据结构方面,活跃数据总量占企业存储数据总量为62.04%,活跃数据总量同比提升22.73%。数据利用方面,企业用数需求旺盛,2024年约66%的行业龙头企业和30%的数据技术企业购买过数据,企业数据与公共数据融合应用场景加速增长。数据赋能方面,企业数据在技术研发、生产协同、产品营销、售后服务等关键环节中发挥重要作用,同时支撑产业链供应链韧性不断提升。数据流通方面,平台企业成为数据流通的关键枢纽,促进企业数据与气象、交通、地理等公共数据加速融合,广泛应用于客户服务、精准营销、研发创新等场景。典型行业方面,交通物流、电力行业数据资源开发利用活跃度远高于全国平均水平,分别为78.24%、75.83%。直接收益方面,2024年利用数据获得直接收益的企业实现小幅提升。同时,《报告》展望认为,企业数据价值挖掘重心从服务自身数字化转型向数据要素化、市场化拓展,数据跨主体流通、跨行业应用、跨场景赋能的乘数效应加速释放。 (三)人工智能发展与数据资源利用深度融合 《报告》结合人工智能大模型发展前沿,调研分析了人工智能与数据资源开发利用相互促进的基本态势。一是数据领域企业积极开展人工智能训练和应用,开发或应用人工智能的企业数量同比增长36%,利用大模型的数据技术企业和数据应用企业数量分别增长57.21%、37.14%。二是智能应用带动数据资源规模加速增长,企业高质量数据集数量增速达27.4%,用于开发、训练和推理的数据量同比增长40.95%,智能家居、智能网联汽车等智能设备数据增速分别达到51.43%、29.28%。《报告》认为,大模型有望帮助企业降低非结构化数据加工成本,推动数据资源开发利用提档加速。 来源(公众号):北京数据
数据治理最难的不是技术,而是人。 技术问题可以用钱解决,人的问题需要用心解决。 成功的数据治理,需要IT部门和业务部门真正坐在一起,用同一种语言思考问题。不是IT说服业务,也不是业务指挥IT,而是双方共同定义什么是好数据
在数字化转型的时代浪潮中,数据已然跃升为关键生产要素,住房城乡建设部发布的《“数字住建”建设整体布局规划》,强调以“四好”建设为主线,以数据资源为核心,全面推动住房城乡建设领域数字化、智能化转型,提升行业治理能力和服务水平,为城市高质量发展注入新动能。 一、政策内涵:数据驱动住建事业全方位变革 政策层面,“数字住建”的核心目标是通过构建统一、高效的数字基础设施和数据资源体系,打破传统住建领域的信息壁垒,实现数据的全生命周期管理与深度应用。打造部、省、市三级联动的“数字住建”工作平台,推动城市运行管理“一网统管”,这一部署从顶层设计上确立了数据要素在住建领域的核心地位。 从政策导向来看,“数字住建”绝非简单的技术叠加,而是要以数据赋能为关键路径,推动住建领域治理模式从“经验驱动”向“数据驱动”转变,从“分散管理”向“协同治理”升级。通过建立健全数据标准规范、安全保障体系,确保数据的真实性、准确性和可用性,为住建领域的科学决策、精准服务和高效监管提供坚实支撑。 二、重点方向:以数字底座为基石,推动住建领域数智升级 (一)夯实城市数字底座,筑牢数智化根基 数据要素的乘数效应需要技术底座的支撑,城市数字底座整合基础地理信息、建筑物、市政设施等全域空间数据,以及人口、经济、社会等非空间数据,构建统一的时空大数据平台,为数字住房、数字工程等应用提供“数据富矿”。同时,依托人工智能、大数据、区块链技术对底座数据进行深度挖掘,构建城市运行态势感知模型,实时监测城市住建领域的关键指标,为城市治理提供“千里眼”“顺风耳”,提升城市对各类风险的预判和处置能力。 (二)发展数字住房,重塑居住服务新范式 数字住房建设以数据要素为核心,推动住房全生命周期的数字化管理。在住房开发阶段,利用大数据分析市场需求、人口结构变化等因素,精准定位住房供给类型与规模。在建设阶段,通过BIM技术与物联网设备的结合,实现施工过程的数字化管控,保障住房建设品质。在住房交易与管理阶段,搭建数字化住房服务平台,整合房源信息、交易数据、产权登记等数据,实现住房交易全程线上化、透明化。同时,基于住户行为数据提供个性化服务,打造“人、房、服务”深度融合的数字生活场景,提升居民居住体验。 (三)推进数字工程,提升工程建设管理效能 数字工程建设聚焦工程全生命周期的数字化转型,借助大数据、人工智能技术优化工程管理流程。在项目策划阶段,通过分析历史工程数据、政策法规数据,实现项目可行性研究的智能化评估。在设计阶段,利用AI辅助设计工具与BIM技术的协同,提高设计效率和质量,减少设计变更。在施工阶段,部署物联网感知设备采集施工现场的人员、机械、物料等数据,实现对施工安全、进度、质量的实时监管。在运维阶段,建立工程运维数字档案,通过数据分析预测设施故障,实现主动运维、精准运维,延长工程使用寿命。 (四)打造数字城市,提升城市协同管理水平 发挥数据要素的乘数效应,要打破城市“数据孤岛”的壁垒,通过构建统一的数据共享交换平台,将分散在公安、交通、城管等部门的碎片化信息串联成完整的数据链条,这种跨领域的数据融合,让城市管理从“被动响应”转向“主动预判”,协同效率提升的同时,也降低了行政成本。同时,发展数智融合的公共服务,推动政务服务、社区服务等线上线下一体化,通过AI客服、智能审批等提升服务效率,让群众享受更便捷、高效的服务。 (五)赋能数字村镇,推动城乡协同发展 数字村镇建设聚焦乡村住房、基础设施、公共服务等领域的数字化改造。通过采集村镇地理信息、房屋数据、产业数据等,构建村镇数字孪生模型,为村镇规划、建设和管理提供数据支撑。在乡村住房建设方面,推广适合乡村的数字化设计标准,利用大数据指导农房建设,提升农房安全性和舒适性。同时,依托数字技术推动村镇公共服务升级,建立农村产权交易数字平台、乡村治理数字化系统,促进城乡要素双向流动。 三、价值与展望:开启住建数字化新征程 发挥数据要素的乘数效应在城市治理领域赛道的深度应用,正在激活住建领域的发展新动能。从短期来看,通过数据赋能提升了住建领域的管理效率和服务质量,降低了行政成本和社会运行成本。从长期来看,将推动住建领域形成数据驱动的创新生态,为城市可持续发展、城乡协调发展提供有力支撑。 展望未来,随着5G、人工智能、区块链等技术的不断成熟,数据要素在住建领域的应用将更加深入。数字住房将实现“千人千面”的个性化服务,数字工程将迈向全流程智能化管理,数字城市将达成“一屏观全域、一网管全城”的治理愿景。这一过程中,需要持续完善数据安全保障体系、健全数据共享机制,让数据要素在安全可控的前提下充分释放乘数价值,为住建领域高质量发展注入源源不断的动力。 作者:周小平 北京建筑大学智能科学与技术学院教授 来源(公众号):国家数据局
数据建模听起来像是一个高调的词,你会在高风险的创业公司路演中听到,或者在数据团队会议上虔诚地低声说。但如果你曾经列过购物清单,或者对衣柜进行过分类(没错,袜子总要有个归宿),那么恭喜你——某种程度上来说,你已经在进行数据建模了。 在这篇博客中,我们将深入剖析最近学习到的一些最重要的数据建模方法——所有这些都是在努力平衡过多的标签、大量的咖啡和一个令人困惑的橡皮鸭调试会话的过程中完成的。我们将从数据建模层和范式到星型模式、数据仓库、ETL/ELT,甚至Spark 管道,分解关键概念,并提供真实案例,避免过多的专业术语。 数据建模层:概念层、逻辑层、物理层 数据建模是设计数据系统结构的过程。它通常分为三个层次: ·概念模型——业务实体和关系的高级视图,不包含技术细节。 ·逻辑模型——定义表结构、关系、键和属性。独立于物理存储。 ·物理模型——在特定的数据库引擎中实现逻辑模型,包括索引、分区和数据类型。 想象: 你正在规划一栋房子。 概念=纸上草图(卧室、厨房、浴室) 逻辑=带有测量和布局的蓝图 物理 =用木材、瓷砖和电线实际建造 数据库规范化(1NF-3NF) 规范化可帮助您减少重复并提高数据完整性——通过将大型冗余表拆分为更小、干净相关的表。 前三个范式是: ·1NF:消除重复组和嵌套数据。 ·2NF:消除部分依赖——每一列必须依赖于完整的主键。 ·3NF:删除传递依赖关系——非键列必须仅依赖于键。 想想你的衣柜: 1NF:所有东西都折叠起来,没有嵌套在另一件衬衫里 2NF:每个抽屉只包含一个类别(没有混合的衬衫+裤子) 3NF:配饰(如腰带)与服装分开存放 TL;DR:进行规范化,直到您的查询高效并且您的连接看起来不像谋杀谜题板。 星型模式 星型模式是数据仓库中使用的一种维度建模方法。 ·它以一个中心事实表(销售额或收入等定量数据)为特色,周围环绕着维度表(客户、产品、地区等描述性数据)。 ·此设置可使您的 SQL 速度更快并且仪表板更整洁。 可以将事实表想象成商店的销售登记簿。维度表则是产品目录、客户目录和商店列表。这种结构使分析查询更快、更容易。 事实表与维度表 ·事实表:包含可测量的定量数据(例如销售额、数量、收入),通常非常大(数百万或数十亿行),并具有引用维度表的外键 ·维度表:存储描述性、分类数据(例如,客户名称、产品类型、地区),有助于为事实表中的数字提供背景信息,通常较小且经常被引用 ·Inmon 方法(自上而下):首先使用规范化结构(通常为 3NF)创建一个集中式企业数据仓库 (EDW)。数据经过大量的暂存和转换后加载到仓库中。EDW 完成后,将为特定部门(例如销售、人力资源、财务)创建数据集市。这种方法有利于实现强大的治理、一致性和长期可扩展性。 ·Kimball 方法(自下而上):首先使用非规范化的星型模式,直接从源系统构建数据集市。这些数据集市随后会集成到更大的数据仓库中,或作为独立的数据集市保留。该方法强调速度、访问便捷性和业务友好性。 技术权衡: ·Inmon需要更多的前期规划、更长的时间表和更严格的建模规则,但可以提供高度的数据完整性。 ·Kimball部署速度更快,分析师查询也更方便——但如果管理不善,可能会导致重复和控制松散。 当你需要全局一致性时,请选择Inmon 。当速度和可用性至关重要时, 请选择Kimball 。 现实世界?大多数团队都会两者兼顾。而且会花数周时间去命名表格,却无人能达成一致。 数据仓库建模 Data Vault 是一种混合数据建模方法,旨在实现敏捷、可扩展且可审计的数据仓库。它将数据分为三个核心部分: ·中心——代表唯一的业务实体(例如,客户、产品)。每一行都由一个业务键唯一标识。 ·链接——定义中心之间的多对多关系(例如,客户→订单)。 ·卫星——包含与中心或链接相关的上下文、历史变化和描述性属性。 主要特点: ·支持缓慢变化维度(SCD)的历史跟踪。 - ·专为并行加载而设计——集线器、链路和卫星可以独立加载。 ·鼓励可审计性、沿袭跟踪和易于模式扩展。 可以将 Data Vault 想象成乐高套件——灵活、可扩展,并且您可以在不破坏整个套件的情况下克服错误。 一个大表(OBT):快速,平坦,并且......有缺陷? OBT将事实数据和维度数据合并到单个宽表中。它快速、简单,非常适合仪表板。 但: ·很难维持。 ·模式改变=麻烦。 ·空值?哦,肯定有很多。 例如: 想象一下,你不再为收据、供应商和日期设置单独的文件夹,而是将所有信息都放在一个大电子表格里。阅读速度很快,但维护起来却很困难。 何时使用:优先考虑速度的仪表板或 BI 工具、原型设计或 MVP 分析,以及当模式更改最少且简单性是关键时 ETL 与 ELT 与 ETLT ·ETL:提取→转换→加载——数据在加载到仓库之前进行转换。 ·ELT:提取→加载→转换——将原始数据加载到仓库中,然后进行转换。 ·ETLT:一种混合体,具有轻度处理预载和之后更深层次的转换。 把它想象成烹饪: ETL 是在下锅前把所有食材准备好。ELT 则是把所有食材放入锅中,边煮边调味。ETLT 介于大厨和“冰箱里有什么?”之间。 数据转换工具 常用工具: ·AWS Glue:基于 Apache Spark 构建的无服务器 ETL。配置正确后,可扩展性良好。 ·DBT:云数据仓库内部基于 SQL 的转换。非常适合仓库中的版本控制和 CI/CD。 ·AWS DataBrew:无需代码即可进行数据整理。拖放式转换。非常适合快速探索或非程序员使用。 ·Pandas/Spark——用于转换的自定义脚本。非常适合处理早期混乱的数据或一次性批处理作业。 Hadoop 与 Spark:传统与 Lightning Hadoop: ·批处理。 ·将数据存储在磁盘上 ·适用于大型但速度较慢的数据工作负载,历史上使用较多 Spark: ·内存处理,分布式计算。 ·处理批处理、流处理、ML,甚至 SQL ·为 AWS Glue、Databricks 等现代工具以及一半的面试问题提供支持。 TL;DR:当您的数据管道想要感觉快速和智能时,它就会使用 Spark。 机器学习的特征工程 您并不总是能够构建模型,但您却能够使模型成为可能。 作为数据工程师,您的职责是准备: ·清理并标记的数据集 ·编码类别(标签、独热) ·缩放数值 ·衍生特征(例如“每分钟观看次数”) ·噪声或缺失值最少的数据集 特征工程就像准备饭菜。准备得越干净、越好,厨师(你的机器学习模型)的工作速度就越快。 TL;DR 备忘单 最后的想法 好的建模造就好的数据。那么,好的数据呢?这是每一个伟大的产品、洞察和决策的开端。 因此,无论您是在绘制第一个星型模式还是在生产中设置并行 Spark 作业,请谨慎、清晰地构建数据,并设置适当的混乱度以保持其趣味性 来源(公众号):数据驱动智能
一切数据治理的起因都应有业务侧的痛点,如在成熟阶段关注业务效益与成本均衡,在规模阶段注重灵活便捷与风险管控,在应用阶段重视数据可用性与易用性,在起步阶段确保数据量与稳定性。建立一套全链路治理平台,结合组织文化和方法论,在数据稳定可用、业务使用和成本效能等方面取得了显著成效,为企业数据价值的释放提供了有力支持。
文 | 武汉大学校长、大数据分析与应用技术国家工程实验室主任 张平文 数据要素是建设数字中国、实现数字化转型升级的战略性资源。摸清我国数据资源的规模、结构与发展趋势等基本盘,剖析数据在生产、存储、计算、流通和应用等各环节的基本面,对于我国进一步推动数据价值释放、形成数据产业具有重要作用。今年是国家数据局第二次组织开展全国数据资源统计调查工作,有效样本数量1.44万个,覆盖除国际组织外的所有国民经济行业门类,调查的科学性、权威性和指导性显著增强。《全国数据资源调查报告(2024年)》(以下简称“报告”)对数据总体情况、区域行业领域分布等进行了系统分析,为我国数据要素市场建设提供了科学量化的评估基础,也为政策制定者和市场主体提供了重要参考。 01 对2024年度我国数据资源调查指标的解读 (一)数据资源规模优势持续扩大,数据资源质量逐步提升报告显示,2024年全国数据生产量41.06 ZB,存储总量2.09 ZB,活跃总量1.3 ZB。我国数据资源规模优势进一步在智能家居、智能网联汽车等智能设备,以及无人机、机器人等战略性新兴产业的快速发展中得到巩固,尤其是计算数据与合成数据增速已超过传统影音视听数据,反映出我国数据资源从“规模扩张”向“质量提升”的转变。 (二)算力基础设施加速布局,智能算力发展潜力巨大2024年我国算力总规模达280 EFLOPS,其中智能算力占比提升至32%,发展潜力巨大。“东数西算”工程推动算力资源跨区域协同。尽管高端算力仍依赖进口,国产芯片在适配性与生态建设上正在突破。值得注意的是,AI大模型尤其是DeepSeek的应用爆发,将进一步加快算力基础设施自主可控进程。 (三)数据与AI形成良性互动,垂直领域应用加速渗透一方面,人工智能与大模型的发展为数据要素市场注入新动能。报告显示,已有约10%的企业开展了大模型应用,同比增长超37%。另一方面,随着人工智能向垂直领域发展,数据产业发展进入快车道。报告显示,高质量数据集增速达27.4%,利用大模型的数据技术企业数量同比增长57.21%,数据应用企业增长37.14%。随着我国数据要素市场的建设完善,数据流通交易方式逐渐发展成熟,去年约有66%的行业龙头企业,以及30%的数据技术企业购买过数据。 (四)数据要素市场建设初显成效,政策框架逐步完善公共数据方面,全国一体化政务数据共享枢纽累计支撑调用超5400亿次,“1+3”政策体系推动授权运营规范化,超六成省(自治区、直辖市)和计划单列市启动了公共数据授权运营工作,公共数据服务产品数量同比增长40%。企业数据方面,数据总量中被至少使用一次的活跃数据占比提升至62.04%,平台企业成为数据流通枢纽,制造业、金融业、交通物流业数据生产总量居行业前列。 02 对我国数据资源发展的未来展望 (一)提升数据资源质量,促进可信数据空间建设一要深化数据质量提升工程。加快建立统一的数据标准体系,重点完善数据资源、流通交易、安全保障等关键标准,增强跨行业、跨领域数据互操作性。推广首席数据官制度,强化数据分类分级管理,通过数据登记、授权运营等机制,激活数据市场价值。鼓励行业龙头企业开放脱敏数据,支持开源社区建设垂直领域数据集,如医疗影像、智能制造等,填补AI训练数据缺口。二要促进可信数据空间建设。国资央企应在可信数据空间建设上发挥主力作用,依托隐私计算、区块链、数据沙箱等技术构建可信管控能力,分类推进企业、行业、城市、个人、跨境五类可信数据空间建设,实现数据“可用不可见”的安全流通,形成可复制的标杆案例。三要谋划跨境可信数据空间建设。积极参与数据跨境流动国际规则和标准制定,推动我国可信数据空间技术标准与认证体系、数据分级分类体系等全球适用。探索自贸试验区负面清单管理,优化数据出境安全评估流程,促进跨境数据有序流动。 (二)加速AI与数据融合,构建良性产业生态一是支持大模型与实体产业紧密结合。聚焦实体产业核心场景需求,以场景驱动为牵引,依托算力支撑、数据赋能、算法模型创新三大基础力量,创建AI与数据融合使用的“无感化”工具,降低中小企业数字化和智能化转型升级门槛。二是支持数据要素商业模式创新。引导市场开展数据保险业务,建立数据安全风险基金,鼓励探索数据安全风险分配方式,以减轻数据持有者未来的数据安全责任,确保其在数据交易、开发和利用中“轻装上阵”。三是支持数据产业生态主体发展。培育数据商、第三方服务机构等生态主体,建立收益分配与风险防控机制。培育数据安全服务型企业,推进数据安全服务行业发展,为数据产业生态保驾护航。 (三)优化数据政策环境,释放各方协同潜力 一要优化数据要素发展环境。出台以发展促安全的系列政策措施。例如,将损害发生作为追责的触发机制,构建“无损害不追责”的底线追责逻辑,保证底线安全的同时,卸下数据持有者的“未来责任”包袱,激励其探索数据开发利用的新模式、新业态。 二要促进数据要素综合试验区建设。鼓励各试验区立足数字生态环境,科学谋划差异化发展定位,构建“基础建设—能力创新—应用落地”的全链条推进体系,打造具有区域辨识度的标志性成果。通过分类指导、动态评估,确保试验区建设既体现地方特色,又符合国家数据要素市场发展总体方向。 三要强化区域协调发展。创建多类数据合作专区。促进京津冀、长三角、成渝、中部城市群探索数据跨省协同机制,构建区域数据合作专区。鼓励粤港澳探索数据跨境协同机制,构建跨境数据合作专区。鼓励垂直领域头部企业数据协同创新,构建跨行业数据合作专区。