数据建模听起来像是一个高调的词,你会在高风险的创业公司路演中听到,或者在数据团队会议上虔诚地低声说。但如果你曾经列过购物清单,或者对衣柜进行过分类(没错,袜子总要有个归宿),那么恭喜你——某种程度上来说,你已经在进行数据建模了。 在这篇博客中,我们将深入剖析最近学习到的一些最重要的数据建模方法——所有这些都是在努力平衡过多的标签、大量的咖啡和一个令人困惑的橡皮鸭调试会话的过程中完成的。我们将从数据建模层和范式到星型模式、数据仓库、ETL/ELT,甚至Spark 管道,分解关键概念,并提供真实案例,避免过多的专业术语。 数据建模层:概念层、逻辑层、物理层 数据建模是设计数据系统结构的过程。它通常分为三个层次: ·概念模型——业务实体和关系的高级视图,不包含技术细节。 ·逻辑模型——定义表结构、关系、键和属性。独立于物理存储。 ·物理模型——在特定的数据库引擎中实现逻辑模型,包括索引、分区和数据类型。 想象: 你正在规划一栋房子。 概念=纸上草图(卧室、厨房、浴室) 逻辑=带有测量和布局的蓝图 物理 =用木材、瓷砖和电线实际建造 数据库规范化(1NF-3NF) 规范化可帮助您减少重复并提高数据完整性——通过将大型冗余表拆分为更小、干净相关的表。 前三个范式是: ·1NF:消除重复组和嵌套数据。 ·2NF:消除部分依赖——每一列必须依赖于完整的主键。 ·3NF:删除传递依赖关系——非键列必须仅依赖于键。 想想你的衣柜: 1NF:所有东西都折叠起来,没有嵌套在另一件衬衫里 2NF:每个抽屉只包含一个类别(没有混合的衬衫+裤子) 3NF:配饰(如腰带)与服装分开存放 TL;DR:进行规范化,直到您的查询高效并且您的连接看起来不像谋杀谜题板。 星型模式 星型模式是数据仓库中使用的一种维度建模方法。 ·它以一个中心事实表(销售额或收入等定量数据)为特色,周围环绕着维度表(客户、产品、地区等描述性数据)。 ·此设置可使您的 SQL 速度更快并且仪表板更整洁。 可以将事实表想象成商店的销售登记簿。维度表则是产品目录、客户目录和商店列表。这种结构使分析查询更快、更容易。 事实表与维度表 ·事实表:包含可测量的定量数据(例如销售额、数量、收入),通常非常大(数百万或数十亿行),并具有引用维度表的外键 ·维度表:存储描述性、分类数据(例如,客户名称、产品类型、地区),有助于为事实表中的数字提供背景信息,通常较小且经常被引用 ·Inmon 方法(自上而下):首先使用规范化结构(通常为 3NF)创建一个集中式企业数据仓库 (EDW)。数据经过大量的暂存和转换后加载到仓库中。EDW 完成后,将为特定部门(例如销售、人力资源、财务)创建数据集市。这种方法有利于实现强大的治理、一致性和长期可扩展性。 ·Kimball 方法(自下而上):首先使用非规范化的星型模式,直接从源系统构建数据集市。这些数据集市随后会集成到更大的数据仓库中,或作为独立的数据集市保留。该方法强调速度、访问便捷性和业务友好性。 技术权衡: ·Inmon需要更多的前期规划、更长的时间表和更严格的建模规则,但可以提供高度的数据完整性。 ·Kimball部署速度更快,分析师查询也更方便——但如果管理不善,可能会导致重复和控制松散。 当你需要全局一致性时,请选择Inmon 。当速度和可用性至关重要时, 请选择Kimball 。 现实世界?大多数团队都会两者兼顾。而且会花数周时间去命名表格,却无人能达成一致。 数据仓库建模 Data Vault 是一种混合数据建模方法,旨在实现敏捷、可扩展且可审计的数据仓库。它将数据分为三个核心部分: ·中心——代表唯一的业务实体(例如,客户、产品)。每一行都由一个业务键唯一标识。 ·链接——定义中心之间的多对多关系(例如,客户→订单)。 ·卫星——包含与中心或链接相关的上下文、历史变化和描述性属性。 主要特点: ·支持缓慢变化维度(SCD)的历史跟踪。 - ·专为并行加载而设计——集线器、链路和卫星可以独立加载。 ·鼓励可审计性、沿袭跟踪和易于模式扩展。 可以将 Data Vault 想象成乐高套件——灵活、可扩展,并且您可以在不破坏整个套件的情况下克服错误。 一个大表(OBT):快速,平坦,并且......有缺陷? OBT将事实数据和维度数据合并到单个宽表中。它快速、简单,非常适合仪表板。 但: ·很难维持。 ·模式改变=麻烦。 ·空值?哦,肯定有很多。 例如: 想象一下,你不再为收据、供应商和日期设置单独的文件夹,而是将所有信息都放在一个大电子表格里。阅读速度很快,但维护起来却很困难。 何时使用:优先考虑速度的仪表板或 BI 工具、原型设计或 MVP 分析,以及当模式更改最少且简单性是关键时 ETL 与 ELT 与 ETLT ·ETL:提取→转换→加载——数据在加载到仓库之前进行转换。 ·ELT:提取→加载→转换——将原始数据加载到仓库中,然后进行转换。 ·ETLT:一种混合体,具有轻度处理预载和之后更深层次的转换。 把它想象成烹饪: ETL 是在下锅前把所有食材准备好。ELT 则是把所有食材放入锅中,边煮边调味。ETLT 介于大厨和“冰箱里有什么?”之间。 数据转换工具 常用工具: ·AWS Glue:基于 Apache Spark 构建的无服务器 ETL。配置正确后,可扩展性良好。 ·DBT:云数据仓库内部基于 SQL 的转换。非常适合仓库中的版本控制和 CI/CD。 ·AWS DataBrew:无需代码即可进行数据整理。拖放式转换。非常适合快速探索或非程序员使用。 ·Pandas/Spark——用于转换的自定义脚本。非常适合处理早期混乱的数据或一次性批处理作业。 Hadoop 与 Spark:传统与 Lightning Hadoop: ·批处理。 ·将数据存储在磁盘上 ·适用于大型但速度较慢的数据工作负载,历史上使用较多 Spark: ·内存处理,分布式计算。 ·处理批处理、流处理、ML,甚至 SQL ·为 AWS Glue、Databricks 等现代工具以及一半的面试问题提供支持。 TL;DR:当您的数据管道想要感觉快速和智能时,它就会使用 Spark。 机器学习的特征工程 您并不总是能够构建模型,但您却能够使模型成为可能。 作为数据工程师,您的职责是准备: ·清理并标记的数据集 ·编码类别(标签、独热) ·缩放数值 ·衍生特征(例如“每分钟观看次数”) ·噪声或缺失值最少的数据集 特征工程就像准备饭菜。准备得越干净、越好,厨师(你的机器学习模型)的工作速度就越快。 TL;DR 备忘单 最后的想法 好的建模造就好的数据。那么,好的数据呢?这是每一个伟大的产品、洞察和决策的开端。 因此,无论您是在绘制第一个星型模式还是在生产中设置并行 Spark 作业,请谨慎、清晰地构建数据,并设置适当的混乱度以保持其趣味性 来源(公众号):数据驱动智能
2025-07-17 18:21 748
2025年“数据要素×”大赛全国总决赛近日落下帷幕,住建行业的11支数智住建项目代表队在城市治理赛道进入决赛并获奖,展示了数智住建工作的阶段性成效。“数据要素×城市治理”重点在于通过对城市运行各类数据的深度挖掘和治理应用,以共建共治共享激发数据要素的乘数效应,推动超大城市治理从“经验驱动”向“数据驱动”、从“条块分割”向“协同共治”、从“被动响应”向“主动预见”转型。 以数据归集的“全域穿透”,构建城市治理的“全景图谱”。数据要素是推动城市治理现代化的新型治理要素,超大城市治理的首要挑战在于数据碎片化、孤岛化。通过“物理归集+逻辑归集”双轨并进,打破部门、层级与领域的数据壁垒,搭建统一的数据资源管理平台,以“全域穿透”的归集模式将分散在城市各个角落的数据编织成城市数据“全息图谱”,为精准识别治理痛点、科学配置治理资源提供全景数据支撑。 以数据治理的“标准协同”,构筑城市治理的“信任基石”。数据治理是提升治理精度的核心环节,推动数据从“可用”到“好用”,推行“一数一源一标准”,完善数据清洗规则,建立数据质量评价体系,通过跨层级闭环处置机制解决数据失真、滞后等问题。探索AI驱动的目录智能检索、治理规则智能推荐等场景,实现数据治理从“人工审核”向“智能优化”的升级,让数据成为识别城市风险、预判治理问题的信任资产,为多元主体协同治理提供数据保障。 以数据共享的“场景牵引”,激活城市治理的“乘数效应”。数据共享是释放数据要素价值的关键环节,数据共享的核心在于价值共创。搭建城市级数据共享平台,建立跨部门、跨层级的数据流通机制,实现公共数据“一本账”管理、“一平台”运营、“一体化”应用,以“场景牵引”推动数据从“静态资源”转化为“动态动能”,让数据要素与治理场景深度融合,产生“1+1>2”的乘数效应。 超大城市现代化治理的路径,本质上是数据要素与治理需求深度耦合的路径。要持续完善数据要素市场机制、强化数据安全与隐私保护、推动数据应用创新,充分释放数据要素价值潜力,为超大城市治理数智化转型注入持久动能。 作者: 重庆市城市管理局党组成员、副局长 李昌良 来源(公众号):北京数据
2025-12-17 17:46 193
在数字化转型的时代浪潮中,数据已然跃升为关键生产要素,住房城乡建设部发布的《“数字住建”建设整体布局规划》,强调以“四好”建设为主线,以数据资源为核心,全面推动住房城乡建设领域数字化、智能化转型,提升行业治理能力和服务水平,为城市高质量发展注入新动能。 一、政策内涵:数据驱动住建事业全方位变革 政策层面,“数字住建”的核心目标是通过构建统一、高效的数字基础设施和数据资源体系,打破传统住建领域的信息壁垒,实现数据的全生命周期管理与深度应用。打造部、省、市三级联动的“数字住建”工作平台,推动城市运行管理“一网统管”,这一部署从顶层设计上确立了数据要素在住建领域的核心地位。 从政策导向来看,“数字住建”绝非简单的技术叠加,而是要以数据赋能为关键路径,推动住建领域治理模式从“经验驱动”向“数据驱动”转变,从“分散管理”向“协同治理”升级。通过建立健全数据标准规范、安全保障体系,确保数据的真实性、准确性和可用性,为住建领域的科学决策、精准服务和高效监管提供坚实支撑。 二、重点方向:以数字底座为基石,推动住建领域数智升级 (一)夯实城市数字底座,筑牢数智化根基 数据要素的乘数效应需要技术底座的支撑,城市数字底座整合基础地理信息、建筑物、市政设施等全域空间数据,以及人口、经济、社会等非空间数据,构建统一的时空大数据平台,为数字住房、数字工程等应用提供“数据富矿”。同时,依托人工智能、大数据、区块链技术对底座数据进行深度挖掘,构建城市运行态势感知模型,实时监测城市住建领域的关键指标,为城市治理提供“千里眼”“顺风耳”,提升城市对各类风险的预判和处置能力。 (二)发展数字住房,重塑居住服务新范式 数字住房建设以数据要素为核心,推动住房全生命周期的数字化管理。在住房开发阶段,利用大数据分析市场需求、人口结构变化等因素,精准定位住房供给类型与规模。在建设阶段,通过BIM技术与物联网设备的结合,实现施工过程的数字化管控,保障住房建设品质。在住房交易与管理阶段,搭建数字化住房服务平台,整合房源信息、交易数据、产权登记等数据,实现住房交易全程线上化、透明化。同时,基于住户行为数据提供个性化服务,打造“人、房、服务”深度融合的数字生活场景,提升居民居住体验。 (三)推进数字工程,提升工程建设管理效能 数字工程建设聚焦工程全生命周期的数字化转型,借助大数据、人工智能技术优化工程管理流程。在项目策划阶段,通过分析历史工程数据、政策法规数据,实现项目可行性研究的智能化评估。在设计阶段,利用AI辅助设计工具与BIM技术的协同,提高设计效率和质量,减少设计变更。在施工阶段,部署物联网感知设备采集施工现场的人员、机械、物料等数据,实现对施工安全、进度、质量的实时监管。在运维阶段,建立工程运维数字档案,通过数据分析预测设施故障,实现主动运维、精准运维,延长工程使用寿命。 (四)打造数字城市,提升城市协同管理水平 发挥数据要素的乘数效应,要打破城市“数据孤岛”的壁垒,通过构建统一的数据共享交换平台,将分散在公安、交通、城管等部门的碎片化信息串联成完整的数据链条,这种跨领域的数据融合,让城市管理从“被动响应”转向“主动预判”,协同效率提升的同时,也降低了行政成本。同时,发展数智融合的公共服务,推动政务服务、社区服务等线上线下一体化,通过AI客服、智能审批等提升服务效率,让群众享受更便捷、高效的服务。 (五)赋能数字村镇,推动城乡协同发展 数字村镇建设聚焦乡村住房、基础设施、公共服务等领域的数字化改造。通过采集村镇地理信息、房屋数据、产业数据等,构建村镇数字孪生模型,为村镇规划、建设和管理提供数据支撑。在乡村住房建设方面,推广适合乡村的数字化设计标准,利用大数据指导农房建设,提升农房安全性和舒适性。同时,依托数字技术推动村镇公共服务升级,建立农村产权交易数字平台、乡村治理数字化系统,促进城乡要素双向流动。 三、价值与展望:开启住建数字化新征程 发挥数据要素的乘数效应在城市治理领域赛道的深度应用,正在激活住建领域的发展新动能。从短期来看,通过数据赋能提升了住建领域的管理效率和服务质量,降低了行政成本和社会运行成本。从长期来看,将推动住建领域形成数据驱动的创新生态,为城市可持续发展、城乡协调发展提供有力支撑。 展望未来,随着5G、人工智能、区块链等技术的不断成熟,数据要素在住建领域的应用将更加深入。数字住房将实现“千人千面”的个性化服务,数字工程将迈向全流程智能化管理,数字城市将达成“一屏观全域、一网管全城”的治理愿景。这一过程中,需要持续完善数据安全保障体系、健全数据共享机制,让数据要素在安全可控的前提下充分释放乘数价值,为住建领域高质量发展注入源源不断的动力。 作者:周小平 北京建筑大学智能科学与技术学院教授 来源(公众号):国家数据局
2025-07-18 16:40 433
“您是否知道,许多‘小型’人工智能模型在性能上优于较老、较大的模型——而且仅使用了一小部分资源?” 想象一下,直接在你的智能手机上运行强大的AI助手,无需访问云端,即可在几毫秒内处理你的请求。这并非科幻小说——小语言模型正在将这一切变为现实,触手可及。 连续三年,人工智能界一直痴迷于一个简单的等式:越大越好。 科技巨头们投入数十亿美元构建庞大的语言模型,每一个模型都比上一个更大: •据传拥有万亿个参数的 GPT-4 •克劳德拥有数千亿 •Meta 的 LLaMA 突破极限,达到 700 亿 每一次突破似乎都遵循同样的模式——更多的参数、更大的功率、更多的可能性。 但2025年发生了一件意想不到的事情。 一 改变一切的剧情转折 随着企业人工智能部署从概念验证阶段过渡到生产阶段,一个令人惊讶的事实浮出水面:越大并不总是越好。 英伟达一项突破性研究表明,40%至70%的企业级人工智能任务可以通过小型语言模型(SLM )更高效地处理——这些紧凑而强大的模型参数少于100亿,具有以下特点: ✓速度比同类巨型设备快 10 倍 ✓部署和维护成本降低 5-20 倍 ✓更可靠,适用于特定业务任务 ✓设备端处理,注重隐私 大型语言模型(LLM)曾经需要昂贵的GPU来运行推理。但最近的进展为经济高效的CPU部署打开了大门,尤其对于小型模型而言。三大变革促成了这一转变: 1.更智能的模型——SLM 的设计旨在提高效率并不断改进。 2.CPU 优化运行时— llama.cpp 、GGUF等框架以及 Intel 的优化可实现接近 GPU 的效率。 3.量化——将模型从 16 位 → 8 位 → 4 位转换,可以大幅减少内存需求,并在几乎不损失准确性的情况下加快推理速度。 二 认识一下小型语言模型 当各大媒体都在追逐最新的十亿参数里程碑时,小型语言模型正在悄然赢得真正的胜利——实际业务部署。 1.市场信号:智能体人工智能正在蓬勃发展 据英伟达称,智能体人工智能(多个专业人工智能代理协作的系统)市场预计将从2024 年的 52 亿美元增长到 2034 年的 2000 亿美元。 2.思想领袖视角:40倍的增长代表了近年来最快的技术普及速度之一。这对企业高管来说意义重大:未来十年人工智能的发展将取决于普及规模,而非参数规模。 3.技术视角:要达到这种规模,人工智能必须从云端转移到边缘环境——智能手机、工厂车间、零售设备、医疗仪器等等。而这只有通过服务层级管理(SLM)才能实现,因为它们对计算和内存的需求更低。 三 快速演化时间线 语音语言模型的发展历程与自然语言处理(NLP)的发展紧密相连: •2017 年之前:基于规则和统计的模型像n-gram和word2vec 这样的模型捕捉到了基本的词语关联,但缺乏深入的理解。 •2017 年:Transformer 革新了 NLP Transformer 架构 的引入(在著名的“Attention is All You Need”论文中)使得深入的上下文理解成为可能。 •2018–2020 年:大型语言模型诞生 BERT、GPT-2 和 T5 带来了数十亿个参数,达到了最先进的基准。 •2021-2023 年:规模之战 OpenAI、Google、Anthropic 等公司通过将模型规模扩大到数百亿甚至数千亿个参数来展开竞争。 2023年至今:小即是美时代。 随着效率成为首要考虑因素,企业开始训练诸如LLaMA、Mistral、Phi、Gemma和TinyLLaMA等紧凑型模型,这些模型可在笔记本电脑、边缘设备甚至手机上运行。 四 小型语言模型究竟是什么 在了解 SLM 之前,我们先来了解一下什么是语言模型(LM)。 1.语言模型(LM) 一种经过训练的人工智能系统,能够通过预测序列中的下一个单词来理解和生成类似人类的文本。 2.小型语言模型(SLM) 一种轻量级的语言模型,参数更少,针对特定任务或设备端任务进行了优化,成本更低,性能更快。 •参数范围:通常为 1 亿至 30 亿个参数。 示例:认识小型人工智能领域的明日之星 3.大型语言模型(LLM) 一种功能强大的语言模型,拥有数十亿个参数,在海量数据集上进行训练,能够处理复杂的通用任务。 •参数范围:通常为 100 亿到 1 万亿以上参数。 例如:LLaMA 3 70B → 700亿、GPT-4 → 估计约 1 万亿、克劳德3号作品 → 数千亿。 大型语言模型 (LLM) 提供一流的推理能力,但需要大量的计算、内存和存储空间。而小型语言模型 (SLM) 则针对速度、效率和设备端使用进行了优化。LLM 能够处理广泛而复杂的任务,而 SLM 则擅长特定任务,能够更快地获得结果并降低成本。得益于量化和 GGUF 格式等技术,SLM 现在无需依赖昂贵的云基础设施即可为实际应用提供支持。 你可以把LLM和SLM的区别理解为: •大学图书馆藏书量(LLM)与专业专家的个人藏书量(SLM) •一把拥有100种工具的瑞士军刀与一把用于手术的精密手术刀。 4.其他值得了解的LM (1)检索增强型语言模型(RLM) 这是一种混合语言模型,它结合了语言生成和从外部来源(例如数据库、知识库或网络)实时检索信息的功能。这使得模型无需重新训练即可访问最新、真实且特定领域的数据,从而提高准确性并减少错误预测。 主要特性:集成检索(搜索)和生成(响应)。 参数范围:取决于基础模型——可构建于 SLM 或 LLM 之上。 示例:ChatGPT 与 Browse / GPT 与 RAG 集成;Perplexity AI(基于 RAG 的搜索助手);Microsoft Copilot(带图形检索功能);基于 LlamaIndex 或 LangChain 的 RAG 系统。 (2)中等语言模型(MLM) 中等语言模型 (MLM) 的规模介于小型语言模型 (SLM) 和大型语言模型 (LLM) 之间,通常包含 10 亿到 70 亿个参数,旨在平衡通用性和效率。它比小型语言模型更能有效地处理复杂任务,同时又比大型语言模型更经济高效。 主要特点:具有广泛的通用性,计算需求适中,通常采用 8 位量化进行优化。 参数范围:10 B–70 B 参数。 示例:Meta LLaMA 3 13B、Mistral Mix Medium 13B、Falcon 40B、GPT-3.5 Turbo(~20 B)。 ⚙️ SLM 的特性 •参数更少— 通常少于30 亿个参数,使其结构紧凑、重量轻。 •快速推理— 即使在 CPU 或消费级 GPU 上也能快速运行,延迟低。 •资源高效——需要更少的内存、计算能力和能源——非常适合边缘设备或本地部署。 •特定任务— 通常针对特定领域或特定任务进行微调(例如,客户支持、代码补全)。 •注重隐私——可在本地运行,无需将数据发送到云服务器。 •成本效益高——与大型模型相比,训练、部署和维护成本更低。 •更易于微调— 针对特定用例进行定制的速度更快、成本更低。 •便携易部署— 易于分发和集成(尤其是GGUF 格式)。 •环保——由于计算需求减少,碳足迹更低。 SLM也存在一些风险,下图详细比较了 SLM 和 LLM 的风险。 神奇之处不仅在于参数数量,更在于智能优化技术,这些技术使这些模型能够发挥远超其自身级别的性能。 五 SLM成功背后的技术创新 助力SLM部署的三项突破性技术 SLM 的兴起并非偶然。三大技术变革使得成本效益高的 CPU 部署成为可能,尤其适用于小型型号: 1. 更智能的模型架构:SLM 利用知识蒸馏等先进的训练技术,使较小的“学生”模型能够从较大的“教师”模型中学习,在参数减少 40% 的情况下,仍能保持 97% 的性能。微软的 Phi-3 系列便是这种方法的典范,在消费级设备上运行时,其性能可与 700 亿参数模型相媲美。 2. CPU 优化的推理运行时:围绕 llama.cpp、GGUF 和 Intel 优化技术的生态系统彻底改变了本地 AI 部署方式。这些框架在标准 CPU 上实现了接近 GPU 的效率,使 AI 无需昂贵的硬件投资即可普及。 3. 高级量化技术 或许最具变革性的创新是量化——将模型从 16 位转换为 8 位再转换为 4 位精度。这显著降低了内存需求,并在精度损失最小的情况下加快了推理速度。 六 混合部署模式 企业正在将两者结合起来,构建混合架构,以优化不同的使用场景。 •大语言模型:负责处理复杂的推理、战略规划和创造性任务 •SLM执行器:管理高频次、特定任务的操作,例如客户支持、数据处理和监控 这种方法既能实现最佳资源分配,又能保持复杂工作流程所需的智能性。 GGUF革命:让AI真正便携 GGUF(GPT生成的统一格式)值得特别关注,因为它代表了我们部署AI模型方式的范式转变。与针对训练优化的传统模型格式不同,GGUF是专门为提高推理效率而构建的。 GGUF的主要优势包括: 单文件可移植性:运行模型所需的一切都高效打包。 •混合精度:智能地为关键权重分配更高精度,而在其他部分使用较低精度。 •硬件灵活性:在 CPU 上高效运行,同时允许 GPU 层卸载 •量化支持:支持 4 位模型,在保持质量的同时大幅减小模型尺寸。 ✅理想的CPU部署配置: •8B参数模型 → 量化到4位时效果最佳 •4B参数模型 → 量化到8位时最优 一个实际的例子:将 Mistral-7B Instruct 量化为 Q4_K_M 格式,可以在配备 8GB 内存的笔记本电脑上流畅运行,同时提供与规模更大的云端模型相当的响应。 七 在本地运行 AI:构建本地 AI 执行架构 步骤 1:基础层 •GGML — 用于高效 CPU 操作的核心张量库 •GGUF — 轻量级二进制格式,支持混合精度量化 •结果:模型存储占用内存最小 步骤 2:推理运行时层 •llama.cpp — 具有原生 GGUF 支持的 CPU 优先引擎 •vLLM — GPU 到 CPU 的调度和批处理扩展 •MLC LLM——跨架构编译器和可移植运行时 •结果:在不同硬件上实现低开销模型执行 步骤 3:部署框架层 •Ollama — 用于无头服务器集成的 CLI/API 封装 •GPT4All — 桌面应用程序,内置 CPU 优化模型 •LM Studio — 用于拥抱脸模型实验的图形用户界面 •结果:简化部署和用户交互 第四步:绩效结果 •低于 200 毫秒的延迟 •低于 8GB 内存要求 •端到端量化管道 •最终结果:实现本地和边缘人工智能推理的民主化 八 实际应用:SLM 的优势所在 1.边缘计算和物联网集成 SLM 最引人注目的应用场景之一在于边缘计算部署。与依赖云的 LLM 不同,SLM 可以直接在以下环境中运行: •用于实时翻译和语音助手的智能手机和平板电脑 •用于即时异常检测的工业物联网传感器 •用于符合隐私保护规定的患者监护的医疗保健设备 •用于瞬间决策的自动驾驶车辆 •用于离线语音控制的智能家居系统 边缘部署的优势远不止于便利性。它能消除延迟,通过本地处理确保数据隐私,即使在网络连接不佳或中断的情况下也能保证持续运行。 2.企业成功案例 医疗保健:医院部署 SLM 以提供实时诊断辅助,处理敏感的患者数据,而无需承担云传输风险。 机器人技术:制造工厂使用 SLM 在工业自动化中进行自主决策,从而能够对不断变化的情况做出即时反应。 金融服务:银行利用特定任务的 SLM 进行欺诈检测和交易处理,与基于 LLM 的解决方案相比,可节省 10 到 100 倍的成本。 智能人工智能的经济学:SLM 与 LLM 成本分析 在单层模块 (SLM) 和层级模块 (LLM) 之间进行选择,对财务的影响非常大。请看以下实际成本比较: LLM部署(每日1000次查询): •API费用:每月3000-6000元 •基础设施:依赖云的扩展 •延迟:平均响应时间为 500–2000 毫秒 SLM部署(相同工作负载): •本地部署:每月 300-1200 元 •基础设施:一次性硬件投资 •延迟:平均响应时间为 50–200 毫秒 结果如何?SLM部署可以节省5-10倍的成本,同时提供更快的响应时间和更强的隐私控制。 或许,SLM 最深远的影响在于普及人工智能的使用。通过降低计算需求,SLM 可以实现: •小型企业如何在没有企业级预算的情况下部署人工智能解决方案 •个人开发者可以在消费级硬件上试验人工智能应用 •教育机构无需昂贵的云服务额度即可教授人工智能概念 •注重隐私的组织将在实施人工智能的同时保持数据控制权 这种民主化正在促进以前服务不足的市场和应用场景的创新。 九 展望未来:SLM的未来 SLM 的发展轨迹预示着几个令人振奋的发展方向: 模块化人工智能生态系统:我们正在从单一的模型转向由专门的SLM(系统生命周期管理)协作的系统,每个SLM都针对推理、视觉或编码等特定任务进行了优化。 绿色人工智能:SLM 的能源需求较低,因此对可持续人工智能部署至关重要,从而减少了人工智能广泛应用带来的碳足迹。 移动人工智能革命:移动芯片设计和SLM优化技术的进步使得无需云连接即可在智能手机上直接实现复杂的人工智能。 行业特定智能:我们看到,针对医疗保健、法律、金融和科学应用领域进行微调的特定领域 SLM 正在涌现,它们在专业任务中表现优于通用 LLM。 小结:静悄悄的革命仍在继续 小型语言模型正在重塑人工智能的部署方式,它将智能从云端转移到我们口袋里的设备、工厂车间的传感器以及真正做出决策的边缘系统。企业不再追求规模越来越大的模型,而是拥抱更智能、更高效的基础架构。到2025年,企业能否成功取决于它们采用这种易于上手且可持续的方法的速度。归根结底,人工智能的未来不在于规模,而在于智能,在这方面,小型模型往往比大型模型表现更出色。 人工智能领域正在飞速发展,及时了解这些变化对于做出明智的技术决策至关重要。小型语言模型不仅代表着一种技术趋势,更是对人工智能如何融入我们日常工作流程和业务流程的根本性重新构想。 来源(公众号):数据驱动智能
2025-11-05 14:51 496
文 | 中国科学院科技战略咨询研究院大数据战略研究中心执行主任、研究员 冯海红 近年来,国家数据局等部门探索制定数据资源统计调查制度,健全数据资源协同调查机制,发布数据资源调查年度报告,初步形成动态监测我国数据资源的调查方法和工作机制。2025年4月29日,《全国数据资源调查报告(2024年)》(以下简称《报告》)在第八届数字中国建设峰会正式发布,对全国数据资源发展态势进行系统性调查分析、综合性评估研判,为纵深推进数据要素市场化价值化提供坚实的基础支撑。 聚焦数据要素价值释放,构建数据资源基础调查制度 准确掌握我国丰富的数据资源情况,是深化数据要素市场化配置改革、构建以数据为关键要素的数字经济的基础性工作,需要兼顾数据资源特征和统计调查规范,探索健全跟踪监测数据资源发展态势的专业性统计调查制度。 (一)紧扣国家数据发展战略导向与重点举措 当前,我国数据领域正以数据要素市场化配置改革为主线,围绕数据产权、收益分配等夯实制度体系,推动数据资源开发利用和数据产业发展,构建统一开放、繁荣活跃的数据市场,着力释放数据要素在各行业各领域的乘数效应,以深化数据领域“改革攻坚”加快数据要素市场化价值化进程。《报告》系统调查全国数据生产、存储、计算、流通和应用等关键环节的基本态势,并结合人工智能等热点领域进行测算评估,旨在摸清全国数据资源底数,及时全面反映我国数据资源全貌,将为研判我国数据领域发展趋势、优化政策措施、强化行业管理提供基础性的调研依据。 (二)遵循国家统计调查政策法规与现行模式 2025年初,国家数据局制定《全国数据资源统计调查制度》(以下简称《制度》),并由国家统计局批准实施,全国数据资源统计调查工作正式迈入制度化规范化新阶段。《制度》基本形成目标清晰、报表合理、实施有力、披露规范、聚焦新经济新领域的部门统计调查项目,既构建覆盖公共数据、科学数据、企业数据3个领域和12张报表的统计调查报表体系,也对调查目的、调查对象和统计范围、调查频率和时间、调查方法、组织实施、质量控制、信息共享等内容进行说明或明确。另外,《制度》根据国家统计基本单位名录库信息,开展名录库信息互惠共享,补充行业管理所需单位名录库信息,探索构建数据领域统计调查基本单位名录库。从调查数据回收情况来看,此次统计调查的有效样本覆盖了除国际组织外的所有国民经济行业门类,初步形成专业性强、覆盖面广的专项统计调查工作。 (三)探索数据资源统计调查方法与工作机制 从建立实施机制、明确调查对象、开展专业培训、确定测算方法等方面,探索形成系统性的调查方案和运行机制。实施机制方面,《制度》由国家数据局统一组织,调查数据以《报告》形式向社会发布。调查对象方面,覆盖合法拥有或控制数据的各类单位,主要包括省级数据管理部门、国家实验室、全国重点实验室、国家科学数据中心、中央企业、重点行业协会商会、数据交易机构、数据服务方和数据应用方企业等。专业培训方面,全国数据资源统计调查工作组针对重点指标、填报流程、平台操作、数据质量控制等内容,分类型分批次组织开展统计调查专题培训工作,有效提升调查对象的理解认识和统计操作。测算方法方面,基于分层抽样统计调查数据,《报告》根据调查企业的不同行业及规模特征,加权推算总体企业的数据生产和存储规模。 展现数据资源总体态势,系统刻画数据资源关键板块 基于统计调查和数据测算,《报告》覆盖数据资源的总量、增速、热点领域、活跃情况、区域分布、行业差异以及算力基础设施等方面内容,立体性、多维度勾勒出全国数据资源的整体情况。 (一)全国数据生产总量加速增长 《报告》从数据生产总量及增长态势、战略性新兴产业数据生产等方面,总结分析了全国数据资源生产情况。《报告》显示,2024年全国数据生产量达41.06泽字节(ZB),同比增长25%,增速提高2.56个百分点,呈现加速增长态势。智能家居、智能网联汽车等智能设备数据生产增速位居前列,在数据总量增长中发挥着强有力的带动作用。战略性新兴产业领域成为数据资源的新增长点,低空经济和机器人数据生产量增速超过30%。同时,《报告》展望认为,无人驾驶、具身智能、低空经济等战略性新兴产业和未来产业的数据资源规模将保持高速增长。 (二)全国数据存储结构持续优化 《报告》从数据存储总量及增长态势、数据存储的结构特征、数据存储空间利用等方面,概括总结了全国数据资源存储情况。《报告》显示,2024年全国数据存储总量、新增数据存储总量分别达到2.09泽字节(ZB)、1.15泽字节(ZB),同比增幅均超过20%。结构化数据存储规模同比增长36%,该增幅远超非结构化数据存储规模增速,表明全国数据资源整体质量及数据治理成效显著提升。另外,数据存储空间利用率达到61%,同比提升2个百分点,反映出全国数据存储与基础设施建设呈现较好的协调联动发展态势。 (三)数据资源区域行业分布不均 《报告》从区域和行业等方面揭示了我国数据资源分布不均衡现状,并研究分析了产生差异性的相关影响因素。《报告》发现,区域数据资源水平和经济发展高度相关,经济大省数据资源集聚效应明显,广东、江苏、山东、浙江、河南和四川6个省份数据生产量占全国比重达57.45%。《报告》认为,行业数据资源开发利用水平与数字化投入密切相关,制造、金融、交通物流行业数据生产总量领先其他行业,金融、采矿、交通物流行业企业平均数据生产量位居前三。 (四)算力基础设施建设提速升级 《报告》从算力规模、区域分布、算力结构、市场化算力供给等方面,总结了算力基础设施建设的基本态势。《报告》指出,国家枢纽节点算力资源持续集聚,2024年全国算力总规模达280EFLOPS(每秒百亿亿次浮点运算),八大国家枢纽节点算力总规模达到175EFLOPS。同时,智能算力布局加速,智能算力规模达90EFLOPS,在算力总规模中占比提升至32%,为海量数据计算提供智能底座。另外,市场对智能算力的需求呈爆发式增长,企业布局智能算力提速。中央企业和数据技术企业的算力规模分别增长近3倍、近1倍,智能算力占比分别达到40.22%、43.63%。 关注数据资源新兴热点,及时反映数据领域前沿动态 结合经济社会发展最新形势和数据要素市场化配置改革重点举措,围绕数据要素价值创造路径及模式,强化数据资源重点工作的统计调查和监测分析,为评估政策实施进展和数据赋能效应提供调研支撑。 (一)公共数据资源开发利用加快推进 《报告》结合公共数据资源相关的政策部署和系列工作,从数据共享、数据开放、授权运营、应用场景等方面形成公共数据资源开发利用的主要进展。数据共享方面,建成全国一体化政务数据共享枢纽,推动国务院部门垂管系统向基层“回流”数据8.2亿条,为“高效办成一件事”等提供有力的数据支撑。数据开放方面,2024年地市级以上公共数据开放平台数量增长7.5%,开放的数据量增长7.1%,公共数据集开放总量稳步增长。授权运营方面,超六成省(自治区、直辖市)、计划单列市启动授权运营工作,地市级公共数据授权运营数据量为省级的2.53倍,公共数据授权运营逐步规范化、有序化。应用场景方面,公共数据服务产品数量同比增长超过40%,涵盖交通、环保、医疗等经济社会各领域,涉及低空经济、多式联运、保险理赔、征信服务等场景,公共数据服务场景日益丰富。 (二)企业数据资源应用活力显著提升 《报告》结合数据要素市场化价值化的基本导向,从数据结构、数据利用、数据赋能、数据流通、直接收益等方面形成企业数据资源应用的基本态势。数据结构方面,活跃数据总量占企业存储数据总量为62.04%,活跃数据总量同比提升22.73%。数据利用方面,企业用数需求旺盛,2024年约66%的行业龙头企业和30%的数据技术企业购买过数据,企业数据与公共数据融合应用场景加速增长。数据赋能方面,企业数据在技术研发、生产协同、产品营销、售后服务等关键环节中发挥重要作用,同时支撑产业链供应链韧性不断提升。数据流通方面,平台企业成为数据流通的关键枢纽,促进企业数据与气象、交通、地理等公共数据加速融合,广泛应用于客户服务、精准营销、研发创新等场景。典型行业方面,交通物流、电力行业数据资源开发利用活跃度远高于全国平均水平,分别为78.24%、75.83%。直接收益方面,2024年利用数据获得直接收益的企业实现小幅提升。同时,《报告》展望认为,企业数据价值挖掘重心从服务自身数字化转型向数据要素化、市场化拓展,数据跨主体流通、跨行业应用、跨场景赋能的乘数效应加速释放。 (三)人工智能发展与数据资源利用深度融合 《报告》结合人工智能大模型发展前沿,调研分析了人工智能与数据资源开发利用相互促进的基本态势。一是数据领域企业积极开展人工智能训练和应用,开发或应用人工智能的企业数量同比增长36%,利用大模型的数据技术企业和数据应用企业数量分别增长57.21%、37.14%。二是智能应用带动数据资源规模加速增长,企业高质量数据集数量增速达27.4%,用于开发、训练和推理的数据量同比增长40.95%,智能家居、智能网联汽车等智能设备数据增速分别达到51.43%、29.28%。《报告》认为,大模型有望帮助企业降低非结构化数据加工成本,推动数据资源开发利用提档加速。 来源(公众号):北京数据
2025-07-22 18:19 676
来源(公众号):大数据 AI 智能圈 在人工智能飞速发展的今天,我们正在亲历一场从对话机器人向智能实体跨越的深刻变革。 很多人对 AI 的印象还停留在你问我答的聊天框阶段,但真正的 AI Agent(智能体)早已突破了单纯的对话功能,演变为能够感知环境、自主决策、执行任务并持续进化的复杂系统... 如果说大模型是具备高智商的大脑,那么 AI Agent 就是一个装备齐全的特种兵。 从工程实现的视角来看,一个成熟的 AI Agent 绝非简单的 Demo 玩具,而是一套精密的系统工程,它由六大核心模块协同运作,共同构建了一个完整的智能闭环。 我们需要理解的第一个核心能力是感知。 对于智能体而言,感知模块就是它的五官,负责与纷繁复杂的外部世界进行交互。 这就好比人类通过视觉、听觉和触觉来认识世界一样,AI Agent 的感知系统需要处理多模态的信息。无论是对话框里的文字、API 接口传回的数据,还是通过自动语音识别(ASR)转写的语音,甚至是需要光学字符识别(OCR)解析的图像,这一切信息都需要被感知模块精准捕捉。 但这不仅仅是接收信息那么简单。 感知模块最关键的作用在于翻译和标准化。 现实世界的信息是杂乱无章的,感知模块必须将这些非结构化的文本、图像以及实时监控到的业务事件(如订单异常、流量暴涨),转化为系统可理解的标准化观测数据。 只有经过这样高质量的预处理,后续的大脑才能做出准确的判断。它就像是一个极其高效的情报官,在信息进入指挥中心之前,已经完成了去噪和整理。 当情报就位,就轮到决策引擎这个大脑登场了。 这是 AI Agent 架构中最具魅力的部分,通常由大型语言模型(LLM)驱动。 与普通聊天不同,决策引擎引入了思维链(Chain-of-Thought)推理机制。 它不会草率地直接抛出答案,而是像人类专家一样显式地进行逻辑推演。面对一个复杂目标,它会首先进行拆解,列出多种可能的解决方案,并在内心评估每种方案的优劣,最后才决定下一步是该调用工具、查询数据库,还是继续深思熟虑。 这种规划能力在处理长链路任务时尤为重要。 试想一个数据分析任务,决策引擎会将其规划为获取数据、清洗数据、聚合指标、生成图表等多个步骤。更厉害的是,这种规划是动态的。 如果在执行过程中遇到了意料之外的情况,比如数据缺失或接口报错,决策引擎会实时感知并调整计划,重新规划路径。这种具备动态调整能力的决策机制,才是智能体区别于传统自动化脚本的本质特征。 拥有了大脑和五官,智能体还需要手脚来改变世界,这就是执行系统的职责。 在 AI Agent 的架构中,执行不仅仅是简单的动作,而是将自然语言的决策转化为精准的计算机指令。 它通过预定义的 工具模式(Tool Schema) 构建参数,去调用外部的 API、运行脚本或操作插件。一个优秀的执行系统必须具备极高的鲁棒性,因为它直接面对现实世界的各种不确定性。 为了确保执行的可靠性,工程设计上通常会采用幂等设计和退避重试策略。这意味着即使网络波动导致请求重复,系统也能保证结果的一致性;遇到超时也会智能地等待重试。 对于那些高风险的操作,执行系统甚至会引入快照和回滚机制,或者在关键时刻请求人工确认。 这种严谨的执行逻辑,确保了 AI Agent 在处理金融交易或系统运维等敏感任务时,既能高效行动,又能守住安全的底线。 除了感知、决策和执行,记忆管理是区分临时工与资深专家的分水岭。 没有记忆的 Agent 只能在当前的对话窗口里打转,而成熟的 AI Agent 拥有完善的分层记忆体系。这包括处理当前上下文的工作记忆、保存近期交互记录的短期记忆,以及存储行业知识、用户偏好和业务事实的长期记忆。 这种分层设计,让智能体在处理任务时显得游刃有余。 在技术底层,这通常通过向量数据库和知识图谱的结合来实现。 向量数据库擅长模糊检索,能从海量的非结构化文档或对话历史中找到相似的片段;而知识图谱则像一张严谨的关系网,管理着实体与属性之间的结构化关联。 这种记忆系统实现了检索增强生成(RAG)模式,让智能体在做决策前能先查阅大脑中的知识库,从而给出更加精准且符合背景的回答,避免了模型由幻觉导致的胡言乱语。 然而,一个系统如果只能机械地执行既定程序,它永远无法被称为真正的智能。 反馈优化模块就是 AI Agent 实现自我进化的关键一环。 这一模块赋予了智能体反思的能力。在每次任务结束后,它不会立刻停机,而是会启动自我评估机制:结果是否达成了目标?过程中是否有冗余的步骤?哪些环节容易出错?这种机制往往通过一个专门的反思 Agent来实现,它像一位严格的导师,复盘每一次行动。 更高阶的进化则依赖于强化学习。 系统会为各类任务设定 KPI 指标,比如成功率、耗时或用户满意度。通过不断收集执行数据,智能体能够自主调整决策策略。 这种基于数据的持续优化闭环,使得 AI Agent 具备了越用越聪明的特质。它不再是一个静态的软件,而是一个能够随着使用时间和数据积累而不断成长的数字生命体。 为了更直观地理解这六大模块是如何像齿轮一样咬合的,我们可以看一个金融数据分析智能体的真实工作流: 当接收到分析某板块股票表现的任务时,感知模块首先启动,从 API、数据库甚至新闻流中收集海量的交易数据和舆情信息,并实时监测其中的异常波动。 此时,作为大脑的决策引擎开始运作,它将宏大的任务分解为基本面分析、技术面分析和风险评估等子任务,并决定采用 PE 比率和动量指标作为分析工具。 紧接着,执行系统接管任务,调用数据 API 获取原始数据,并运行清洗脚本处理其中的缺失值。 在这一过程中,如果发现数据清洗步骤耗时过长,反馈优化模块会记录下这个瓶颈,并在下一次任务中建议预缓存清洗逻辑,从而提升效率。最后,记忆模块会将本次分析的关键发现存入知识库,并根据用户的反馈更新对报告格式的偏好。 这就是一个从感知到执行,再到记忆和优化的完整闭环。 这种架构的演进展示了 AI 技术从单点突破向系统化融合的趋势。 未来的 AI Agent 将更加注重模块化与标准化,这意味着各个模块可以像乐高积木一样灵活替换和升级。 同时,随着边缘智能的融合,部分感知和决策能力将下沉到端侧设备,实现更快的响应。而多 Agent 协作模式的出现,将让不同专业的智能体能够联手解决更加复杂的问题,就像组建一支全能的专家团队。 综上所述,AI Agent 的强大并非来自某单一模型的参数规模,而是源于感知、决策、执行、记忆、反馈以及基础大模型这六大模块的有机结合。它们共同构成了一个具备自主性、适应性和成长性的智能系统。 在这个系统中,感知的全面性、决策的准确性、执行的可靠性、记忆的有效性和优化的持续性缺一不可。正是这种系统工程化的力量,正在推动 AI 从实验室的算法模型,真正走进各行各业的复杂现实场景,创造出实实在在的价值。
2025-12-19 17:48 616
AI Agents+大模型+RAG的架构,不只是技术的进步,也是思维方式的革命。它让数据真正成为每个人的武器,而不是少数人的特权。
2025-07-24 19:22 644
热门文章