当前人工智能发展正从“模型为中心”转向“数据为中心”,高质量数据集成为大模型竞争的“护城河”。为此,基于《“数据要素 ×”三年行动计划(2024—2026 年)》以及《高质量数据集建设指南(征求意见稿)》,笔者系统性地解构行业级高质量数据集的建设路径,在 AI 时代具有典型意义。 高质量数据集的建设背景 在 AI 产业深度变革的浪潮中,高质量数据集建设呈现出三大显著特征——需求爆发、政策驱动、技术拐点,其发展态势深刻重构着行业格局: 需求爆发 通用大模型向垂直领域的渗透催生了场景化数据资源的井喷式需求。央企加速开放电网调度、核电诊断、金融风控等 30 余个行业核心数据集,推动产业数字化从单点探索迈向系统化升级。这种需求不仅源于技术落地的诉求,更来自 C 端用户对智能服务体验的升级期待,如手机端大模型通过场景重构实现功能跃迁,使普惠化智能服务覆盖数亿用户。市场规模的扩张态势已然明确,即行业共性数据资源库的构建正驱动千亿级市场形成。 政策驱动 国家战略层面对数据要素的系统性部署构成核心驱动力。2017 年国务院印发的《新一代人工智能发展规划》开启了政策先导,2020 年《关于构建更加完善的要素市场化配置体制机制的意见》首次将数据纳入生产要素,而国家数据局联合 17部门联合印发的《“数据要素 ×”三年行动计划(2024—2026 年)》更标志着政策体系的成熟。中央与地方形成协同推进机制。工信部 2016 年发布的《大数据产业发展规划(2016—2020 年)》强化产业支撑体系,贵州省以信用体系与大数据融合试点推动社会治理创新,浙江省通过构建“城市大脑”实现全域数据资源整合。这种“中央顶层设计—部委专项落实—地方场景创新”的三级政策框架,为高质量数据集建设提供了刚性制度保障。 技术拐点 底层技术的突破性演进正颠覆传统数据建设范式。Transformer 架构(一种深度学习模型架构)在推动大模型性能跃升的同时,也暴露出算力分散、领域数据稀缺等瓶颈。当前技术演进呈现两大特征,其一是模型效率革命,如 DeepSeek-R1 系列验证高质量推理数据可提升参数量效率 3 倍,使数据质量取代算力规模成为“新护城河”;其二是架构自主突破,如高质量数据集建设中 95% 国产化率的要求,推动自主芯片 /OS/ 云平台的技术适配。这些突破标志着 AI 发展从“模型优先”转向“数据优先”的新阶段。 高质量数据集的战略定位与意义 在人工智能技术从实验室走向产业化落地的关键转型期,高质量数据集的战略定位已超越基础技术资源范畴,升维为国家数字竞争力的核心基础设施。其战略意义深刻贯穿技术根基、经济引擎与安全壁垒三大维度,构成了支撑“人工智能 +”国家战略落地的系统性支柱。 奠定人工智能发展的技术根基 数据集质量直接决定了人工智能的“智商”水平,这是其最根本的战略定位。国家数据发展研究院院长胡坚波明确指出:“高质量数据集是人工智能真正的‘护城河’”。技术验证亦进行了证明,纽约大学研究发现,医学数据中含 0.001% 错误即会导致模型输出致命误判,而 DeepSeek-R1 模型证明高质量推理数据可使参数量效率提升 300%。此类数据犹如“智能燃料”,通过精准的特征供给驱动模型认知跃升,“数据集质量决定人工智能智商上限”,奠定其在技术生态中的基石地位。 驱动数字经济发展的核心引擎 高质量数据集通过构建“数据—算力—模型”的融合生态,催化出显著的 GDP 增长乘数效应。国家数据局实施的《“数据要素 ×”三年行动计划(2024—2026 年)》将数据集定位为“产业数字化转型升级的加速器”。这种引擎效应建立在数据资产化的创新机制上,主要包括:第一,短期价值释放。央企开放的 30 个行业数据集催生千亿级交易市场,其中金融风控数据集使银行不良贷款识别率提升 29%,直接拉动信贷资产质量优化。第二,长期生态共建。深城交主导建设的交通行业多模态数据集支撑多个大模型训练,有效带动智能网联、低空经济等新产业孵化。 中国信息通信研究院副院长魏亮的“石油炼化”理论深刻阐释其经济逻辑“原始数据需炼化成高质量数据集,才能驱动模型效能转化”,这种“数据炼油厂”角色使其成为新质生产力培育的关键载体。 构筑国家科技安全的战略屏障 在全球化技术竞争背景下,高质量数据集承载着维护科技主权的使命。数据集的国产化率是核心领域数据管控要求,国务院国资委规划发展局副局长胡武婕强调:“行业数据集加速汇聚共享是人工智能自主可控的基础保障”。国家数据局副局长夏冰的论断揭示了其战略本质:“数据集的质效提升是人工智能赋能实体经济的催化剂,需构建部际协同机制筑牢安全根基”。在芯片制程受限的现实环境下,高质量数据集已成为中国突破“算力围城”的核心战略资源。高质量数据集通过“技术根基—经济引擎—安全壁垒”的三角战略架构,确立了人工智能时代的国家基础设施地位。其战略意义不仅在于推动产业实效,更深层的在于构建了中国自主的 AI 发展范式——当算力鸿沟客观存在时,以数据质量优势实现“非对称超越”。随着《高质量数据集建设指南(征求意见稿)》的落地与国家数据要素市场的培育,这一战略支柱将进一步释放“数据 × 产业”的乘数效应,最终支撑中国在全球人工智能治理中实现从“规则接受者”向“标准制定者”的历史性跨越。 高质量数据集的定义和特征 高质量数据集的定义 根据全国数据标准化技术委员会发布的《高质量数据集建设指南(征求意见稿)》和国家标准草案定义,高质量数据集是指经过专业采集、加工处理可直接用于 AI 模型开发与训练,能显著提升模型性能的数据集合,其核心特征体现为“高价值 × 高密度 × 标准化”的三维体系。 高质量数据集的三大特征 高价值指数据集直接驱动模型性能跃升的战略属性。如金融领域数据集通过精准标注交易欺诈模式,使大模型风险误报率降低 55%,凸显其对决策效率的实质提升。高质量数据集需紧密关联应用场景,如工业设备故障预测、医疗影像诊断等,赋能模型在特定领域实现突破性表现。 高密度强调数据的精炼性与信息浓度。通过严格清洗去除冗余噪声,确保样本蕴含有效特征的最大化。典型案例如医疗影像数据集标注病灶边界精度达99.99%,这得益于自动化标注框架与领域专家核验机制的协同,如放射科医生参与审核,实现精准剔除无效样本与强化数据关键特征的统一。 标准化通过分级规范,保障数据可用性。具体可分为三类:一是整合社会通用知识(如基础教育、基础科学数据)的通识数据集,此数据集主要用于支撑通用模型训练;二是聚焦领域基础知识(如金融术语库、交通规则库)的行业通识数据集,理解这类数据需具备基础专业背景;三是面向深度业务场景(如电网故障诊断日志、核电设备运行数据)的行业专识数据集,构建这类数据集需要领域专家的参与。 从本质上来讲,高质量数据集是人工智能时代的“新型基础设施”——其战略价值已超越技术工具范畴,成为驱动产业智能升级、构筑数字主权、重塑全球 AI 竞争格局的核心支点。正如夏冰所强调的:“数据集的质效提升是人工智能赋能实体经济的催化剂,需部际协同构建多元生态”。 高质量数据集的典型建设思路 按照国家数据局关于高质量数据集建设的统筹部署,围绕“试技术融合、试场景支撑、试标准验证、试机制建设”四项工作任务,笔者提出高质量数据集典型建设思路(如图1 所示),以确保高质量数据集建设可持续、可复制、可推广,为创新领域和关键行业的智能化转型夯实基础。 图 1 高质量数据集典型建设思路 坚持“价值驱动,场景牵引”,实现数据集建设靶向聚焦 以行业真实业务痛点和应用场景为原点,构建从需求反推数据供给的闭环建设逻辑。这一路径通过深入挖掘垂直领域的核心诉求,精准定位数据资源的价值锚点,避免“为建而建”的资源错配,优先突破人工智能应用最迫切、最容易产生效果、最影响行业高质量发展的领域。在实践中体现为三重协同机制 : 业务需求精准映射、场景化数据供给和动态反馈调优机制。这种价值驱动的建设范式,从根本上改变了传统“数据先行、应用滞后”的粗放模式,使数据集成为破解行业瓶颈的战略工具。正如《“数据要素 ×”三年行动计划(2024—2026 年)》所要求的:需“围绕应用需求牵引、典型场景切入”,最终实现数据资源向生产力要素的高效转化。 强化技术牵引,构建先进敏捷的数据开发能力体系 以大模型、数据合成、超智融合算力等新一代人工智能技术为支撑,创新数据开发模式与技术路径。依托大规模异构算力平台,建立多模态并行处理与加速机制,全面提升数据处理效率与数据质量控制能力。引入大模型自动标注与人机协同能力,在图像、语音、视频等复杂模态上应用预训练模型进行智能标注与初步语义聚类,大幅减少人工成本、提升标注一致性。同步开展数据增强与生成技术研究,通过仿真生成、时序数据合成等手段扩展样本覆盖度,提高长尾问题覆盖能力。围绕高质量训练数据构建目标,集成清洗、脱敏、合规校验、标签审核等自动化工具链,建立敏捷迭代的“采—标—检—训”闭环开发体系,确保高质量数据集供给的稳定性与适配性。 突出数据支撑,夯实多模态、多源异构数据治理基础 构建覆盖数据采集、汇聚、管理、调用的全过程数据治理体系,支持结构化数据、图像视频、音频语音、传感数据等多种模态的统一接入、分级治理与标准转换,打通源系统与训练平台之间的“数据断点”。推进“原始数据—预处理数据—训练数据”三层架构设计,配套元数据管理、数据血缘追踪、数据质量监控等机制,确保数据资产可追溯、可评估、可调优。在全生命周期管理基础上,构建面向不同训练目标的主题化数据仓库,支撑预训练集、微调集、测试集、验证集四类数据集的按需编排与快速交付。 坚持标准引领,形成可迁移可复用的数据集建设规范 围绕数据集“可交付、可训练、可迭代”三大目标,同步推进采集、标注、元数据、注释、脱敏、安全等关键环节的标准体系建设,建立覆盖“源头—处理—交付—调用”的全链路高质量数据集建设标准,形成一整套可迁移、可扩展、可复制的操作规范体系。重点验证数据基础设施建设的接口规范、用户身份管理、接入协议、标识规则、目录描述要求等通用技术要求,并对数据格式、分类指南、质量评估、平台管理等关键领域的标准化要求进行实际对接和测试,打通构建、治理与共享之间的关键环节。 完善协同机制,保障高质量数据集长效运营与推广 构建多主体参与的数据集共建共享机制,形成“行业主导、平台承载、企业参与、多元共赢”的生态格局。以数据资产确权、使用授权、成果收益等机制为核心,推动建立多元共建、共享开放的数据供给模式,激发数据持有方参与积极性。构建基于项目制和联盟制的数据集协同开发模式,实现区域间、企业间的数据流动,促进高质量数据集的跨域融合与能力复用。同时,构建“共建 + 共评 + 共用”的联合攻坚机制,明确各参与方责任边界与数据权益分配方式,为高质量数据集的规模化建设与可持续运营提供保障。 推广建设模式,形成高质量数据集复制推广新范式 坚持“试点先行、模块化拆解、生态化复制”的原则,推动建设成果的广泛推广和应用。围绕“数据集建设技术体系、标准规范体系、平台工具体系、运营治理机制”四大方面,推动“数据采集—清洗标注—平台建设—模型训练—应用落地”的全流程闭环体系在行业内外复制部署。 高质量数据集的业务蓝图 高质量数据集的逻辑架构主要包括数据源、数据集构成,核心是持续生产能够匹配不同行业、领域的大模型进行训练,如图 2 所示: 图 2 高质量数据集的逻辑架构 参考国家高质量数据集建设指南和相关标准,高质量数据集的业务蓝图主要包括行业高质量数据集及场景应用、数据集开发运营平台、数据基础设施与安全设施、标准机制验证及提升推广体系、价值贡献与权益分配机制等五大部分,如图 3 所示: 图 3 高质量数据集的业务蓝图 笔者以某交能融合链主型企业申请的行业高质量数据集为例,阐述每一部分的建设内容: 高质量数据集及场景应用 该企业通过开拓新能源及车网互动、智慧交通等业态,在业务创新的同时,利用边缘计算、物联网、移动互联网等技术,采集沉淀了大量的数据。同时结合大数据、大模型、人工智能技术,探索了多个创新场景,从而具备了从数据到价值的链路闭环。一方面,这些数据源能够为高质量数据集提供源源不断的数据;另一方面,众多的应用场景又能支撑大模型的应用价值,从而构建了多模态、多行业和多功能数据集,并且赋能 N 个应用场景。 图 4 某交能高质量数据集及场景应用 数据集开发运营平台 高质量数据集的构建不是一蹴而就的,更不是一劳永逸的,而是一个持续性的运营业务,需要通过“数据需求—规划—采集—预处理—标注—模型验证”,形成一个端到端的闭环,并且利用运营真正吸引数据集的供需双方,从而实现从技术到商业、从数据到价值,打造可持续发展的健康商业模式,实现数据“供得出、流得动”。高质量数据集本质上是一个训练大模型数据的生产线,能够持续不断地获取、加工,给大模型训练供给高质量数据。这个生产线包括八大模块,即运营门户、数据需求、数据规划、数据采集、数据预处理、数据标注、数据验证和技术底座。 图 5 某交能高质量数据集开发运营平台 数据基础设施与安全设施 高质量数据集是战略项目,关乎国家信息安全,因此打造一个牢固坚韧安全的基础设施是重中之重。该企业构建了网络预调度体系、存储与计算资源池、数据采集与边缘处理设备为核心的基础设施,同时全链路配套数据脱敏与加密,权限分级与行为审计,安全边界防护、风控预警与应急响应机制,对关键数据进行分域分级保护,从而实现数据的“保安全”。 图 6 某交能高质量数据集基础设施与安全设施 标准机制验证及提升推广体系 高质量数据集的建设还处于早期阶段,尚未形成成熟可复制的统一模式,所以在遵循一些新标准的同时,还需要对这些标准进行验证,并且探索提升和推广体系,从而让后续的建设运营有章可循、持续优化。这方面主要包括从标准执行到标准验证、标准反馈和标准优化的全体系建设,从而能够在不断提升数据集质量的同时,也能够更好的赋能行业。 图 7 某交能高质量数据集标准机制验证及提升推广 价值贡献与权益分配机制 高质量数据集建成发布后,就会面临价值贡献如何评估、权益收益如何分配的问题。并且只有价值贡献评估客观、公平,权益分配机制遵循“谁贡献,谁受益”的原则,才能够让数据集保有持续的生命力,接入更多有价值的数据源,吸引更多大模型训练方。价值贡献与权益分配机制的建立主要包括三部分内容:数据使用授权机制、数据及服务交易机制、收益分配机制,这些机制能够推动高质量数据集可持续健康发展。 图 8 某交能高质量数据集价值贡献与权益分配机制 高质量数据集的典型建设路径 高质量数据集的建设路径是一项涵盖数据全生命周期的系统工程,需严格遵循规范化的流程框架并结合场景化落地策略,其,核心步骤可归纳为六个阶段,各阶段环环相扣且需动态迭代优化。 数据需求定义(战略锚定与标准构建) 该阶段需从业务场景出发,明确数据集的战略定位与技术规格。依据《高质量数据集建设指南 ( 征求意见稿 )》,需完成三项关键任务:场景化需求分析,针对行业痛点精准锚定数据价值,如金融风控数据集需聚焦欺诈交易特征识别。胡坚波强调需“从医疗、教育等亟需领域切入,避免盲目跟风”,此过程需联合领域专家建立数据质量模型,界定关键指标;数据可获得性评估,预判行业知识壁垒与技术难度,如核电诊断数据集需协调央企设备日志与安全规范;标准化框架设计,基于全国数据标准化委员会的“三类分级”规范(通识 / 行业通识 / 行业专识),定义数据结构与元数据标准。 数据规划(架构设计与资源调配) 本阶段需将需求转化为可执行蓝图,主要包括三大工作内容:一是架构设计,规划存储、计算、安全三大体系,例如深圳交通行业高质量数据集,采用信创云平台整合库表管理、任务调度功能,实现 607TB 视频数据的分布式存储;二是质量计划制定,设定数据清洗、标注精度等 KPI,如医疗数据清洗后错误率需压降至 0.001% 以下以规避模型误判风险;三是工作量预估与资源分配,测算采集标注成本,调配领域专家资源。苏州丝绸纹样数据集建设时整合 222 件文物数字化团队,工作量精确至样本 / 小时级。 数据采集(多源获取与质量控制) 采集过程需融合技术合规“双约束”,多模态采集技术应用,典型的数据集项目采用“前置交换 + 物联网感知 + 互联网爬取”复合方式,归集视频、GPS 等数据。在采集过程中要注意两大保障:质量保障,通过自动化校验规则(如交通视频帧重复率检测算法)拦截无效数据,原始数据清洗率超 30%;合规性保障,严格遵循《数据安全法》,核电数据采集采用“私有化部署 + 区块链溯源”机制阻断敏感信息泄露。 数据预处理(特征强化与噪声剔除) 本阶段决定数据集信息密度,主要的核心操作包括转换验证,例如统一时空坐标;聚合清洗,剔除冗余记录;特征工程,例如金融交易数据经特征选择后,欺诈特征维度浓缩至原始数据的12%,实现高密度表征;样本平衡,采用 SMOTE算法扩增工业设备故障样本。 数据标注(知识注入与精度控制) 标注环节是价值升华的关键,由多级标注体系构成,行业专识数据需领域专家介入,如核电设备诊断标注由工程师定义故障阈值;人机协同机制,采用“预标注 + 人工核验”模式;元数据绑定模式,例如丝绸纹样数据集中每样本关联织造年代、工艺等 32 项元数据,支撑跨产业复用。 模型验证与迭代优化(闭环反馈) 该阶段实现数据价值闭环:基准验证,数据集需通过模型性能测试,如金融数据集使风控模型误报率降幅≥ 55% 方达交付标准;持续优化机制,依托评测工具集监测数据漂移,如深圳交通数据集每季度更新 15% 样本以适配路网变化;跨域流通激活,运用隐私计算技术打通医保—交通数据壁垒,催生慢病出行预警等创新应用。 在当前人工智能从“模型优先”向“数据优先”转型的关键阶段,高质量数据集已成为赋能产业智能升级的战略基础设施和国家数字竞争力的核心支柱。通过系统化构建“价值驱动、技术融合、标准引领、生态协同”的建设体系,我国正加速打通从数据资源到智能应用的闭环路径——以《高质量数据集建设指南 ( 征求意见稿 )》为规范框架,以“数据要素 ×”三年行动计划为实施蓝图,推动金融、医疗、交通等高价值领域实现“原始数据炼化—特征提纯—模型赋能”的质效跃升。未来,随着全生命周期管理、多模态治理、权益分配三大机制的完善,高质量数据集将持续释放三大战略价值——筑牢人工智能技术根基的“护城河”,激活数字经济新质生产力的“新引擎”,以及构筑科技自主可控的“安全壁垒”,最终支撑我国在全球智能时代从数据规则的“接受者”迈向标准制定的“主导者”,真正实现数据要素向创新动能的系统性进化。 (作者史凯单位:精益数据方法论创始人、中国计算机学会数发委执行委员,作者杨慧娟单位:深城交数研智算 PDT、资深数字化顾问。本文刊发于2025年第8期《信息化建设》杂志。) 来源(公众号):浙江数字经济
2025-09-02 17:57 180
来源(公众号):大数据AI智能圈 周一早上,销售总监急匆匆跑到你办公室:"我们需要分析一下华东区域的客户画像,制定下季度的营销策略。" 你打开CRM系统,发现客户信息不全。打开ERP系统,发现交易数据格式乱七八糟。再打开财务系统,发现同一个客户竟然有三个不同的编号。 这就是数据孤岛的真实写照。每个系统都在自己的小王国里称王称霸,互不往来。你想要的那个"完整的客户画像",就像拼图游戏一样,碎片散落在各个角落。 数据孤岛的隐性成本,远比你想象的高 让我给你算一笔账。 某制造企业的采购经理小王,每次采购都要花2小时核对供应商信息。同样的供应商,在不同系统里有不同的编码、不同的名称、不同的联系方式。 小王说:"我感觉自己不是在采购,而是在做侦探工作。" 这还不是最糟糕的。更要命的是,错误的数据会导致错误的决策。 去年,一家零售企业的市场部门,基于不准确的客户数据,投入了500万做精准营销。结果呢?转化率只有预期的30%。后来才发现,他们的客户数据有40%是重复的,30%是过期的。 你看,数据质量差不仅仅是技术问题,它直接影响的是你的钱包。 更可怕的是,在数字化转型的今天,数据已经成为企业的核心资产。 如果你的数据还在"各自为政",那你的竞争力就会被严重削弱。 AI重新定义主数据管理的游戏规则 传统的主数据管理,就像是让一群人工编辑去整理图书馆。 他们需要逐本逐页地检查、分类、整理。工作量大,效率低,错误率高。 AI的出现,完全改变了这个游戏。 如果此时,你有一个超级智能的助手,它可以: 自动识别和清洗数据。它能瞬间发现"苹果公司"和"Apple Inc."其实是同一家公司,能自动修正"138****1234"这种不完整的电话号码,能识别出哪些是重复数据、哪些是异常数据。 智能关联不同系统的数据。它能像侦探一样,通过各种线索(姓名、电话、地址、交易记录等)找到散落在不同系统中的同一个客户信息,然后把它们完美地拼接在一起。 实时监控数据质量。它会24小时不间断地监控你的数据,一旦发现异常,立即发出警报。就像是给你的数据安装了一个"健康监测器"。 这已然不是科幻小说,这是正在发生的现实。 从案例看AI+主数据的真实威力 让我跟你分享几个真实案例。 案例一:全球消费品巨头的数据整合 这家公司在全球有200多个分支机构, 数据散落在几十个不同的系统中。传统方法需要几百个人工作一年才能完成数据整合。 AI介入后,3个月就完成了全球数据的统一管理。数据质量提升了30%,决策效率提高了15%,运营成本降低了10%。 更重要的是,统一的数据视图让他们能够更好地理解全球客户需求,制定更精准的产品策略。 案例二:零售企业的精准营销 某大型零售企业面临的问题是:客户数据质量差,营销效果不理想。 AI帮助他们整合了来自线上线下的所有客户数据,构建了完整的客户画像。系统能自动识别客户的生命周期阶段,并推荐相应的营销策略。 结果:营销转化率提高了20%,客户满意度提高了15%,销售额提升了10%。 案例三:金融企业的风险管控 金融行业对数据安全和合规性要求极高。传统的人工监控方式既费时又容易出错。 AI系统能实时监控所有数据访问行为,自动识别异常操作,确保数据合规性。这家企业的数据安全风险降低了20%,合规性提高了15%。 你看到了吗? AI+主数据不仅仅是技术升级,它是商业模式的根本性变革。 结语 AI技术还在快速发展。 未来的AI+主数据管理会变得更加智能、更加自动化。 现在的问题是:你的企业准备好迎接这个变革了吗?
2025-08-19 18:35 172
在过去二十年里,企业越来越多的依赖于数据驱动的决策,也一直在努力降低数据分析工具的使用门槛,使越来越广泛的用户获得以前只有数据分析师和数据科学家才具备的能力。早在10年前就已经开始有国外的BI平台引入自然语言查询、自动洞察生成、自然语言生成等功能。但是由于技术的不成熟,相关技术和功能一直未得以普及。 大模型的出现极大地提升了BI产品的交互性,ChatBI通过将复杂的数据分析过程简化为用户与机器的对话,使得用户无需具备专业的数据分析技能,也能轻松获取所需的数据洞察,将极大地降低数据分析门槛,提高数据分析的效率和便捷性。 实现ChatBI最核心的技术是Text-to-SQL,旨在将用户的自然语言转化成机器可以执行的SQL,这也是ChatBI最大的技术难点。目前市场上主流的大语言模型能基本理解用户SQL的需求描述,但生成最终可执行SQL的准确率仍然无法达到生产环境的要求。 为了保证最终的ChatBI产品在面向业务用户时可用(即结果足够准确且可信),企业根据自己的数据基础设施现状、技术能力等往往会选择不同的技术实现路线。通过对多个“大模型+数据分析”落地案例的研究,沙丘智库将其中主流的设计思路总结如下: • 用户以自然语言的方式说出业务需求,大模型①(擅长语义理解)自动对问题作出建议和提炼,提炼后的问题会发送给聊天机器人; • 聊天机器人使用大模型②(擅长NL2SQL)构建SQL查询,通过提前定义的语义层,完成指标定义、管理、访问等工作,提升数据口径一致性; • 提取好的数据交由大模型③(擅长总结归纳)处理,生成自然语言回复,同时可视化引擎可输出可视化报表。 注:数据分析工作流的各个环节需要不同的大模型能力,上图所示大模型①、大模型②、大模型③为擅长不同能力方向的大模型能力示意,在实际落地过程中,企业可以选择在同一个大模型上训练多种能力,也可以选择多个大模型,在某些场景下还可以利用大小模型相结合的方式。 沙丘智库长期跟踪调研大模型技术的发展,旨在帮助企业快速了解大模型最新、最全面的落地情况。沙丘智库观察到,各行各业的头部企业基本在2023年下半年开始探索大模型在数据分析场景的应用,到了2024年,企业在“大模型+数据分析”场景的探索进一步加速。总的来看,大模型在数据分析场景的落地还处于早期阶段,未实现大规模应用,但这一场景的增长速度比大多数场景都要更快。 通过研究多家企业ChatBI的落地实践,沙丘智库从金融、制造、零售、IT/互联网等行业精选出8个具有代表性的案例(中国一汽、平安银行、腾讯、京东、星巴克、高露洁、第四范式、哈啰出行)供其他企业进行参考。 ▎案例1:中国一汽GPT-BI应用实践 中国一汽打造基于大模型的问数助手GPT-BI,相比传统BI的“固定问答”,GPT-BI可以实现问答任意组合,数据随时穿透,满足用户更灵活智能的数据需求,实现“问答即洞察”,带来基于动态因子、实时数据的决策革命。当前GPT-BI覆盖中国一汽研、产、供、销等9大领域指标的查询与分析,包含数据指标实时查询、管理层决策辅助、业务人员高效数据分析三大场景,满足每个角色的数据使用需求。 ▎案例2:平安银行大模型应用实践 银行数字化转型过程中数据分析已经成为普遍化的业务需求,传统的数据分析工作需要数据人员开发,通过大模型可以使用自然语言交互取数。平安银行在2023年8月推出基于AI Agent技术的ChatBI,旨在提高业务人员的数据分析能力,消灭“表哥表姐”。 ▎案例3:腾讯text2SQL智能问答技术实践 腾讯提出了一种新的text2SQL智能问答方案,通过将复杂问题拆解为简单问题,简化了大模型的推理过程,提高了text2SQL的准确性和稳定性,解决生产环境中的实用性问题。 ▎案例4:京东零售数据分析场景大模型实践 京东零售内部打造的ChatBI是一款基于GPT大语言模型的AI数据分析师,旨在通过自然语言对话简化复杂的BI工作。它通过意图识别、实体提取、知识库交互和数据分析应用扩展,为用户提供快速、直观的数据查询和分析服务。ChatBI降低了技术门槛,提高了数据分析效率,使得用户能够像与真人合作一样,轻松解决数据问题。 ▎案例5:星巴克大模型应用探索 业务部门当前数据洞察的流程较长,需要提出数据需求给数据部门,数据产品部门对数据进行梳理后交给数据执行部门执行,执行后再将结果转交给业务部门,整个流程最快也需要2-3天。因此,星巴克探索NL2SQL,协助业务部门快速执行业务洞察。 ▎案例6:高露洁探索生成式AI驱动的数据分析机器人 高露洁正在试点一个生成式AI驱动的数据分析机器人,旨在实现数据民主化,加快数据洞察。通过将虚拟货架的数据分析与内容创建结合起来,该工具收集有关定价、库存水平、产品详情页内容、搜索位置、评级、评论、竞争对手分析的数据;员工可以对话询问机器人有关数据的问题,例如“薄荷美白牙膏的销售额是多少?”,还可以检索缺货数据,如产品层面的缺货频率和缺货持续时间。 ▎案例7:第四范式基于语义模型的ChatBI实践 第四范式基于“NL2Mertric”的思路解决Text-to-SQL在业务场景落地时存在的数据不一致、业务不可信、成本不可控难题,增加了语义化数据建模层。 基于语义模型的ChatBI流程架构如下: ▎案例8:哈啰出行大模型业务提效实践 哈啰基于DSL实现BI助手,DSL本身定义了指标、维度、表、查询日期。基于DSL的BI助手生成的稳定性更强,如果不能准确生成相关的报表分析则拒答,目前拒答率是30%,一旦生成准确率接近100%。 来源(公众号):沙丘社区
2025-07-25 18:26 392
在数据中台产品研发方面,龙石数据坚持“批评与自我批评”和“慢即是快”。这种方法借鉴了茅台酒的酿造智慧,通过规划、设计、发酵、研发、试运行五个严谨的工序,打造出屡屡给用户带来惊喜的优质产品。 规划:问题导向的起点 成功的产品研发始于对用户需求的深刻洞察。在规划阶段,研发团队需要彻底理清用户痛点及其解决方案,这是整个产品生命周期的基石。只有在这个阶段把问题想透,后续工作才能有的放矢。 设计:用户视角的原型创造 进入设计阶段后,团队需要将解决方案转化为具体的产品原型。这一过程必须始终站在用户角度,确保每个交互细节都符合用户习惯,使最终产品用起来得心应手。优秀的设计不仅解决功能需求,更要创造流畅的使用体验。 发酵:冷静期的自我审视 最具特色的"发酵"阶段体现了独特的研发智慧。设计完成后,团队会将方案搁置1-2个月,待最初的热情冷却后再进行最终评审。这段冷静期是"自我批评"的关键时刻,团队需要客观评估设计方案是否真正有用、好用。只有通过这轮严格筛选的功能才会进入研发,这种做法大幅降低了后期返工的风险。 研发:精准实现设计方案 研发阶段是方案的落地过程。由于前期的充分准备,这阶段的开发工作能够高效推进,避免因需求变更导致的资源浪费。 试运行:真实场景的批评改进 最后的试运行阶段邀请项目经理和意向客户在实训场景中体验产品。这是接受"批评"的重要环节,来自真实用户的反馈为产品优化提供了宝贵方向。通过这轮检验的产品,往往能超出用户预期,创造令人惊喜的体验。
2025-07-04 14:23 171
在数字化浪潮奔涌的当下,数据管理部门正站在 AI 技术应用的关键转折点。AI 之于数据管理,蕴藏着双重核心价值: 技术价值赋能数据治理全流程自动化,从数据采集、分析到质量监测,全面提升技术人员工作效率; 业务价值则聚焦于打破数据使用壁垒,以智能问数为利器,让业务人员能随时获取所需数据,以报表、趋势图等多样形式呈现。在这两大价值维度中,优先服务业务人员,落地 AI 智能问数成为数据管理部门释放 AI 潜力的重要突破口。 传统数据共享交换模式下,业务部门的数据获取之路充满荆棘。从申请数据资源开始,数据需经平台流转至业务部门前置机,再由技术人员进行繁琐的数据提取、加工处理,最终才能交付业务人员使用。这一过程,短则耗时一两天,复杂需求甚至需数十天,不仅耗费大量时间成本,人工投入也居高不下。无论是制作数据清单 Excel、生成数据报表,还是开发业务系统,每一个环节都可能成为数据应用的阻碍。 而 AI 智能问数的出现,重构了企业用数的规则。业务部门申请数据资源后,可直接在平台上发起提问,无需技术人员二次加工。以市场销售数据为例,业务人员能瞬间获取诸如 “今年销售总额是多少”“客户在各个省的分布情况如何”“去年每个月销售额变化趋势怎样” 等关键信息,真正实现了 “想问即得”。这种便捷性极大地满足了管理层灵活多变的决策需求。 当数据管理部门着手落地 AI 智能问数时,团队协作的选择成为关键。有企业曾让 AI 团队与数据治理团队同时开展 AI 智能问数研究,最终数据治理团队脱颖而出,交出了更出色的答卷。深入探究背后原因,AI 智能问数的五大核心要素恰好契合数据治理团队的专业优势。 1)补全数据业务含义,能让 AI 精准理解数据背后的业务逻辑; 2)构建适配 AI 访问的数据模型,如拉宽表、数据翻译等操作,为 AI 快速准确响应提供数据基础; 3)提升数据质量,确保 AI 输出结果真实可靠; 4)设置数据访问权限,保障数据安全合规; 5)建立长效运营机制,则为 AI 智能问数的持续优化与稳定运行保驾护航。 这一实践充分印证了 AI 与数据之间双向赋能的紧密关系。对于数据管理部门而言,落地 AI 并非简单的技术叠加,而是需要以业务需求为导向,依托数据治理的深厚功底,重点推进 AI 智能问数等核心应用。唯有如此,才能让 AI 真正成为数据管理的强大助力,在提升数据使用效率的同时,为企业决策提供更智能、更高效的支持。
2025-06-26 10:30 720
最近,龙石数据在为很多企业提供免费调研和数据治理方案时发现,无论是中小企业还是500强企业,都对数字化转型非常迷茫和焦虑。 结论是:大多数企业不适合全面推进数字化转型,不能被口号给骗了,动不动就要智能化升级,还没走稳就想跑。 要知道华为在数字化转型上的投入是销售收入的2%(P90)。 对于中小企业,在缺乏整体战略规划和强力组织支撑的情况下,建议根据自身情况,从主业务流程贯通、跨部门数据共享、核心业务指标监测,以及数字化人才培养等方面小步快跑式的缓慢推进数字化转型,任正非讲慢就是快(P143)。 推荐大家看看华为原CIO周良军先生在《华为数字化转型》一书中总结的“钻石"模型。 在这个模型中,下面的“三力"讲的是数字化转型的“道",上面的”三驱"讲的是数字化转型的“术”。 在这里简单介绍一下这本书里的金句。 战略力方面:华为早在90年代就把数字化转型作为公司战略核心,也只有把数字化转型作为战略核心,数字化转型才有用武之地(P36)。 数字领导力方面:一把手的深度参与是数字化转型成功的前提,如果数字化转型失败,那么问题一定出在前三排,根因都在主席台(P62)。 变革力方面:数字化转型是一个复杂的管理变革工程,从战略规划到执行落地,关键不在于数字化,而在于转型变革。而变革的本质是利益再分配(P110)。 流程驱动的数字化转型是实现"以客户为中心"的端到端业务贯通,贯通流程的目标只有两个:一是多打粮食,也就是提升业绩;二是增加土壤肥力,也就是提升组织能力(P149)。 数据驱动的数字化转型主要任务是提升核心数据质量,实现数据跨部门共享,支撑业务洞察和决策分析(P204)。 智能驱动的数字化转型主要包括业务场景智能、业务决策智能、人际协作智能、这是数字化转型的高级目标(P241)。
2025-04-09 10:56 322
根据龙石数据多年专注数据治理的经验来看,数据治理效果不好的原因有三个:不懂、不持续、缺人才,其中最重要的就是缺人才。 一、不懂,就会觉得难,以为采购一个平台,上一个项目就能解决所有的问题。其实,这个项目最多只能算是起了一个头。如果做得不好,反而让大家对数据治理失去了信心。所以,我们自己一定要懂,最起码懂个大概,知道我要实现什么短期效果,实现什么长期效果,简单点怎么做,完善一些又怎么做。 二、不持续,不持续的核心原因有两个:一是成本太高,二是自己缺思路;自己缺思路就会导致选择了不符合自身需求的方案,也就导致了投入与效果的错配,也就会感觉投入与产出的性价比不高,导致对数据治理失去信心。 三、缺人才,缺人才就会导致自己人不懂数据治理,没法选择一条适合自己的方案和路径,也就导致数据治理的不持续,没法发挥数据治理的应有效果。所以,人才是数据治理的根本。所以,对企业数字化转型来说,我认为提升数据治理的成效是治标,提升自己团队的数据治理能力才是治本。 所以,我们在服务客户时,最重要的工作就是帮客户和合作伙伴建立自己的数据治理能力。我们是从4个方面帮学员提升数据治理的能力的: 一是实战培训,就是我们准备好场景和模拟数据,让学员先自己根据文档来练习,对数据治理建立一个感观的认识,让我们不再畏惧它; 二是理论培训,我们的咨询专家会给学员讲讲数据治理的理论知识,包括元数据、数据标准、数据质量、数据安全、数据标签、数据指标等概念,让学员熟悉数据治理的理论; 三是实施方法培训,我们会根据我们的经验,系统化地教会学员怎么一步步地做好数据治理,包括怎么做调研,怎么建立数据制度,甚至怎么提升组织的数据意识,以及在遇到各种阻力时该怎么办; 四是考试认证,如果学员还想进一步提升,也可以选择DCMM和DAMA的系统化的培训,并且参加权威考试,拿到认证证书。 当然,整个培训过程中,我们会使用AI来对学习成果进行评估,会进行打分。所以,这个学习会比较严格,也会有些压力,需要大家认认真真地去学,才能学得扎实。 最后,如果你们单位做了数据治理,效果不太理想,或者做得很好,都欢迎与我们联系,我们可以一起总结失败教训和分享成功经验。
2025-03-27 13:31 342
现在提到数据治理,大家都觉得迷茫,行业里创造了太多的概念,弄得专业人士都说不清数据治理到底是个啥。 点击图片观看视频讲解👆 要让数据治理变得简单,可以从4个方面着手: 1、确定一个清晰的目标。 2、制定一个可行的机制。 3、找到一个简单的方法。 4、选择一个好用的工具。 目标和机制需要根据组织的情况来确定,这里不做赘述。 1.从方法上来讲,我们在19年将它定义为5个字,“理、采、存、管、用”: 理,就是弄清楚我们有哪些数据; 采,就是把分散的数据集中到一起; 存,就是把数据集中存储起来; 管,就是进行数据质量、数据标准和数据安全的管理; 用,就是通过数据标签、数据指标、数据共享、数据报表等方式将数据用起来。 目前,市场上大多数的数据治理项目只是做了“理、采、存、用”,也能将数据用起来,但如果不把管数也做起来,就不能建立数据治理的长效机制,无法统一标准、提升质量和保障安全,为持续用数保驾护航。 2.从工具上来讲,我们借鉴工厂流水线的方法来治理数据。例如针对新生入学这个场景,我们先确定数据来源,再创建数据模型,然后做数据归集、数据清洗和数据融合,同时,配套数据标准、数据安全和数据质量方面的保障,然后,再开发数据标签、数据指标和API接口,最后,建成主题库、可视化报表和业务系统。 这样一眼就可以看清楚数据治理的全部过程和数据成果,真正做到让数据好管好用,这也是龙石数据的愿景和使命。
2025-03-24 16:27 803
什么是数据治理?就算是从业了20多年的人,也真的很难用一两句话讲清楚。前几天和一位专家交流的时候,突然发现数据治理与粮食加工特别像! 数据也和粮食一样需要“收割、清理、储存、加工和防护”。下面这个表格中列出了数据治理和粮食加工的对应关系: 例如: 1.数据汇聚对应着粮食收割,把数据和粮食收上来。 2.数据清洗对应着粮食清理。 3.数据安全管理对应着粮食的防火、防潮、防鼠、防盗。 4.数据汇聚:从业务系统、传感器等渠道收集数据,类似于粮食收割,将粮食从田间收割上来。 5.数据清洗:对数据进行去重、转码、融合和标准化处理,类似于粮食清理,包括脱壳、晾晒和去除杂质。 6.数据标签:根据数据的属性和用途打标签,类似于粮食分类,按等级分为优质米、劣质米,按产地分为东北大米、泰国香米等。 7.数据仓库:将清洗后的数据存储到数据仓库中,类似于粮食存储,根据实际情况选择陶缸、地窖、棚仓或现代房仓进行存储。 8.质量管理:通过监控和修复数据问题,确保数据质量,类似于粮食质量监控,定期检查霉变、虫害等情况。 9.安全管理:对数据进行分级分类、访问控制、加密脱敏等保护措施,类似于粮食防护,包括防火、防潮、防鼠、防盗等。 10.数据开发:将原始数据转变为可用的数据资产,类似于粮食加工,将水稻脱壳成大米,小麦研磨成面粉。 11.数据利用:将加工后的数据用于决策分析、AI模型训练等,类似于粮食食用,将大米煮成米饭,面粉做成包子。 点击图片观看详细视频讲解👆 所以,粮食加工养活了人类,而数据治理则养活了AI,人类可以种粮食,AI可不可以种植数据,实现自给自足呢? 欢迎大家前来讨论、交流。
2025-03-21 18:31 354
DeepSeek这次为中国科技赢得了国际声誉,也用实际行动回应了漂亮国对中国的算力封锁。它证明了,AI的发展不仅仅依赖于算力,更依赖于算法创新和高效的数据治理。 今天,我想和大家分享两个关于DeepSeek(人工智能)与数据治理行业关系的思考。 最近很多朋友关心我们,问人工智能会不会颠覆我们数字治理行业?我认为不会。 点击图片观看详细视频讲解☝️ AI不会去颠覆任何行业,它只是一个工具。一个强大的工具而已。我们没必要将它神化。 可以从四个方面来理解这件事。 第一,AI是效率工具。 它能够帮我们来提高我们数据治理的效率,甚至呢我们也可以用AI来驱动数据中台来干活。 第二,AI是智能工具。 它可以自动化的帮我们生成一些数据质量检验的规则,也可以帮我们自动生成一些数据分析的脚本,降低我们数据治理的技术门槛。 第三,AI的训练和微调都离不开高质量数据。 原来我们做数据治理是为人服务的,但是现在不一样,我们现在也可以为AI提供服务,AI是我们数据治理的新用户。 第四,数据治理是构建知识库的前提。 现在大家都在接入DeepSeek,使用DeepSeek来构建自己的私有知识库,但是只有加工好的数据哎,才能成为知识库。那么数据治理天然就是做这个的,所以我们现在也在接入DeepSeek和数据中台,研发我们的知识库开发工具,希望能够帮助大家更快的更高质量的来构建自己的知识库。等我们打磨好我们再分享给大家。 所以一句话总结,我认为AI与数据治理之间是一个互相赋能的关系,它不是谁在颠覆谁,是双向奔赴。
2025-03-18 10:14 982
热门文章