来源(公众号):大数据AI智能圈 周一早上,销售总监急匆匆跑到你办公室:"我们需要分析一下华东区域的客户画像,制定下季度的营销策略。" 你打开CRM系统,发现客户信息不全。打开ERP系统,发现交易数据格式乱七八糟。再打开财务系统,发现同一个客户竟然有三个不同的编号。 这就是数据孤岛的真实写照。每个系统都在自己的小王国里称王称霸,互不往来。你想要的那个"完整的客户画像",就像拼图游戏一样,碎片散落在各个角落。 数据孤岛的隐性成本,远比你想象的高 让我给你算一笔账。 某制造企业的采购经理小王,每次采购都要花2小时核对供应商信息。同样的供应商,在不同系统里有不同的编码、不同的名称、不同的联系方式。 小王说:"我感觉自己不是在采购,而是在做侦探工作。" 这还不是最糟糕的。更要命的是,错误的数据会导致错误的决策。 去年,一家零售企业的市场部门,基于不准确的客户数据,投入了500万做精准营销。结果呢?转化率只有预期的30%。后来才发现,他们的客户数据有40%是重复的,30%是过期的。 你看,数据质量差不仅仅是技术问题,它直接影响的是你的钱包。 更可怕的是,在数字化转型的今天,数据已经成为企业的核心资产。 如果你的数据还在"各自为政",那你的竞争力就会被严重削弱。 AI重新定义主数据管理的游戏规则 传统的主数据管理,就像是让一群人工编辑去整理图书馆。 他们需要逐本逐页地检查、分类、整理。工作量大,效率低,错误率高。 AI的出现,完全改变了这个游戏。 如果此时,你有一个超级智能的助手,它可以: 自动识别和清洗数据。它能瞬间发现"苹果公司"和"Apple Inc."其实是同一家公司,能自动修正"138****1234"这种不完整的电话号码,能识别出哪些是重复数据、哪些是异常数据。 智能关联不同系统的数据。它能像侦探一样,通过各种线索(姓名、电话、地址、交易记录等)找到散落在不同系统中的同一个客户信息,然后把它们完美地拼接在一起。 实时监控数据质量。它会24小时不间断地监控你的数据,一旦发现异常,立即发出警报。就像是给你的数据安装了一个"健康监测器"。 这已然不是科幻小说,这是正在发生的现实。 从案例看AI+主数据的真实威力 让我跟你分享几个真实案例。 案例一:全球消费品巨头的数据整合 这家公司在全球有200多个分支机构, 数据散落在几十个不同的系统中。传统方法需要几百个人工作一年才能完成数据整合。 AI介入后,3个月就完成了全球数据的统一管理。数据质量提升了30%,决策效率提高了15%,运营成本降低了10%。 更重要的是,统一的数据视图让他们能够更好地理解全球客户需求,制定更精准的产品策略。 案例二:零售企业的精准营销 某大型零售企业面临的问题是:客户数据质量差,营销效果不理想。 AI帮助他们整合了来自线上线下的所有客户数据,构建了完整的客户画像。系统能自动识别客户的生命周期阶段,并推荐相应的营销策略。 结果:营销转化率提高了20%,客户满意度提高了15%,销售额提升了10%。 案例三:金融企业的风险管控 金融行业对数据安全和合规性要求极高。传统的人工监控方式既费时又容易出错。 AI系统能实时监控所有数据访问行为,自动识别异常操作,确保数据合规性。这家企业的数据安全风险降低了20%,合规性提高了15%。 你看到了吗? AI+主数据不仅仅是技术升级,它是商业模式的根本性变革。 结语 AI技术还在快速发展。 未来的AI+主数据管理会变得更加智能、更加自动化。 现在的问题是:你的企业准备好迎接这个变革了吗?
2025-08-19 18:35 39
在过去二十年里,企业越来越多的依赖于数据驱动的决策,也一直在努力降低数据分析工具的使用门槛,使越来越广泛的用户获得以前只有数据分析师和数据科学家才具备的能力。早在10年前就已经开始有国外的BI平台引入自然语言查询、自动洞察生成、自然语言生成等功能。但是由于技术的不成熟,相关技术和功能一直未得以普及。 大模型的出现极大地提升了BI产品的交互性,ChatBI通过将复杂的数据分析过程简化为用户与机器的对话,使得用户无需具备专业的数据分析技能,也能轻松获取所需的数据洞察,将极大地降低数据分析门槛,提高数据分析的效率和便捷性。 实现ChatBI最核心的技术是Text-to-SQL,旨在将用户的自然语言转化成机器可以执行的SQL,这也是ChatBI最大的技术难点。目前市场上主流的大语言模型能基本理解用户SQL的需求描述,但生成最终可执行SQL的准确率仍然无法达到生产环境的要求。 为了保证最终的ChatBI产品在面向业务用户时可用(即结果足够准确且可信),企业根据自己的数据基础设施现状、技术能力等往往会选择不同的技术实现路线。通过对多个“大模型+数据分析”落地案例的研究,沙丘智库将其中主流的设计思路总结如下: • 用户以自然语言的方式说出业务需求,大模型①(擅长语义理解)自动对问题作出建议和提炼,提炼后的问题会发送给聊天机器人; • 聊天机器人使用大模型②(擅长NL2SQL)构建SQL查询,通过提前定义的语义层,完成指标定义、管理、访问等工作,提升数据口径一致性; • 提取好的数据交由大模型③(擅长总结归纳)处理,生成自然语言回复,同时可视化引擎可输出可视化报表。 注:数据分析工作流的各个环节需要不同的大模型能力,上图所示大模型①、大模型②、大模型③为擅长不同能力方向的大模型能力示意,在实际落地过程中,企业可以选择在同一个大模型上训练多种能力,也可以选择多个大模型,在某些场景下还可以利用大小模型相结合的方式。 沙丘智库长期跟踪调研大模型技术的发展,旨在帮助企业快速了解大模型最新、最全面的落地情况。沙丘智库观察到,各行各业的头部企业基本在2023年下半年开始探索大模型在数据分析场景的应用,到了2024年,企业在“大模型+数据分析”场景的探索进一步加速。总的来看,大模型在数据分析场景的落地还处于早期阶段,未实现大规模应用,但这一场景的增长速度比大多数场景都要更快。 通过研究多家企业ChatBI的落地实践,沙丘智库从金融、制造、零售、IT/互联网等行业精选出8个具有代表性的案例(中国一汽、平安银行、腾讯、京东、星巴克、高露洁、第四范式、哈啰出行)供其他企业进行参考。 ▎案例1:中国一汽GPT-BI应用实践 中国一汽打造基于大模型的问数助手GPT-BI,相比传统BI的“固定问答”,GPT-BI可以实现问答任意组合,数据随时穿透,满足用户更灵活智能的数据需求,实现“问答即洞察”,带来基于动态因子、实时数据的决策革命。当前GPT-BI覆盖中国一汽研、产、供、销等9大领域指标的查询与分析,包含数据指标实时查询、管理层决策辅助、业务人员高效数据分析三大场景,满足每个角色的数据使用需求。 ▎案例2:平安银行大模型应用实践 银行数字化转型过程中数据分析已经成为普遍化的业务需求,传统的数据分析工作需要数据人员开发,通过大模型可以使用自然语言交互取数。平安银行在2023年8月推出基于AI Agent技术的ChatBI,旨在提高业务人员的数据分析能力,消灭“表哥表姐”。 ▎案例3:腾讯text2SQL智能问答技术实践 腾讯提出了一种新的text2SQL智能问答方案,通过将复杂问题拆解为简单问题,简化了大模型的推理过程,提高了text2SQL的准确性和稳定性,解决生产环境中的实用性问题。 ▎案例4:京东零售数据分析场景大模型实践 京东零售内部打造的ChatBI是一款基于GPT大语言模型的AI数据分析师,旨在通过自然语言对话简化复杂的BI工作。它通过意图识别、实体提取、知识库交互和数据分析应用扩展,为用户提供快速、直观的数据查询和分析服务。ChatBI降低了技术门槛,提高了数据分析效率,使得用户能够像与真人合作一样,轻松解决数据问题。 ▎案例5:星巴克大模型应用探索 业务部门当前数据洞察的流程较长,需要提出数据需求给数据部门,数据产品部门对数据进行梳理后交给数据执行部门执行,执行后再将结果转交给业务部门,整个流程最快也需要2-3天。因此,星巴克探索NL2SQL,协助业务部门快速执行业务洞察。 ▎案例6:高露洁探索生成式AI驱动的数据分析机器人 高露洁正在试点一个生成式AI驱动的数据分析机器人,旨在实现数据民主化,加快数据洞察。通过将虚拟货架的数据分析与内容创建结合起来,该工具收集有关定价、库存水平、产品详情页内容、搜索位置、评级、评论、竞争对手分析的数据;员工可以对话询问机器人有关数据的问题,例如“薄荷美白牙膏的销售额是多少?”,还可以检索缺货数据,如产品层面的缺货频率和缺货持续时间。 ▎案例7:第四范式基于语义模型的ChatBI实践 第四范式基于“NL2Mertric”的思路解决Text-to-SQL在业务场景落地时存在的数据不一致、业务不可信、成本不可控难题,增加了语义化数据建模层。 基于语义模型的ChatBI流程架构如下: ▎案例8:哈啰出行大模型业务提效实践 哈啰基于DSL实现BI助手,DSL本身定义了指标、维度、表、查询日期。基于DSL的BI助手生成的稳定性更强,如果不能准确生成相关的报表分析则拒答,目前拒答率是30%,一旦生成准确率接近100%。 来源(公众号):沙丘社区
2025-07-25 18:26 210
在数据中台产品研发方面,龙石数据坚持“批评与自我批评”和“慢即是快”。这种方法借鉴了茅台酒的酿造智慧,通过规划、设计、发酵、研发、试运行五个严谨的工序,打造出屡屡给用户带来惊喜的优质产品。 规划:问题导向的起点 成功的产品研发始于对用户需求的深刻洞察。在规划阶段,研发团队需要彻底理清用户痛点及其解决方案,这是整个产品生命周期的基石。只有在这个阶段把问题想透,后续工作才能有的放矢。 设计:用户视角的原型创造 进入设计阶段后,团队需要将解决方案转化为具体的产品原型。这一过程必须始终站在用户角度,确保每个交互细节都符合用户习惯,使最终产品用起来得心应手。优秀的设计不仅解决功能需求,更要创造流畅的使用体验。 发酵:冷静期的自我审视 最具特色的"发酵"阶段体现了独特的研发智慧。设计完成后,团队会将方案搁置1-2个月,待最初的热情冷却后再进行最终评审。这段冷静期是"自我批评"的关键时刻,团队需要客观评估设计方案是否真正有用、好用。只有通过这轮严格筛选的功能才会进入研发,这种做法大幅降低了后期返工的风险。 研发:精准实现设计方案 研发阶段是方案的落地过程。由于前期的充分准备,这阶段的开发工作能够高效推进,避免因需求变更导致的资源浪费。 试运行:真实场景的批评改进 最后的试运行阶段邀请项目经理和意向客户在实训场景中体验产品。这是接受"批评"的重要环节,来自真实用户的反馈为产品优化提供了宝贵方向。通过这轮检验的产品,往往能超出用户预期,创造令人惊喜的体验。
2025-07-04 14:23 146
在数字化浪潮奔涌的当下,数据管理部门正站在 AI 技术应用的关键转折点。AI 之于数据管理,蕴藏着双重核心价值: 技术价值赋能数据治理全流程自动化,从数据采集、分析到质量监测,全面提升技术人员工作效率; 业务价值则聚焦于打破数据使用壁垒,以智能问数为利器,让业务人员能随时获取所需数据,以报表、趋势图等多样形式呈现。在这两大价值维度中,优先服务业务人员,落地 AI 智能问数成为数据管理部门释放 AI 潜力的重要突破口。 传统数据共享交换模式下,业务部门的数据获取之路充满荆棘。从申请数据资源开始,数据需经平台流转至业务部门前置机,再由技术人员进行繁琐的数据提取、加工处理,最终才能交付业务人员使用。这一过程,短则耗时一两天,复杂需求甚至需数十天,不仅耗费大量时间成本,人工投入也居高不下。无论是制作数据清单 Excel、生成数据报表,还是开发业务系统,每一个环节都可能成为数据应用的阻碍。 而 AI 智能问数的出现,重构了企业用数的规则。业务部门申请数据资源后,可直接在平台上发起提问,无需技术人员二次加工。以市场销售数据为例,业务人员能瞬间获取诸如 “今年销售总额是多少”“客户在各个省的分布情况如何”“去年每个月销售额变化趋势怎样” 等关键信息,真正实现了 “想问即得”。这种便捷性极大地满足了管理层灵活多变的决策需求。 当数据管理部门着手落地 AI 智能问数时,团队协作的选择成为关键。有企业曾让 AI 团队与数据治理团队同时开展 AI 智能问数研究,最终数据治理团队脱颖而出,交出了更出色的答卷。深入探究背后原因,AI 智能问数的五大核心要素恰好契合数据治理团队的专业优势。 1)补全数据业务含义,能让 AI 精准理解数据背后的业务逻辑; 2)构建适配 AI 访问的数据模型,如拉宽表、数据翻译等操作,为 AI 快速准确响应提供数据基础; 3)提升数据质量,确保 AI 输出结果真实可靠; 4)设置数据访问权限,保障数据安全合规; 5)建立长效运营机制,则为 AI 智能问数的持续优化与稳定运行保驾护航。 这一实践充分印证了 AI 与数据之间双向赋能的紧密关系。对于数据管理部门而言,落地 AI 并非简单的技术叠加,而是需要以业务需求为导向,依托数据治理的深厚功底,重点推进 AI 智能问数等核心应用。唯有如此,才能让 AI 真正成为数据管理的强大助力,在提升数据使用效率的同时,为企业决策提供更智能、更高效的支持。
2025-06-26 10:30 471
最近,龙石数据在为很多企业提供免费调研和数据治理方案时发现,无论是中小企业还是500强企业,都对数字化转型非常迷茫和焦虑。 结论是:大多数企业不适合全面推进数字化转型,不能被口号给骗了,动不动就要智能化升级,还没走稳就想跑。 要知道华为在数字化转型上的投入是销售收入的2%(P90)。 对于中小企业,在缺乏整体战略规划和强力组织支撑的情况下,建议根据自身情况,从主业务流程贯通、跨部门数据共享、核心业务指标监测,以及数字化人才培养等方面小步快跑式的缓慢推进数字化转型,任正非讲慢就是快(P143)。 推荐大家看看华为原CIO周良军先生在《华为数字化转型》一书中总结的“钻石"模型。 在这个模型中,下面的“三力"讲的是数字化转型的“道",上面的”三驱"讲的是数字化转型的“术”。 在这里简单介绍一下这本书里的金句。 战略力方面:华为早在90年代就把数字化转型作为公司战略核心,也只有把数字化转型作为战略核心,数字化转型才有用武之地(P36)。 数字领导力方面:一把手的深度参与是数字化转型成功的前提,如果数字化转型失败,那么问题一定出在前三排,根因都在主席台(P62)。 变革力方面:数字化转型是一个复杂的管理变革工程,从战略规划到执行落地,关键不在于数字化,而在于转型变革。而变革的本质是利益再分配(P110)。 流程驱动的数字化转型是实现"以客户为中心"的端到端业务贯通,贯通流程的目标只有两个:一是多打粮食,也就是提升业绩;二是增加土壤肥力,也就是提升组织能力(P149)。 数据驱动的数字化转型主要任务是提升核心数据质量,实现数据跨部门共享,支撑业务洞察和决策分析(P204)。 智能驱动的数字化转型主要包括业务场景智能、业务决策智能、人际协作智能、这是数字化转型的高级目标(P241)。
2025-04-09 10:56 262
根据龙石数据多年专注数据治理的经验来看,数据治理效果不好的原因有三个:不懂、不持续、缺人才,其中最重要的就是缺人才。 一、不懂,就会觉得难,以为采购一个平台,上一个项目就能解决所有的问题。其实,这个项目最多只能算是起了一个头。如果做得不好,反而让大家对数据治理失去了信心。所以,我们自己一定要懂,最起码懂个大概,知道我要实现什么短期效果,实现什么长期效果,简单点怎么做,完善一些又怎么做。 二、不持续,不持续的核心原因有两个:一是成本太高,二是自己缺思路;自己缺思路就会导致选择了不符合自身需求的方案,也就导致了投入与效果的错配,也就会感觉投入与产出的性价比不高,导致对数据治理失去信心。 三、缺人才,缺人才就会导致自己人不懂数据治理,没法选择一条适合自己的方案和路径,也就导致数据治理的不持续,没法发挥数据治理的应有效果。所以,人才是数据治理的根本。所以,对企业数字化转型来说,我认为提升数据治理的成效是治标,提升自己团队的数据治理能力才是治本。 所以,我们在服务客户时,最重要的工作就是帮客户和合作伙伴建立自己的数据治理能力。我们是从4个方面帮学员提升数据治理的能力的: 一是实战培训,就是我们准备好场景和模拟数据,让学员先自己根据文档来练习,对数据治理建立一个感观的认识,让我们不再畏惧它; 二是理论培训,我们的咨询专家会给学员讲讲数据治理的理论知识,包括元数据、数据标准、数据质量、数据安全、数据标签、数据指标等概念,让学员熟悉数据治理的理论; 三是实施方法培训,我们会根据我们的经验,系统化地教会学员怎么一步步地做好数据治理,包括怎么做调研,怎么建立数据制度,甚至怎么提升组织的数据意识,以及在遇到各种阻力时该怎么办; 四是考试认证,如果学员还想进一步提升,也可以选择DCMM和DAMA的系统化的培训,并且参加权威考试,拿到认证证书。 当然,整个培训过程中,我们会使用AI来对学习成果进行评估,会进行打分。所以,这个学习会比较严格,也会有些压力,需要大家认认真真地去学,才能学得扎实。 最后,如果你们单位做了数据治理,效果不太理想,或者做得很好,都欢迎与我们联系,我们可以一起总结失败教训和分享成功经验。
2025-03-27 13:31 276
现在提到数据治理,大家都觉得迷茫,行业里创造了太多的概念,弄得专业人士都说不清数据治理到底是个啥。 点击图片观看视频讲解👆 要让数据治理变得简单,可以从4个方面着手: 1、确定一个清晰的目标。 2、制定一个可行的机制。 3、找到一个简单的方法。 4、选择一个好用的工具。 目标和机制需要根据组织的情况来确定,这里不做赘述。 1.从方法上来讲,我们在19年将它定义为5个字,“理、采、存、管、用”: 理,就是弄清楚我们有哪些数据; 采,就是把分散的数据集中到一起; 存,就是把数据集中存储起来; 管,就是进行数据质量、数据标准和数据安全的管理; 用,就是通过数据标签、数据指标、数据共享、数据报表等方式将数据用起来。 目前,市场上大多数的数据治理项目只是做了“理、采、存、用”,也能将数据用起来,但如果不把管数也做起来,就不能建立数据治理的长效机制,无法统一标准、提升质量和保障安全,为持续用数保驾护航。 2.从工具上来讲,我们借鉴工厂流水线的方法来治理数据。例如针对新生入学这个场景,我们先确定数据来源,再创建数据模型,然后做数据归集、数据清洗和数据融合,同时,配套数据标准、数据安全和数据质量方面的保障,然后,再开发数据标签、数据指标和API接口,最后,建成主题库、可视化报表和业务系统。 这样一眼就可以看清楚数据治理的全部过程和数据成果,真正做到让数据好管好用,这也是龙石数据的愿景和使命。
2025-03-24 16:27 784
什么是数据治理?就算是从业了20多年的人,也真的很难用一两句话讲清楚。前几天和一位专家交流的时候,突然发现数据治理与粮食加工特别像! 数据也和粮食一样需要“收割、清理、储存、加工和防护”。下面这个表格中列出了数据治理和粮食加工的对应关系: 例如: 1.数据汇聚对应着粮食收割,把数据和粮食收上来。 2.数据清洗对应着粮食清理。 3.数据安全管理对应着粮食的防火、防潮、防鼠、防盗。 4.数据汇聚:从业务系统、传感器等渠道收集数据,类似于粮食收割,将粮食从田间收割上来。 5.数据清洗:对数据进行去重、转码、融合和标准化处理,类似于粮食清理,包括脱壳、晾晒和去除杂质。 6.数据标签:根据数据的属性和用途打标签,类似于粮食分类,按等级分为优质米、劣质米,按产地分为东北大米、泰国香米等。 7.数据仓库:将清洗后的数据存储到数据仓库中,类似于粮食存储,根据实际情况选择陶缸、地窖、棚仓或现代房仓进行存储。 8.质量管理:通过监控和修复数据问题,确保数据质量,类似于粮食质量监控,定期检查霉变、虫害等情况。 9.安全管理:对数据进行分级分类、访问控制、加密脱敏等保护措施,类似于粮食防护,包括防火、防潮、防鼠、防盗等。 10.数据开发:将原始数据转变为可用的数据资产,类似于粮食加工,将水稻脱壳成大米,小麦研磨成面粉。 11.数据利用:将加工后的数据用于决策分析、AI模型训练等,类似于粮食食用,将大米煮成米饭,面粉做成包子。 点击图片观看详细视频讲解👆 所以,粮食加工养活了人类,而数据治理则养活了AI,人类可以种粮食,AI可不可以种植数据,实现自给自足呢? 欢迎大家前来讨论、交流。
2025-03-21 18:31 289
DeepSeek这次为中国科技赢得了国际声誉,也用实际行动回应了漂亮国对中国的算力封锁。它证明了,AI的发展不仅仅依赖于算力,更依赖于算法创新和高效的数据治理。 今天,我想和大家分享两个关于DeepSeek(人工智能)与数据治理行业关系的思考。 最近很多朋友关心我们,问人工智能会不会颠覆我们数字治理行业?我认为不会。 点击图片观看详细视频讲解☝️ AI不会去颠覆任何行业,它只是一个工具。一个强大的工具而已。我们没必要将它神化。 可以从四个方面来理解这件事。 第一,AI是效率工具。 它能够帮我们来提高我们数据治理的效率,甚至呢我们也可以用AI来驱动数据中台来干活。 第二,AI是智能工具。 它可以自动化的帮我们生成一些数据质量检验的规则,也可以帮我们自动生成一些数据分析的脚本,降低我们数据治理的技术门槛。 第三,AI的训练和微调都离不开高质量数据。 原来我们做数据治理是为人服务的,但是现在不一样,我们现在也可以为AI提供服务,AI是我们数据治理的新用户。 第四,数据治理是构建知识库的前提。 现在大家都在接入DeepSeek,使用DeepSeek来构建自己的私有知识库,但是只有加工好的数据哎,才能成为知识库。那么数据治理天然就是做这个的,所以我们现在也在接入DeepSeek和数据中台,研发我们的知识库开发工具,希望能够帮助大家更快的更高质量的来构建自己的知识库。等我们打磨好我们再分享给大家。 所以一句话总结,我认为AI与数据治理之间是一个互相赋能的关系,它不是谁在颠覆谁,是双向奔赴。
2025-03-18 10:14 853
热门文章