在过去二十年里,企业越来越多的依赖于数据驱动的决策,也一直在努力降低数据分析工具的使用门槛,使越来越广泛的用户获得以前只有数据分析师和数据科学家才具备的能力。早在10年前就已经开始有国外的BI平台引入自然语言查询、自动洞察生成、自然语言生成等功能。但是由于技术的不成熟,相关技术和功能一直未得以普及。 大模型的出现极大地提升了BI产品的交互性,ChatBI通过将复杂的数据分析过程简化为用户与机器的对话,使得用户无需具备专业的数据分析技能,也能轻松获取所需的数据洞察,将极大地降低数据分析门槛,提高数据分析的效率和便捷性。 实现ChatBI最核心的技术是Text-to-SQL,旨在将用户的自然语言转化成机器可以执行的SQL,这也是ChatBI最大的技术难点。目前市场上主流的大语言模型能基本理解用户SQL的需求描述,但生成最终可执行SQL的准确率仍然无法达到生产环境的要求。 为了保证最终的ChatBI产品在面向业务用户时可用(即结果足够准确且可信),企业根据自己的数据基础设施现状、技术能力等往往会选择不同的技术实现路线。通过对多个“大模型+数据分析”落地案例的研究,沙丘智库将其中主流的设计思路总结如下: • 用户以自然语言的方式说出业务需求,大模型①(擅长语义理解)自动对问题作出建议和提炼,提炼后的问题会发送给聊天机器人; • 聊天机器人使用大模型②(擅长NL2SQL)构建SQL查询,通过提前定义的语义层,完成指标定义、管理、访问等工作,提升数据口径一致性; • 提取好的数据交由大模型③(擅长总结归纳)处理,生成自然语言回复,同时可视化引擎可输出可视化报表。 注:数据分析工作流的各个环节需要不同的大模型能力,上图所示大模型①、大模型②、大模型③为擅长不同能力方向的大模型能力示意,在实际落地过程中,企业可以选择在同一个大模型上训练多种能力,也可以选择多个大模型,在某些场景下还可以利用大小模型相结合的方式。 沙丘智库长期跟踪调研大模型技术的发展,旨在帮助企业快速了解大模型最新、最全面的落地情况。沙丘智库观察到,各行各业的头部企业基本在2023年下半年开始探索大模型在数据分析场景的应用,到了2024年,企业在“大模型+数据分析”场景的探索进一步加速。总的来看,大模型在数据分析场景的落地还处于早期阶段,未实现大规模应用,但这一场景的增长速度比大多数场景都要更快。 通过研究多家企业ChatBI的落地实践,沙丘智库从金融、制造、零售、IT/互联网等行业精选出8个具有代表性的案例(中国一汽、平安银行、腾讯、京东、星巴克、高露洁、第四范式、哈啰出行)供其他企业进行参考。 ▎案例1:中国一汽GPT-BI应用实践 中国一汽打造基于大模型的问数助手GPT-BI,相比传统BI的“固定问答”,GPT-BI可以实现问答任意组合,数据随时穿透,满足用户更灵活智能的数据需求,实现“问答即洞察”,带来基于动态因子、实时数据的决策革命。当前GPT-BI覆盖中国一汽研、产、供、销等9大领域指标的查询与分析,包含数据指标实时查询、管理层决策辅助、业务人员高效数据分析三大场景,满足每个角色的数据使用需求。 ▎案例2:平安银行大模型应用实践 银行数字化转型过程中数据分析已经成为普遍化的业务需求,传统的数据分析工作需要数据人员开发,通过大模型可以使用自然语言交互取数。平安银行在2023年8月推出基于AI Agent技术的ChatBI,旨在提高业务人员的数据分析能力,消灭“表哥表姐”。 ▎案例3:腾讯text2SQL智能问答技术实践 腾讯提出了一种新的text2SQL智能问答方案,通过将复杂问题拆解为简单问题,简化了大模型的推理过程,提高了text2SQL的准确性和稳定性,解决生产环境中的实用性问题。 ▎案例4:京东零售数据分析场景大模型实践 京东零售内部打造的ChatBI是一款基于GPT大语言模型的AI数据分析师,旨在通过自然语言对话简化复杂的BI工作。它通过意图识别、实体提取、知识库交互和数据分析应用扩展,为用户提供快速、直观的数据查询和分析服务。ChatBI降低了技术门槛,提高了数据分析效率,使得用户能够像与真人合作一样,轻松解决数据问题。 ▎案例5:星巴克大模型应用探索 业务部门当前数据洞察的流程较长,需要提出数据需求给数据部门,数据产品部门对数据进行梳理后交给数据执行部门执行,执行后再将结果转交给业务部门,整个流程最快也需要2-3天。因此,星巴克探索NL2SQL,协助业务部门快速执行业务洞察。 ▎案例6:高露洁探索生成式AI驱动的数据分析机器人 高露洁正在试点一个生成式AI驱动的数据分析机器人,旨在实现数据民主化,加快数据洞察。通过将虚拟货架的数据分析与内容创建结合起来,该工具收集有关定价、库存水平、产品详情页内容、搜索位置、评级、评论、竞争对手分析的数据;员工可以对话询问机器人有关数据的问题,例如“薄荷美白牙膏的销售额是多少?”,还可以检索缺货数据,如产品层面的缺货频率和缺货持续时间。 ▎案例7:第四范式基于语义模型的ChatBI实践 第四范式基于“NL2Mertric”的思路解决Text-to-SQL在业务场景落地时存在的数据不一致、业务不可信、成本不可控难题,增加了语义化数据建模层。 基于语义模型的ChatBI流程架构如下: ▎案例8:哈啰出行大模型业务提效实践 哈啰基于DSL实现BI助手,DSL本身定义了指标、维度、表、查询日期。基于DSL的BI助手生成的稳定性更强,如果不能准确生成相关的报表分析则拒答,目前拒答率是30%,一旦生成准确率接近100%。 来源(公众号):沙丘社区
2025-07-25 18:26 532
AI Agents+大模型+RAG的架构,不只是技术的进步,也是思维方式的革命。它让数据真正成为每个人的武器,而不是少数人的特权。
2025-07-24 19:22 337
2025智博会以"智无界 · 慧共生"为主题,将于7月28日—30日在苏州工业园区盛大启幕。本届博览会将以苏州工业园区为窗口,集中展示全球人工智能领域前沿成果,促进跨区域、跨行业深度交流合作,通过推动人工智能与实体经济融合创新,构建开放协同、共享共赢的产业新生态。 届时龙石数据将携核心产品与创新产品亮相智博会,欢迎业界伙伴莅临交流,共探AI赋能新机遇。 特别预告:7月30日上午11:00-11:15,龙石数据总经理兼创始人练海荣将进行“AI智能用数平台 V1.0”新品首发路演,诚邀您共同见证这一创新时刻! 扫描报名通道二维码 即可免费参会观展 展会详情 展会时间:7月28日——7月30日 展会地点:苏州国际博览中心 G3 馆 龙石数据展位号:C71 新品首发路演展位号:B04
2025-07-23 13:22 775
文 | 中国科学院科技战略咨询研究院大数据战略研究中心执行主任、研究员 冯海红 近年来,国家数据局等部门探索制定数据资源统计调查制度,健全数据资源协同调查机制,发布数据资源调查年度报告,初步形成动态监测我国数据资源的调查方法和工作机制。2025年4月29日,《全国数据资源调查报告(2024年)》(以下简称《报告》)在第八届数字中国建设峰会正式发布,对全国数据资源发展态势进行系统性调查分析、综合性评估研判,为纵深推进数据要素市场化价值化提供坚实的基础支撑。 聚焦数据要素价值释放,构建数据资源基础调查制度 准确掌握我国丰富的数据资源情况,是深化数据要素市场化配置改革、构建以数据为关键要素的数字经济的基础性工作,需要兼顾数据资源特征和统计调查规范,探索健全跟踪监测数据资源发展态势的专业性统计调查制度。 (一)紧扣国家数据发展战略导向与重点举措 当前,我国数据领域正以数据要素市场化配置改革为主线,围绕数据产权、收益分配等夯实制度体系,推动数据资源开发利用和数据产业发展,构建统一开放、繁荣活跃的数据市场,着力释放数据要素在各行业各领域的乘数效应,以深化数据领域“改革攻坚”加快数据要素市场化价值化进程。《报告》系统调查全国数据生产、存储、计算、流通和应用等关键环节的基本态势,并结合人工智能等热点领域进行测算评估,旨在摸清全国数据资源底数,及时全面反映我国数据资源全貌,将为研判我国数据领域发展趋势、优化政策措施、强化行业管理提供基础性的调研依据。 (二)遵循国家统计调查政策法规与现行模式 2025年初,国家数据局制定《全国数据资源统计调查制度》(以下简称《制度》),并由国家统计局批准实施,全国数据资源统计调查工作正式迈入制度化规范化新阶段。《制度》基本形成目标清晰、报表合理、实施有力、披露规范、聚焦新经济新领域的部门统计调查项目,既构建覆盖公共数据、科学数据、企业数据3个领域和12张报表的统计调查报表体系,也对调查目的、调查对象和统计范围、调查频率和时间、调查方法、组织实施、质量控制、信息共享等内容进行说明或明确。另外,《制度》根据国家统计基本单位名录库信息,开展名录库信息互惠共享,补充行业管理所需单位名录库信息,探索构建数据领域统计调查基本单位名录库。从调查数据回收情况来看,此次统计调查的有效样本覆盖了除国际组织外的所有国民经济行业门类,初步形成专业性强、覆盖面广的专项统计调查工作。 (三)探索数据资源统计调查方法与工作机制 从建立实施机制、明确调查对象、开展专业培训、确定测算方法等方面,探索形成系统性的调查方案和运行机制。实施机制方面,《制度》由国家数据局统一组织,调查数据以《报告》形式向社会发布。调查对象方面,覆盖合法拥有或控制数据的各类单位,主要包括省级数据管理部门、国家实验室、全国重点实验室、国家科学数据中心、中央企业、重点行业协会商会、数据交易机构、数据服务方和数据应用方企业等。专业培训方面,全国数据资源统计调查工作组针对重点指标、填报流程、平台操作、数据质量控制等内容,分类型分批次组织开展统计调查专题培训工作,有效提升调查对象的理解认识和统计操作。测算方法方面,基于分层抽样统计调查数据,《报告》根据调查企业的不同行业及规模特征,加权推算总体企业的数据生产和存储规模。 展现数据资源总体态势,系统刻画数据资源关键板块 基于统计调查和数据测算,《报告》覆盖数据资源的总量、增速、热点领域、活跃情况、区域分布、行业差异以及算力基础设施等方面内容,立体性、多维度勾勒出全国数据资源的整体情况。 (一)全国数据生产总量加速增长 《报告》从数据生产总量及增长态势、战略性新兴产业数据生产等方面,总结分析了全国数据资源生产情况。《报告》显示,2024年全国数据生产量达41.06泽字节(ZB),同比增长25%,增速提高2.56个百分点,呈现加速增长态势。智能家居、智能网联汽车等智能设备数据生产增速位居前列,在数据总量增长中发挥着强有力的带动作用。战略性新兴产业领域成为数据资源的新增长点,低空经济和机器人数据生产量增速超过30%。同时,《报告》展望认为,无人驾驶、具身智能、低空经济等战略性新兴产业和未来产业的数据资源规模将保持高速增长。 (二)全国数据存储结构持续优化 《报告》从数据存储总量及增长态势、数据存储的结构特征、数据存储空间利用等方面,概括总结了全国数据资源存储情况。《报告》显示,2024年全国数据存储总量、新增数据存储总量分别达到2.09泽字节(ZB)、1.15泽字节(ZB),同比增幅均超过20%。结构化数据存储规模同比增长36%,该增幅远超非结构化数据存储规模增速,表明全国数据资源整体质量及数据治理成效显著提升。另外,数据存储空间利用率达到61%,同比提升2个百分点,反映出全国数据存储与基础设施建设呈现较好的协调联动发展态势。 (三)数据资源区域行业分布不均 《报告》从区域和行业等方面揭示了我国数据资源分布不均衡现状,并研究分析了产生差异性的相关影响因素。《报告》发现,区域数据资源水平和经济发展高度相关,经济大省数据资源集聚效应明显,广东、江苏、山东、浙江、河南和四川6个省份数据生产量占全国比重达57.45%。《报告》认为,行业数据资源开发利用水平与数字化投入密切相关,制造、金融、交通物流行业数据生产总量领先其他行业,金融、采矿、交通物流行业企业平均数据生产量位居前三。 (四)算力基础设施建设提速升级 《报告》从算力规模、区域分布、算力结构、市场化算力供给等方面,总结了算力基础设施建设的基本态势。《报告》指出,国家枢纽节点算力资源持续集聚,2024年全国算力总规模达280EFLOPS(每秒百亿亿次浮点运算),八大国家枢纽节点算力总规模达到175EFLOPS。同时,智能算力布局加速,智能算力规模达90EFLOPS,在算力总规模中占比提升至32%,为海量数据计算提供智能底座。另外,市场对智能算力的需求呈爆发式增长,企业布局智能算力提速。中央企业和数据技术企业的算力规模分别增长近3倍、近1倍,智能算力占比分别达到40.22%、43.63%。 关注数据资源新兴热点,及时反映数据领域前沿动态 结合经济社会发展最新形势和数据要素市场化配置改革重点举措,围绕数据要素价值创造路径及模式,强化数据资源重点工作的统计调查和监测分析,为评估政策实施进展和数据赋能效应提供调研支撑。 (一)公共数据资源开发利用加快推进 《报告》结合公共数据资源相关的政策部署和系列工作,从数据共享、数据开放、授权运营、应用场景等方面形成公共数据资源开发利用的主要进展。数据共享方面,建成全国一体化政务数据共享枢纽,推动国务院部门垂管系统向基层“回流”数据8.2亿条,为“高效办成一件事”等提供有力的数据支撑。数据开放方面,2024年地市级以上公共数据开放平台数量增长7.5%,开放的数据量增长7.1%,公共数据集开放总量稳步增长。授权运营方面,超六成省(自治区、直辖市)、计划单列市启动授权运营工作,地市级公共数据授权运营数据量为省级的2.53倍,公共数据授权运营逐步规范化、有序化。应用场景方面,公共数据服务产品数量同比增长超过40%,涵盖交通、环保、医疗等经济社会各领域,涉及低空经济、多式联运、保险理赔、征信服务等场景,公共数据服务场景日益丰富。 (二)企业数据资源应用活力显著提升 《报告》结合数据要素市场化价值化的基本导向,从数据结构、数据利用、数据赋能、数据流通、直接收益等方面形成企业数据资源应用的基本态势。数据结构方面,活跃数据总量占企业存储数据总量为62.04%,活跃数据总量同比提升22.73%。数据利用方面,企业用数需求旺盛,2024年约66%的行业龙头企业和30%的数据技术企业购买过数据,企业数据与公共数据融合应用场景加速增长。数据赋能方面,企业数据在技术研发、生产协同、产品营销、售后服务等关键环节中发挥重要作用,同时支撑产业链供应链韧性不断提升。数据流通方面,平台企业成为数据流通的关键枢纽,促进企业数据与气象、交通、地理等公共数据加速融合,广泛应用于客户服务、精准营销、研发创新等场景。典型行业方面,交通物流、电力行业数据资源开发利用活跃度远高于全国平均水平,分别为78.24%、75.83%。直接收益方面,2024年利用数据获得直接收益的企业实现小幅提升。同时,《报告》展望认为,企业数据价值挖掘重心从服务自身数字化转型向数据要素化、市场化拓展,数据跨主体流通、跨行业应用、跨场景赋能的乘数效应加速释放。 (三)人工智能发展与数据资源利用深度融合 《报告》结合人工智能大模型发展前沿,调研分析了人工智能与数据资源开发利用相互促进的基本态势。一是数据领域企业积极开展人工智能训练和应用,开发或应用人工智能的企业数量同比增长36%,利用大模型的数据技术企业和数据应用企业数量分别增长57.21%、37.14%。二是智能应用带动数据资源规模加速增长,企业高质量数据集数量增速达27.4%,用于开发、训练和推理的数据量同比增长40.95%,智能家居、智能网联汽车等智能设备数据增速分别达到51.43%、29.28%。《报告》认为,大模型有望帮助企业降低非结构化数据加工成本,推动数据资源开发利用提档加速。 来源(公众号):北京数据
2025-07-22 18:19 427
在数字化转型的时代浪潮中,数据已然跃升为关键生产要素,住房城乡建设部发布的《“数字住建”建设整体布局规划》,强调以“四好”建设为主线,以数据资源为核心,全面推动住房城乡建设领域数字化、智能化转型,提升行业治理能力和服务水平,为城市高质量发展注入新动能。 一、政策内涵:数据驱动住建事业全方位变革 政策层面,“数字住建”的核心目标是通过构建统一、高效的数字基础设施和数据资源体系,打破传统住建领域的信息壁垒,实现数据的全生命周期管理与深度应用。打造部、省、市三级联动的“数字住建”工作平台,推动城市运行管理“一网统管”,这一部署从顶层设计上确立了数据要素在住建领域的核心地位。 从政策导向来看,“数字住建”绝非简单的技术叠加,而是要以数据赋能为关键路径,推动住建领域治理模式从“经验驱动”向“数据驱动”转变,从“分散管理”向“协同治理”升级。通过建立健全数据标准规范、安全保障体系,确保数据的真实性、准确性和可用性,为住建领域的科学决策、精准服务和高效监管提供坚实支撑。 二、重点方向:以数字底座为基石,推动住建领域数智升级 (一)夯实城市数字底座,筑牢数智化根基 数据要素的乘数效应需要技术底座的支撑,城市数字底座整合基础地理信息、建筑物、市政设施等全域空间数据,以及人口、经济、社会等非空间数据,构建统一的时空大数据平台,为数字住房、数字工程等应用提供“数据富矿”。同时,依托人工智能、大数据、区块链技术对底座数据进行深度挖掘,构建城市运行态势感知模型,实时监测城市住建领域的关键指标,为城市治理提供“千里眼”“顺风耳”,提升城市对各类风险的预判和处置能力。 (二)发展数字住房,重塑居住服务新范式 数字住房建设以数据要素为核心,推动住房全生命周期的数字化管理。在住房开发阶段,利用大数据分析市场需求、人口结构变化等因素,精准定位住房供给类型与规模。在建设阶段,通过BIM技术与物联网设备的结合,实现施工过程的数字化管控,保障住房建设品质。在住房交易与管理阶段,搭建数字化住房服务平台,整合房源信息、交易数据、产权登记等数据,实现住房交易全程线上化、透明化。同时,基于住户行为数据提供个性化服务,打造“人、房、服务”深度融合的数字生活场景,提升居民居住体验。 (三)推进数字工程,提升工程建设管理效能 数字工程建设聚焦工程全生命周期的数字化转型,借助大数据、人工智能技术优化工程管理流程。在项目策划阶段,通过分析历史工程数据、政策法规数据,实现项目可行性研究的智能化评估。在设计阶段,利用AI辅助设计工具与BIM技术的协同,提高设计效率和质量,减少设计变更。在施工阶段,部署物联网感知设备采集施工现场的人员、机械、物料等数据,实现对施工安全、进度、质量的实时监管。在运维阶段,建立工程运维数字档案,通过数据分析预测设施故障,实现主动运维、精准运维,延长工程使用寿命。 (四)打造数字城市,提升城市协同管理水平 发挥数据要素的乘数效应,要打破城市“数据孤岛”的壁垒,通过构建统一的数据共享交换平台,将分散在公安、交通、城管等部门的碎片化信息串联成完整的数据链条,这种跨领域的数据融合,让城市管理从“被动响应”转向“主动预判”,协同效率提升的同时,也降低了行政成本。同时,发展数智融合的公共服务,推动政务服务、社区服务等线上线下一体化,通过AI客服、智能审批等提升服务效率,让群众享受更便捷、高效的服务。 (五)赋能数字村镇,推动城乡协同发展 数字村镇建设聚焦乡村住房、基础设施、公共服务等领域的数字化改造。通过采集村镇地理信息、房屋数据、产业数据等,构建村镇数字孪生模型,为村镇规划、建设和管理提供数据支撑。在乡村住房建设方面,推广适合乡村的数字化设计标准,利用大数据指导农房建设,提升农房安全性和舒适性。同时,依托数字技术推动村镇公共服务升级,建立农村产权交易数字平台、乡村治理数字化系统,促进城乡要素双向流动。 三、价值与展望:开启住建数字化新征程 发挥数据要素的乘数效应在城市治理领域赛道的深度应用,正在激活住建领域的发展新动能。从短期来看,通过数据赋能提升了住建领域的管理效率和服务质量,降低了行政成本和社会运行成本。从长期来看,将推动住建领域形成数据驱动的创新生态,为城市可持续发展、城乡协调发展提供有力支撑。 展望未来,随着5G、人工智能、区块链等技术的不断成熟,数据要素在住建领域的应用将更加深入。数字住房将实现“千人千面”的个性化服务,数字工程将迈向全流程智能化管理,数字城市将达成“一屏观全域、一网管全城”的治理愿景。这一过程中,需要持续完善数据安全保障体系、健全数据共享机制,让数据要素在安全可控的前提下充分释放乘数价值,为住建领域高质量发展注入源源不断的动力。 作者:周小平 北京建筑大学智能科学与技术学院教授 来源(公众号):国家数据局
2025-07-18 16:40 221
数据建模听起来像是一个高调的词,你会在高风险的创业公司路演中听到,或者在数据团队会议上虔诚地低声说。但如果你曾经列过购物清单,或者对衣柜进行过分类(没错,袜子总要有个归宿),那么恭喜你——某种程度上来说,你已经在进行数据建模了。 在这篇博客中,我们将深入剖析最近学习到的一些最重要的数据建模方法——所有这些都是在努力平衡过多的标签、大量的咖啡和一个令人困惑的橡皮鸭调试会话的过程中完成的。我们将从数据建模层和范式到星型模式、数据仓库、ETL/ELT,甚至Spark 管道,分解关键概念,并提供真实案例,避免过多的专业术语。 数据建模层:概念层、逻辑层、物理层 数据建模是设计数据系统结构的过程。它通常分为三个层次: ·概念模型——业务实体和关系的高级视图,不包含技术细节。 ·逻辑模型——定义表结构、关系、键和属性。独立于物理存储。 ·物理模型——在特定的数据库引擎中实现逻辑模型,包括索引、分区和数据类型。 想象: 你正在规划一栋房子。 概念=纸上草图(卧室、厨房、浴室) 逻辑=带有测量和布局的蓝图 物理 =用木材、瓷砖和电线实际建造 数据库规范化(1NF-3NF) 规范化可帮助您减少重复并提高数据完整性——通过将大型冗余表拆分为更小、干净相关的表。 前三个范式是: ·1NF:消除重复组和嵌套数据。 ·2NF:消除部分依赖——每一列必须依赖于完整的主键。 ·3NF:删除传递依赖关系——非键列必须仅依赖于键。 想想你的衣柜: 1NF:所有东西都折叠起来,没有嵌套在另一件衬衫里 2NF:每个抽屉只包含一个类别(没有混合的衬衫+裤子) 3NF:配饰(如腰带)与服装分开存放 TL;DR:进行规范化,直到您的查询高效并且您的连接看起来不像谋杀谜题板。 星型模式 星型模式是数据仓库中使用的一种维度建模方法。 ·它以一个中心事实表(销售额或收入等定量数据)为特色,周围环绕着维度表(客户、产品、地区等描述性数据)。 ·此设置可使您的 SQL 速度更快并且仪表板更整洁。 可以将事实表想象成商店的销售登记簿。维度表则是产品目录、客户目录和商店列表。这种结构使分析查询更快、更容易。 事实表与维度表 ·事实表:包含可测量的定量数据(例如销售额、数量、收入),通常非常大(数百万或数十亿行),并具有引用维度表的外键 ·维度表:存储描述性、分类数据(例如,客户名称、产品类型、地区),有助于为事实表中的数字提供背景信息,通常较小且经常被引用 ·Inmon 方法(自上而下):首先使用规范化结构(通常为 3NF)创建一个集中式企业数据仓库 (EDW)。数据经过大量的暂存和转换后加载到仓库中。EDW 完成后,将为特定部门(例如销售、人力资源、财务)创建数据集市。这种方法有利于实现强大的治理、一致性和长期可扩展性。 ·Kimball 方法(自下而上):首先使用非规范化的星型模式,直接从源系统构建数据集市。这些数据集市随后会集成到更大的数据仓库中,或作为独立的数据集市保留。该方法强调速度、访问便捷性和业务友好性。 技术权衡: ·Inmon需要更多的前期规划、更长的时间表和更严格的建模规则,但可以提供高度的数据完整性。 ·Kimball部署速度更快,分析师查询也更方便——但如果管理不善,可能会导致重复和控制松散。 当你需要全局一致性时,请选择Inmon 。当速度和可用性至关重要时, 请选择Kimball 。 现实世界?大多数团队都会两者兼顾。而且会花数周时间去命名表格,却无人能达成一致。 数据仓库建模 Data Vault 是一种混合数据建模方法,旨在实现敏捷、可扩展且可审计的数据仓库。它将数据分为三个核心部分: ·中心——代表唯一的业务实体(例如,客户、产品)。每一行都由一个业务键唯一标识。 ·链接——定义中心之间的多对多关系(例如,客户→订单)。 ·卫星——包含与中心或链接相关的上下文、历史变化和描述性属性。 主要特点: ·支持缓慢变化维度(SCD)的历史跟踪。 - ·专为并行加载而设计——集线器、链路和卫星可以独立加载。 ·鼓励可审计性、沿袭跟踪和易于模式扩展。 可以将 Data Vault 想象成乐高套件——灵活、可扩展,并且您可以在不破坏整个套件的情况下克服错误。 一个大表(OBT):快速,平坦,并且......有缺陷? OBT将事实数据和维度数据合并到单个宽表中。它快速、简单,非常适合仪表板。 但: ·很难维持。 ·模式改变=麻烦。 ·空值?哦,肯定有很多。 例如: 想象一下,你不再为收据、供应商和日期设置单独的文件夹,而是将所有信息都放在一个大电子表格里。阅读速度很快,但维护起来却很困难。 何时使用:优先考虑速度的仪表板或 BI 工具、原型设计或 MVP 分析,以及当模式更改最少且简单性是关键时 ETL 与 ELT 与 ETLT ·ETL:提取→转换→加载——数据在加载到仓库之前进行转换。 ·ELT:提取→加载→转换——将原始数据加载到仓库中,然后进行转换。 ·ETLT:一种混合体,具有轻度处理预载和之后更深层次的转换。 把它想象成烹饪: ETL 是在下锅前把所有食材准备好。ELT 则是把所有食材放入锅中,边煮边调味。ETLT 介于大厨和“冰箱里有什么?”之间。 数据转换工具 常用工具: ·AWS Glue:基于 Apache Spark 构建的无服务器 ETL。配置正确后,可扩展性良好。 ·DBT:云数据仓库内部基于 SQL 的转换。非常适合仓库中的版本控制和 CI/CD。 ·AWS DataBrew:无需代码即可进行数据整理。拖放式转换。非常适合快速探索或非程序员使用。 ·Pandas/Spark——用于转换的自定义脚本。非常适合处理早期混乱的数据或一次性批处理作业。 Hadoop 与 Spark:传统与 Lightning Hadoop: ·批处理。 ·将数据存储在磁盘上 ·适用于大型但速度较慢的数据工作负载,历史上使用较多 Spark: ·内存处理,分布式计算。 ·处理批处理、流处理、ML,甚至 SQL ·为 AWS Glue、Databricks 等现代工具以及一半的面试问题提供支持。 TL;DR:当您的数据管道想要感觉快速和智能时,它就会使用 Spark。 机器学习的特征工程 您并不总是能够构建模型,但您却能够使模型成为可能。 作为数据工程师,您的职责是准备: ·清理并标记的数据集 ·编码类别(标签、独热) ·缩放数值 ·衍生特征(例如“每分钟观看次数”) ·噪声或缺失值最少的数据集 特征工程就像准备饭菜。准备得越干净、越好,厨师(你的机器学习模型)的工作速度就越快。 TL;DR 备忘单 最后的想法 好的建模造就好的数据。那么,好的数据呢?这是每一个伟大的产品、洞察和决策的开端。 因此,无论您是在绘制第一个星型模式还是在生产中设置并行 Spark 作业,请谨慎、清晰地构建数据,并设置适当的混乱度以保持其趣味性 来源(公众号):数据驱动智能
2025-07-17 18:21 309
热门文章