数据就像企业的体检报告,指标则是各项身体数值。 没有标准的指标体系,就像医生用着不同的测量标准,病人永远搞不清自己到底健康不健康。 让人头疼的是,很多企业的指标管理就处在这种"混乱"状态 - 指标口径不统一、定义模糊、质量难保障。更糟糕的是,随着AI时代的到来,数据量暴增,传统的指标管理方式已经力不从心。 如何破局?头部科技公司正在用AI重塑指标管理范式,开创性地将大模型、知识图谱、联邦学习等前沿技术注入指标标准化实践。 这场指标管理革命,正在改变企业的数据决策方式。 Data+AI打造智能时代的数据度量标尺 大数据时代,每一个企业都在积累海量数据。精准的数据指标就像一把测量的标尺,帮助企业看清自身发展状况。随着AI技术的发展,传统的指标管理方式正面临巨大挑战。首家使用ChatGPT的中国互联网公司百度,早在2020年就开始了指标管理变革。通过构建统一的指标平台,结合AI能力,实现了指标定义、生产、消费的全流程标准化。腾讯、阿里、字节跳动等科技巨头也都在积极探索AI驱动的指标标准化实践。 数据指标标准化的核心在于打通指标管理、生产、消费的全链路。通过AI技术赋能,可以实现指标的智能化管理。腾讯音乐团队利用大语言模型技术,构建了智能指标解析引擎。该引擎能够自动识别指标口径描述中的维度、度量、计算逻辑等要素,将非结构化的指标描述转化为标准化的指标定义。 阿里云数据中台团队开发的指标血缘分析系统,运用图神经网络技术,能够自动发现指标间的依赖关系。系统不仅可以追踪指标变更的影响范围,还能预测指标异常的传播路径,帮助运维团队快速定位问题。 字节跳动的指标质量保障体系融入了机器学习算法。通过分析历史数据波动规律,系统可以智能预警异常指标。同时,基于自然语言处理技术,系统能够自动生成指标异常分析报告,降低运维人员的分析成本。 美团外卖业务团队通过构建统一的指标查询引擎,实现了指标口径的一致性管控。引擎采用语义化DSL描述指标查询需求,通过AI模型辅助选择最优的查询路径,既保证了数据一致性,又提升了查询效率。 指标即服务 指标标准化不仅是技术问题,更需要配套强有力的治理机制。京东科技团队提出"指标即服务"的理念,将指标标准化提升到服务级别。他们构建了完整的指标生命周期管理体系,从指标定义、开发、验收到监控、治理的每个环节都融入了AI技术。 快手数据团队创新性地应用联邦学习技术,打造了跨部门的指标协同平台。各业务部门在保护数据隐私的前提下,实现指标定义的知识共享。平台通过知识图谱技术,建立业务概念与指标定义的映射关系,帮助不同团队达成指标认知的一致性。网易游戏的数据中台引入图数据库技术,构建了立体化的指标关系网络。通过可视化展示指标间的血缘关系、引用关系、影响关系,帮助分析师快速理解指标体系。该平台还集成了智能问答功能,分析师通过自然语言就能查询复杂的指标口径。 展望未来,随着大模型技术的成熟,指标管理将迎来新的变革。OpenAI最新发布的GPT-4已经展示出强大的数学推理能力,未来有望在指标口径解释、异常分析等场景发挥重要作用。国内的智谱AI、百川智能等公司也在积极探索大模型在数据分析领域的应用。 英伟达推出的GauGAN3模型开创了数据可视化新范式。通过自然语言描述就能生成专业的数据分析图表,让指标分析变得更加直观友好。这也预示着未来的指标管理平台将更加注重用户体验。 新一代实时数据库PolarDB-X展现出卓越的HTAP能力,为实时指标的标准化管理提供了技术基础。实时指标不同于离线指标,需要在保证实时性的同时,确保数据质量和一致性。这要求指标管理平台具备更强的实时计算和监控能力。 指标标准化是一个持续演进的过程,技术创新将不断注入新的活力。企业需要在保持敏锐度的同时,构建适合自身的指标管理体系。通过Data+AI的深度融合,让数据真正发挥价值,驱动业务增长。 来源(公众号):大数据AI智能圈
2025-03-28 17:30 192
根据龙石数据多年专注数据治理的经验来看,数据治理效果不好的原因有三个:不懂、不持续、缺人才,其中最重要的就是缺人才。 一、不懂,就会觉得难,以为采购一个平台,上一个项目就能解决所有的问题。其实,这个项目最多只能算是起了一个头。如果做得不好,反而让大家对数据治理失去了信心。所以,我们自己一定要懂,最起码懂个大概,知道我要实现什么短期效果,实现什么长期效果,简单点怎么做,完善一些又怎么做。 二、不持续,不持续的核心原因有两个:一是成本太高,二是自己缺思路;自己缺思路就会导致选择了不符合自身需求的方案,也就导致了投入与效果的错配,也就会感觉投入与产出的性价比不高,导致对数据治理失去信心。 三、缺人才,缺人才就会导致自己人不懂数据治理,没法选择一条适合自己的方案和路径,也就导致数据治理的不持续,没法发挥数据治理的应有效果。所以,人才是数据治理的根本。所以,对企业数字化转型来说,我认为提升数据治理的成效是治标,提升自己团队的数据治理能力才是治本。 所以,我们在服务客户时,最重要的工作就是帮客户和合作伙伴建立自己的数据治理能力。我们是从4个方面帮学员提升数据治理的能力的: 一是实战培训,就是我们准备好场景和模拟数据,让学员先自己根据文档来练习,对数据治理建立一个感观的认识,让我们不再畏惧它; 二是理论培训,我们的咨询专家会给学员讲讲数据治理的理论知识,包括元数据、数据标准、数据质量、数据安全、数据标签、数据指标等概念,让学员熟悉数据治理的理论; 三是实施方法培训,我们会根据我们的经验,系统化地教会学员怎么一步步地做好数据治理,包括怎么做调研,怎么建立数据制度,甚至怎么提升组织的数据意识,以及在遇到各种阻力时该怎么办; 四是考试认证,如果学员还想进一步提升,也可以选择DCMM和DAMA的系统化的培训,并且参加权威考试,拿到认证证书。 当然,整个培训过程中,我们会使用AI来对学习成果进行评估,会进行打分。所以,这个学习会比较严格,也会有些压力,需要大家认认真真地去学,才能学得扎实。 最后,如果你们单位做了数据治理,效果不太理想,或者做得很好,都欢迎与我们联系,我们可以一起总结失败教训和分享成功经验。
2025-03-27 13:31 137
想不想让AI化身你的数据小助手? 21世纪的数据就像一缸水泥,没有合适的工具,就会变得又重又难搬。过去我们靠人工标注、人工研判、人工决策,工作效率就像蜗牛爬楼梯。 直到大模型带着"魔法棒"来了。它不仅能自动分类数据、智能检索信息,还能在1分钟内完成风控决策。就像给数据管理装上了"智慧引擎",让繁重的工作变得轻松自如。 让我们一起来了解如何用大模型这根"魔法棒",搅动数据治理这缸"水泥",让数据工作变得既轻盈又高效的精彩故事。 大模型在数据管理领域的创新应用 如何大模型技术引入数据治理,实现了数据管理效率的质的飞跃?从最开始的数据分类分级到元数据检索,再到风控运营智能化,大模型正在重塑数据管理的未来。 在数据管理领域,大模型展现出强大的智能化能力。通过大模型实现数据分类分级自动化,将人工成本降低90%。过去,数据分类分级需要大量人力投入,研发人员需要逐个标注表格,不仅效率低下,标注结果也存在主观差异。 大模型解决方案采用向量化存储分类规则,结合prompt工程规范化输出。通过这种方式,系统能自动识别数据类型并给出合理的分类分级建议。这项技术不仅提升了效率,还保证了分类结果的一致性。 在元数据检索方面,大模型突破了传统关键词匹配的局限。系统能理解用户意图,自动关联相关信息,提供更精准的检索结果。一个典型场景是,用户查询"财富等级"时,系统不仅返回直接相关的表字段,还会智能联想"风险等级""信用卡等级"等相关信息。 大模型在风控运营领域的创新应用 在金融支付领域,风控决策向来是一个复杂且关键的环节。接下来一起聊聊,如何将大模型引入风控运营,构建了一个全新的智能风控体系。 传统风控运营面临三大挑战:一是信息碎片化,风控人员需要在多个系统间切换查询信息;二是知识更新快,新型风险层出不穷;三是人工研判慢,一个案件处理往往需要30分钟以上。 智能风控架构采用"聚合+AI+工作流"的创新方案。首先构建综合风控平台,将交易信息、身份信息、操作信息等多维数据实时聚合。其次引入Agent技术,将复杂的风控判断拆分为多个微任务,通过工具代理、任务切分、记忆管理等模块协同完成风险研判。 这套系统实现了显著的效率提升。风控案件处理时间从30分钟缩短至1分钟,准确率保持在95%以上。系统不仅能给出风险判断,还能生成详细的处置建议,包括用户画像、风险分析、处置方案等。 在电话照会环节,系统能根据案件特征自动生成个性化的询问话术。通过分析历史成功案例,系统总结出一套智能问询模板,帮助风控人员一次性获取关键信息。这不仅提升了工作效率,还降低了对客户的打扰。 在技术架构上,可以采用了"RAG+Agent+Workflow"的创新组合。RAG技术实现知识库的智能检索,Agent技术负责任务分解与执行,Workflow则确保整个流程的有序推进。 针对RAG召回效率不高的问题,团队创新性地引入了IUR(Incomplete Utterance Rewriting)组件。该组件能智能补全用户查询中的隐含信息,显著提升检索准确度。同时采用HiveToCache架构优化检索速度,使用Rerank算法提升召回质量。 在Agent设计上,采用"规划者-观察者-决策者"的三角色协作模式。规划者负责理解问题并设计执行路径,观察者负责监控执行过程并收集反馈,决策者则基于所有信息作出最终判断。这种设计既保证了处理的全面性,又提升了系统的可靠性。 通过这些技术创新,可以成功实现了数据管理和风控运营的智能化升级。这些实践不仅提升了业务效率,更为金融行业的数智化转型提供了宝贵经验。未来,随着大模型技术的持续演进,数据管理领域将迎来更多创新突破。 来源(公众号):大数据AI智能圈
2025-03-26 18:42 156
你有没有遇到过这样的数据困境:一个指标异常,却不知道问题出在哪里;一个任务变更,担心会影响到哪些下游;几百个数据任务盘根错节,想理清楚却无从下手... 这些让数据从业者头疼的问题,都指向了一个关键技术 - 数据血缘。 数据血缘技术:重塑大数据治理的未来 在超大规模数据驱动的时代,一个企业的数据规模可能达到数百PB,日均任务量轻松破万。数据血缘技术正悄然崛起,成为撬动企业数据资产的关键支点。 数据血缘技术革新正全方位重塑企业数据治理格局。传统数据治理模式下,企业面临着数据资产管理混乱、数据质量难以保障、数据资源浪费等痛点。数据血缘技术通过构建全链路数据关系图谱,让企业数据资产管理进入智能化新阶段。 在现代企业运营中,一个看似简单的数据报表背后,往往涉及复杂的数据加工链路。从原始日志采集、数据清洗、特征计算,到最终的指标呈现,动辄几十上百个任务节点相互依赖。任何一个环节出现问题,都可能导致数据质量受损。数据血缘技术正是解决这一复杂性的关键。数据血缘技术核心在于解析与追踪数据流转过程中的依赖关系。 从技术架构看,一个完整的数据血缘系统包含三层:数据源层负责采集各类数据源信息、处理层通过血缘解析引擎分析数据间的关联关系、应用层则基于血缘数据支撑数据开发、治理等场景 在工程实践中,血缘系统面临三大挑战: 全面性 需要覆盖从埋点采集到应用消费的全链路血缘关系。企业级数据体系涉及多种异构数据源,血缘系统要能适配不同类型数据源的解析需求。 准确性 血缘关系解析必须准确无误。任何解析错误都可能误导下游决策。这要求血缘解析引擎具备强大的解析能力,能正确理解各类数据处理逻辑。 实时性 血缘关系需要随数据处理逻辑变化而实时更新。大规模数据体系下每天都有大量任务变更,血缘系统要能快速感知并更新血缘关系。 数据血缘系统:架构设计与关键突破 解析引擎作为数据血缘系统的大脑,承担着识别和提取数据间依赖关系的重任。面对SQL、Python、Java等多样化的数据处理代码,解析引擎需要准确理解其中的数据流转逻辑。 业界主流方案采用Antlr和Calcite组合架构。Antlr负责词法和语法解析,将代码转化为抽象语法树;Calcite则专注于SQL优化,提供统一的关系代数模型。这种组合让血缘系统既能处理标准SQL,又能应对复杂的脚本语言。 血缘存储层采用图数据库技术,将数据实体和依赖关系建模为点和边。 考虑到海量血缘数据的存取效率,系统往往会同时维护两套数据模型:一套面向写入优化,一套面向查询优化。这种双模型设计既保证了血缘数据的实时性,又兼顾了查询性能。 在实际应用中,数据血缘技术正在重塑数据开发模式。开发人员通过血缘分析快速定位数据来源,评估代码变更影响范围。血缘系统甚至能基于历史血缘关系,智能推荐最佳数据处理方案,大幅提升开发效率。 数据治理领域,血缘技术让资源优化有了精准抓手。通过分析数据血缘图谱,系统能够识别出重复计算、低价值存储等资源浪费点。运维团队据此进行精准治理,既降低存储成本,又提升计算效率。 数据安全方面,血缘技术为敏感数据保护提供全新思路。系统通过追踪敏感数据的传播路径,及时发现潜在风险,并自动采取脱敏、加密等保护措施。这种基于血缘的主动防护,让数据安全管理更加智能和高效。 数据血缘优化:从评估到提升 衡量数据血缘系统的质量,需要构建科学的评估体系。业界普遍采用"三率"指标:覆盖率、准确率和时效性。 覆盖率关注血缘系统对数据全链路的把控能力。一个优秀的血缘系统应该覆盖所有关键数据节点,包括数据源采集、任务处理、应用消费等环节。当前头部互联网公司的血缘覆盖率普遍超过95%,有力支撑了数据治理工作。 准确率衡量血缘关系识别的精准度。血缘关系存在表级和字段级两个粒度,字段级血缘解析难度更大。解析准确性直接影响下游应用的可靠性。领先企业通过持续优化解析引擎,将准确率提升至99%以上。 时效性度量血缘信息的新鲜度。在敏捷开发环境下,数据处理逻辑频繁变更,血缘关系需要实时更新。通过流式采集和增量解析等技术,优秀血缘系统能将更新延迟控制在分钟级。 数据血缘技术正在向更智能、更精细的方向演进。 智能解析引擎将借助机器学习技术,提升复杂代码的解析能力。语义级血缘分析将帮助理解数据间的业务关联。知识图谱技术的引入,将让血缘系统具备推理能力,预测数据变更影响。跨域血缘是另一个重要发展方向。 随着企业数据规模扩大,跨数据中心、跨组织的数据协作日益普遍。构建统一的跨域血缘体系,将成为数据治理的新课题。 大数据时代,血缘技术正在成为连接数据资产的桥梁。通过持续创新和实践,血缘技术必将为企业数据治理带来更大价值。 来源(公众号):大数据AI智能圈
2025-03-25 18:59 155
现在提到数据治理,大家都觉得迷茫,行业里创造了太多的概念,弄得专业人士都说不清数据治理到底是个啥。 点击图片观看视频讲解👆 要让数据治理变得简单,可以从4个方面着手: 1、确定一个清晰的目标。 2、制定一个可行的机制。 3、找到一个简单的方法。 4、选择一个好用的工具。 目标和机制需要根据组织的情况来确定,这里不做赘述。 1.从方法上来讲,我们在19年将它定义为5个字,“理、采、存、管、用”: 理,就是弄清楚我们有哪些数据; 采,就是把分散的数据集中到一起; 存,就是把数据集中存储起来; 管,就是进行数据质量、数据标准和数据安全的管理; 用,就是通过数据标签、数据指标、数据共享、数据报表等方式将数据用起来。 目前,市场上大多数的数据治理项目只是做了“理、采、存、用”,也能将数据用起来,但如果不把管数也做起来,就不能建立数据治理的长效机制,无法统一标准、提升质量和保障安全,为持续用数保驾护航。 2.从工具上来讲,我们借鉴工厂流水线的方法来治理数据。例如针对新生入学这个场景,我们先确定数据来源,再创建数据模型,然后做数据归集、数据清洗和数据融合,同时,配套数据标准、数据安全和数据质量方面的保障,然后,再开发数据标签、数据指标和API接口,最后,建成主题库、可视化报表和业务系统。 这样一眼就可以看清楚数据治理的全部过程和数据成果,真正做到让数据好管好用,这也是龙石数据的愿景和使命。
2025-03-24 16:27 417
什么是数据治理?就算是从业了20多年的人,也真的很难用一两句话讲清楚。前几天和一位专家交流的时候,突然发现数据治理与粮食加工特别像! 数据也和粮食一样需要“收割、清理、储存、加工和防护”。下面这个表格中列出了数据治理和粮食加工的对应关系: 例如: 1.数据汇聚对应着粮食收割,把数据和粮食收上来。 2.数据清洗对应着粮食清理。 3.数据安全管理对应着粮食的防火、防潮、防鼠、防盗。 4.数据汇聚:从业务系统、传感器等渠道收集数据,类似于粮食收割,将粮食从田间收割上来。 5.数据清洗:对数据进行去重、转码、融合和标准化处理,类似于粮食清理,包括脱壳、晾晒和去除杂质。 6.数据标签:根据数据的属性和用途打标签,类似于粮食分类,按等级分为优质米、劣质米,按产地分为东北大米、泰国香米等。 7.数据仓库:将清洗后的数据存储到数据仓库中,类似于粮食存储,根据实际情况选择陶缸、地窖、棚仓或现代房仓进行存储。 8.质量管理:通过监控和修复数据问题,确保数据质量,类似于粮食质量监控,定期检查霉变、虫害等情况。 9.安全管理:对数据进行分级分类、访问控制、加密脱敏等保护措施,类似于粮食防护,包括防火、防潮、防鼠、防盗等。 10.数据开发:将原始数据转变为可用的数据资产,类似于粮食加工,将水稻脱壳成大米,小麦研磨成面粉。 11.数据利用:将加工后的数据用于决策分析、AI模型训练等,类似于粮食食用,将大米煮成米饭,面粉做成包子。 点击图片观看详细视频讲解👆 所以,粮食加工养活了人类,而数据治理则养活了AI,人类可以种粮食,AI可不可以种植数据,实现自给自足呢? 欢迎大家前来讨论、交流。
2025-03-21 18:31 168
数据中台、数据仓库、数据治理和主数据这些概念对于很多人来说仍显得抽象。用一些通俗的语言和生活中的比喻,深入解析这些关键概念。 一、数据中台:数据的“中央厨房” 想象一下,你是一家大型餐厅的厨师长,每天需要处理从不同供应商那里采购的多种食材。为了确保食材的新鲜、卫生与高效利用,建立一个中央厨房就显得尤为重要。这个中央厨房的角色就是数据中台在企业中扮演的角色。 数据中台整合来自不同业务部门、系统和渠道的数据,对其进行清洗、加工和标准化处理,然后再将处理后的数据提供给业务部门使用。就像中央厨房确保食材的质量和一致性,数据中台则确保数据的质量、一致性和可用性,从而更好地支持企业的决策和运营。 数据中台不等于大数据平台,数据中台的核心工作也并不是将企业的数据全部收集起来做汇总就够了。 数据中台的使命是利用大数据技术、通过全局规划来治理好企业的数据资产,让数据使用者能随时随地获取到可靠的数据。因此,数据中台一旦建成并得以持续运营,其价值将随着时间的推移将呈指数级增长。 数据中台建设是一个宏大的工程,涉及整体规划、组织搭建、中台落地与运营等方方面面的工作,本节重点从物理形态上讲述企业的数据中台应该如何搭建。一般来讲,企业的数据中台在物理形态上分为三个大层:工具平台层、数据资产层和数据应用层。 1.1 工具平台层 工具平台层是数据中台的载体,包含大数据处理的基础能力技术,如集数据采集、数据存储、数据计算、数据安全等于一体的大数据平台;还包含建设数据中台的一系列工具,如离线或实时数据研发 工具、数据联通工具、标签计算工具、算法平台工具、数据服务工具及自助分析工具。 以上工具集基本覆盖了数据中台的数据加工过程。 1.2 数据资产层 数据资产层是数据中台的核心层,总体来讲,可以划分为主题域模型区、标签模型区和算法模型区。 ①主题域模型 主题域模型是指面向业务分析,将业务过程或维度进行抽象的集合。业务过程可以概括为一个个不可拆分的行为事件,如订单、合同、营销等。 为了保障整个体系的生命力,主题域即数据域需要抽象提炼,并且长期维护和更新,但是不轻易变动。在划分数据域时,既要涵盖当前所有业务的需求,又要保证新业务能够无影响地被包含进已有的数据域中或者很容易扩展新的数据域. ②标签模型 标签模型的设计与主题域模型方法大同小异,同样需要结合业务过程进行设计,需要充分理解业务过程。 标签一般会涉及企业经营过程中的实体对象,如会员、商品、门店、经销商等。这些主体一般来说都穿插在各个业务流程中,比如会员一般都穿插在关注、注册、浏览、下单、评价、服务等环节。那么在设计标签的时候就需要充分理解这些业务流程,在流程中发现标签的应用点,结合这些应用点来搭建企业的标签体系。标签模型按计算模式一般分为客观标签和主观标签。 设计标签模型时非常关键的要素是标签模型一定要具有可扩展性。毕竟标签这种数据资产是需要持续运营的,也是有生命周期的,在运营的过程中随时可能增加新的标签。 ③算法模型 算法模型更加贴近业务场景。在设计算法模型的时候要反复推演算法模型使用的场景,包括模型的冷启动等问题。整个模型搭建过程包含定场景、数据源准备、特征工程、模型设计、模型训练、正式上线、参数调整7个环节。 以新零售企业为例,常用的机器学习算法有决策树、神经网络、关联规则、聚类、贝叶斯、支持向量机等。这些算法已经非常成熟,可以用来实现商品个性化推荐、销量预测、流失预测、商品组货优化等新零售场景的算法模型。 1.3 数据应用层 数据应用层严格来说不属于数据中台的范畴,但数据中台的使命就是为业务赋能,几乎所有企业在建设数据中台的同时都已规划好数据应用。数据应用可按数据使用场景来划分为以下多个使用领域:分析与决策应用、标签应用、智能应用。 二、数据仓库:数据的“图书馆” 假设你是一位图书馆管理员,每天的职责是管理和维护图书馆中的成千上万本书。你必须确保每本书按照类别、作者、出版日期整齐有序地摆放,以方便读者查找和借阅。数据仓库在企业中的作用就像这个图书馆。它存储了大量历史数据和结构化数据,并按照一定的规则和格式进行组织。与数据中台不同,数据仓库更注重数据的长期保存和查询分析,提供强大的数据查询和分析能力,帮助企业深入了解市场、客户和业务流程,从而发现潜在的机会和风险。 一般来说,数据仓库是一个面向主题的、集成的、相对稳定的,并反映历史变化的数据集合,它主要用于支撑管理人员的决策过程。 “面向主题”:意味着数据仓库是围绕企业的具体业务需求进行构建的,旨在提升管理效率; “集成”:则是指它能够将来自不同平台的数据进行汇总,打破数据孤岛,同时在整合过程中实现数据治理和编码的标准化; “相对稳定”:强调的是数据仓库不会直接连接到业务系统,而是通过从业务系统中提取数据来工作,以避免对业务系统性能造成影响; “反映历史变化”:则指的是数据仓库能够存储并反映业务系统的历史数据,为未来的大数据挖掘与分析提供重要依据。 接下来,我们明确“数仓”的概念: 数仓,即数据仓库,是企业决策支持体系中的核心组成部分。它从管理需求出发,整合各业务系统的数据资源,通过数据处理工具生成数据仓库,并应用于企业的各个业务领域。数据仓库的运用主要聚焦于优化企业的业务流程、监控时间、成本、质量等关键指标,从而助力企业实现更高效、更精准的管理决策。 三、数据治理:数据的“交警” 城市交通中,交警的职责是维护交通秩序,确保车辆和行人遵循交通规则,防止交通拥堵和事故发生。在数据世界中,数据治理就好比这样的交警。数据治理是对数据进行全面管理和规范的过程,确保数据的准确性、一致性、安全性和可用性,同时防止数据滥用和泄露。数据治理还负责制定数据管理的规章制度,监督数据的采集、存储、处理和使用过程,确保数据在整个生命周期中都得到妥善管理。 数据治理体系内容从两个维度来看: 1)数据治理难点痛点:数据脉络不清晰、数据汇聚能力不足、数据管控能力薄弱、数据治理体系不完善、开放形式不完善。 2)数据治理5个核心:理、聚、管、治、用。 数据治理是企业对数据资产管理行使权力和控制的活动集合(包括计划、监督和执行),它是管理企业数据资源的一种方式、方法,旨在确保数据的质量、安全、合规和有效性。数据治理是企业实现数据战略的基础,是一个管理体系,包括组织、制度、流程和工具。 数据治理是一套复杂的管理体系,它无法通过单一的工具或产品来实现。数据的生命周期包含了源头、处理和消费这三个阶段,数据的问题也可能会出现在这三个环节中。 例如在数据源头环节,用户录入数据的规范性存在问题,导致了最终数据消费环节的数据质量低。这些表象问题的根源,可能来自于业务系统用户交互设计,乃至是底层数据库表结构设计上的缺陷。想要解决这些表象的问题,就需要解决深层次的信息化业务系统开发以及数据库表约束设计等问题。 例如为了保证用户录入数据的准确性,有三种方式去设计业务系统:其一是设计前端的检验验证,避免用户做出相同的选择;其二是通过程序编写过滤判断的逻辑,筛除掉前端误入的数据,作为第二层验证;其三是通过建立约束条件,例如唯一性约束、检测约束等等来控制数据录入准确性。 因此,企业的数据治理远非使用一款单一的工具或产品就可以实现的,它是需要回到源头,对企业的组织、流程制度、业务系统、底层架构等多个方面进行排查和重构的,它是一套复杂的管理体系。 四、主数据:数据的“身份证” 最后,我们来谈谈主数据。每个人都有自己的身份证,它是个人身份的证明。在数据世界中,主数据就像是数据的“身份证”。主数据是企业内部最关键、最核心的数据,描述了企业的核心业务实体,如客户、产品、供应商等。主数据具有唯一性和权威性,是企业内部各部门和系统之间共享和交换数据的基础。通过管理和维护好主数据,企业可以确保数据的一致性和准确性,从而提高业务处理效率和决策质量。 主数据是指满足跨部门业务协同需要的,反映核心业务实体状态属性的基础信息。举个例子,公司的员工信息,存在于很多业务系统里,比如人力系统、财务系统、OA系统,以及考勤系统等,但每个系统所需要的信息可能不一样,财务系统需要员工开放信息,比如从哪个银行开户,账号是什么,这样方便打款;人力系统可能只是需要员工的一些入职信息。这样的员工信息就属于主数据,它在很多企业业务系统被使用,同时还能反映这个员工本身的一些属性。类比下,还有产品、物料、客商、客户、供应商等主数据。 哪些数据是主数据? 一家企业不只有主数据,还有一些其他数据,这里有一个金字塔结构的企业数据模型,包括关键的基础数据、主数据、业务数据、报表数据。 基础数据可以理解为基本不会发生什么变化的,比如国家货币计量单位,其他维表数据等,其数据就是一些取值范围,也称其为参考数据;主数据就是长期稳定的,能被多个系统使用的,比如组织机构人员、客商等;业务数据是指一些业务交易系统所产生的数据,包括订单的记录、还有一些考勤记录等,与主数据捆绑的比较紧;报表数据是基于下面三类数据做的一些分析呈现,报表数据的主要作用是通过结果呈现来做预测工作。 主数据、业务数据与元数据的区别 如图所示,表头就是元数据,这些字段本身描述了字段的一些属性信息;而主数据其实就是这样的一条记录,这条记录可以划分为两部分,一部分是主数据,描述核心业务实体属性的数据,另外一部分就是主数据在业务交易过程中由系统产生的数据,比如这块的订单数据就是业务数据。总的来说,所有这些数据作为企业的一部分,只要能产生价值,它都可以称之为数据资产,能去支撑企业上层的生产、财务、项目管理等。 主数据的4个特性 (1)唯一性:在一个系统、一个平台甚至一个企业范围内同一主数据要求具有唯一的识别标志(代码、名称、特征描述等),用以明确区分业务对象、业务范围和业务的具体细节。 (2)共享性:主数据特征会被作为业务流程的判断条件和数据分析的具体维度层次,因此需保证主数据的关键特征在不同应用、不同系统中的高度一致共享,形成统一规范 。 (3)稳定性:主数据作为用来描述业务操作对象的关键信息,在业务过程中其识别信息和关键的特征会被交易过程中产生的数据继承、引用、复制,但主数据本身的属性通常不会随交易的过程所被修改。 (4)有效性:只要该主数据所代表的业务对象仍然在市场中继续存在或仍具有意义,则该主数据就需要在系统中继续保持其有效性,通常贯穿该业务对象在市场上的整个生命周期甚至更长。 因此: 对于大数据平台来说,主数据是非常重要的一类数据,几乎出现在所有的数据处理和分析中,具体到批处理和实时处理又有所不同。 对于批处理来说: 主数据可以同步自主数据管理系统的数据库,在数仓(数据仓库)体系下,几乎所有的主数据都是维度数据,需要建立相应的维度表以支撑业务查询和分析; 对于实时处理来说: 在各种流式计算的过程中也需要获取主数据进行关联处理,而实时处理要求主数据的获取也必须是实时的,这对系统的架构设计提出了挑战。如果原始的主数据管理系统对外提供了获取主数据的 API,对于普通的应用系统这是很有利的条件,它们可直接通过API 实时获得主数据。但是对于大数据系统来说,情况就不那么乐观了,因为大数据处理过程中的巨大吞吐量和流计算处理中对主数据的使用频率都远远超过一般的应用系统。如果大数据平台通过主数据管理系统的API 获取主数据,无论是从并发压力还是从响应的及时性上都可能无法满足要求,还有可能给主数据管理系统带来过大的负载,导致其响应缓慢甚至宥机。 为满足实时计算对主数据的需求,有两种可选的技术方案。 (1)方案一: 如果主数据体量不大,变更也不频繁,可以考虑将这些数据通过 API 读取到大数据工作节点的内存中,在数据处理过程中直接使用,然后周期性地从主数据管理系统同步最新状态的主数据。 (2)方案二: 改造主数据管理系统,引入内存数据库,如Redis, 针对所有主数据,除常规 持久化的业务数据库外,再配备一个内存数据库的副本,将这个内存数据库开放给大数据平台使用。 方案一的优点是架构简单,易于实现,但是对主数据有预设条件,不能成为一种广泛使用的方案。方案二是一套很完备的技术方案,可以满足各种主数据获取需求,代价是架构比较复杂,如果企业正在构建的是一整套大数据平台,方案二是值得一试的, 从技术上讲,主数据管理系统是一个相对传统的Web 应用,负责维护主数据的增删查改,同时对外提供获取主数据的 API, 对于大数据平台,最好提供以内存数据库为依托的数据读取服务。综合这些因素,企业在建设大数据平台时应该结合现状灵活地选择方案。 五、定位与差异:协同作战的团队成员 通过以上的比喻,我们可以更好地理解这些概念的定位和差异。数据中台作为数据的“中央厨房”,负责数据的整合和加工;数据仓库作为数据的“图书馆”,负责数据的存储和查询分析;数据治理作为数据的“交警”,确保数据的规范和安全;而主数据作为数据的“身份证”,确保数据的权威性和一致性。这些概念在企业中相互协作,共同构成完整的数据管理体系。就像一支协同作战的团队,数据中台负责调度和整合数据资源,数据仓库提供数据存储和查询支持,数据治理确保数据的安全和规范,而主数据确保数据的准确性和一致性。这个团队共同为企业提供了强大的数据支持,帮助企业更好地应对市场挑战和抓住机遇。 来源(公众号):数据学堂
2025-03-20 17:51 209
DeepSeek这次为中国科技赢得了国际声誉,也用实际行动回应了漂亮国对中国的算力封锁。它证明了,AI的发展不仅仅依赖于算力,更依赖于算法创新和高效的数据治理。 今天,我想和大家分享两个关于DeepSeek(人工智能)与数据治理行业关系的思考。 最近很多朋友关心我们,问人工智能会不会颠覆我们数字治理行业?我认为不会。 点击图片观看详细视频讲解☝️ AI不会去颠覆任何行业,它只是一个工具。一个强大的工具而已。我们没必要将它神化。 可以从四个方面来理解这件事。 第一,AI是效率工具。 它能够帮我们来提高我们数据治理的效率,甚至呢我们也可以用AI来驱动数据中台来干活。 第二,AI是智能工具。 它可以自动化的帮我们生成一些数据质量检验的规则,也可以帮我们自动生成一些数据分析的脚本,降低我们数据治理的技术门槛。 第三,AI的训练和微调都离不开高质量数据。 原来我们做数据治理是为人服务的,但是现在不一样,我们现在也可以为AI提供服务,AI是我们数据治理的新用户。 第四,数据治理是构建知识库的前提。 现在大家都在接入DeepSeek,使用DeepSeek来构建自己的私有知识库,但是只有加工好的数据哎,才能成为知识库。那么数据治理天然就是做这个的,所以我们现在也在接入DeepSeek和数据中台,研发我们的知识库开发工具,希望能够帮助大家更快的更高质量的来构建自己的知识库。等我们打磨好我们再分享给大家。 所以一句话总结,我认为AI与数据治理之间是一个互相赋能的关系,它不是谁在颠覆谁,是双向奔赴。
2025-03-18 10:14 402
热门文章