数据是一个涉及技术、经济、法律、伦理、哲学的多学科命题,数据要素既作用于生产力,也作用于生产关系;既作用于看得见的物理世界,也作用于看不见的赛博空间;既作用于传统单一要素的价值倍增,也作用于整个生产要素的资源优化。任何对数据的本质追问和系统思考都需要勇气,它折射了一个学者对现实世界真实问题的敏感度和辨别力,也考验一个学者多学科领域研究的广度和深度,我对这个领域理论研究的开拓者表示无比的崇敬。 高富平教授就是数据问题理论研究的开拓者。高富平教授《数据经济讲义》一书,围绕数据相关的基本概念和基本问题,数据内涵、数据价值、数据经济、数据权属、数据市场、数据交易等基本命题,在理论上作了很多前沿创新探索,构建了一套自己的理论体系。认真研读后,引发了我对四个基础问题的思考。 01关于数据要素创造价值的本质 AI时代,数据驱动不仅降低了成本、提升了效率,也正在重构人类认识和改造世界的方法论。正如高富平教授在《数据经济讲义》中提出的洞见“数据革命本质上是人类社会的认知革命”。近几百年来,人类经历了几次认知范式的变革:从牛顿、爱因斯坦的“理论推理阶段”,到爱迪生在一百多年前发明电灯泡的“实验验证阶段”,再到20世纪80年代大飞机研发的“模拟择优阶段”,直至今天,以AI为代表的“大数据分析”形成了一种新的范式。 在新的认知范式下,当我们去追问数据到底是怎样创造价值的,或许我们可以先追问数字化的本质到底是什么?在我看来是两场革命:一个是工具革命,一个是决策革命。 什么叫工具革命呢?马克思曾说:“手推磨产生的是封建主的社会,蒸汽磨产生的是工业资本家的社会”,“各种经济时代的区别,不在于生产什么,而在于怎样生产,用什么劳动资料生产。”回到今天的数字时代和智能时代,我们看到:传统的机器人、机床、专业设备等传统工具正升级为3D打印、数控机床、自动吊装设备、自动分检系统等智能工具,传统能量转换工具正在向智能工具演变,大幅提高了体力劳动者效率;同时CAD、CAE、CAM等软件工具提高了脑力劳动者的效率。无论是体力劳动者,还是脑力劳动者,通过新的工具,提高了生产、研发效率。“工具革命”的核心价值在于帮助人们“正确地做事”。 什么叫决策革命呢?实践中仅“正确地做事”远远不够,更重要的是“做正确的事”。今天我们讨论数据,数据带来的是一场决策的革命——“决策革命”,帮助人们做正确的事。就像图灵奖和诺贝尔经济学奖获得者西蒙所说,管理的核心就是决策。从企业决策的角度,所谓的数字化,就是不断地把经理人对管理的、物流的、采购的、研发的规律,不断地模型化、算法化、代码化,用数据驱动构建一套新的决策体系。 正如《数据经济讲义》一书中所讲的,商业的本质体现为两种要素,即价值和效率。数据能够支持智能分析,挖掘新知,促进创新,支持经营者快速和精准知情,这是数据成为新的生产要素以及企业竞争来源的根本原因。这意味着我们应当按照经济学原理组织数据的生产、流通和使用(消费)活动,以实现数据资源社会化配置和利用。这正是本书所称的“数据经济”的核心要义。由于数据的价值在于认知,因而数据经济活动最终产出是知识或智慧行动。正因此,本书认为“数据经济的目的不是生产数据,而是生产智能产品”,并将数据经济视为“知识经济的高级进阶”。 当我们讲数据驱动决策的时候,面对一个复杂的业务场景,需要满足三个基本的核心要素: 第一,你的数据是不是实时在线的。 第二,你的数据是不是端到端的。 第三,你的数据是不是科学精准的。 只有基于这三个要素,才能真正地实现数据在正确的时间、以正确的方式、传递给正确的人和机器。 什么样的治理范式才能真正有助于实现数据在正确的时间、以正确的方式、传递给正确的人和机器?对于这一重要问题,高富平教授在《数据经济讲义》一书中,着重探寻了数据经济治理新范式,并认为数据源的开放性、数据使用价值的独特性等特征决定了我们难以清晰界定产权,无法援用传统的商品或资产市场交易模式,来实现数据资源的社会化配置。为此,高富平教授创造性地提出数据持有者权,并以持有者权利和义务配置为核心,构建了一整套数据流通机制,试图寻找替代产权交易数据经济秩序,被作者称为“治理范式经济秩序”。 02关于数据要素创造价值的模式 一直以来,数据要素创造价值并不是数据本身,数据只有与基于商业实践的算法、模型聚合在一起,才能真正地创造价值。在《数据经济讲义》中,高富平教授认为:“数据因使用而有价值,数据价值在于认知。数据不存在固有价值,而数据的价值在于使用数据,认知数据代表的客观世界(或对象)的规律。单纯数据或数据没有被使用,那么就不会产生洞察、预测或智慧行动,不会给企业带来任何效益”,并鲜明地提出要“避免直接将数据视为有价值资产或者单纯通过数据交易虚增GDP的现象”。从产业实践看,数据和算法、模型结合起来创造价值,主要有三种模式: 🔵 第一种模式:比特引导原子(价值倍增)。数据要素能够提高劳动、资本、技术等单一要素的生产效率,数据要素融入到劳动、资本、技术等每个单一要素,使得单一要素的价值产生倍增效应。 🔵 第二种模式:比特替代原子(投入替代)。数据可以激活其他要素,提高产品、商业模式的创新能力,以及个体及组织的创新活力。数据要素可以用更少的物质资源创造更多的物质财富和服务,会对传统的生产要素产生替代效应。例如移动支付会替代传统ATM机和金融机制的营业场所,波士顿咨询(BCG)估计过去10年由于互联网和移动支付的普及,中国至少减少了1万亿传统线下支付基础设施建设。 🔵 第三种模式:比特优化原子(资源优化)。数据要素不仅带来了劳动、资本、技术等单一要素的倍增效应,更重要的是提高了劳动、资本、技术、土地这些传统要素之间的资源配置效率。数据生产不了馒头,生产不了汽车,生产不了房子,但数据有助于低成本、高效率、高质量地生产馒头、汽车、房子,高效率地提供公共服务。数据要素推动传统生产要素革命性聚变与裂变,成为驱动经济持续增长的关键因素。这才是数据要素真正的价值所在。 高富平教授在《数据经济讲义》将数据经济视为“知识经济的高级进阶”,认为“数据经济是推动数字经济迭代升级的新生力量,其核心是在全社会层面高效地实现数据生产力。数据经济的目的不是生产数据,而生产智能产品”。从理论上看,只有回到生产力视角,才能更全面系统认识数据创造价值的内在机理和逻辑。 数据生产力的本质是人类重新构建一套认识和改造世界的方法论,基于“数据+算力+算法”,通过在比特的世界中构建物质世界的运行框架和体系,在比特的汪洋中重构原子的运行轨道,推动生产力的变革从局部走向全局、从初级走向高级、从单机走向系统。这一变革推动劳动者成为知识创造者,将能量转换工具升级为智能工具,将生产要素从自然资源拓展到数据要素,实现资源优化配置从单点到多点、从静态到动态、从低级到高级的跃升。总之,数据生产力正在重构整个经济运行的新体系,是经济增长的新动能,正在加速变革经济生产方式和模式。 03关于AI大模型与数据要素的关系 AI大模型开启了全新的智能时代,引发人机交互、计算范式和认知协作三场革命,正在加快形成新质生产力、增强发展新动能。高富平教授在《数据经济讲义》中不仅提出“数据革命本质上是人类社会的认知革命”,还进一步指出这改变了认知和改造世界的力量构成,过去只有人类智能这一单一力量,现在形成了两类智能相互作用的局面。 什么是认知协作革命?简单地说就是找到了从问题到答案的最短路径。具体而言,AI大模型的普及应用,传统的关键词检索将转变为自然语言人机交互新模式,这是对人类知识存储、检索和使用方式的一次重构。新的人机交互也将带来协作革命,人工智能大模型驱动的AI智能体会逐步深度嵌入各类组织的需求定义、应用开发、运维管理和资源调度等环节。 高富平教授在《数据经济讲义》中敏锐提出:“泛在网络形成大数据不仅增加对客观世界认知的深度、宽度和精度,而且各种智能系统可以挖掘数据背后规律、输出知识或智慧行动”。因此,相比传统的数字化,AI大模型引发的认知协作革命,也是对数据创造价值的一次路径升级。 从数据链路看,传统数字化的数据价值实现路径是“业务-采集-分析-决策”,而大模型时代,这一路径缩短为“输入-输出”;从执行效果看,传统数字化的数据流动路径,取决于业务和决策链条,流程型IT系统往往造成很多的数据孤岛,无法实现闭环,而大模型通过“理解-规划-执行-记忆”,能力更加全面、自成闭环;从建设成本看,传统数字化需要根据场景需求逐个定制化构建,治理周期长、成本高,而大模型时代通过“泛化能力+微调”,能够更低成本、更快速度建设数据利用能力;从业务价值看,传统数字化根据需求定制解决问题的路径和结果,价值往往比较有限,而大模型可以全面提升分析预测与决策能力,解决原有IT系统无法解决的问题,如供应链协同、ChatBI、知识库等,正在重新定义产业智能。 04关于如何促进数据要素流动 数据的价值在于流动。正如高富平教授所讲的,为了实现数据智能,不仅单个组织需要投入资源,治理数据,建设智能系统,更重要的是让每个企业或组织从外部获取足够多的数据,在满足各主体对高质量数据需求的同时,让散布于各角落的数据被高效地汇集利用,使数据的社会价值得到最大化利用。 关于数据流动的价值,我之前曾有一个观点:数字化转型的本质是什么?数字化转型的本质是,在数据+算法定义的世界中,以数据的自动流动化解复杂系统的不确定性,优化资源配置效率,构建企业新型竞争优势。数据的自动流动是指把正确的数据,在正确的时间,以正确的方式,传递给正确的人和机器。 数据的流动是一个技术问题、管理问题、经济问题,也是一个法律问题。法律问题不是我的专长,高富平作为国内知名法学家,针对数据流通过程的产权问题进行了开拓性的研究。作者创造性地提出数据持有者权并以持有者权利和义务配置为核心构建数据流通体制。在这样的设计中,持有者权只是合规管理数据资源,创制数据流通利用秩序的基础,而不是用来交易的权利;持有者只要配以流通权(提供他人使用)就足以开启数据流通,而使用者因为加工使用而成为新数据的持有者。这样,数据持有者仅凭自己合法地获取数据并创造或添附价值而享有权利,同时也能够保持数据不断地流通利用。 数据的世界纷繁复杂,如何穿越“数据认知迷雾”,需要更多高富平教授这样的探索者持续不懈的努力。 来源:中国信息化百人会执委安筱鹏博士
2025-01-07 18:36 66
国家发展改革委、国家数据局等六部门联合印发了数据领域标准体系《国家数据标准体系建设指南》(以下简称《指南》),《指南》的发布是贯彻落实党中央、国务院关于加快数字经济发展的重要战略决策之一。 习近平总书记提出:“构建以数据为关键要素的数字经济。”数据标准化工作在提升数据质量、促进数据流通、激活数据潜力等方面发挥着至关重要的作用。通过推动数据要素的市场化配置改革,数据标准体系建设成为构建数字经济发展新格局的重要支撑。这一举措符合党中央、国务院关于数字中国战略建设需求,也体现了推进数据资源管理体制机制创新的具体实践。 01 从三大规范领域构建数据标准体系总体架构的重要意义 数字经济的运行与规范,需要在理论和政策层面回答三个基本问题:哪些通用概念可用于理解和使用作为数字经济核心资产的数据要素?数据领域将会形成哪些核心资产以及如何以统一的标准和规范进行管理、开发、利用?如何保障以数据为核心资产的经济活动的安全性?《指南》对此进行了整体性规划和系统性引领,在遵循顶层设计、协同推进,问题导向、务实有效,应用牵引、鼓励创新,立足国内、开放合作的基本原则下,从三大规范领域提出构建数据标准体系总体架构。这三大规范领域分别为通用域、资产域和安全域。它们回应了数字经济发展的核心问题,即如何理解与使用数据要素、如何管理与利用数据资产、以及如何保障数据安全。 其中,通用域涵盖术语、参考架构、管理等基础标准,确保数据要素的基础概念和框架统一,为各领域的数据标准化奠定了统一的语言和操作框架。 资产域通过对数据基础设施、数据资源、数据技术和融合应用的规范,构建了数据作为核心资产的标准体系,明确了数据资源的开发、利用和流通的操作规范。 安全域围绕数据要素的全生命周期安全,制定了从数据采集、存储到流通的安全标准,保障了数据在流通过程中的安全性与合规性。通过这三大领域的系统设计,《指南》为数据的全生命周期管理提供了制度性支撑,为数字经济的健康发展奠定了坚实的基础。这不仅有利于推动数据要素的高效流转和应用,还能提升国家数据治理的能力,将为数字中国建设注入强劲动力。 02 从五大资产维度推进数据资源生态体系的重要意义 《指南》以数据“供得出、流得动、用得好、保安全”为指引,从数据基础设施、数据资源、数据技术、数据流通和融合应用共五个核心资产维度规划了数据标准建设的重点内容,计划到2026年底基本建成国家数据标准体系,拟制修订30项以上数据领域基础通用国家标准,形成一批标准应用示范案例,建成标准验证和应用服务平台等。通过对这五大核心资产维度的标准建设规划,《指南》将推动构建全面的数据资源生态体系,保障数据资源的开发、共享、流通与应用,促进数据资源在交叉行业领域的深度应用,助力实现数据资源社会效益的最优化。 在物化活动方面,《指南》规划了三类核心资产的标准蓝图,分别是数据基础设施、数据资源和数据技术。其中,数据基础设施标准包括存算设施(数据算力与存储设施)和网络设施(5G网络、光纤、卫星互联网)的传输标准。数据资源标准涵盖基础资源标准(元数据、主数据、数据目录、数据模型)以及数据开发、共享、授权运营的标准。数据技术包括数据汇聚、处理、流通、应用、运营和销毁等6个技术领域的标准。这对于激活数据要素潜能、促进数字技术迭代创新、提升数字经济发展水平具有重要的引领和规范作用。 在运转机制方面,《指南》规划了数据流通和融合应用两类核心资产的标准,规范数据的有效流动和跨行业应用。数据流通标准涵盖数据产品、数据确权、数据资源定价、数据流通交易等四个部分。该标准规范了数据产品的开发流程,数据产权的确认与管理方法,以及数据在交易环节中的操作规则与技术要求,确保数据流通的有序性和透明度。融合应用标准基于《“数据要素×”三年行动计划(2024—2026年)》的要求,涵盖工业制造、农业农村、商贸流通、交通运输、金融服务等12个重点领域,推动数据在各行业领域的深度融合与应用,确保数据资源在行业间的共享与协作。这将为推动数据要素高水平应用提供有力支撑,特别是在促进数据技术应用和规范数据资产管理方面,将为数字经济的持续发展提供强大的保障力和推动力。 03 标准化建设引领数据要素发展蓝图 《指南》是一个关于数字经济核心资产的标准、规范、规则、要求的编码体系,为未来的数据标准化建设提供了路线图,确保数据要素能够在各领域的高水平应用和持续演进。需要考虑从以下方面加强落实和建设。 (一)《指南》强调了重点领域的国家标准研制,特别是在数据基础设施、数据技术、数据流通等核心领域,要以急用先行为原则,应尽快研制国家通用数据标准,为国家重大战略发挥保驾护航作用。重点领域可以先行研制和在迭代过程中加以完善,确保标准建设与市场应用相结合、主体创新与标准先行相结合。推行重点领域标准建设的“引进来”和“走出去”,借鉴国际标准,对外推广国内标准,在动态调整中完善重点领域的数据标准。 (二)通过遴选标杆项目和企业,推动高水平的数据标准应用示范,形成可复制、可推广的应用案例,并进一步巩固数据标准的实际应用效果。围绕数据流通利用基础设施、训练数据集、公共数据授权运营、数据资源定价等重点方面,多批次、多领域遴选高水平应用示范案例。强调急需先用,遴选具有标杆作用的数据应用和优秀贯标企业,加大数据标准的宣贯和培训交流。 (三)培育第三方标准化服务机构,针对数据标准与安全要求的堵点,选择条件较好、治理规范的地区和行业,进行标准建设的试点验证,及时总结和应用拓展。培养从事数据标准建设的从业人员,提升职业素养和资质,培育一批具备数据管理能力评估、数据评价、数据服务能力评估、公共数据授权运营绩效评估等能力的第三方服务机构。 (四)聚焦数据流通和融合应用中的市场主体需求和市场运转机制,鼓励产学研协同合作,加强数据团体标准建设。这需要行业协会和产业协会联合高校、科研机构、重点企业,多方参与,协同发力,多批次出台各领域具有示范应用的团体标准和行业标准,对重点产品、重点应用及重点产业进行规范,形成12个重点行业的团体标准目录,在繁荣数据要素市场方面发挥保障作用。 (五)通过深度参与ISO、IEC等国际标准组织的工作,推动国内标准在国际市场中的应用和推广,确保中国在全球数据标准化领域的竞争力。紧密与国际标准组织的联系,坚持开放合作,在国际团体中担任职务和发挥作用。凭借专业实力和国际视野,深度参与和发起数据相关的国际标准项目。推动国内标准的境外应用,重视国内标准与国际标准的衔接,加强数据标准制定的国际合作,提高我国数据标准在全球范围内的有用性和贡献度。 来源:全国数标委
2025-01-06 16:15 88
工业化时代很多传统企业由于洞察并把握好了工业化时代的商业逻辑,在相关行业取得了各自的优势,并建立起了稳固的护城河。但不经意间他们发现:数字化时代游戏规则即将改变了,之前牢固的护城河,随时有可能被新的跨界者颠覆。曾经越是核心优势的要素,现今已渐成沉重的枷锁。原有的经验曲线不再管用,就算在原有的轨道上将工业化时代的商业逻辑发挥到极致,也无法改变即将改变的局面。传统优势企业要想数字化时代继续领跑,需要跨越工业化时代与数字化时代之间的商业鸿沟,让企业把握契机产生突变,然后进入一个新的起点和循环。 01企业产生的根源和背景 企业是社会生产力水平发展到一定阶段的产物,它是随着商品经济的发展而发展的。人类社会的生产活动,总是程度不同的社会化劳动,不同的生产力发展水平和商品经济发达程序决定了不同的生产组织形式。 企业是一个历史的概念,是社会生产力水平提高和商品经济发展的必然产物。从手工业开始,企业经历了工业企业、资本主义企业,到如今的信息时代企业,尺寸愈来愈大、趋向数字化、全球化,企业形式不断更新,管理方式不断创新。 02工业化时代企业的生存逻辑和核心价值能力 工业化时代企业的生存逻辑和核心价值能力是基于生产能力和规模经济的。这意味着企业需要能够以最低成本生产出尽可能多的产品,并且要保持竞争力和市场份额。为此,企业需要拥有先进的技术、高效的生产流程和管理能力来降低成本和提高效率,同时还需要具备强大的销售和营销能力,以确保产品的市场需求和销售量。最重要的是,企业需要不断创新,提高产品质量和性能,以保持领先地位并应对不断变化的市场需求和竞争压力。 在企业长期活动中,会逐渐形成相对固定的企业文化、组织结构、核心资产、关键资源和流程,并且沉淀下来成为组织的基因和烙印。组织基因在工业化时代是企业核心竞争力,但当面临外部环境突变时,要想让组织基因随之变革,难度太大。例如互联网时代要求组织扁平化、高效协同,传统企业还是科层式组织管理,强调层级、分工、集权,无法支撑组织敏捷应对外部变化、不能做到让听到炮声的人呼唤炮火。工业化时代商业逻辑是拥有和整合资源,但在数字化时代的平台经济和共享经济面前则表现的力不从心。 数字时代最大的改变是“数据”成为生产要素。工业时代所关注的资源,到了数字时代有些变成了基础条件,有些重资产已经变得不再重要。因此,企业必须能够做到融合新的要素:数字技术和数据。在以客户为中心的时代,企业已无力仅动用自身的资源,来全面覆盖和响应客户多样化、个性化、体验化、便捷化的需求,甚至只能覆盖很小的一部分。新要素和新游戏规则的出现,使得产业边界、企业边界逐渐模糊。所以,企业必须聚集外部的一切可用的资源,为企业注入活力。 03数字化时代企业的生存环境和逻辑发生了根本性变化 1、企业外部环境的变化 需求在改变(人) 数字化时代,市场从产品导向转向需求和场景导向,企业看不清消费者在哪里。消费者从关注交易价值和产品价值,延伸到使用价值和场景价值;从关注个体价值到关注群体价值。消费者要求更快、更便利、更丰富、更好的体验,更高的品质,更个性化,更时尚,需要不断变化。 场景在转变(场) 消费者已不在原来的场景中,消费场景逐渐变得无处不在,对场景的参与度也越来越高。从实体场景到互联网场景,再到社交场景,然后是融合性场景,生活圈即消费商圈。 逻辑在蜕变(货) 消费者从关注物资产品和功能,到关注精神、健康产品和内容。消费者需要随意时间、随意场景和随意渠道购物,并能更快收到所购买的商品。顾得的要求是:需求准、交付快、体验好。 2、企业生存逻辑的变化 场景思维是以用户需求场景和体验场景驱动的,依据这些场景来定位用户群体,给用户群体提供什么样的数字化产品和服务,这些产品和服务通过哪些渠道触点跟用户触达和互动。通常一个企业的资源无法覆盖整个需求场景,场景涉及的人、货、场大多时候都需要跟其他企业生态协作,然后共同向用户提供体验化的闭环场景服务。 04数字化时代企业的核心价值能力 1. 连接力 在消费互联网时代,将企业和用户的互动渠道称之为“数字化触点”;在产业互联网时代,企业和用户的互动渠道称为“数字化连接”可能更恰当。物联网、云计算和大数据的发展,众多的智能设备、智能终端和可穿戴设备,通过物联网技术连接人-企业、人-人、人-智能设备、人-智能产品。 从某种意义来讲,数字化连接有几层含义:一是指企业跟客户互动和价值交换的渠道和场所,为客户提供一致的服务和体验;二是解决和员工、合作伙伴的链接;三是解决和设备与终端之间的连接;四是解决物理世界和数字世界的连接适配器,通过数字化连接体系,将物理世界的用户行为、交易、体验等场景信息映射到数字世界。 2. 数字力 数字力通常指的是数字技术和数字基础设施所带来的能力和力量,也是人们使用数字科技、数字工具以及互联网等数字化环境的能力。它具有以下几个方面的特点: 数据创造力:数据力指的是数据收集、存储、处理和分析的能力。随着计算机技术和互联网技术的飞速发展,数据收集和处理的能力不断增强,使得数据的价值和应用范围也得到极大拓展,这为数据力的进一步发挥提供了巨大的动力。 数字生产力:数字力指的是数字技术在创造和生产过程中所发挥的创新和生产力。通过数字化、自动化和智能化技术手段,数字力能够大幅提高劳动生产率,实现生产过程的高效、精准和快速化,从而提高企业和个人的竞争力。 数字流通力:数字力强调数字世界的互联互通和信息共享的能力。数字基础设施,如互联网、云计算、物联网等技术手段使得数字信息能够高速地流通、交易和共享,从而推动数字经济、数字娱乐、数字文化、数字医疗等领域的发展。 数字控制力:数字力的另一个重要特征就是数字控制力。数字技术和算法的发展,让数字力成为各种行业和领域决策的重要参考和支持。 3. 增长力 增长力强调了利用数据和分析来推动企业在市场上的增长能力,它具有以下几个方面的意义: 数据分析带来的洞见:通过数据分析,企业能够更好地了解市场和消费者需求,为其提供更好的产品和服务。这样,数据分析将成为企业获得竞争优势的重要手段。 数据支持判断和决策:数据分析不仅可以更好地了解市场和客户,也可以了解企业在市场中的表现。可以帮助企业进行判断和决策,从而提高其增长能力。 数据驱动的创新:数据分析可以帮助企业发现新市场或领域,从而更好地开发新产品或提供新服务。同时,数据分析也可以帮助企业进行产品或服务的改进和优化。 数据的实时性:借助实时数据分析,企业可以更好地迎接市场变化,快速响应市场波动,从而保持其竞争优势和增长能力。 05结语 将企业的核心能力提炼成“企业价值能力”比“企业业务能力”更加合适。企业的成功不仅仅在于其业务能力,还取决于其创造的价值和对社会的贡献程度。所谓“企业价值能力”是指企业强调的是持续的经济、社会和环境价值创造能力。数字化时代,企业的价值能力可以由企业业务能力和企业数字能力组成。 企业业务能力包括企业的基础业务能力和核心业务能力,是支持企业运营的基本能力,包括生产、供应链、人力资源管理等业务能力。 企业数字能力是指企业基于数字化技术和平台所形成的运作方式和能力,包括数字化生产、数字化经营、数字化营销等各个方面。在数字化时代,由于数字技术的广泛应用,企业数字能力的提高在企业的价值创造过程中显得更加重要。数字化时代企业的生存逻辑和核心价值能力更加强调数字技术和数据驱动的创新能力、业务转型和个性化服务能力。数字化时代的企业需要通过数字技术去发掘商业模式与细分领域,加强数据驱动创新、开拓新的流量池和服务市场。 来源(公众号): 三界逆熵实验室
2025-01-02 10:28 118
实时计算初期 虽然实时计算在最近几年才火起来,但是在早期也有不少公司有实时计算的需求,但数据量不成规模,所以在实时方面形成不了完整的体系,基本所有的开发都是具体问题具体分析,来一个需求做一个,基本不考虑它们之间的关系,开发形式如下: 如上图所示,拿到数据源后,会经过数据清洗,扩维,通过Flink进行业务逻辑处理,最后直接进行业务输出。把这个环节拆开来看,数据源端会重复引用相同的数据源,后面进行清洗、过滤、扩维等操作,都要重复做一遍,唯一不同的是业务的代码逻辑是不一样的。 随着产品和业务人员对实时数据需求的不断增多,这种开发模式出现的问题越来越多: 1.数据指标越来越多,“烟囱式”的开发导致代码耦合问题严重。 2.需求越来越多,有的需要明细数据,有的需要 OLAP 分析。单一的开发模式难以应付多种需求。 3.每个需求都要申请资源,导致资源成本急速膨胀,资源不能集约有效利用。 4.缺少完善的监控系统,无法在对业务产生影响之前发现并修复问题。 大家看实时数仓的发展和出现的问题,和离线数仓非常类似,后期数据量大了之后产生了各种问题,离线数仓当时是怎么解决的?离线数仓通过分层架构使数据解耦,多个业务可以共用数据,实时数仓是否也可以用分层架构呢?当然是可以的,但是细节上和离线的分层还是有一些不同,稍后会讲到。 实时数仓建设 从方法论来讲,实时和离线是非常相似的,离线数仓早期的时候也是具体问题具体分析,当数据规模涨到一定量的时候才会考虑如何治理。分层是一种非常有效的数据治理方式,所以在实时数仓如何进行管理的问题上,首先考虑的也是分层的处理逻辑。 实时数仓的架构如下图: 从上图中我们具体分析下每层的作用: 数据源:在数据源的层面,离线和实时在数据源是一致的,主要分为日志类和业务类,日志类又包括用户日志,埋点日志以及服务器日志等。 实时明细层:在明细层,为了解决重复建设的问题,要进行统一构建,利用离线数仓的模式,建设统一的基础明细数据层,按照主题进行管理,明细层的目的是给下游提供直接可用的数据,因此要对基础层进行统一的加工,比如清洗、过滤、扩维等。 汇总层:汇总层通过Flink的简洁算子直接可以算出结果,并且形成汇总指标池,所有的指标都统一在汇总层加工,所有人按照统一的规范管理建设,形成可复用的汇总结果。 我们可以看出,实时数仓和离线数仓的分层非常类似,比如 数据源层,明细层,汇总层,乃至应用层,他们命名的模式可能都是一样的。但仔细比较不难发现,两者有很多区别: 1.与离线数仓相比,实时数仓的层次更少一些: 从目前建设离线数仓的经验来看,数仓的数据明细层内容会非常丰富,处理明细数据外一般还会包含轻度汇总层的概念,另外离线数仓中应用层数据在数仓内部,但实时数仓中,app 应用层数据已经落入应用系统的存储介质中,可以把该层与数仓的表分离。 2.应用层少建设的好处: 实时处理数据的时候,每建一个层次,数据必然会产生一定的延迟。 3.汇总层少建的好处: 在汇总统计的时候,往往为了容忍一部分数据的延迟,可能会人为的制造一些延迟来保证数据的准确。举例,在统计跨天相关的订单事件中的数据时,可能会等到 00:00:05 或者 00:00:10 再统计,确保 00:00 前的数据已经全部接受到位了,再进行统计。所以,汇总层的层次太多的话,就会更大的加重人为造成的数据延迟。 4.与离线数仓相比,实时数仓的数据源存储不同: 在建设离线数仓的时候,基本整个离线数仓都是建立在 Hive 表之上。但是,在建设实时数仓的时候,同一份表,会使用不同的方式进行存储。比如常见的情况下,明细数据或者汇总数据都会存在 Kafka 里面,但是像城市、渠道等维度信息需要借助 Hbase,MySQL 或者其他 KV 存储等数据库来进行存储。 Lambda架构的实时数仓 下图是基于 Flink 和 Kafka 的 Lambda 架构的具体实践,上层是实时计算,下层是离线计算,横向是按计算引擎来分,纵向是按实时数仓来区分: Lambda架构是比较经典的架构,以前实时的场景不是很多,以离线为主,当附加了实时场景后,由于离线和实时的时效性不同,导致技术生态是不一样的。Lambda架构相当于附加了一条实时生产链路,在应用层面进行一个整合,双路生产,各自独立。这在业务应用中也是顺理成章采用的一种方式。 双路生产会存在一些问题,比如加工逻辑double,开发运维也会double,资源同样会变成两个资源链路。因为存在以上问题,所以又演进了一个Kappa架构。 Kappa架构的实时数仓 Kappa架构相当于去掉了离线计算部分的Lambda架构,具体如下图所示: Kappa架构从架构设计来讲比较简单,生产统一,一套逻辑同时生产离线和实时。但是在实际应用场景有比较大的局限性,因为实时数据的同一份表,会使用不同的方式进行存储,这就导致关联时需要跨数据源,操作数据有很大局限性,所以在业内直接用Kappa架构生产落地的案例不多见,且场景比较单一。 关于 Kappa 架构,熟悉实时数仓生产的同学,可能会有一个疑问。因为我们经常会面临业务变更,所以很多业务逻辑是需要去迭代的。之前产出的一些数据,如果口径变更了,就需要重算,甚至重刷历史数据。对于实时数仓来说,怎么去解决数据重算问题? Kappa 架构在这一块的思路是:首先要准备好一个能够存储历史数据的消息队列,比如 Kafka,并且这个消息队列是可以支持你从某个历史的节点重新开始消费的。接着需要新起一个任务,从原来比较早的一个时间节点去消费 Kafka 上的数据,然后当这个新的任务运行的进度已经能够和现在的正在跑的任务齐平的时候,你就可以把现在任务的下游切换到新的任务上面,旧的任务就可以停掉,并且原来产出的结果表也可以被删掉。 流批结合的实时数仓 随着实时 OLAP 技术的发展,目前开源的OLAP引擎在性能,易用等方面有了很大的提升,如Doris、Presto等,加上数据湖技术的迅速发展,使得流批结合的方式变得简单。 如下图是流批结合的实时数仓: 数据从日志统一采集到消息队列,再到实时数仓,作为基础数据流的建设是统一的。之后对于日志类实时特征,实时大屏类应用走实时流计算。对于Binlog类业务分析走实时OLAP批处理。 我们看到流批结合的方式与上面几种架构使用的组件发生了变化,多了数据湖 Iceberg 和 OLAP 引擎 Presto。Iceberg是介于上层计算引擎和底层存储格式之间的一个中间层,我们可以把它定义成一种“数据组织格式”,底层存储还是HDFS,Iceberg的ACID能力可以简化整个流水线的设计,降低整个流水线的延迟,并且所具有的修改、删除能力能够有效地降低开销,提升效率。Iceberg可以有效支持批处理的高吞吐数据扫描和流计算按分区粒度并发实时处理。OLAP查询引擎使用Presto,Presto是一个分布式的采用MPP架构的查询引擎,本身并不存储数据,但是可以接入多种数据源,并且支持跨数据源的级联查询。擅长对海量数据进行复杂的分析。 来源(公众号):五分钟学大数据
2024-12-26 18:31 106
热门文章