总体概述
数据已从业务运营的副产品演变为驱动现代企业逻辑的原材料。企业往往难以对有效管理这一资产所需的各种学科进行分类。高管和工程师经常混淆数据战略、数据治理和数据管理的概念,交替使用这些术语或应用不一致。这种混淆造成了结构性摩擦,导致战略停留在理论层面,治理沦为官僚主义的繁文缛节,管理缺乏战略方向。
要形成一套连贯的方法,就需要将这些概念分解成不同的层次,同时明确连接它们的机制。不妨将组织比作一座城市。数据战略就像城市规划,根据人口增长和经济目标来决定商业区和住宅区的选址。数据管理就像施工队,负责铺设管道、修路,并确保水流顺畅。数据治理就像建筑规范检查员和市规划委员会,确保施工队遵循规划,并保证城市宜居安全。当这些角色界限模糊不清时,城市就会变成混乱无序的蔓延,数据组织也会变成代价高昂的负担。本文旨在明确这些界限,探讨策略上的交汇点,并提供一个严谨的执行框架。
战略背景
构建稳健的数据战略已不再是纸上谈兵,而是关乎生存的根本。人工智能和机器学习模型需要消耗海量数据,以驱动预测性维护、个性化医疗和算法交易。如果没有基础战略,这些先进功能要么无法实现,要么更糟,会产生缺陷结果。
战略层面运作的逻辑在于应对不确定性。与依赖可预测资源和资本的计划不同,战略指导组织在不可预测的市场环境下实现目标。数据战略必须阐明理想的未来状态,并将数据举措与更广泛的业务目标保持一致。而这种一致性往往是举措失败的原因。战略往往因为过于抽象而沦为束之高阁,缺乏影响日常运营所需的“具体性”。
各行业的战略驱动因素不尽相同,但都具有一些共同的主题。在金融领域,驱动因素通常是风险建模和欺诈检测;在制造业,则是供应链优化和预测性维护;医疗保健行业则依赖数据进行患者监测和疫情预测。这些驱动因素的共同之处在于,它们都依赖数据和人工智能能力来保持竞争力。那些未能构建数据基础设施、培育数据驱动文化以及招募分析人才的组织,将面临被淘汰的命运。
“做什么”和“怎么做”之间存在着至关重要的区别。战略定义了“做什么”——愿景、目标和架构方向。执行,通常被错误地归入战略范畴,实际上属于运营层。数据治理是连接两者的桥梁。数据治理在战术层运作,将战略意图转化为可执行的操作。它提供必要的监督,确保运营任务——数据质量检查、管道维护和安全协议——与战略愿景保持一致。如果没有这个战术层,战略和执行就如同身处两个独立的世界,造成价值损失。
深度解析
要理解数据学科的运作机制,需要剖析“DAMA 轮”,并将其重新置于三维空间中进行重构。传统上,数据管理协会 (DAMA) 将数据治理置于轮子的中心,周围环绕着数据架构、数据质量和数据安全等学科。这种模型虽然准确,但对于现代组织设计而言却不够完善。它暗示了一种扁平化的关系。
三维模型提升了治理水平。它位于战略与管理的交汇点,起到战术筛选的作用。
三层架构
战略层由首席数据官 (CDO) 或首席数据与分析官 (CDAO) 负责。该层定义了愿景,并解答了有关数据权属、延迟要求和总体业务价值主张等问题。它决定了组织是采用数据网格(数据所有权分散)模式,还是采用集中式数据仓库模式。
运营层是数据工程师和数据库管理员的职责范围,是执行层面。它涵盖了数据处理的实际操作,例如 ETL 流程、管道自动化和查询优化。运维层注重效率、可靠性和可扩展性,并采用数据质量管理中常用的“计划-部署-监控-行动”循环来确保稳定运行。
战术层是数据治理的领域。它扮演着翻译机制的角色,将战略的抽象逻辑转化为政策、标准和所有权模型。然后,它监督运营层,确保这些标准得到遵守。在这一层,“战略得以具体化”。它不仅仅关乎执行或合规,更关乎赋能。治理通过协调人员、流程和技术,为战略的有效实施扫清障碍。
反馈回路和二阶观测
一成不变的策略是行不通的。系统需要健全的反馈机制才能保持活力。
第一个循环在数据管理内部运行。“计划-部署-监控-行动”循环用于收集运营经验。如果数据管道由于模式漂移而持续出现故障,则此运营情况会反馈到战术层。治理层会审查故障,并可能调整有关模式验证或强制执行的策略。
第二个循环更为深刻。它与亨利·明茨伯格的涌现策略概念相吻合。它涉及“双环学习”,这一概念源于海因茨·冯·福斯特和尼克拉斯·莱曼关于“二阶观察”的研究。
一级观察是指执行最佳实践。如果流程已经制定,运营团队就会遵循该流程。
二阶观察是指质疑这些做法是否符合其潜在价值观或战略目标。它不仅问“我们这样做对吗?”,还问“我们做的事情正确吗?”
这种反馈必须从运营层流经战术层,最终返回战略层。如果战略要求“单一客户视图”,但运营实际情况证明客户数据碎片化严重,无法修复,那么战术层必须将这种矛盾反馈给战略层。战略随后必须进行调整。这种自适应学习机制可以防止组织追求无法实现的目标,并促进数据生态系统的成熟。
摩擦点
实施这种分层架构会遇到很大的阻力。这些阻力很少是技术性的,而是结构性和语义性的。
语义混淆
“数据治理”和“数据管理”这两个术语经常被混用。这并非无关紧要的语义错误,而是会导致结构错位。当治理被视为管理的子集时,它便失去了效力,沦为清单上的项目,而非决策机构。反之,当管理被视为治理的下属时,创新则会在繁琐的审批流程中停滞不前。因此,必须明确二者的职责:数据管理负责执行,数据治理负责监督。
以管道为中心的陷阱
传统的数据生命周期侧重于数据摄取、转换、存储和服务。这是一种以管道为中心的视角,将数据视为一种公用设施,需要从源头输送到消费者。这种视角的问题在于忽略了消费者。它是一种“从左到右”的数据流,消费者必须接受所有被提供的数据。
这种方法造成了脱节。数据工程团队沦为“IT后台”部门。他们构建的数据管道技术上无可挑剔,但由于缺乏上下文信息,无法创造业务价值。这种摩擦体现在:仪表盘无人问津、采用率低以及对数据缺乏信任。
产品生命周期倒置
为了解决流程中的摩擦,企业正在转向产品生命周期模型。这种模型颠倒了流程,从消费者开始,从右向左推进。
这里的摩擦源于文化差异。数据工程师必须转型为产品经理。他们必须根据用户需求而非数据源的可用性来“发现、设计、开发、部署和迭代”数据产品。这需要思维模式和技能的根本转变。它要求数据专业人员理解业务背景,而这种能力在传统的工程岗位中往往缺失。
适应性函数和自动化
随着组织规模的扩大,人工治理变得难以为继。“适应性函数”的概念引入了自动化测试,用于根据架构标准评估数据产品。其难点在于实现的复杂性。定义“可发现性”、“可信度”或“互操作性”等适应性函数需要将主观概念编码为可执行代码。这要求较高的技术成熟度和强大的元数据管理系统。
超完整执行
将这些理念转化为现实需要一个严谨的、循序渐进的执行计划。下面将详细介绍如何构建全面的数据战略以及维持该战略所需的运营架构。
第一阶段战略基础
初始阶段的重点是确定逻辑和评估现状。
1.明确愿景和目标
领导团队必须明确阐述期望的未来状态。这并非一份愿望清单,而是对数据如何支持业务目标的精确定义。
业务一致性:将数据计划直接与收入目标、成本降低目标或客户满意度指标挂钩。
目标设定:制定SMART目标(具体、可衡量、可实现、相关、有时限)。例如,“在12个月内将数据检索延迟降低40%,以支持实时欺诈检测。”
2.评估当前状态
战略的制定不能脱离实际情况。对现有环境进行全面评估是必不可少的。
SWOT 分析:开展严格的 SWOT 分析,重点关注数据资产。
优势:识别现有的高质量数据资产或成熟的数据管道。
弱点:目录孤岛、数据缺失或缺乏熟练人员。
机遇:发现人工智能或分析技术可能颠覆现有商业模式的领域。
威胁:分析监管风险(GDPR、CCPA)和竞争对手的数据能力。
数据资产清单:使用数据目录工具扫描生态系统。不要依赖文档;要扫描实际数据库。识别:
数据源(数据库、API、平面文件)。
数据存储(湖、仓库、市场)。
管道(ETL/ELT 作业)。
消费者(报告、仪表盘、机器学习模型)。
流程评估:绘制当前数据流图。识别人工干预发生的位置。找到影子IT运作的“Excel地狱”。
第二阶段团队和治理结构
人员和政策构成战术层面。
1.组建数据团队
组织结构必须与数据战略相呼应。
领导层:任命首席数据官 (CDO) 或首席数据助理官 (CDAO)。该职位必须获得高管层的支持。他们并非 IT 经理,而是负责战略资产的业务领导者。
跨职能团队:组建一个由以下人员组成的团队:
数据工程师:构建和维护数据管道。
数据科学家:构建模型。
数据管理员:管理业务领域内的数据质量和定义。
产品经理:弥合技术团队和业务消费者之间的差距。
2.选择组织模式
选择适合公司文化和规模的组织结构。
(1)集中式结构:
逻辑:所有数据功能均由一个团队处理。
优点:标准化的工具、一致的管理方式、更易于管理。
缺点:成为瓶颈;与业务领域的细微差别脱节。
(2)去中心化/网状结构:
逻辑:领域特定团队将自己的数据作为产品进行管理。
优点:高度可扩展、领域专业知识、迭代速度更快。
缺点:存在碎片化风险,需要强大的自动化(计算治理)。
(3)混合式/中心辐射式:
逻辑:中央团队管理基础设施和治理;领域团队管理分析和使用情况。
优点:兼顾控制力和灵活性。常见于中大型企业。
3.制定战略原则
治理政策定义了行动规则。
(1)数据所有权:每个数据域都必须指定一名所有者。此人对该数据的质量和安全负责。
(2)命名规则:制定严格的标准:
表名(蛇形命名法与驼峰命名法)。
列名(术语统一)。
指标定义(例如,“活跃用户的定义是什么?”)。
UTM 参数和广告系列跟踪代码。
(3)安全与隐私:定义访问控制策略。实施基于角色的访问控制(RBAC)。明确将数据分类为公共数据、内部数据、机密数据或受限数据。
第三阶段架构和技术
运营层依赖于坚实的架构基础。
1.设计数据架构
该架构必须支持“大数据架构”。
(1)参考架构:创建蓝图。它应该详细说明从源头到消费的流程。
(2)整合策略:确定整合模式。
ETL(提取、转换、加载):先转换后加载。适用于结构化数据。
ELT(提取、加载、转换):加载原始数据,按需转换。适用于数据湖。
(3)存储策略:
数据湖:存储原始数据(图像、日志、非结构化文本)。成本低。
数据仓库:存储结构化、处理后的数据。高性能。
数据集市:特定业务部门的数据子集。
2.实施管理工具
选择能够执行该策略的工具。
集成:使用 Fivetran、Airbyte 或自定义 Airflow DAG 等工具进行数据摄取。
转换:使用 dbt(数据构建工具)等工具来管理转换逻辑并进行版本控制。
目录:使用 DataHub 或 Alation 等工具来管理元数据。这对于产品生命周期的“发现”阶段至关重要。
商业智能和可视化: Tableau、Looker 或 PowerBI 等工具。
第四阶段 产品生命周期实施
将工程工作流程从以流水线为中心转变为以产品为中心。
1.从右到左的工作流程
探索:与企业客户互动。了解他们的痛点。他们需要的是仪表盘还是API?
设计:定义模式和数据模型,确保其满足用户需求。
开发:编写代码(SQL、Python)构建数据产品。应用测试(数据质量检查)。
部署:将代码部署到生产环境。通过 CI/CD 实现此过程自动化。
演进:监测使用情况,收集反馈,迭代产品。
2.适应度函数实现
实现这些产品的管理自动化。
可发现性:编写一个脚本,检查数据产品是否已在中央目录中注册。
可信度:实施数据质量测试(例如,[此处应插入测试用例名称])。如果测试失败,管道会向所有者发出警报。rowcount > 0nonullsinid_column
安全性:自动扫描器检查敏感列是否被屏蔽或加密。
第五阶段:卓越运营
这就是数据管理的日常工作。
1.数据采集和存储协议
服务器端追踪:将追踪逻辑从客户端(浏览器)移至服务器端。这可以减少广告拦截器造成的数据丢失,并提高追踪准确性。
数据层清理:确保源端发送的数据结构与消费层逻辑匹配。
身份解析:如果在多渠道环境下运行,则实现合并用户身份的逻辑。
逻辑:IF (email matches) OR (deviceid matches) THEN mergeprofiles
2.测量与分析
归因模型:定义如何将功劳分配给各个接触点。
测试文化:实施A/B测试框架。确保在宣布获胜者之前计算出统计显著性。
增量效应:设置对照组,以衡量营销活动带来的真正提升。
3.客户和第一方数据
单一客户记录:梦寐以求的理想状态。整合来自订单管理系统 (OMS)、企业资源计划 (ERP) 和网络分析的数据。
LTV 和 CAC:计算客户终身价值和客户获取成本。这些是衡量增长的关键指标。
4.商业智能和报表
优化:优化仓库查询以降低成本。
访问控制:确保业务用户能够“自助”访问受管数据集,但原始数据仍对数据工程师锁定。
第六阶段 文化与演化
1.培养数据驱动文化
技术若不被采用,就无法发挥作用。
数据素养:培训员工阅读图表和理解基本统计数据。
数据倡导者:在业务部门中确定“数据倡导者”。他们将作为中央数据团队和业务部门之间的联络人。
2.持续监测
计划-部署-监控-行动循环。
(1)关键绩效指标:跟踪数据平台的运行状况。
管道可靠性(正常运行时间)。
数据新鲜度(延迟)。
用户采纳率(活跃查询数量)。
(2)反馈循环:定期审查策略。当前数据资产清单是否支持业务目标?如果不支持,则调整路线图。
3.监管合规
隐私:实施“隐私设计”。数据最小化(仅收集必要数据)。
伦理方面:建立人工智能伦理委员会,审查算法偏见。
小结
数据战略、数据治理和数据管理在结构上的分离并非纸上谈兵,而是运营稳定的先决条件。战略指明方向,治理提供战术控制,管理提供运营能力。当这三者融合为一个凝聚的生态系统,并由自动化适应性功能和以产品为中心的生命周期提供支持时,组织便能达到数据成熟度,数据不再是负担,而是强大且可变现的资产。术语混乱和以流水线为中心的模式带来的摩擦将不复存在,取而代之的是一个稳定、自我纠正的架构,能够满足人工智能时代不断增长的需求。
转载(公众号):数据驱动智能