谈谈用第一性原理思考数据治理问题

埃隆·马斯克和黄仁勋除了都运营着尖端科技公司之外，还有一个共同点：他们都非常重视从第一性原理出发思考问题。马斯克曾解释道：“我倾向于从物理学的角度来思考问题……物理学教会我们从第一性原理出发进行推理，而不是通过类比。第一性原理方法曾被许多伟大的思想家运用，包括发明家约翰内斯·古腾堡、军事战略家约翰·博伊德和古代哲学家亚里士多德，但没有人比企业家埃隆·马斯克更能有效地体现第一性原理思维的哲学。

2002 年，马斯克开始了将第一枚火箭送上火星的征程——这个想法最终发展成为航天公司 SpaceX。

他一开始就遇到了巨大的挑战。在走访了世界各地的多家航空航天制造商后，马斯克发现购买一枚火箭的成本高得惊人——高达6500万美元。鉴于如此高昂的价格，他开始重新思考这个问题。

“我倾向于从物理学的角度来思考问题，”马斯克在一次采访中说道。“物理学教导我们从基本原理出发进行推理，而不是通过类比。所以我说，好吧，让我们来看看基本原理。火箭是由什么制成的？航空级铝合金，再加上一些钛、铜和碳纤维。然后我问，这些材料在商品市场上的价值是多少？结果发现，火箭的材料成本大约只占其典型价格的百分之二。”

马斯克没有选择花费数千万美元购买成品火箭，而是决定创建自己的公司，以低价购买原材料，并自行制造火箭。SpaceX由此诞生。

短短几年内，SpaceX 就将火箭发射成本降低了近十倍，同时还能盈利。马斯克运用第一性原理思维，将问题分解到最基本层面，绕过航空航天业的高昂成本，创造出更高效的解决方案。

”英伟达首席执行官黄仁勋也身体力行地实践着这一点。他敦促团队“回归第一性原理”，并扪心自问：“在今天的情况下……我会如何重做这件事？我会如何彻底重塑它？”听到火箭和人工智能芯片领域的领导者谈论如何将问题简化到本质，我不禁思考：同样的方法能否改变数据治理这样传统且往往进展缓慢的领域呢？

作为一名顾问，我见过许多精心设计的治理框架——精美的幻灯片、组织严密的委员会、详尽的目录。它们在纸面上看起来完美无缺，但在实践中却往往不堪一击。数据治理的理论与实践之间存在着巨大的鸿沟。解决方案可能过于精雕细琢，却缺乏在现实世界中的检验。因此，我开始思考：如果我们运用第一性原理思维来审视数据治理，会怎样？我们能否摒弃那些陈规陋习和繁文缛节，从根本上重建治理体系，使其真正有效？

1.什么是第一性原理思维

第一性原理思维意味着从基本原理出发。它不接受既有的假设或类比，而是将问题分解为无可辩驳的真理，并以此为基础向上推导。本质上，它是将问题简化为基本组成部分，并从这些基本要素出发进行推理。这个概念并不新鲜——两千多年前，亚里士多德就将第一性原理定义为“事物被认知的首要基础”。在现代，这种思维方式被工程师和企业家广泛采用，他们希望避免简单地复制“最佳实践”。他们像科学家一样，质疑每一个假设：我们真正确定的是什么？我们究竟想要解决什么问题？通过这种方式，他们往往能找到比传统观点更优的解决方案。

毫不奇怪，这种方法几乎成了科技界的口头禅。马斯克和黄仁勋经常谈到“第一性原理”，以至于这个词听起来都像是一句口号。但抛开这些流行语，第一性原理思维的力量在于它的清晰性。它迫使我们专注于本质——将目标与无关紧要的细节区分开来。与其在旧模型上迭代，不如问问自己：如果我们今天从零开始解决这个问题，我们会怎么做？

2.为什么数据治理是理想之选

如果说哪个领域最需要从根本上进行反思，那非数据治理莫属。许多现有的治理实践都是由遗留习惯、过时的“最佳实践”和沿用已久的模板拼凑而成。多年来，组织机构不断叠加政策和流程，却往往从未质疑这些规则是否仍然合理。惯性是一种强大的力量：一旦治理委员会、报告或规则出台，它们往往会长期存在，远远超过其应有的使用寿命。其结果是，数据治理领域充斥着复杂性和模糊的价值。人们遵循旧的清单，仅仅因为“我们一直都是这么做的”，即使没有人能够清楚地解释为什么某个步骤或文件是真正必要的。

裂痕开始显现。正如一位 Gartner 分析师所言，“传统的数据治理方法正在过时”。事实上，根据Gartner 的报告，2025 年80% 试图扩展数字化项目的组织将会失败，原因在于它们未能对其数据治理方法进行现代化改造。这是一个令人警醒的信号：我们现有的治理方式不仅有些笨拙，而且在很大程度上根本行不通。治理项目往往过分强调文书工作、为了控制而控制以及一刀切的解决方案，而忽略了清晰度和业务成果。这使得数据治理成为运用第一性原理思维的理想对象。通过将治理简化到其核心目标——确保数据的可信度、可用性和安全性——我们可以从根本上重建一种更精简、更高效的方法。

3.常见的数据治理习惯和假设

让我们来审视一下现状。以下是一些数据治理中常见的习惯和假设。您很可能已经遇到过其中一些：

•在开始进行数据管理之前，您需要一个专门的工具或平台。

•数据治理必须由集中化的团队或委员会负责才能有效运作。

•无论重要性如何，每一条数据都需要以同样的严格标准进行管理。

•治理的第一步是预先制定详尽的政策和文件。

•适当的数据治理必然会减慢项目进度（而这正是做好数据治理的代价）。

•数据治理主要是一项IT举措——业务人员只是最终的成果。

•所有重大数据决策都应经过正式的治理委员会批准。

•在进行任何其他操作之前，我们应该对企业范围内的所有数据资产进行编目和分类。

•只有当所有系统的数据质量都接近完美时，人们才能信任或使用数据。

•直接采用行业最佳实践框架或模型将保证治理成功。

•如果某种治理方案对其他公司（或您上一个客户）有效，那么它在这里也同样有效，无需任何改动。

•数据治理主要关乎合规性和满足审计人员的要求。

•购买合适的数据治理工具将解决我们的数据问题（人员和流程随后都会迎刃而解）。

•数据治理可以视为一次性项目——一旦推出，就大功告成了。

•我们添加的规则和控制措施越多，我们的数据就越好。

•一个好的数据治理方案应该从一开始就覆盖整个组织。

•在任何领域实施治理之前，最好等到我们有了完善的定义和完全的共识之后再进行。

•只有高管或首席数据官才能最终“拥有”和推动数据治理（其他人只是辅助人员）。

这真是一长串假设……其中一些听起来可能似曾相识。它们经常出现在演示文稿、项目章程以及关于治理的闲聊中。但其中有多少是真正正确或必要的呢？是时候运用第一性原理思维来检验它们了。

4.将第一性原理应用于数据治理假设

让我们来分析这些假设。我们将探究每项假设存在的原因（是什么样的思维模式或历史背景使其得以延续），然后提出一个问题：从第一性原理出发，我们会提出什么样的替代方案？我们的目标是找出哪些习惯是真正必要的，哪些只是历史遗留的噪音。请参见下表：

假设	为何存在这种假设	第一性原则建议做什么
在开始治理数据之前，需要一个大型工具	购买工具显得具体且能显示进展。供应商将工具宣传为“银色子弹”。技术也感觉比解决人员和流程问题更容易。	从基本原则开始。定义所有权、标准和质量检查，使用简单的工具即可。投资于仅在你确切知道自己需要什么时才使用的工具。
治理必须集中在一个团队下	中央化似乎安全，并承诺一致性和控制。组织害怕决策分散。	遵循集中原则，但不执行。设定通用标准，但允许领域团队管理自己的数据。保持决策闭环与数据所在位置一致。
所有数据都必须平等治理	没有清晰优先级，团队会把所有事情都当作同等重要来对待。担心错过任何事情会导致全盘皆输的项目。	并非所有数据都一样。聚焦高价值和高风险数据。对低关键性数据应用更轻量级的治理方法。
我们必须提前编写所有政策和文档	传统的项目规划和合规文化将政策和文档视为控制和合规性的标志。	政策应以指导行为为主。从最小、实用的指南开始，逐步根据经验塑造政策。治理应通过防止返工和冲突来加快进度。将其嵌入现有工作流并自动化，如果它导致延迟，那就是设计不当。
良好的治理自然会减慢项目进度	治理历来依赖委员会和审批流程，这会带来摩擦，因此延迟被视为不可避免。	治理属于业务，因为业务定义了数据的意义和价值。IT支持技术方面，但业务拥有定义、质量及用途。
数据治理是IT的责任	数据长期被视为技术资产，所有权默认归属于IT。业务部门保持距离。	明确决策权。推动常规决策由数据所有者和利益相关方做出。仅在真正战略性或冲突性问题上保留委员会决策。
每个数据决策都需要理事会批准	委员会感到安全，并分散责任，尤其是在跨职能决策中。	确定何时需要决策。关注使重要数据可查找和可理解。首先基于现实情况有机地构建元数据。
我们必须分类和标记所有数据	库存看起来逻辑且全面，尤其是出于风险和合规角度考虑。	关注适用性。在必要时改进质量，在不影响使用的情况下记录局限性。当数据用于改善时，持续优化。
数据必须完美才能使用	过去糟糕的经历造成了恐惧。监管环境强化了零容忍思维。	专注于目的。在有意义的地方改进质量和记录局限性。只要数据可用于改进，就持续优化。
遵循标准框架就能保证成功	框架看起来安全可信，尤其对高管而言。它们减少了原创思考的需求。	框架是参考而非规则。只使用适合你上下文的部分。适应并简化而不是盲目遵循。
别处有效的方法在这里也会有效	复制比从头设计更容易，且失败时可以掩盖问题。	上下文很重要。借鉴理念，但重建解决方案，基于你自己的问题、文化和约束条件。
治理主要是为了合规	合规性通过监管获得牵引力，使其更容易通过“怕罚款”来争取资金支持。	合规性很重要，但业务决策同样重要。治理应满足决策、效率和信任需求，而不仅仅是审计要求。
正确的工具将解决我们的数据问题	现代工具承诺自动化和智能，促使人们相信“技术优先”的解决方案。	工具能实现良好的治理，但无法替代它。先修复所有权、标准和流程，然后扩展工具。
治理可以设置后遗忘	治理常被当作一次性项目资助，造成完成的错觉。	治理是持续的。数据和业务需求不断变化，因此治理必须随着明确的长期所有权持续进化。
更多规则意味着更好的治理	控制性强的文化将安全等同于更多规则和流程。	太多规则会产生摩擦和变通。使用少量精选原则和控制。
我们必须在整个企业中统一实施治理	大型项目计划周密且公平，吸引高层领导支持。	从影响最大的地方开始。在一个领域治理或使用案例中启动，然后基于成功扩展。
必须等待完美的共识才能行动	害怕做错和强烈的共识文化导致瘫痪。	从合理的版本1.0开始。行动、学习、精炼。实践使用表面接口，避免无休止的争论。
只有高管才能真正拥有数据治理	权威与高级领导层相关联，因此所有权被向上推。	治理发生在日常决策中。所有权应与最接近数据的人共存，并由高管支持。

逐一分析这些假设，一个清晰的模式浮现出来：许多数据治理的“规则”并非基于基本原则，而是沿袭下来的选择。事实上，某些做法之所以存在，仅仅是因为它们曾经解决了某个具体问题或缓解了某种担忧，然后逐渐固化为教条。随着时间的推移，最初的背景被遗忘，但习惯却保留了下来。（换句话说，地图变成了疆域。）

通常，所谓的“最佳实践”其实只是某种被广泛接受的做法。正如黄建生所观察到的，权宜之计可能会僵化成长期规则，因为你曾经奉为圭臬的那些东西，往往最初只是仓促妥协的结果。我们的调查显示，许多数据治理习惯都是这样产生的——一种权宜之计或假设，却长期未受到质疑。

通过这项练习，我们也看到了常识与实际操作之间存在的巨大差距。人们常说，你需要一个强大的工具和一份长达50页的政策文件才能启动治理，但实际上，成功的治理举措往往是从零开始的：一个积极进取的团队、几项关键协议、一份简单的条款表格，以及解决一个紧迫的问题。我们列出的许多假设似乎已经过时。鉴于当今的技术和敏捷的工作方式，这些假设不再成立或者至少并非普遍适用。有些假设纯粹是理论性的，只有那些缺乏治理成功或失败经验的人才会遵循。

简而言之，应用基本原则会发现，许多数据治理的“必备要素”其实是锦上添花，甚至是分散注意力的因素。当我们把治理简化到其核心——确保合适的人在合适的时间信任并使用合适的数据——一个更简单、更清晰的图景就会浮现出来。

5.数据治理本身就是一个假设

到目前为止，我们已经挑战了数据治理内部的一些假设和习惯。但让我们更进一步……或许有点疯狂……如果数据治理本身根本就不是首要原则呢？或者，如果数据治理不是首要原则，那么什么才是？

从最基本的层面来说，真正的第一原则是：

数据是决策和行动的运营投入，滥用数据会造成实际危害。

就是这样。其他一切都是衍生品。

你不需要“数据治理”。你需要做的是防止损害，同时确保正确使用那些会对结果产生实质性影响的事物。

这与以下情况并无不同：

•之所以要实行财务管制，是因为资金可能被滥用。

•制定医疗规程是因为患者可能受到伤害

•之所以存在安全系统，是因为可能会发生物理损坏。

没有人会出于哲学原因来管理“金钱”或“医疗”。他们管理的是与影响相关的风险。

因此，与其问“我们如何管理数据？”，不如从根本上思考“数据可以在哪些方面以对结果产生实质性影响的方式使用，以及为了确保这种使用方式的安全性和正确性，必须满足哪些条件？”

从这个角度来看，我们称之为“治理”的许多东西都可能消失。让我们再次审视一下是什么让数据“可用”、“可信”和“受保护”。这些都是一个事实的副产品：数据在其设计用途的语境中得到应用。

让我们来详细分析一下：

•可用数据意味着使用者能够理解数据所支持的决策或行动。数据与决策意图相符。如果这种一致性是明确的，可用性自然就具备了。否则，任何目录或所有者都无济于事。可用性失败并非因为缺少元数据，而是因为缺乏明确的意图。

•可信的数据意味着，在决策过程中，出错的风险是可以接受的。信任并非绝对，而是取决于具体情况。用于指导营销支出的数据不需要像用于财务报告的数据那样严格的保证。当数据被用于其原本设计用途之外的决策时，信任就会瓦解。

•受保护数据意味着数据不能以违反其预期用途的方式使用。这并非指数据未被分类或标记，而是指数据不能在允许的上下文之外使用。如果数据无法被访问、合并、导出或在其允许用途之外重复使用，那么数据保护就已经实现了。

这种框架的根本含义是：你不需要所有权，你不需要分类，你不需要委员会，你不需要目录。

你需要明确且强制执行的使用意图。其他一切都只是实现细节。

如果我们仅仅止步于这种理论推测，或许会令人失望……所以，让我们尝试将其付诸实践。那么，究竟什么可以取代数据治理呢？

使用限制。

换句话说：

•数据的产生有其既定目的

•系统仅允许以兼容的方式使用它。

•当意图发生变化时，数据需要重新设计或重新审批。

如果你认真对待这个框架并想将其付诸实践，我想到了两种模式：API和数据产品。这两种模式之所以有效，正是因为它们强制明确意图、约束和责任，而无需单独的治理层：

•API之所以强大，是因为它们明确地编码了意图。API为特定目的公开了特定的功能。它定义了可以访问哪些数据、以何种形式、以何种频率以及在何种条件下可以访问。你不可能随意地重新利用API而不被察觉。如果用例发生变化，约定也必须随之改变。仅此一点就解决了可用性、信任度和安全性方面的大部分问题。数据可用是因为其用途清晰。数据值得信赖是因为预期明确。数据受到保护是因为滥用受到设计的限制，而不是由策略限制。

•数据产品的作用类似，但层次更高。数据产品的存在是因为有人需要数据来支持既定的决策或运营流程。它将数据、逻辑、质量预期和使用边界整合到一个专门设计用于消费的产品中。当数据被视为产品时，所有权或分类等问题就变得次要了。重要的是产品是否实现了其预期目标，以及是否能防止有害或意外的使用。从这个意义上讲，数据产品并非一种治理结构，而是一种使正确使用数据成为默认行为的方式。

如今治理的存在并非因为组织热爱流程，而是因为某些根本性的缺失。数据创建时缺乏明确的用途，系统允许数据被无限且默默地重复使用，决策的后果也难以预见。随着时间的推移，治理逐渐发展成为一种事后弥补这些缺陷的补偿机制。委员会、政策、审查和控制措施的出现，旨在重新引入那些最初设计中从未包含的意图、界限和问责制。然而，当意图明确、约束内置于系统、后果在使用时清晰可见时，治理便不再需要凌驾于一切之上。它会融入日常运营，成为数据生产和使用方式的一部分，而非试图控制数据的独立职能。

6.让这一切成为现实

在继续之前，我们先暂停一下。如果你读到这里，心里想的是：“好吧，他是不是说我们应该取消数据治理？”……那么你可以放心了。并非如此。数据治理的存在有其非常现实的原因，而且在许多组织中，它将继续发挥越来越重要的作用。法规仍然重要。风险仍然重要。问责制仍然重要。

这项基于第一性原理的目的并非否定数据治理，而是停止将其视为出发点。一旦你不再假定治理是万能的，你就能更加审慎地思考它在哪些方面真正发挥作用，以及它在哪些方面仅仅是弥补了意图不明确或设计缺陷。基于此，以下是一些将这种理念应用于当下的实用方法。

（1）首先要明确每项治理实践的“为什么”：选择一项你正在进行或计划进行的治理活动，问问自己：“这项活动旨在解决什么根本问题？”如果你无法清晰回答，请考虑暂停该活动。例如，如果你每周召开一次数据委员会会议，无休止地审查数据定义，那么请明确其目的：是为了解决冲突？还是为了进行教育？如果它没有达到预期目的，那就取消或调整它。通过重新聚焦核心目标，你可以确保每一项治理工作都有其存在的理由而不仅仅是“我们一直都是这么做的”。这可以立即减少繁琐的工作，并腾出时间来完成更有意义的任务。

（2）在完善流程之前，先解决实际问题：与其抽象地设计理想的治理框架，不如找出迫切需要的数据痛点，并以务实的方式解决它。例如，如果不同地区的销售报告不一致，那就召集关键人员，在本周内为每个指标制定一个统一的定义。将其记录在一个简单的共享文档中。无需复杂的数据目录，也无需数月的委员会审查。通过解决具体问题，您不仅可以快速创造价值，还可以创建一个其他人都能接受的治理模板。这种“问题优先”的方法确保治理植根于实际需求，并建立信誉——人们看到的是好处，而不仅仅是负担。

（3）赋能一线员工并不断迭代：选择一个团队或领域，让他们尝试一个轻量级的数据治理实验。例如，从客服部门挑选一位精通数据的员工，让他担任客户数据的“数据管理员”一个月。给他/她一两项简单的职责：比如确保新客户数据字段得到记录，并处理该领域的数据质量问题。观察他遇到的困难以及改进之处，从中学习。也许他回来后会说：“我们真的需要一个地址标准，因为我们浪费了很多时间清理地址。” 太好了——现在你有了需要解决的具体的第一性需求，例如，创建一个地址标准格式。这里的关键在于，以一种可控的方式，将决策权和责任下放给日常处理数据的人员，并从他们的反馈中学习。随着时间的推移，你可以将哪些方法有效（以及哪些无效）正式化。这种自下而上的实验，以第一性原则（例如，“从源头明确数据”）为指导，可以取代庞大的前期项目。这是敏捷治理：分小块实施，迭代，扩展。

（4）利用 API 和数据产品进行意图导向型设计。如果您想认真应用第一性原理，就不要事后试图用治理机制解决所有问题。相反，应该在设计数据时就明确其预期用途并加以强制执行。API 通过定义清晰的访问和使用契约来实现这一点。数据产品则通过围绕一组特定的决策或操作，将数据、逻辑、质量预期和使用边界捆绑在一起来实现这一点。当意图清晰且约束内置时，可用性、信任和安全性自然而然就会随之而来。治理之所以变得轻便，并非因为您移除了它，而是因为最棘手的问题已经在设计中得到了解决。

它们无需企业数据目录、新预算或高管批准即可启动。它们真正需要的是一种思维方式的转变：重视简洁性、直接问题解决和反馈，而不是详尽的计划。

小结

数据治理的核心在于关注真正对数据可信度和实用性至关重要的因素。第一性原理思维是找到这一核心的有效途径。通过质疑长期存在的假设，并将问题简化到最基本的层面，我们可以重新设计出更简洁高效的治理方法。我们不再盲目遵循传统或流行的框架，而是深入探究每个要素存在的意义，并剔除那些不再发挥作用的要素。

这里要传达的信息并非是所有传统的治理方式都是不好的——而是我们应该基于基本原则有意识地选择它们，而不是仅仅出于惯性。有时，繁琐的流程是必要的（例如，某些监管合规步骤可能是不可协商的）。但很多时候，当我们从基本原则出发时，会发现更轻松、更明智的替代方案。

第一性原理思维帮助马斯克重新构想了火箭，也帮助黄仁勋重新构想了计算架构。它同样可以帮助我们重新构想数据治理，将其从繁琐的官僚程序转变为组织数据运营中精简而鲜活的一部分。基于第一性原理重建的数据治理应该更易于接受，也更具赋能性。它不再是监管，而是通过可靠的数据赋能于人。

所以，不妨从你的治理体系中挑选一头神圣不可侵犯的“圣牛”，然后把它“请”出去……你或许会惊讶地发现，它带来的不便微乎其微。毕竟，进步往往始于对我们习以为常的事物提出质疑。尊重数据以及数据用户的最佳方式，是目标明确、视角全新，并且有勇气摒弃那些不再适用的惯例。

来源（公众号）：数据驱动智能

龙石数据·博客中心

龙石数据·博客中心

谈谈用第一性原理思考数据治理问题

龙石数据产品

热门文章

龙石数据·博客中心

龙石数据·博客中心

谈谈用第一性原理思考数据治理问题

相关文章：

龙石数据产品

热门文章