分享｜数据开发具体操作详解

Question

数据中台的数据开发模块旨在通过可视化、低代码的方式，将原始数据加工成可直接服务于业务分析的数据指标和数据标签，为上层数据应用（如报表、大屏、智能分析）提供高质量、标准化的数据支撑。其核心操作流程遵循 “定义 -> 开发 -> 执行 -> 监控” 的闭环。

数据开发模块主要提供三大核心能力：

为实现这些能力，平台提供了丰富的可视化组件：

组件分类	核心组件	用途说明
脚本组件	Shell脚本、Python脚本、SQL脚本	用于执行自动化脚本、数据库操作和自定义数据处理逻辑。
大数据组件	Spark Jar/SQL任务、Hadoop MR任务、Flink Jar/SQL任务	用于处理超大规模数据的批量计算、实时流处理和复杂分析，充分利用分布式计算引擎。
流程组件	条件判断	用于根据特定条件决定工作流的执行路径，实现分支逻辑。
通用组件	数据集成、子流程	数据集成：将数据归集、清洗任务无缝融入开发流程，形成端到端数据流水线。子流程：将复杂流程封装为独立、可复用的节点，简化主流程设计。

数据开发遵循统一的“流程化”创建模式，主要分为数据分析流程、指标分析流程和标签分析流程三类。其通用操作步骤如下：

进入流程设计器，通过拖拽组件和连线构建数据处理逻辑。

流程设计完成后，需配置其执行策略。

虽然核心步骤一致，但不同流程类型在创建时有特定配置：

数据分析流程
- 特点：最通用的流程，适用于复杂ETL、数据加工、模型计算等场景。
- 创建：在“新增数据流程”中选择“数据分析”，后续进入流程设计器自由编排。
数据指标流程
- 特点：专门用于开发和计算业务指标。
- 创建：选择“指标分析”后，需先勾选需要开发的指标，然后选择开发方式（可视化配置或SQL配置），并配置计算表达式、计算维度和数据存储周期。
数据标签流程
- 特点：专门用于为业务实体（如客户、产品）打标签。
- 创建：选择“标签分析”后，需先勾选需要开发的标签，然后选择开发方式（可视化配置或SQL配置），配置开发表达式，并设置实体唯一标识符。

龙石数据中台的数据开发模块，通过可视化、低代码的方式，将复杂的分布式计算（Spark、Flink）和数据处理逻辑封装成简单易用的组件，降低了大数据开发的技术门槛。它实现了：

通过以上步骤，您可以将原始数据高效、规范地加工成业务可直接使用的指标和标签，为数据驱动决策提供坚实的数据基础。