数据中台的数据开发模块旨在通过可视化、低代码的方式,将原始数据加工成可直接服务于业务分析的数据指标和数据标签,为上层数据应用(如报表、大屏、智能分析)提供高质量、标准化的数据支撑。其核心操作流程遵循 “定义 -> 开发 -> 执行 -> 监控” 的闭环。
一、 核心能力与组件
数据开发模块主要提供三大核心能力:
- 数据指标开发:将业务度量转化为可计算、可复用的指标(如“月度销售额”、“客户增长率”)。
- 数据标签开发:为实体(如客户、产品)打上业务属性标签(如“高价值客户”、“热销产品”)。
- 通用数据分析:处理更复杂的业务逻辑和模型计算,支持多种大数据处理引擎。
为实现这些能力,平台提供了丰富的可视化组件:
| 组件分类 | 核心组件 | 用途说明 |
|---|---|---|
| 脚本组件 | Shell脚本、Python脚本、SQL脚本 | 用于执行自动化脚本、数据库操作和自定义数据处理逻辑。 |
| 大数据组件 | Spark Jar/SQL任务、Hadoop MR任务、Flink Jar/SQL任务 | 用于处理超大规模数据的批量计算、实时流处理和复杂分析,充分利用分布式计算引擎。 |
| 流程组件 | 条件判断 | 用于根据特定条件决定工作流的执行路径,实现分支逻辑。 |
| 通用组件 | 数据集成、子流程 | 数据集成:将数据归集、清洗任务无缝融入开发流程,形成端到端数据流水线。 子流程:将复杂流程封装为独立、可复用的节点,简化主流程设计。 |
二、 数据开发操作步骤详解
数据开发遵循统一的“流程化”创建模式,主要分为数据分析流程、指标分析流程和标签分析流程三类。其通用操作步骤如下:
第一步:创建流程
- 路径:进入
数据开发 -> 数据开发模块。 - 新建流程:点击“新增数据流程”,选择流程类型(数据分析、指标分析或标签分析)。
- 基础配置:设置任务名称、选择流程分组(建议按业务主题分类)、填写流程描述。
第二步:流程设计(可视化编排)
进入流程设计器,通过拖拽组件和连线构建数据处理逻辑。
- 左侧:组件面板,提供脚本、大数据、流程、通用四类组件。
- 上部:操作工具栏,提供保存、运行、调试、查看日志等功能。
- 中部:画布,用于拖拽组件和连线。
- 右侧:属性面板,双击画布上的组件进行详细配置(如选择数据源、编写SQL/脚本、设置计算表达式等)。
第三步:配置执行与监控
流程设计完成后,需配置其执行策略。
- 定时策略:设置任务的执行周期,如定时执行、指定时间执行、按时间间隔执行,实现自动化调度。
- 监控指标:配置任务的关键监控指标,便于后续对任务执行情况进行追踪和分析。
第四步:测试与发布
- 运行调试:点击“运行”按钮,在测试环境中验证流程逻辑的正确性。
- 保存发布:调试无误后保存流程,系统将根据配置的定时策略自动调度执行。
三、 不同类型流程的创建要点
虽然核心步骤一致,但不同流程类型在创建时有特定配置:
-
数据分析流程
- 特点:最通用的流程,适用于复杂ETL、数据加工、模型计算等场景。
- 创建:在“新增数据流程”中选择“数据分析”,后续进入流程设计器自由编排。
-
数据指标流程
- 特点:专门用于开发和计算业务指标。
- 创建:选择“指标分析”后,需先勾选需要开发的指标,然后选择开发方式(可视化配置或SQL配置),并配置计算表达式、计算维度和数据存储周期。
-
数据标签流程
- 特点:专门用于为业务实体(如客户、产品)打标签。
- 创建:选择“标签分析”后,需先勾选需要开发的标签,然后选择开发方式(可视化配置或SQL配置),配置开发表达式,并设置实体唯一标识符。
四、 总结:数据开发的核心价值
龙石数据中台的数据开发模块,通过可视化、低代码的方式,将复杂的分布式计算(Spark、Flink)和数据处理逻辑封装成简单易用的组件,降低了大数据开发的技术门槛。它实现了:
- 任务统一调度:所有开发任务(指标、标签、分析)均可配置定时策略,实现自动化。
- 流程可视化:拖拽式设计,逻辑清晰,易于理解和维护。
- 能力集成:集成了数据集成能力,支持端到端的数据流水线构建。
- 面向业务:通过指标和标签的封装,使开发成果直接对接业务需求,快速响应分析场景。
通过以上步骤,您可以将原始数据高效、规范地加工成业务可直接使用的指标和标签,为数据驱动决策提供坚实的数据基础。