分享|数据开发具体操作详解

Viewed 1

数据中台的数据开发模块旨在通过可视化、低代码的方式,将原始数据加工成可直接服务于业务分析的数据指标数据标签,为上层数据应用(如报表、大屏、智能分析)提供高质量、标准化的数据支撑。其核心操作流程遵循 “定义 -> 开发 -> 执行 -> 监控” 的闭环。

一、 核心能力与组件

数据开发模块主要提供三大核心能力:

  1. 数据指标开发:将业务度量转化为可计算、可复用的指标(如“月度销售额”、“客户增长率”)。
  2. 数据标签开发:为实体(如客户、产品)打上业务属性标签(如“高价值客户”、“热销产品”)。
  3. 通用数据分析:处理更复杂的业务逻辑和模型计算,支持多种大数据处理引擎。

为实现这些能力,平台提供了丰富的可视化组件

组件分类 核心组件 用途说明
脚本组件 Shell脚本、Python脚本、SQL脚本 用于执行自动化脚本、数据库操作和自定义数据处理逻辑。
大数据组件 Spark Jar/SQL任务、Hadoop MR任务、Flink Jar/SQL任务 用于处理超大规模数据的批量计算、实时流处理和复杂分析,充分利用分布式计算引擎。
流程组件 条件判断 用于根据特定条件决定工作流的执行路径,实现分支逻辑。
通用组件 数据集成、子流程 数据集成:将数据归集、清洗任务无缝融入开发流程,形成端到端数据流水线。
子流程:将复杂流程封装为独立、可复用的节点,简化主流程设计。

二、 数据开发操作步骤详解

数据开发遵循统一的“流程化”创建模式,主要分为数据分析流程指标分析流程标签分析流程三类。其通用操作步骤如下:

第一步:创建流程

  1. 路径:进入 数据开发 -> 数据开发 模块。
  2. 新建流程:点击“新增数据流程”,选择流程类型(数据分析、指标分析或标签分析)。
  3. 基础配置:设置任务名称、选择流程分组(建议按业务主题分类)、填写流程描述。

第二步:流程设计(可视化编排)

进入流程设计器,通过拖拽组件和连线构建数据处理逻辑。

  • 左侧:组件面板,提供脚本、大数据、流程、通用四类组件。
  • 上部:操作工具栏,提供保存、运行、调试、查看日志等功能。
  • 中部:画布,用于拖拽组件和连线。
  • 右侧:属性面板,双击画布上的组件进行详细配置(如选择数据源、编写SQL/脚本、设置计算表达式等)。

第三步:配置执行与监控

流程设计完成后,需配置其执行策略。

  1. 定时策略:设置任务的执行周期,如定时执行、指定时间执行、按时间间隔执行,实现自动化调度。
  2. 监控指标:配置任务的关键监控指标,便于后续对任务执行情况进行追踪和分析。

第四步:测试与发布

  1. 运行调试:点击“运行”按钮,在测试环境中验证流程逻辑的正确性。
  2. 保存发布:调试无误后保存流程,系统将根据配置的定时策略自动调度执行。

三、 不同类型流程的创建要点

虽然核心步骤一致,但不同流程类型在创建时有特定配置:

  1. 数据分析流程

    • 特点:最通用的流程,适用于复杂ETL、数据加工、模型计算等场景。
    • 创建:在“新增数据流程”中选择“数据分析”,后续进入流程设计器自由编排。
  2. 数据指标流程

    • 特点:专门用于开发和计算业务指标。
    • 创建:选择“指标分析”后,需先勾选需要开发的指标,然后选择开发方式(可视化配置或SQL配置),并配置计算表达式、计算维度和数据存储周期。
  3. 数据标签流程

    • 特点:专门用于为业务实体(如客户、产品)打标签。
    • 创建:选择“标签分析”后,需先勾选需要开发的标签,然后选择开发方式(可视化配置或SQL配置),配置开发表达式,并设置实体唯一标识符

四、 总结:数据开发的核心价值

龙石数据中台的数据开发模块,通过可视化、低代码的方式,将复杂的分布式计算(Spark、Flink)和数据处理逻辑封装成简单易用的组件,降低了大数据开发的技术门槛。它实现了:

  • 任务统一调度:所有开发任务(指标、标签、分析)均可配置定时策略,实现自动化。
  • 流程可视化:拖拽式设计,逻辑清晰,易于理解和维护。
  • 能力集成:集成了数据集成能力,支持端到端的数据流水线构建。
  • 面向业务:通过指标和标签的封装,使开发成果直接对接业务需求,快速响应分析场景。

通过以上步骤,您可以将原始数据高效、规范地加工成业务可直接使用的指标和标签,为数据驱动决策提供坚实的数据基础。

0 Answers