覆盖主要内容
版本: 下个版本

快速入门

本教程将通过 「超市订单数据拆分盈利 / 亏损订单」 的实战场景,带您快速掌握助睿 ETL 数据集成平台的核心操作,完整实现从数据接入、清洗转换、规则分流到数据落地的全流程转换任务开发。

前期准备

前置条件:已完成系统账号登录,且拥有数据集成平台的操作权限。

操作步骤:登录系统后,在顶部导航栏依次点击【数据集成】→【集成工作流设计】,即可进入助睿 ETL 数据集成平台主界面。

项目管理

进入数据集成平台,会默认显示项目列表,如下图所示:

选中 default 项目,点击“打开项目”,进入 default 项目。

新建转换

转换(Pipeline)是平台面向数据流处理的核心单元,用于承载数据接入、清洗、转换、分流、输出等全流程 ETL 逻辑。

在平台左侧资源库面板,通过顶部操作栏或右键菜单,选择【新建转换】,即可创建一个空白的转换任务,用于后续流程搭建,如下图所示:

添加组件与流程拓扑搭建

本部分教程的目标为:基于超市订单明细数据与产品基础数据,通过多表关联、字段裁剪、条件过滤,拆分出盈利订单与亏损订单,并分别写入对应的目标数据表。

按以下步骤完成组件添加与流程连线,搭建完整的转换拓扑:

(1)添加两个表输入组件,分别命名为订单_详细订单和订单_产品信息,用于接入两类源业务数据;

(2)添加记录集连接组件,并命名为记录集连接,同时创建两个表输入组件到该组件的连接,用于实现两表数据关联;

(3)添加字段选择组件命名为移除产品ID_1字段,并创建记录集连接组件到字段选择组件的连接线,用于裁剪冗余字段;

(4)添加过滤记录组件命名为过滤记录,并创建字段选择组件到过滤记录组件的连接线,用于按业务规则实现数据流分流;

(5)添加两个表输出组件,分别命名为盈利订单和亏损订单,并创建过滤记录组件到两个表输出组件的连接线,用于将分流后的数据写入目标表。

完成后,完整的转换流程拓扑如下图所示:

组件参数配置

完成流程拓扑搭建后,需对每个组件进行业务参数配置,实现数据处理逻辑的落地。

表输入组件配置

表输入组件的核心作用是从业务数据库中读取源数据,是 ETL 流程的数据入口。

双击订单_详细订单表输入组件,打开组件配置窗口。点击新建建立数据库连接,完成 MySQL 等业务数据库的连接信息配置,配置完成后可通过【测试】按钮验证连通性。

数据库连接配置完成后,点击【获取 SQL 查询语句】,在数据库浏览弹窗中选择目标表【supermarket.order_detail】,自动生成 SQL 查询语句,按需选取订单明细所需字段

订单_详细订单表输入组件最终配置如下::

参考上述步骤,完成「订单_产品信息」表输入组件的配置,数据库连接可复用已创建的连接,目标表为【supermarket.product】,配置完成后如下图所示:

记录集连接组件配置

记录集连接组件的核心作用是对两个输入数据集进行关联合并,对应 SQL 中的 JOIN 关联操作。

双击组件打开配置窗口,完成以下配置:

  1. 第一个 Transform 选择「订单_详细订单」,连接字段选择product_id;
  2. 第二个 Transform 选择「订单_产品信息」,连接字段选择id;
  3. 连接类型选择LEFT OUTER(左外连接),以订单明细数据为基准,关联匹配产品基础信息;
  4. 点击【获得连接字段】可自动读取并填充对应字段,配置完成后点击【确认】。

字段选择组件配置

字段选择组件的核心作用是对数据流中的字段进行裁剪、重命名等处理,本步骤用于移除关联后重复的冗余字段

两表关联后,product_id与id为同义关联字段,仅需保留一个。双击组件打开配置窗口,切换至【移除】页签,选择id字段完成移除配置,点击【确认】即可。

过滤记录组件配置

过滤记录组件的核心作用是根据业务条件对数据流进行分流,将匹配 / 不匹配条件的数据分别发送至不同的下游步骤。

双击组件打开配置弹窗,先完成分流目标配置: 发送匹配的结果给:选择「盈利订单」; 发送不匹配的结果给:选择「亏损订单」。

条件规则配置:选择判断字段为利润(Number),作为业务判断依据;

设置判断条件为 >=,对比值为0,即利润≥0 的订单判定为盈利订单,其余为亏损订单,配置完成后点击【确认】。

表输出组件配置

表输出组件的核心作用是将处理完成的数据流写入目标数据库表,完成 ETL 流程的数据落地。

双击「盈利订单」表输出组件打开配置弹窗,在【基本配置】页签完成核心配置:

  1. 选择已配置好的数据库连接,设置目标模式为supermarket、目标表为profit_order;
  2. 按需配置提交记录数量、是否裁剪表等参数,勾选【指定数据库字段】,开启自定义字段映射。

切换至【数据库字段】页签,点击【获取字段映射】,系统将自动匹配数据流字段与目标表字段的映射关系,可按需手动调整,配置完成后点击【确认】。

参考上述步骤,完成「亏损订单」表输出组件的配置,对应目标表为亏损订单表即可

执行转换任务

组件配置完成后,可执行转换任务,同时可对执行任务进行相应配置(如选择执行方式,选择日志级别等),配置完毕后点击启动即可执行工作流,如下所示

查看执行结果和日志

任务执行过程中,平台会实时输出运行日志;执行完成后,可通过以下两个维度查看完整执行结果,验证任务运行状态。

【运行日志】:通过【日志】页签,可查看全流程执行日志,包括每个步骤的执行状态、处理记录数、异常报错信息等,定位任务执行详情。

【步骤度量】:通过【步骤度量】页签,可查看每个组件的量化执行指标,包括读写记录数、执行耗时、处理速度、运行状态等,直观评估任务执行性能与结果准确性。