快速入门
本教程将通过 「超市订单数据拆分盈利 / 亏损订单」 的实战场景,带您快速掌握助睿 ETL 数据集成平台的核心操作,完整实现从数据接入、清洗转换、规则分流到数据落地的全流程转换任务开发。
前期准备
前置条件:已完成系统账号登录,且拥有数据集成平台的操作权限。
操作步骤:登录系统后,在顶部导航栏依次点击【数据集成】→【集成工作流设计】,即可进入助睿 ETL 数据集成平台主界面。
项目管理
进入数据集成平台,会默认显示项目列表,如下图所示:

选中 default 项目,点击“打开项目”,进入 default 项目。

新建转换
转换(Pipeline)是平台面向数据流处理的核心单元,用于承载数据接入、清洗、转换、分流、输出等全流程 ETL 逻辑。
在平台左侧资源库面板, 通过顶部操作栏或右键菜单,选择【新建转换】,即可创建一个空白的转换任务,用于后续流程搭建,如下图所示:

添加组件与流程拓扑搭建
本部分教程的目标为:基于超市订单明细数据与产品基础数据,通过多表关联、字段裁剪、条件过滤,拆分出盈利订单与亏损订单,并分别写入对应的目标数据表。
按以下步骤完成组件添加与流程连线,搭建完整的转换拓扑:
(1)添加两个表输入组件,分别命名为订单_详细订单和订单_产品信息,用于接入两类源业务数据;
(2)添加记录集连接组件,并命名为记录集连接,同时创建两个表输入组件到该组件的连接,用于实现两表数据关联;
(3)添加字段选择组件命名为移除产品ID_1字段,并创建记录集连接组件到字段选择组件的连接线,用于裁剪冗余字段;
(4)添加过滤记录组件命名为过滤记录,并创建字段选择组件到过滤记录组件的连接线,用于按业务规则实现数据流分流;
(5)添加两个表输出组件,分别命名为盈利订单和亏损订单,并创建过滤记录组件到两个表输出组件的连接线,用于将分流后的数据写入目标表。
完成后,完整的转换流程拓扑如下图所示:

组件参数配置
完成流程拓扑搭建后,需对每个组件进行业务参数配置,实现数据处理逻辑的落地。
表输入组件配置
表输入组件的核心作用是从业务数据库中读取源数据,是 ETL 流程的数据入口。
双击订单_详细订单表输入组件,打开组件配置窗口。点击新建建立数据库连接,完成 MySQL 等业务数据库的连接信息配置,配置完成后可通过【测试】按钮验证连通性。

数据库连接配置完成后,点击【获取 SQL 查询语句】,在数据库浏览弹窗中选择目标表【supermarket.order_detail】,自动生成 SQL 查询语句,按需选取订单明细所需字段

订单_详细订单表输入组件最终配置如下::

参考上述步骤,完成「订单_产品信息」表输入组件的配置,数据库连接可复用已创建的连接,目标表为【supermarket.product】,配置完成后如下图所示:

记录集连接组件配置
记录集连接组件的核心作用是对两个输入数据集进行关联合并,对应 SQL 中的 JOIN 关联操作。
双击组件打开配置窗口,完成以下配置:
- 第一个 Transform 选择「订单_详细订单」,连接字段选择product_id;
- 第二个 Transform 选择「订单_产品信息」,连接字段选择id;
- 连接类型选择LEFT OUTER(左外连接),以订单明细数据为基准,关联匹配产品基础信息;
- 点击【获得连接字段】可自动读取并填充对应字段,配置完成后点击【确认】。

字段选择组件配置
字段选择组件的核心作用是对数据流中的字段进行裁剪、重命名等处理,本步骤用于移除关联后重复的冗余字段
两表关联后,product_id与id为同义关联字段,仅需保留一个。双击组件打开配置窗口,切换至【移除】页签,选择id字段完成移除配置,点击【确认】即可。
