覆盖主要内容
版本: 下个版本

全量抽取

案例说明

数据抽取将数据从不同的数据源抽取中出来并存储在数据缓存区。这个过程的主要挑战就是初始加载的数据量大和比较慢的网络延迟。但在抽取数据量较小时,可以考虑每次清除缓存区并重新加载的形式。这种形式操作简单,不用考虑数据的历史变化,适合于数据量较小(百万级以下)的场景。

数据准备

本案例中“直接抽取”小节将使用customers.csv数据;

本案例中“多副本抽取”小节将使用actor.csv数据;

以上数据文件均从“UDI Studio 平台”的“公共空间”里面获取

直接抽取

具体操作如下:

1、新建转换,拖拽“CSV文件输入”组件至画布,双击组件,在弹出的对话框中单击“浏览文件”,选择需要读取的CSV文件。并在下方数据区域点击右键,选择“获取字段”,配置如下图所示:

  2、配置好“CSV文件输入”组件后,选中该组件,右击并选中“预览”查看数据。结果如下图所示:

  3、将“字段选择”组件拖至画布,并建立从“CSV文件输入”到“字段选择”的连接。双击“字段选择”,点击右键“获取字段”,(若要移除部分字段或者修改某些字段的名称,均可在”字段选择”组件中进行)。配置如下图所示:

  4、将“文本文件输出”组件拖至画布,并建立从“字段选择”到“文本文件输出”的连接。双击“文本文件输出”,配置如下图所示:

5、点击画布左上角“”按钮运行转换,并在弹出的提示框中点击“启动”按钮,即可运行整个转换。结果如下图所示:可发现customer.csv文件内容已被抽取到customer.txt文件中。  

 运行转换后得到的customer.csv文件如下图所示:

运行结果:

多副本抽取

具体操作如下:

1、新建转换,拖拽“CSV文件输入”组件至画布,双击组件,在弹出的对话框中单击“浏览文件”,选择需要读取的CSV文件。并在下方数据区域点击右键,选择“获取字段”,配置如下图所示:

2、配置好“CSV文件输入”组件后,选中该组件,右击并选中“预览”查看数据。结果如下图所示:

  3、将“字段选择”组件拖至画布,并建立从“CSV文件输入”到“字段选择”的连接。双击“字段选择”,点击右键“获取字段”,(若要移除部分字段或者修改某些字段的名称,均可在”字段选择”组件中进行)。配置如下图所示:

  4、将“文本文件输出”组件拖至画布,并建立从“字段选择”到“文本文件输出”的连接。双击“文本文件输出”,配置如下图所示:

5、选择“文本文件输出”,单击右键,选择“副本数”,调整要生成的“副本数”。配置如下图所示:

6、点击画布左上角“”按钮运行转换,并在弹出的提示框中点击“启动”按钮,即可运行整个转换。结果如下图所示:可发现actor.csv文件内容已被抽取到三个副本actor0.txt、actor1.txt、actor2.txt文件中。