全量抽取
案例说明
数据抽取将数据从不同的数据源抽取中出来并存储在数据缓存区。这个过程的主要挑战就是初始加载的数据量大和比较慢的网络延迟。但在抽取数据量较小时,可以考虑每次清除缓存区并重新加载的形式。这种形式操作简单,不用考虑数据的历史变化,适合于数据量较小(百万级以下)的场景。
数据准备
本案例中“直接抽取”小节将使用customers.csv数据;
本案例中“多副本抽取”小节将使用actor.csv数据;
以上数据文件均从“UDI Studio 平台”的“公共空间”里面获取
直接抽取
具体操作如下:
1、新建转换,拖拽“CSV文件输入”组件至画布,双击组件,在弹出的对话框中单击“浏览文件”,选择需要读取的CSV文件。并在下方数据区域点击右键,选择“获取字段”,配置如下图所示:
2、配置好“CSV文件输入”组件后,选中该组件,右击并选中“预览”查看数据。结果如下图所示:
3、将“字段选择”组件拖至画布,并建立从“CSV文件输入”到“字段选择”的连接。双击“字段选择”,点击右键“获取字段”,(若要移除部分字段或者修改某些字段的名称,均可在”字段选择”组件中进行)。配置如下图所示:
4、将“文本文件输出”组件拖至画布,并建立从“字段选择”到“文本文件输出”的连接。双击“文本文件输出”,配置如下图所示:
5、点击画布左上角“”按钮运行转换,并在弹出的提示框中点击“启动”按钮,即可运行整个转换。结果如下图所示:可发现customer.csv文件内容已被抽取到customer.txt文件中。
运行转换后得到的customer.csv文件如下图所示:
运行结果:
多副本抽取
具体操作如下:
1、新建转换,拖拽“CSV文件输入”组件至画布,双击组件,在弹出的对话框中单击“浏览文件”,选择需要读取的CSV文件。并在下方数据区域点击右键,选择“获取字段”,配置如下图所示:
2、配置好“CSV文件输入”组件后,选中该组件,右击并选中“预览”查看数据。结果如下图所示:
3、将“字段选择”组件拖至画布,并建立从“CSV文件输入”到“字段选择”的连接。双击“字段选择”,点击 右键“获取字段”,(若要移除部分字段或者修改某些字段的名称,均可在”字段选择”组件中进行)。配置如下图所示:
4、将“文本文件输出”组件拖至画布,并建立从“字段选择”到“文本文件输出”的连接。双击“文本文件输出”,配置如下图所示:
5、选择“文本文件输出”,单击右键,选择“副本数”,调整要生成的“副本数”。配置如下图所示:
6、点击画布左上角“”按钮运行转换,并在弹出的提示框中点击“启动”按钮,即可运行整个转换。结果如下图所示:可发现actor.csv文件内容已被抽取到三个副本actor0.txt、actor1.txt、actor2.txt文件中。