脏数据处理
案例说明
在处理真实的数据集时,数据往往并不是完美无瑕的,其中会夹杂的一些“脏”数据。在数据处理的过程中,不能一味的把错误的数据丢弃,必须制定完善的错误处理步骤来处理那些“脏”数据。本小节主要是展示错误数据的处理。
为脏数据添加默认值
首先使用CSV文件输入组件读取演示数据。通过字段选择步骤将【estimated】的数据类型转为 Integer 类型。但是在第 6 行数据当中存在一个“脏”数据,会阻碍组件的转换。这时,为了处理这个错误,可以将错误输出发 送到写日志步骤,然后再做进一步的处理,紧接着用增加常量为错误字段定义默认值。本小节中将【estimated】的默认值设为 180。具体操作如下:
- 在“输入”中拖入CSV文件输入组件,选择project.txt,并使用获取字段初始化字段信息。配置如下图所示:
2. 拖入字段选择组件并连接CSV文件输入组件,选择主输出步骤进行连接。双击组件打开组件编辑页面,在元数据标签页中使用获取字段初始化字段信息,将 estimated 字段类型更改为 Integer(原为 String 类型),目的是让这一组件报错,配置如下图所示:
- 拖入写日志组件,并建立从字段选择到写日志之间的错误输出步骤连接。如下图所示:
4. 点击定义错误处理弹出提示框,在错误描述列名输入error_desc
- 拖入计算器组件,连接字段选择,在弹出的提示框中选择主输出步骤,双击计算器组件,配置如下图所示:
6. 拖入字段选择组件并连接至写日志步骤,“字段选择”配置如下图所示:
- 拖入增加常量组件,建立从字段选择到增加常量之间的连接,在建立从增加常量到计算器之间的连接,完整的转换视图如下图所示:
8. 双击增加常量,配置如下图所示:
9. 运行转换,结果如下图所示: