覆盖主要内容
版本: 6.1.0

CSV 文件输入

组件介绍

组件图标

组件作用

CSV 文件输入是数据流水线的核心输入类组件,用于读取 CSV、TXT 等格式的结构化文本文件,将文件内容解析为标准化的数据流,供下游组件进行数据清洗、转换、分析等后续操作。

  • 注意:读取文件时,需确保配置的列分隔符、封闭符、文件编码与源文件的实际格式完全一致,否则会出现数据解析异常、乱码、字段错位等问题。

输入输出描述


  • 输入:需要读取的 CSV 或 txt 格式的文本文件
  • 输出:读取的 CSV 或 txt 格式的文本文件的数据

页面介绍

运行“CSV文件输入”组件得到下图所示的界面:

参数选项

CSV文件输入”组件页面包含如下选项:

选项说明样例值
步骤名称画布中该组件的唯一标识名称,支持自定义修改,默认值为「CSV 文件输入」CSV文件输入
文件名待读取的 CSV 文件路径,可直接填写,也可点击「浏览文件」按钮从平台文件库中选择目标文件组件演示数据/输入数据/project.csv
列分隔符源文件中用于分割字段的分隔符号,需与源文件实际格式一致,默认值为英文分号「;」;
封闭符用于包裹包含特殊字符(如分隔符、换行符)的字段内容的符号,避免特殊字符导致解析异常"
NIO缓存大小文件读取时的 NIO 缓冲区字节数,用于控制单次读取的文件数据量,默认值为 5000050000
简易转换?勾选后启用惰性转换算法,跳过不必要的数据类型转换,大幅提升纯文本文件读写场景的性能,适用于读取文件后直接写入文本类目标的场景勾选
包含列头行勾选后,将源文件的第一行识别为字段名称(列头),不纳入业务数据行勾选
将文件添加到结果文件中勾选后,将本次读取的源文件名称添加到工作流的结果文件列表中,便于后续流程追溯不勾选
行号字段(可选)配置后,将在输出数据流中新增一个指定名称的字段,用于记录每行数据在源文件中的行号row_no
并发运行?勾选后启用多实例并发读取,多个组件副本会自动拆分文件总大小并分担读取负载,提升大文件 / 多文件读取效率。启用时需确保所有副本均可访问到全部待读取文件不勾选
字段中有回车换行?勾选后,支持解析字段内容中包含的回车换行符,避免换行符导致的行数据拆分异常不勾选
编码源文件的字符编码格式,需与文件实际编码一致,避免乱码UTF-8

字段表

组件底部的字段配置表,用于定义输出字段的元数据规则。点击「获取字段」按钮,组件会根据已配置的源文件信息,自动读取文件结构并填充字段配置表,也支持手动新增、修改、删除字段配置。

字段表包含以下列:

列名说明样例值
名称输出字段的唯一名称,需与源文件列头(若有)对应project_name
类型字段的数据类型,支持 String、Date、Number 等多种类型String
格式字段数据的格式化掩码,用于规范日期、数字等类型的解析规则yyyy/MM/dd
长度字段的长度限制,取决于字段类型: Number:数字中有效数字的总数。 String:字符串的总长度。 Date:字符串的打印输出长度9
精度数字类型字段的小数位数,非数字类型无需配置2
货币类型货币类型字段的符号标识,如人民币「¥」、美元「$」
小数点符号数字的小数点分隔符,支持「.」或「,」.
分组符号数字的千分位分组符号,支持「,」或「.」,
空格清除方式对字符串类型字段的空格处理规则,支持去除首尾空格、全部空格等去除首尾空格

案例示例

本示例通过CSV 文件输入组件,读取平台文件库中的 project.csv 文件,将其解析为标准化的结构化数据流,完成 CSV 文件到平台的标准化数据接入。总体流程如下图所示:

案例数据

数据文件:project.csv

该文件共包含6条数据

列名说明
project_name项目名称
start_date项目开始时间
end_date项目结束时间

案例操作

①文件上传

该步骤将本地的 csv 文件上传至平台文件库中,为【CSV文件输入】组件提供数据输入来源。
上传成功的csv文件可在 UDI 文件库中看到。

②csv文件输入

该步骤把csv 文件读取到平台中。
该组件配置主要分为 4 步:

  • 第一步:选择需要加载的文件;
  • 第二步:设置“列分隔符”与“封闭符”;
  • 第三步:选择文件“编码”格式(文件有特殊编码格式时才需要设置);
  • 第四步:获取输入字段;

结果预览

完成全部配置后,点击「预览」按钮,即可查看组件解析后的输出数据,如下图所示:

常见问题

  • 获取字段时乱码

    请确认编码是否与文件编码一致,编码不一致会出现乱码

  • 数据解析错位,一行数据被拆分为多行

    检查「列分隔符」配置是否与源文件实际使用的分隔符一致;

    若字段内容中包含回车换行符,请勾选「字段中有回车换行?」选项;

    确认「封闭符」配置正确,确保包含分隔符的字段被正确包裹识别。