CSV 文件输入
组件介绍
组件图标

组件作用
CSV 文件输入是数据流水线的核心输入类组件,用于读取 CSV、TXT 等格式的结构化文本文件,将文件内容解析为标准化的数据流,供下游组件进行数据清洗、转换、分析等后续操作。
- 注意:读取文件时,需确保配置的列分隔符、封闭符、文件编码与源文件的实际格式完全一致,否则会出现数据解析异常、乱码、字段错位等问题。
输入输出描述
- 输入:需要读取的 CSV 或 txt 格式的文本文件
- 输出:读取的 CSV 或 txt 格式的文本文件的数据
页面介绍
运行“CSV文件输入”组件得到下图所示的界面:

参数选项
“CSV文件输入”组件页面包含如下选项:
| 选项 | 说明 | 样例值 |
|---|---|---|
| 步骤名称 | 画布中该组件的唯一标识名称,支持自定义修改,默认值为「CSV 文件输入」 | CSV文件输入 |
| 文件名 | 待读取的 CSV 文件路径,可直接填写,也可点击「浏览文件」按钮从平台文件库中选择目标文件 | 组件演示数据/输入数据/project.csv |
| 列分隔符 | 源文件中用于分割字段的分隔符号,需与源文件实际格式一致,默认值为英文分号「;」 | ; |
| 封闭符 | 用于包裹包含特殊字符(如分隔符、换行符)的字段内容的符号,避免特殊字符导致解析异常 | " |
| NIO缓存大小 | 文件读取时的 NIO 缓冲区字节数,用于控制单次读取的文件数据量,默认值为 50000 | 50000 |
| 简易转换? | 勾选后启用惰性转换算法,跳过不必要的数据类型转换,大幅提升纯文本文件读写场景的性能,适用于读取文件后直接写入文本类目标的场景 | 勾选 |
| 包含列头行 | 勾选后,将源文件的第一行识别为字段名称(列头),不纳入业务数据行 | 勾选 |
| 将文件添加到结果文件中 | 勾选后,将本次读取的源文件名称添加到工作流的结果文件列表中,便于后续流程追溯 | 不勾选 |
| 行号字段(可选) | 配置后,将在输出数据流中新增一个指定名称的字段,用于记录每行数据在源文件中的行号 | row_no |
| 并发运行? | 勾选后启用多实例并发读取,多个组件副本会自动拆分文件总大小并分担读取负载,提升大文件 / 多文件读取效率。启用时需确保所有副本均可访问到全部待读取文件 | 不勾选 |
| 字段中有回车换行? | 勾选后,支持 解析字段内容中包含的回车换行符,避免换行符导致的行数据拆分异常 | 不勾选 |
| 编码 | 源文件的字符编码格式,需与文件实际编码一致,避免乱码 | UTF-8 |
字段表
组件底部的字段配置表,用于定义输出字段的元数据规则。点击「获取字段」按钮,组件会根据已配置的源文件信息,自动读取文件结构并填充字段配置表,也支持手动新增、修改、删除字段配置。
字段表包含以下列:
| 列名 | 说明 | 样例值 |
|---|---|---|
| 名称 | 输出字段的唯一名称,需与源文件列头(若有)对应 | project_name |
| 类型 | 字段的数据类型,支持 String、Date、Number 等多种类型 | String |
| 格式 | 字段数据的格式化掩码,用于规范日期、数字等类型的解析规则 | yyyy/MM/dd |
| 长度 | 字段的长度限制,取决于字段类型: Number:数字中有效数字的总数。 String:字符串的总长度。 Date:字符串的打印输出长度 | 9 |
| 精度 | 数字类型字段的小数位数,非数字类型无需配置 | 2 |
| 货币类型 | 货币类型字段的符号标识,如人民币「¥」、美元「$」 | ¥ |
| 小数点符号 | 数字的小数点分隔符,支持「.」或「,」 | . |
| 分组符号 | 数字的千分位分组符号,支持「,」或「.」 | , |
| 空格清除方式 | 对字符串类型字段的空格处理规则,支持去除首尾空格、全部空格等 | 去除首尾空格 |
案例示例
本示例通过CSV 文件输入组件,读取平台文件库中的 project.csv 文件,将其解析为标准化的结构化数据流,完成 CSV 文件到平台的标准化数据接入。总体流程如下图所示:

案例数据
数据文件:project.csv

该文件共包含6条数据
| 列名 | 说明 |
|---|---|
| project_name | 项目名称 |
| start_date | 项目开始时间 |
| end_date | 项目结束时间 |
案例操作
该步骤将本地的 csv 文件上传至平台文件库中,为【CSV文件输入】组件提供数据输入来源。
上传成功的csv文件可在 UDI 文件库 中看到。
②csv文件输入
该步骤把csv 文件读取到平台中。
该组件配置主要分为 4 步:
- 第一步:选择需要加载的文件;

- 第二步:设置“列分隔符”与“封闭符”;

- 第三步:选择文件“编码”格式(文件有特殊编码格式时才需要设置);

- 第四步:获取输入字段;

结果预览
完成全部配置后,点击「预览」按钮,即可查看组件解析后的输出数据,如下图所示:

常见问题
-
获取字段时乱码
请确认编码是否与文件编码一致,编码不一致会出现乱码
-
数据解析错位,一行数据被拆分为多行
检查「列分隔符」配置是否与源文件实际使用的分隔符一致;
若字段内容中包含回车换行符,请勾选「字段中有回车换行?」选项;
确认「封闭符」配置正确,确保包含分隔符的字段被正确包裹识别。
