数据抽样
组件介绍
“数据抽样”(Data Sampler) 控件实现了多种采样方法对输入数据集进行抽样。
“数据抽样”(Data Sampler) 控件提供了固定比例抽样,固定样本大小抽样,交叉验证抽样和自助式抽样四种抽样方式,该控件方便用户把一个数据拆分为两个集合(抽样数据及剩余数据),拆分后的数据其中一个可用于模型训练即作为训练集,另一个可作为测试集使用。
- 输入:
- data:数据集
- 输出:
- smp:抽样后的数据集
- rmn:来自输入数据集的所有其他数据(不包含抽样后的数据)
页面介绍
点击 “数据抽样”(Data Sampler) 控件查看参数配置页面,如下图所示:
参数选项
选项 | 说明 | 取值范围 | 样例值 |
---|---|---|---|
抽样类型 | 固定比例:采样的数据集大小为整个数据集大小乘以设定的百分比 | 固定比例: | 固定比例: |
其它选项 | 根据需求选择是否可重复抽样以及分层抽样 | 勾选/不勾选 | 不勾选 |
使用案例
在下图所示的案例中,使用 “加载文件”(File) 控件加载数据,通过 “数据信息”(Data Info) 控件查看加载数据的信息,同时使用 “数据抽样”(Data Sampler) 控件进行数据采样,之后通过 “查看数据”(Data Table) 控件查看处理后的数据集。
在案例中加载 titanic 数据集,使用了固定比例的采样方式进行数据采样,采样比例设定为20%。案例中控件的配置以及执行结果如下图所示。