离散化
组件介绍
“离散化”(Discretize) 控件用于对数据中的数值型属性进行离散化操作。
“离散化”(Discretize) 控件将数据中的数值型属性转换位离散型属性,离散化操作一般是在数据的取值范围内设定若干个离散的划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表落在每个子区间中的数据值。
- 输入:
- data:数据集
- 输出:
- data:处理后的数据集
页面介绍
点击 “离散化”(Discretize) 控件查看参数配置页面,如下图所示:
点击 “详细配置” 按钮,对数据集的连续型属性进行详细配置:
获取属性信息的逻辑如下:
- 优先解析直接上游组件的输出结果,需要您先将上游组件运行成功
- 如1不满足,将会追溯源头的File、SQL Table等加载数据的属性信息
若属性信息获取错误,可通过重置控件重新获取。
参数选项
选项 | 说明 | 取值范围 | 样例值 |
---|---|---|---|
默认设置 | Discretize 控件提供了以下几种基本的离散方式(点击后将应用于所有连续型属性上): | 等频划分 | 等频划分 |
单属性设置 | Discretize 控件也提供了对属性的单独处理。 | 默认 | 默认 |
使用案例
在下图所示的案例中,使用 “加载文件”(File) 控件加载数据,通过 “查看数据”(Data Table) 控件查看加载数据的信息,同时使用 “离散化”(Discretize) 控件对数据集进行离散化处理,之后通过 “查看数据”(Data Table) 控件查看处理后的数据集。
案例中加载 iris 数据集,在进行离散化处理时,默认使用“等宽划分”,“详细配置”时,对【sepal length】属性采用“保留原始数值”的操作,对【sepal width】采用“Entropy-MDL”的方式进行离散化。案例中控件的配置以及执行结果如下图所示。