连续化
组件介绍
“连续化”(Continuize) 控件用于离散型属性进行连续化处理。
“连续化”(Continuize) 控件根据用户配置对数据中的离散型属性进行连续化处理,连续化处理时会把离散属性按照N位或N-1位状态寄存器(N代表离散属性值的个数)对离散属性值进行编码,该控件可以视为独热编码功能的增强。
- 输入:
- data:数据集
- 输出:
- data:处理后的数据集
页面介绍
点击 “连续化”(Continuize) 控件查看参数配置页面,如下图所示:
获取属性信息的逻辑如下:
- 优先解析直接上游组件的输出结果,需要您先将上游组件运行成功
- 如1不满足,将会追溯源头的File、SQL Table等加载数据的属性信息
若属性信息获取错误,可通过重置控件重新获取。
参数选项
选项 | 说明 | 取值范围 | 样例值 |
---|---|---|---|
多值离散属性 | Continuize 控件对一般属性中的离散型属性进行处理。 | 以目标/第一个取值为基础 | 以最频值为基础 |
连续属性 | 定义连续型属性的处理: | 保持不变 | 保持不变 |
离散分类属性 | 离散分类属性的处理: | 保持不变 | 保持不变 |
取值范围 | 指定属性的值的范围 ‘从-1到1’或‘从0到1’ 。 | 从-1到1 | 从0到1 |
使用案例
在下图所示的案例中,使用 “加载文件”(File) 控件加载数据,通过 “查看数据”(Data Table) 控件查看加载数据的信息,同时使用 “连续化”(Continuize) 控件对数据集进行连续化处理,之后通过 “查看数据”(Data Table) 控件查看处理后的数据集。
案例中加载 titanic 数据集,在进行连续化处理时,对多值离散属性采用“以目标/第一个取值为基础”的方式进行连续化处理,对连续型属性采用“保持不变”的处理方式,对离散分类属性采用“每个取值一个属性”的方式进行连续化处理,取值范围选取为 0-1。案例中控件的配置以及执行结果如下图所示。