随机森林
简介
随机森林是一种集成学习方法,由多个决策树构成。每个决策树都是基于随机选择的特征和数据子集进行构建的,因此不同决策树之间是相互独立的。
随机森林在训练时会对每个决策树进行“投票”,并将最终结果作为预测结果。随机森林在分类和回归问题上都有很好的表现,并且对于输入数据中的噪声和缺失值具有较强的鲁棒性。
算法参数及说明
参数 | 说明 |
---|---|
树的数量 | 默认10 |
树的最大深度(非必填) | 默认空 |
最小分割子集 | The minimum number of samples required to split an internal node, 默认2 |
叶节点最小样本数 | The minimum number of samples required to be at a leaf node, 默认1 |
最大叶子节点数 | 默认空 |
权重 | The minimum weighted fraction of the sum total of weights, 默认0 |
构建树时是否使用自举样本 | Whether bootstrap samples are used when building trees, 默认true |
out-of-bag score | Whether to use out-of-bag samples to estimate the generalization score, 默认false |
案例
案例数据下载:iris.xlsx
案例介绍:Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
- Sepal.Length(花萼长度),单位是cm;
- Sepal.Width(花萼宽度),单位是cm;
- Petal.Length(花瓣长度),单位是cm;
- Petal.Width(花瓣宽度),单位是cm;
- 种类:Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾),以及Iris Virginica(维吉尼亚鸢尾)。
制作流程:
-
选择iris数据集;
-
在智能分析图表中选择随机森林;
-
在设置中的基础配置中选择状态为成功的随机森林模型,** 注意:数据集字段必须包含已选择的随机森林模型所使用的训练集字段 **;
如果模型列表中没有模型,需要创建模型,创建模型的链接:机器学习模型管理
-
进行数据探索
展示结果以表数据展示