决策树
简介
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其 可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。
在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。
算法参数及说明
参数 | 说明 |
---|---|
树的最大深度(非必填) | 默认空 |
最小分割子集 | 默认2 |
叶节点最小样本数 | 默认1 |
案例
案例数据下载:iris.xlsx
案例介绍:Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
- Sepal.Length(花萼长度),单位是cm;
- Sepal.Width(花萼宽度),单位是cm;
- Petal.Length(花瓣长度),单位是cm;
- Petal.Width(花瓣宽度),单位是cm;
- 种类:Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾),以及Iris Virginica(维吉尼亚鸢尾)。
制作流程:
-
选择iris数据集;
-
在智能分析图表中选择决策树;
-
在设置中的基础配置中选择状态为成功的决策树模型,** 注意:数据集字段必须包含已选择的决策树模型所使用的训练集字段 **;
如果模型列表中没有模型,需要创建模型,创建模型的链接:机器学习模型管理
-
进行数据探索
展示结果可以是表或决策树图, 决策树图如下所示: