覆盖主要内容
版本: 下个版本

自动分类

简介

统计分类是机器学习非常重要的一个组成部分,它的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。分类是监督学习的一个实例,根据已知训练集提供的样本,通过计算选择特征参数,创建判别函数以对样本进行的分类。与之相对的是无监督学习,例如聚类分析。

自动化分类是Uniplore idis根据训练集提供的样本,通过计算选择特征参数,自动选择合适的分类算法,得到的分类结果比随机选择某种分类算法更准确。

相关概念

机器学习模型

机器学习模型是一种算法的表达,它通过梳理海量数据来查找模式或进行预测。

常见的分类算法

  • 逻辑回归(Logistic Regression)
  • 朴素贝叶斯(Naive Bayes)
  • 最近邻(K-Nearest Neighbors)
  • 决策树(Decision Tree)
  • 支持向量机(Support Vector Machines)

算法参数及说明

参数说明
无参数

案例

案例数据下载iris.xlsx

案例介绍:Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

  • Sepal.Length(花萼长度),单位是cm;
  • Sepal.Width(花萼宽度),单位是cm;
  • Petal.Length(花瓣长度),单位是cm;
  • Petal.Width(花瓣宽度),单位是cm;
  • 种类:Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾),以及Iris Virginica(维吉尼亚鸢尾)。

制作流程

  1. 选择iris数据集;

  2. 在智能分析图表中选择自动分类;

  3. 在设置中的基础配置中选择状态为成功的分类模型,** 注意:数据集字段必须包含已选择的分类模型所使用的训练集字段 **;

    如果模型列表中没有模型,需要创建模型,创建模型的链接:机器学习模型管理

  4. 进行数据探索

展示结果可以是表或散点图