层次聚类
简介
层次聚类是一种无监督学习算法,用于将数据集中的样本分组成不同的层次结构。该算法通过计算样本之间的相似度或距离,将最相 似的样本归为一组,并逐步合并不同组,形成一个层次结构。
在层次聚类中,有两种方法:凝聚聚类和分裂聚类。凝聚聚类从每个样本开始,逐步合并成越来越大的组,直到所有样本都在同一组中。而分裂聚类则从所有样本开始,逐步分裂成越来越小的子组。
在进行层次聚类时,需要选择相似度或距离度量方法,例如欧氏距离、曼哈顿距离、余弦相似度等。同时还需要选择合适的聚类算法和停止条件,例如最大距离、最小距离、平均距离等。
应用领域
层次聚类算法可以用于许多领域,例如生物学、社会科学、市场营销等。它可以帮助人们发现数据中的模式和结构,并提供有用的信息来指导决策。
算法参数及说明
参数 | 说明 |
---|---|
聚簇数 | 默认2 |
案例
案例数据下载:iris.xlsx
案例介绍:Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据 样本,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
- Sepal.Length(花萼长度),单位是cm;
- Sepal.Width(花萼宽度),单位是cm;
- Petal.Length(花瓣长度),单位是cm;
- Petal.Width(花瓣宽度),单位是cm;
- 种类:Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾),以及Iris Virginica(维吉尼亚鸢尾)。
制作流程:
- 选择iris数据集;
- 在智能分析图表中选择层次聚类;
- 设置目标属性和特征属性;
- 设置聚簇数值;
- 点击执行预测;
- 设置X轴属性和Y轴属性;