频繁项集
组件介绍
“频繁项集”(Frequent Itemsets) 控件基于支持度度量规则找出数据集中的频繁项集,频繁项集一般指支持度大于等于最小支持度(min_sup)的集合,其中支持度是指某个集合在所有事务中出现的频率。
频繁项集挖掘是数据挖掘研究课题中一个很重要的研究基础,它可以告诉我们在数据集中经常一起出现的变量,为可能的决策提供一些支持。频繁项集挖掘是关联规则、相关性分析、因果关系、序列项集、局部周期性、情节片段等许多重要数据挖掘任务的基础。因此,频繁项集有着很广泛的应用,例如:购物篮数据分析、网页预取、交叉购物、个性化网站、网络入侵检测等。
- 输入:
- data:数据集
- 输出:
- data:符合判定条件的数据示例
页面介绍
点击 “频繁项集”(Frequent Itemsets) 控件查看参数配置页面,如下图所示:
参数选项
选项 | 说明 | 取值范围 | 样例值 |
---|---|---|---|
查找项集 | 用户可以通过设置项集搜索的条件查找项集: | 最小支持度: | 最小支持度:1% |
过滤项集 | 过滤项集:为用户提供用来过滤项集的正则表达式匹配操作。需要匹配多个词时,可以用逗号将各个正则表达式分隔开 | 包含:用户可以使用空格分隔的正则表达式过滤项集 | 包含:female |
频繁项集表
设置参数后,点击“查找项集”按钮,即可根据当前指定设置查找满足过条件的项集树。
该表包含以下列:
列名 | 说明 |
---|---|
项集 | 关联项集信息 |
支持度 | 所生成的项集包含的实例数 |
% | 所生成的项集在数据集中的占比 |
使用案例
在下图所示的案例中,使用 “文件加载”(File) 控件加载数据,使用 “查看数据”(Data Table) 控件查看数据集内容,通过 “频繁项集”(Frequent Itemsets) 查找满足条件的项集。
案例中加载 titanic 示例数据集,案例中控件执行结果如下图所示: