主题模型
组件介绍
“主题模型”(Topic Modelling) 控件用于对输入的文本数据集进行情感分析。
“主题模型”(Topic Modelling) 控件根据每篇文档中的词组及词频来发现语料库中的抽象主题。一个文档通常包含不同比例的多个主题,因此该控件还能计算每个文档中的主题权重。支持的主题模型算法有隐式语义索引(LSI),潜在狄利克雷分布(LDA)
- 输入:
- cor:文本数据集
- 输出:
- cor:文本数据集
- selTop:选择主题的单词权重
- allTop:所有关键字的权重
页面介绍
点击 “主题模型”(Topic Modelling) 控件查看参数配置页面,如下图所示:
点击 “查看数据” 按钮,进行文本搜索:
参数选项
选项 | 说明 | 样例值 | |
---|---|---|---|
基本信息 | 模型: | 隐式语义索引 | 隐式语义索引 |
使用案例
在下图所示的案例中,使用 “加载语料库”(Corpus) 控件加载文本数据集,使用 “语料库查看器”(Corpus Viewer) 查看文本数据,同时连接 “主题模型”(Topic Modelling) 控件进对数据进行处理,之后使用 “语料库查看器”(Corpus Viewer) 控件查看处理后的数据。
案例中加载 andersen 数据集,参数使用默认参数,案例中控件的配置以及执行结果如下图所示。