版本: 6.1.0

文本增强

组件介绍

“文本增强”（Word Enrichment） 控件对文本数据集进行词富集分析。

“文本增强”（Word Enrichment） 控件显示选中子集 p 值列表。p 值越低，表明所选子集单词是重要的可能性更高。FDR（错误发现率）与 p 值相关联，表示的是预测集合中错误预测的预期百分比，即低 p 值列表中的假阳性。

输入：
- sel：从语料库中选择的实例
- cor：文本数据集
输出：
- 无

页面介绍

点击 “文本增强”（Word Enrichment） 控件查看参数配置页面，如下图所示：

点击 “查看结果” 按钮，查看分析结果：

参数选项

选项	说明	取值范围	样例值
基本信息	显示的单词	单词个数信息
过滤	p 值 FDR(错误发现率) 获取结果：点击”获取结果“，根据设置在右侧显示单词列表	p值：01 FDR(错误发现率)：01	p值：0.01 FDR(错误发现率)：0.2

使用案例

在下图所示的案例中，使用 “加载语料库”（Corpus） 控件连接 “词袋”（Bag of Words） 控件，使用 “数据抽样”（Data Sampler） 连接 “词袋”（Bag of Words） 控件，使用 “数据抽样（Data Sampler）” 的输出smp、rmn分别连接 “文本增强”（Word Enrichment） 控件的sel、cor输入，

案例中 “加载语料库”（Corpus） 控件加载“book-excerpts”数据集， “词袋”（Bag of Words） 控件和 “数据抽样”（Data Sampler） 控件采用默认配置。 “文本增强”（Word Enrichment） 控件设置如下：过滤选择 FDR 值，设置为 0.2。运行结果如下图所示。

组件介绍​

页面介绍​

参数选项​

使用案例​

组件介绍

页面介绍

参数选项

使用案例