相似度哈希
组件介绍
“相似度哈希”(Similarity Hashing) 控件用于计算给定语料库的相似哈希。
相似度哈希是一种快速估算两个集合相似程度的技术,可使用该算法来查找近似的网页。
- 输入:
- cor:文本数据集
- 输出:
- cor:文本数据集
页面介绍
点击 “相似度哈希”(Similarity Hashing) 控件查看参数配置页面,如下图所示:
参数选项
选项 | 说明 | 取值范围 | 样例值 |
---|---|---|---|
Simhash 大小 | 输出属性个数 | 1~1024 | 64 |
Shingle 长度 | shingle中的tokens数量 | 1~100 | 10 |
使用案例
在下图所示的 案例中,使用 “加载语料库”(Corpus) 控件加载文本数据集,连接 “相似度哈希”(Similarity Hashing) 控件对数据进行处理,使用 “查看数据”(Data Table) 控件查看处理后的数据。
案例中加载 andersen 数据集,其余控件使用默认参数,案例中控件的配置以及执行结果如下图所示。