覆盖主要内容
版本: 6.1.0

豆瓣读书自动评分

案例介绍

通过对豆瓣读书数据进行建模,实现对书籍进行自动评分的目的。

数据集介绍

数据集下载:douban_book.csv

案例操作

为了实现书籍自动评分,需要对数据进行预处理,将数据处理为模型能够处理的类型,然后构建模型进行预测分析为了实现该目的,我们需要构建以下工作流:

1、拖动"加载文件"控件到画布中,单击控件,选择"douban_book.csv"上传,上传后控件会显示数据基本信息,案例中的数据集包42813个实例,8个特征,详细内容如下图所示:

在"属性列表"栏下,可以对原始数据中包含的各个属性的类型以及类别进行编辑,我们将评分的【类型】设置为numeric。配置完成后,右键控件点击【运行该控件】执行控件。

2、创建完属性后,需要将刚创建的属性配置为待预测的目标属性。拖动"属性选择"控件到画布中,将评分移动到【目标属性】中,剩余的属性配置不变。具体配置如下:

3、完成属性选择后,拖动"查看数据"控件到画布中,点击【查看结果】按钮可以浏览数据,从下图中可以看到评分作为目标属性出现在第一列,说明配置已经生效:

4、完成模型构建必要属性的选择后,选择抽样得到的数据用于建模,剩余的数据用于评估模型好坏。拖动"数据抽样"控件到画布中,采用默认参数配置运行,配置信息如下:

5、我们选择两个模型对数据进行建模,分别拖动"Constant"、"决策树"控件到画布中。前者采用默认配置,"决策树"控件中,将参数【叶子节点中最小实例数】配置为10,具体配置信息如下:

6、拖动"预测"控件到画布中,连接了测试数据、"Constant"、"决策树"两个模型后,采用默认的输出配置,运行后模型将把原始数据、类别预测值输出用于模型评估:

7、点击【查看预测结果】对模型预测结果进行查看,默认显示前500条:

8、拖动"测试和评分"控件到画布中,连接"数据抽样"控件的两个输出分别作为训练数据、测试数据,将"Constant"、"决策树"作为两个模型输入,点击【查看结果】,选中【在测试集中测试】选项,将得到两个模型在回归任务上的相关评价指标,包括MSE、RMS、MAE等,具体信息如下图所示: