版本: 6.1.0

豆瓣读书自动评分

案例介绍

通过对豆瓣读书数据进行建模，实现对书籍进行自动评分的目的。

数据集下载：douban_book.csv

为了实现书籍自动评分，需要对数据进行预处理，将数据处理为模型能够处理的类型，然后构建模型进行预测分析为了实现该目的，我们需要构建以下工作流：

1、拖动"加载文件"控件到画布中，单击控件，选择"douban_book.csv"上传，上传后控件会显示数据基本信息，案例中的数据集包42813个实例，8个特征，详细内容如下图所示：

在"属性列表"栏下，可以对原始数据中包含的各个属性的类型以及类别进行编辑，我们将评分的【类型】设置为numeric。配置完成后，右键控件点击【运行该控件】执行控件。

2、创建完属性后，需要将刚创建的属性配置为待预测的目标属性。拖动"属性选择"控件到画布中，将评分移动到【目标属性】中，剩余的属性配置不变。具体配置如下：

3、完成属性选择后，拖动"查看数据"控件到画布中，点击【查看结果】按钮可以浏览数据，从下图中可以看到评分作为目标属性出现在第一列，说明配置已经生效：

4、完成模型构建必要属性的选择后，选择抽样得到的数据用于建模，剩余的数据用于评估模型好坏。拖动"数据抽样"控件到画布中，采用默认参数配置运行，配置信息如下：

5、我们选择两个模型对数据进行建模，分别拖动"Constant"、"决策树"控件到画布中。前者采用默认配置，"决策树"控件中，将参数【叶子节点中最小实例数】配置为10，具体配置信息如下：

6、拖动"预测"控件到画布中，连接了测试数据、"Constant"、"决策树"两个模型后，采用默认的输出配置，运行后模型将把原始数据、类别预测值输出用于模型评估：

7、点击【查看预测结果】对模型预测结果进行查看，默认显示前500条：

8、拖动"测试和评分"控件到画布中，连接"数据抽样"控件的两个输出分别作为训练数据、测试数据，将"Constant"、"决策树"作为两个模型输入，点击【查看结果】，选中【在测试集中测试】选项，将得到两个模型在回归任务上的相关评价指标，包括MSE、RMS、MAE等，具体信息如下图所示：