生存预测
案例介绍
本案例的数据集来自泰坦尼克(Titanic)事件,对于船上的逃生问题,是否获救并不是随机发生的,而是有分级的。数据集的标签列对应是否幸存,每个属性都有其实际的意义,便于理解、检验我们的分析结果及构造的分类模型。
数据集介绍
数据来源于http://www.cs.toronto.edu/~delve/data/titanic/desc.html
包括乘客和船员共2201条记录,每条记录包含4个字段,如下表所示。该数据的特点是,所有属性列的类型都是string类型,都是枚举值。
| 名称 | 说明 | 包含枚举值 |
|---|---|---|
| class | 阶层 | first:一等舱乘客 second:二等舱乘客 third:三等舱乘客 crew:船员 |
| age | 年龄 | adult:成人 child:儿童 |
| sex | 性别 | male:男 female:女 |
| survived | 是否幸存 | yes:是 no:否 |
特征分析
1、此数据的特征都是离散特征,我们使用excel表格的分组统计,将【survived】与其他3列(【class】,【age】,【sex】)进行分组统计。首先下图展示的是【sex】(性别)属性与【survived】(是否幸存)标签的关系,对于离散值female(女性)幸存的比例较大;而对于离散值male(男性),幸存的比例较小。

2、其次,对于【age】(年龄)属性,如下图所示,离散属性值child(儿童)的样本数较少,在机器学习中属于特征不均衡;对于属性值adult(成人),幸存的比例较小。

3、最后,对于【class】(乘坐的船舱等级)属性,如下图所示,可以看出离散属性值1st(一等舱)对应的幸存比例约60%;离散属性值2nd(二等舱)对应的幸存比例约为40%;而其他两个离散值对应的幸存比例都偏小。
