源数据说明
说明
本章节主要内容是数据分析的需求和目标,数据库的数据结构分析,数据库和数据源的设置。本节实践案例是模拟某寿险公司的保单资源相关情况进行简单的数据分析,包括对投保人类型、保险销售人业绩的分析等。该案例贯穿整个实践过程,在随后的小节将会逐一介绍如何使用【Workbench】和【OLAP Studio】从多个角度审视保险行业的保单资源信息。
数据分析的需求和目标
本实践指南将针对不同的需求建立不同的多维数据集和实现不同的功能,例如针对保单资源分析建立的【保单资源分析】多维数据集;针对主管人员建立的【业务经理专用】多维数据集;针对助理人员建立的【保单资源公用分析】多维数据集;针对汇总功能实现的【汇总公式】功能;针对用户自定义功能实现的【自定义公式范例】功能;以及虚拟维度和虚拟多维数据集的实现。
本实践指南模拟实际情况,从不同角度对数据进行分析,进而建立多种维度:结构简单的单层标准维度,如【收付费类型】;多层次标准维度,如【险种_投保人类型分类】、跨越多个数据表的【区域_机构】;父子结构维度,如【业务员等级】;时间维度,如【时间】;虚拟维度,如【险种分类】。
一般来说,对保单资源,人们关心的主要是【新单保费】、【续期保费】、【退还保费】、【实付赔款】等指标。但是,我们依然希望通过这些显而易见的数据,通过一定的统计方法,来得到更多的 信息,如【实际收入】、【实际收入环比】或部分业务人员的统计数据等。
数据库结构和内容
本案例数据源是 MySQL 数据库,名称为【dcrm_mysql】,存有模拟一个寿险公司的各类业务数据。从【关系数据库】的观点来看,该数据库包含以保单资源为主的表【fact_insurance_policy】。
在建立保单的过程中,涉及【机构】和【投保人员】等,包括【机构区域】、【业务员】、【投保客户】等; 保单中设计的不同险种根据其不同的性质,又可以从销售渠道、险种类别等角度对其进行分类。 此外,在该数据库中还包含关于收付费类型的明细信息,用于表示保单的收付费情况等; 还有一张【中间表】,该表包含了保单、客户、业务员和险种类别等基本信息,是对保险业务中的基本信息进行连接的桥梁和纽带。通过该表,可以实现从法人角度对投保人数、保险金额、保单数量进行分析;也可以实现从险种类别角度对投保人类型、投保人数、保险金额、保单数量进行分析;另外,还可以进行业务员业绩分析和法人客户单位性质与客户状态的分析。
为了方便建立多维数据集,我们将表【fact_insurance_policy】和【中间表】,表【dim_org_detail】和表【dim_org_area_type】进行了合并,将【中间表】的属性添加到将表【fact_insurance_policy】,【dim_org_area_type】的属性添加到【dim_org_detail】。
下面给出所用表的详细信息。
(1)表 1:【fact_insurance_policy】保单信息
字段名称 | 字段说明 | 关联关系 |
---|---|---|
insurance_policy_time | 保单时间 | |
insurance_policy_id | 保单 ID | |
advance_policy_amount | 预收保费 | |
new_policy_amount | 新单保费 | |
renewal_policy_amount | 续期保费 | |
refund_policy_amount | 退还保费 | |
actual_paid_amount | 实付赔款 | |
actual_refund_amount | 实付退保金 | |
actual_live_amount | 实付生存金 | |
charge_type_id | 收付费类型 | |
manage_amount | 管理费比例 | |
time_key | 时间 ID | dim_time.time_key |
salesman_id | 业务员 ID | dim_salesman.salesman_id |
insurance_id | 险种 ID | dim_policy_insurants_type.insurance_code |
underwrite_type_id | 承保类型 ID | |
customer_id | 客户 ID | |
distribution_channel_id | 销售渠道 ID | |
insurant_policy_status | 保单状态 ID | |
insured_persons_num | 投保人数 | |
effective_time | 生效时间 | |
insurance_amount | 保险金额 |
(2)表 2:【dim_org_detail】机构细分信息
字段名称 | 字段说明 | 关联关系 |
---|---|---|
org_id | 机构 ID | dim_salesman.org_id |
org_name | 机构名称 | |
area_id | 区域 ID | |
area_type_name | 区域名称 |
(3)表 3:【dim_salesman】业务员
字段名称 | 字段说明 | 关联关系 |
---|---|---|
salesman_id | 业务员 ID | fact_insurance_policy.salesman_id |
salesman_name | 业务员名称 | |
org_id | 机构 ID | dim_org_detail.org_id |
(4)表 4:【dim_salesman_level】业务员等级关系
字段名称 | 字段说明 | 关联关系 |
---|---|---|
salesman_id | 业务员 ID | dim_salesman.salesman_id |
salesman_name | 业务员名称 | |
superior_id | 上级主管 ID | dim_salesman.salesman_id |
org_id | 机构 ID | dim_salesman.org_id |
(5)表 5:【dim_policyholder_type】投保人类型险种分类
字段名称 | 字段说明 | 关联关系 |
---|---|---|
policyholder_type | 投保人类型 | |
insurance_code | 险种代码 | dim_policy_insurants_type.insurance_code |
insurance_name | 险种名称 |
(6)表 6:【dim_distribution_channel_insurants】销售渠道险种分类
字段名称 | 字段说明 | 关联关系 |
---|---|---|
distribution_channel_type | 销售渠道类型 | |
insurance_code | 险种代码 | dim_policy_insurants_type.insurants_code |
insurance_name | 险种名称 |
(7)表 7:【dim_policy_insurants_type】险种类别分类
字段名称 | 字段说明 | 关联关系 |
---|---|---|
policy_type | 险种分类 | |
insurance_code | 险种代码 | fact_insurance_policy.insurance_id |
insurance_name | 险种名称 | |
standard_loss | 险种标准赔付率 |
(8)表 8:【dim_charge_type_detail】收付费类型明细
字段名称 | 字段说明 | 关联关系 |
---|---|---|
charge_detail_type_id | 收付费明细类型 ID | |
charge_detail_type_name | 收收付费明细类型表示 | |
charge_combination_type_id | 收付费归并 ID | |
charge_combination_type_desc | 收付费归并类型 | |
charge_type | 收付费类型 |
(9)表 9:【dim_time】时间明细
字段名称 | 字段说明 | 关联关系 |
---|---|---|
time_key | 时间 ID | fact_insurance_policy.time_key |
year_name | 年 | |
quarter_name | 季度 | |
month_name | 月 | |
day_name | 日 |
建立数据源
(1)搭建 MySQL 服务,并建立名称为 dcrm 的数据库
(2)切换到 dcrm 数据库下,运行 SQL 文件导入表和数据