System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能领域,尤其涉及一种应用于保单数据处理的模型确定方法以及设备。
技术介绍
1、在保单续期的实际业务中,需要对已办理的保单业务对应的保单数据进行处理,预测出该保单业务的客户的续期意向,以提高保单续期业务的处理效率。
2、现有技术中,业务人员根据人工经验,对所获取到的保单数据进行人工判断,筛选出高续期率的保单数据,以用于保单续期业务处理。
3、但是上述方式中,采用人工处理的方式,存在耗时耗力、效率和准确率较低的问题,进而难以对大量的保单数据进行高效处理。
技术实现思路
1、本申请提供一种应用于保单数据处理的模型确定方法以及设备,用以解决因采用人工处理的方式导致难以对大量的保单数据进行高效处理的技术问题。
2、第一方面,本申请提供一种应用于保单数据处理的模型确定方法,所述方法包括:
3、获取原始数据集;其中,所述原始数据集包括至少一个样本数据,所述样本数据表征历史时刻下处理保单业务过程中产生的保单数据;所述样本数据具有实际标签,所述实际标签表征实际的样本数据所属保单业务是否续期;
4、根据各所述样本数据的实际标签,对所述原始数据集进行自适应上采样处理,得到所述原始数据集对应的n个子数据集;其中,所述子数据集中包括每一样本数据的f个特征;所述特征具有特征值,所述特征值表征特征对应的类别;n、f均为大于或等于1的正整数;
5、根据所述n个子数据集,构建随机森林模型;其中,所述随机森林模型中包括n个决策树;
6、对所述随机森林模型进行测试处理,得到预测模型;其中,所述预测模型用于对待处理数据进行处理,以得到所述待处理数据的预测信息;所述待处理数据为当前待处理的处理保单业务过程中产生的保单数据;所述预测信息表征预测的待处理数据所属保单业务的续期情况;所述预测信息用于处理保单续期业务。
7、一个示例中,根据各所述样本数据的实际标签,对所述原始数据集进行自适应上采样处理,得到所述原始数据集对应的n个子数据集,包括:
8、根据各所述样本数据的实际标签,确定所述原始数据集对应的多数类集合和少数类集合;其中,所述多数类集合中包括至少一个多数类样本,所述多数类样本为原始数据集中实际标签表征保单业务续期的样本数据;所述少数类集合中包括至少一个少数类样本,所述少数类样本为原始数据集中实际标签表征保单业务不续期的样本数据;
9、确定所述少数类样本的第一最近邻样本,并根据各所述少数类样本的第一最近邻样本,确定所述少数类集合对应的边界集合和安全集合;其中,所述第一最近邻样本为原始数据集中与该少数类样本之间的欧式距离最近的样本数据;所述边界集合中包括至少一个边界样本,所述边界样本为少数类集合中第一最近邻样本为多数类样本的少数类样本;所述安全集合中包括至少一个安全样本,所述安全样本为少数类集合中第一最近邻样本为少数类样本的少数类样本;
10、对所述安全集合进行线性插值处理,得到所述安全集合对应的安全生成集合;其中,所述安全生成集合中包括每一所述安全样本对应的安全生成样本,所述安全生成样本表征保单业务不续期的样本数据;
11、对所述边界集合进行插值处理,得到所述边界集合对应的边界生成集合;其中,所述边界生成集合中包括每一所述边界样本对应的边界生成样本,所述边界生成样本表征保单业务不续期的样本数据;
12、对所述多数类集合、所述少数类集合、所述安全生成集合以及所述边界生成集合进行采样处理,得到所述n个子数据集。
13、一个示例中,对所述安全集合进行线性插值处理,得到所述安全集合对应的安全生成集合,包括:
14、确定所述安全样本的第二最近邻样本;并确定所述安全样本的最近邻距离;其中,所述第二最近邻样本为多数类集合中与安全样本之间的欧式距离最近的多数类样本;所述最近邻距离为安全样本与该安全样本的第二最近邻样本之间的距离;
15、根据所述安全样本的最近邻距离,确定所述安全样本对应的至少一个目标样本;其中,所述目标样本为安全集合中处于该安全样本对应的局部区域内的其他安全样本;所述局部区域为以该安全样本为中心、该安全样本的最邻近距离为半径的圆形区域;
16、根据所述安全样本对应的至少一个目标样本,对所述安全样本进行线性插值处理,得到所述安全样本对应的安全生成样本。
17、一个示例中,对所述边界集合进行插值处理,得到所述边界集合对应的边界生成集合,包括:
18、确定所述边界样本的第三最近邻样本;其中,所述第三最近邻样本为多数类集合中与边界样本之间的欧式距离最近的多数类样本;
19、根据所述边界样本的第三最近邻样本,对所述边界样本进行计算处理,得到所述边界样本对应的边界生成样本。
20、一个示例中,根据所述n个子数据集,构建随机森林模型,包括:
21、根据所述子数据集,确定所述子数据集中每一特征对应的特征值集合;其中,特征值集合中包括该特征在子数据集中对应的各个特征值;
22、根据所述子数据集中每一特征对应的特征值集合,构建所述子数据集对应的决策树;其中,所述决策树中包括至少一个节点。
23、一个示例中,所述节点具有分类维度信息;根据所述子数据集中每一特征对应的特征值集合,构建所述子数据集对应的决策树,包括:
24、基于第i个节点,根据所述子数据集,确定第i个节点对应的目标数据集;并确定第i个节点对应的目标数据集中每一特征对应的特征值集合;其中,i为大于或等于1的正整数;
25、从第i个节点对应的各个特征值集合中确定最优特征值;
26、基于第i个节点,确定所述目标数据集对应的最优特征值以及所述目标数据集对应的最优特征值所属的特征,为第i个节点的分类维度信息;
27、根据所述第i个节点的分类维度信息,对第i个节点对应的目标数据集进行分割处理,以得到第i+1个节点和第i+2个节点。
28、一个示例中,从第i个节点对应的各个特征值集合中确定最优特征值,包括:
29、针对所述目标数据集中每一特征的特征值,根据所述特征值,对所述目标数据集进行划分处理,得到所述特征值对应的第一子集和第二子集;其中,所述第一子集中包括目标数据集中特征值与所述特征值一致的样本数据;所述第二子集中包括目标数据集中特征值与所述特征值不一致的样本数据;
30、确定所述目标数据集的基尼指数,并确定所述第一子集的基尼指数和所述第二子集的基尼指数;其中,所述基尼指数表征数据分布情况;
31、根据所述第一子集的基尼指数、所述第二子集的基尼指数以及所述目标数据集中的基尼指数,确定所述特征值对应的基尼指数;
32、确定所述目标数据集中基尼指数最小的特征值,为所述最优特征值。
33、一个示例中,所述方法还包括:
34、对所述原始数据集中的样本数据进行缺失值填充处理,得到处理后的原始数据集。本文档来自技高网...
【技术保护点】
1.一种应用于保单数据处理的模型确定方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,根据各所述样本数据的实际标签,对所述原始数据集进行自适应上采样处理,得到所述原始数据集对应的N个子数据集,包括:
3.根据权利要求2所述的方法,其特征在于,对所述安全集合进行线性插值处理,得到所述安全集合对应的安全生成集合,包括:
4.根据权利要求2所述的方法,其特征在于,对所述边界集合进行插值处理,得到所述边界集合对应的边界生成集合,包括:
5.根据权利要求1所述的方法,其特征在于,根据所述N个子数据集,构建随机森林模型,包括:
6.根据权利要求5所述的方法,其特征在于,所述节点具有分类维度信息;根据所述子数据集中每一特征对应的特征值集合,构建所述子数据集对应的决策树,包括:
7.根据权利要求5所述的方法,其特征在于,从第i个节点对应的各个特征值集合中确定最优特征值,包括:
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述方法还包括:
9.一种保单数据处理方法,其
10.根据权利要求9所述的方法,其特征在于,所述预测信息中包括预测概率和预测标签;所述预测概率表征预测的待处理数据所属保单业务的续期概率,所述预测标签表征预测的待处理数据所属保单业务是否续期;
11.根据权利要求10所述的方法,其特征在于,所述决策树中包括至少一个节点,所述节点具有分类维度信息;基于所述决策树,根据所述待处理数据的各个特征,对所述待处理数据进行分类处理,得到所述决策树对应的分类结果,包括:
12.根据权利要求9-11中任一项所述的方法,其特征在于,所述方法还包括:
13.一种应用于保单数据处理的模型确定装置,其特征在于,所述装置包括:
14.一种保单数据处理装置,其特征在于,所述装置包括:
15.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至8中任一项所述的方法或者如权利要求9至12中任一项所述的方法。
17.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法或者如权利要求9至12中任一项所述的方法。
...【技术特征摘要】
1.一种应用于保单数据处理的模型确定方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,根据各所述样本数据的实际标签,对所述原始数据集进行自适应上采样处理,得到所述原始数据集对应的n个子数据集,包括:
3.根据权利要求2所述的方法,其特征在于,对所述安全集合进行线性插值处理,得到所述安全集合对应的安全生成集合,包括:
4.根据权利要求2所述的方法,其特征在于,对所述边界集合进行插值处理,得到所述边界集合对应的边界生成集合,包括:
5.根据权利要求1所述的方法,其特征在于,根据所述n个子数据集,构建随机森林模型,包括:
6.根据权利要求5所述的方法,其特征在于,所述节点具有分类维度信息;根据所述子数据集中每一特征对应的特征值集合,构建所述子数据集对应的决策树,包括:
7.根据权利要求5所述的方法,其特征在于,从第i个节点对应的各个特征值集合中确定最优特征值,包括:
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述方法还包括:
9.一种保单数据处理方法,其特征在于,所述方法包括:
10.根据权利要求9所述的方法,其特征在于,所述预测信息...
【专利技术属性】
技术研发人员:赵俊杰,温佳美,李昊,
申请(专利权)人:人保信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。