一种根据车主相关的数据而判断其理赔风险等级的系统技术方案

技术编号:20869435 阅读:32 留言:0更新日期:2019-04-17 09:56
本发明专利技术公开了一种根据车主相关的数据而判断其理赔风险等级的系统,运用机器学习技术,对车主的驾驶行为和汽车属性,投保状况进行风险分析,预测未来理赔比。本发明专利技术可以帮助保险公司在承保业务过程中清晰的预测出客户的风险等级,为风险控制和差异化定价提供依据。

【技术实现步骤摘要】
一种根据车主相关的数据而判断其理赔风险等级的系统
本专利技术涉及车险领域,具体涉及一种根据车主相关的数据而判断其理赔风险等级的系统。
技术介绍
根据公开数据,2016年全国有1.5亿私家车主,涉及54%的家庭。但在车险行业,只有14家公司车险承保盈利,41家亏损的公司亏损总额达到63亿元,行业亏损比例达到75%。精准定价能力的缺失,客户风险计算的不足是这些车险公司面临困境的重要原因。根据与保险公司多次沟通的情况来看,客户对于车主、车辆及车险等多个维度都需要一个用户风险分析系统。这对于保险公司的车险定价,承保业务有很大帮助。
技术实现思路
本专利技术的目的是为解决上述不足,提供一种根据车主相关的数据而判断其理赔风险等级的系统。本专利技术的目的是通过以下技术方案实现的:一种根据车主相关的数据而判断其理赔风险等级的系统,自变量(1):在数据库中整合包括客户保险标的数据,包括保险数据,车辆数据和交通数据等50个自变量;整合数据(1)中数据,数据来源包括三方面,第一方面是车辆物理属性数据,包括车辆性能,市场价值等,第二方面是历史承保理赔信息,包括车辆历史出险状况,在保状态,保单信息,第三方面是交通违章信息:目标函数(2):随机森林模型算法,理赔比和自变量数据的函数关系;用机器学习算法,训练出理赔比与自变量数据的函数关系;标的(3):根据训练样本和预测样本得标的数据来确定自变量选取及设置是否合理,调节模型,使之更贴合实际,根据预测样本和训练样本调整自变量的选取及设置,使结果更符合实际。车辆数据计算用户综合理赔比分数的评估方法如下:A、从数据库中提取清洗完的保单理赔,车辆属性数据,交通违章四方面的特征数据,去除null值,异常数据以及保险残缺的数据,清洗之后作为输入变量X,目标函数取赔付率Y和输入变量X的函数,即Y=f(X);B、模型取机器学习随机森林算法,从步骤A中的一部分数据作为训练数据(X1,Y1),另一部分为检验数据(X2,Y2),以输入变量X为输入特征,预测客户未来理赔率Y;C、从训练样本中随机采样n条数据,从所有特征值中随机选取k个特征值,对选出的样本利用其特征以最小训练决策树;D、对D步骤循环m次,生成m颗决策树Φi(i=1,2,3...m);E、数据导入模型后开始机器学习训练过程,训练开始前随机生成f,训练过程中,为了使拟合的误差达到最小,算法会在训练过程中不断的调整f,使最终得出一个由X到Y的一个映射关系f,预测值F、训练得到最终的f后,再由检验样本的X2变量,输入模型,模型综合所有决策树的预测结果给出得到Y2的预测值f(X2),将Y2预测和X2对应的Y2比对,得出f的准确度;G、如果f的准确度较低,误差较大不能满足需求,回到步骤b重新选取样本数据,修改模型参数权重,重新训练,直至f准确度达到要求;如果f准确度符合要求,那么确认f为最终模型。本专利技术具有如下有益的效果:本专利技术运用机器学习技术,对车主进行行为预测和风险划分,分为10个赔付率不同的风险等级评分,分数越高代表风险越低。帮助保险公司承保、营销的业务流程中,为制定合理有效的风险控制、差异化定价、营销策略而提供决策依据。附图说明图1为本专利技术的整体结构示意图;图2为本专利技术的训练拟合图;图3为本专利技术的风险评级训练过程。具体实施方式下面结合附图对本专利技术作进一步的说明:如图1所示,一种根据车主相关的数据而判断其理赔风险等级的系统,自变量(1):在数据库中整合包括客户保险标的数据,包括保险数据,车辆数据和交通数据等50个自变量;整合数据(1)中数据,数据来源包括三方面,第一方面是车辆物理属性数据,包括车辆性能,市场价值等,第二方面是历史承保理赔信息,包括车辆历史出险状况,在保状态,保单信息,第三方面是交通违章信息;目标函数(2):随机森林模型算法,理赔比和自变量数据的函数关系;用机器学习算法,训练出理赔比与自变量数据的函数关系;标的(3):根据训练样本和预测样本得标的数据来确定自变量选取及设置是否合理,调节模型,使之更贴合实际,根据预测样本和训练样本调整自变量的选取及设置,使结果更符合实际。车辆数据计算用户综合理赔比分数的评估方法如下:A、从数据库中提取清洗完的保单理赔,车辆属性数据,交通违章四方面的特征数据,去除null值,异常数据以及保险残缺的数据,清洗之后作为输入变量X,目标函数取赔付率Y和输入变量X的函数,即Y=f(X);B、模型取机器学习随机森林算法,从步骤A中的一部分数据作为训练数据(X1,Y1),另一部分为检验数据(X2,Y2),以输入变量X为输入特征,预测客户未来理赔率Y;C、从训练样本中随机采样n条数据,从所有特征值中随机选取k个特征值,对选出的样本利用其特征以最小训练决策树;D、对D步骤循环m次,生成m颗决策树Φi(i=1,2,3...m);E、数据导入模型后开始机器学习训练过程,训练开始前随机生成f,训练过程中,为了使拟合的误差达到最小,算法会在训练过程中不断的调整f,使最终得出一个由X到Y的一个映射关系f,预测值F、训练得到最终的f后,再由检验样本的X2变量,输入模型,模型综合所有决策树的预测结果给出得到Y2的预测值f(X2),将Y2预测和X2对应的Y2比对,得出f的准确度;G、如果f的准确度较低,误差较大不能满足需求,回到步骤b重新选取样本数据,修改模型参数权重,重新训练,直至f准确度达到要求;H、如果f准确度符合要求,那么确认f为最终模型。具体实施例如下:1、将客户相关数据存储至数据库中,并清洗去除异常数据;2、从清洗完的数据中提取保单理赔,车辆属性数据,交通违章四方面的特征作为输入变量X,目标函数取赔付率为Y;3、模型取机器学习随机森林算法,训练样本取数据中保险起期在2015年1-3月的车辆数据(X1,Y1),预测样本取数据中保险起期在2015年4-6月的车辆数据(X2,Y2)用于机器学习,以输入变量X为输入特征,预测客户未来理赔率;4、从训练样本中随机采样n条数据,从50个特征值中随机选取k个特征值,对选出的样本利用其特征以最小训练决策树;5、对D步骤循环m次,生成m颗决策树;6、数据导入模型后开始机器学习训练过程,训练开始前随机生成f,如图2所示,训练过程中,为了使拟合的误差达到最小,算法会在训练过程中不断的调整f,使最终得出一个由X到Y的一个映射关系f,f(X1)≈Y1;7、训练得到最终的f后,再由检验样本的X2变量,输入模型,模型综合所有决策树的预测结果给出得到Y2的预测值f(X2),将Y2预测和X2对应的Y2比对,预测得出f的准确度;8、如果f的准确度较低,误差较大不能满足需求,回到步骤b重新选取样本数据,修改模型参数权重,重新训练,直至f准确度达到要求;9、如果f准确度符合要求,那么确认f为最终模型;10、如图3所示,模型确定好后,取需要预测的车辆数据X,输入模型,得到预测理赔比,并从低到高分成10个小组,得到车辆的未来理赔比预测数据。本文档来自技高网...

【技术保护点】
1.一种根据车主相关的数据而判断其理赔风险等级的系统,其特征在于:自变量(1):在数据库中整合包括客户保险标的数据,包括保险数据,车辆数据和交通数据等50个自变量;整合数据(1)中数据,数据来源包括三方面,第一方面是车辆物理属性数据,包括车辆性能,市场价值等,第二方面是历史承保理赔信息,包括车辆历史出险状况,在保状态,保单信息,第三方面是交通违章信息;目标函数(2):随机森林模型算法,理赔比和自变量数据的函数关系;用机器学习算法,训练出理赔比与自变量数据的函数关系;标的(3):根据训练样本和预测样本得标的数据来确定自变量选取及设置是否合理,调节模型,使之更贴合实际,根据预测样本和训练样本调整自变量的选取及设置,使结果更符合实际。

【技术特征摘要】
1.一种根据车主相关的数据而判断其理赔风险等级的系统,其特征在于:自变量(1):在数据库中整合包括客户保险标的数据,包括保险数据,车辆数据和交通数据等50个自变量;整合数据(1)中数据,数据来源包括三方面,第一方面是车辆物理属性数据,包括车辆性能,市场价值等,第二方面是历史承保理赔信息,包括车辆历史出险状况,在保状态,保单信息,第三方面是交通违章信息;目标函数(2):随机森林模型算法,理赔比和自变量数据的函数关系;用机器学习算法,训练出理赔比与自变量数据的函数关系;标的(3):根据训练样本和预测样本得标的数据来确定自变量选取及设置是否合理,调节模型,使之更贴合实际,根据预测样本和训练样本调整自变量的选取及设置,使结果更符合实际。2.根据权利要求1所述的一种根据车主相关的数据而判断其理赔风险等级的系统,其特征在于:车辆数据计算用户综合理赔比分数的评估方法如下:A、从数据库中提取清洗完的保单理赔,车辆属性数据,交通违章四方面的特征数据,去除null值,异常数据以及保险残缺的数据,清洗之后作为输入变量...

【专利技术属性】
技术研发人员:王龙俊李军曹海祥李国樑赵晨
申请(专利权)人:江苏骏环昇旺科技产业股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1