一种基于GLM及机器学习算法的车险纯风险保费预测方法及装置制造方法及图纸

技术编号:36252170 阅读:18 留言:0更新日期:2023-01-07 09:45
本申请提供一种基于GLM及机器学习算法的车险纯风险保费预测方法及装置,包括:采集第一建模因子的第一定价数据形成第一模型样本集,使用第一模型样本集拟合第一层GLM模型,计算预测结果残差;在第一定价数据的基础上,采集第二建模因子;将第二建模因子的定价数据关联至第一定价数据,形成第二定价数据,并将第二定价数据作为第二模型样本集,将第二模型样本集进行处理后拟合第二层XGBoost残差模型,并将残差的预测结果进行切分,切分后的每组数据作为梯度提升分因子;将梯度提升分因子、第三定价数据作为第三模型样本集拟合第三层GLM模型,计算并输出纯风险保费预测值。本发明专利技术结合了传统的GML模型与XGBoost模型,具有可解释性、可控性、预测性能更强的优点。预测性能更强的优点。预测性能更强的优点。

【技术实现步骤摘要】
一种基于GLM及机器学习算法的车险纯风险保费预测方法及装置


[0001]本专利技术涉及数据处理领域,特别涉及一种基于GLM及机器学习算法的车险纯风险保费预测方法及装置。

技术介绍

[0002]车险精算定价模型是保险公司管理和控制承保风险最重要的工具。在车险业务实际应用中,对精算定价模型的要求有两个:一是预测的准确性,二是模型的可解释性与可控性。在当前落地应用的模型中,这两者很难兼顾。
[0003]传统车险精算定价采用以广义线性模型(GLM)为主的概率统计模型。传统GLM模型可解释性强、可控性高,可以为业务实践提供足够的安全感。然而,由于传统GLM模型只能拟合因子和目标间的线性关系,无法获取非线性的部分和因子间的交互对目标的影响,因此往往预测准确性有限。
[0004]随着人工智能、机器学习算法的兴起,保险领域也开始使用各种机器学习模型来预测纯风险保费。机器学习模型有强大的非线性表达能力,非寿险精算定价相关研究已经证明机器学习算法可以显著提升车险精算定价模型的预测准确性。然而,由于机器学习算法的可解释性和可控性远低于传统GLM模型,尽管有着卓越的预测性能,这些模型却始终难以落地。

技术实现思路

[0005]本专利技术的目的是提供一种达到既具有可解释性与可控性,又能达到较好的预测效果的基于GLM及机器学习算法的车险纯风险保费预测方法及装置。
[0006]为了实现上述目的,本申请实施例采用如下技术方案:
[0007]第一方面,本申请实施例提供了一种基于GLM及机器学习算法的车险纯风险保费预测方法,包括:
[0008]步骤S1:采集第一建模因子的第一定价数据形成第一模型样本集,使用所述第一模型样本集拟合第一层GLM模型,计算预测结果残差;
[0009]步骤S2:在所述第一定价数据的基础上,采集第二建模因子;将所述第二建模因子的定价数据关联至所述第一定价数据,形成第二定价数据,并将第二定价数据作为第二模型样本集,将所述第二模型样本集进行处理后拟合第二层XGBoost残差模型,并将残差的预测结果进行切分,切分后的每组数据作为梯度提升分因子;
[0010]步骤S3:将所述梯度提升分因子、第三定价数据作为第三模型样本集拟合第三层GLM模型,计算并输出纯风险保费预测值。
[0011]具体的,所述步骤S1包括:
[0012]S11:采集第一建模因子的第一定价数据和对应的第一纯风险保费形成第一模型样本集;其中所述第一建模因子包含从车信息、从人信息、平台信息、保单信息;
[0013]S12:对所述第一模型样本集进行预处理,生成符合GLM模型要求的第一样本数据;
[0014]S13:使用所述第一样本数据拟合第一层GLM模型;
[0015]S14:在第一层GLM模型中输入所述第一定价数据,处理后,输出第一纯风险保费预测值;
[0016]S15:通过所述纯风险保费预测值计算预测结果残差;所述第一预测结果残差=纯风险保费实际值

纯风险保费预测值。
[0017]具体的,所述步骤S2包括:
[0018]S21:在所述第一定价数据的基础上,采集第二建模因子;将所述第二建模因子的定价数据关联至所述第一定价数据,形成第二定价数据,并将第二定价数据作为第二模型样本集;其中第二建模因子包含从车信息、从人信息、平台信息、保单信息、高维从车信息;
[0019]S22:对所述第二模型样本集进行预处理,生成符合XGBoost残差模型的第二样本数据;
[0020]S23:使用分层随机抽样的方法将所述第二定价数据与第一预测结果残差划分为训练集、验证集和测试集;所述训练集、验证集和测试集划分比例为6:2:2;
[0021]S24:使用所述训练集数据拟合XGBoost残差模型,使用所述验证集数据调整XGBoost残差模型训练过程中的超参,使用所述测试集数据测试训练完毕的XGBoost残差模型预测准确性;
[0022]S25:使用步骤S33拟合的第二层XGBoost残差模型对纯风险保费残差进行预测,再第二层XGBoost残差模型中输入所述第二定价数据,处理后,输出第二纯风险保费残差预测值;
[0023]S26:对所述第二纯风险保费残差预测值进行排序,将排序后的第二纯风险保费残差预测值按照N等分进行切分,并将切分后的每组第二纯风险保费残差预测值依序赋予1到N的值,作为新的风险因子标签——梯度提升分。
[0024]具体的,所述步骤S3包括:
[0025]S31:将梯度提升分因子加入至第一层GLM模型建模因子中,构成第三层GLM模型入模风险因子列表,并采集所述第三建模因子的第三定价数据与对应的第三纯风险保费,形成第三样本集;所述第三建模因子包含从车信息、从人信息、平台信息、保单信息、风险因子标签;
[0026]S32:使用第三样本集拟合第三层GLM模型,得到风险预测模型;
[0027]S33:在所述第三层GLM模型中输入第三定价数据,输出对应的第三纯风险保费预测值。
[0028]具体的,所述步骤S12包括:数据清洗,处理第一模型样本集的空缺值、噪声数据,删除第一模型样本集的重复值;数据集成,集成多个数据源,处理数据源的冗余问题;特征工程:将步骤S121中处理后的第一样本数据连续变量分桶,类别变量编码,形成第一样本数据。
[0029]具体的,所述步骤S22包括:数据清洗,处理第二模型样本集的空缺值、噪声数据,删除第二模型样本集的重复值;数据集成,集成多个数据源,处理数据源的冗余问题;特征工程,将步骤S221处理后的第二模型样本集连续变量分桶,类别变量编码,形成第二样本数据。
[0030]第二方面,本申请实施例提供了一种基于GLM及机器学习算法的车险纯风险保费预测装置,包括处理单元以及存储单元,所述存储单元有一个或多个程序,当所述一个或多个程序被所述处理单元运行时,使得所述处理单元实现如上述任一项所述的基于GLM及机器学习算法的车险纯风险保费预测方法的步骤。
[0031]与现有技术相比,本专利技术结合了传统的GML模型与XGBoost模型,具有如下优点:
[0032]可解释性强:模型拟合所选各个风险因子与风险之间的关系一目了然,其预测结果易于解释与理解。
[0033]可控性强:最终落地模型采用GLM框架,因此可以根据业务或监管需要,对模型结构进行调整,提高模型的可靠性与合理性。
[0034]预测性能更强:模型内部采用XGBoost去拟合残差,比传统的GLM模型具有更好的预测性能。
附图说明
[0035]图1是本专利技术一种基于GLM及机器学习算法的车险纯风险保费预测方法的流程图;
[0036]图2是本专利技术一种基于GLM及机器学习算法的车险纯风险保费预测方法步骤S1的具体流程图;
[0037]图3是本专利技术一种基于GLM及机器学习算法的车险纯风险保费预测方法步骤S2的具体流程图;
[0038]图4是本专利技术一种基于GLM及机器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于GLM及机器学习算法的车险纯风险保费预测方法,其特征在于,包括:步骤S1:采集第一建模因子的第一定价数据形成第一模型样本集,使用所述第一模型样本集拟合第一层GLM模型,计算预测结果残差;步骤S2:在所述第一定价数据的基础上,采集第二建模因子;将所述第二建模因子的定价数据关联至所述第一定价数据,形成第二定价数据,并将第二定价数据作为第二模型样本集,将所述第二模型样本集进行处理后拟合第二层XGBoost残差模型,并将残差的预测结果进行切分,切分后的每组数据作为梯度提升分因子;步骤S3:将所述梯度提升分因子、第三定价数据作为第三模型样本集拟合第三层GLM模型,计算并输出纯风险保费预测值。2.根据权利要求1所述的基于GLM及机器学习算法的车险纯风险保费预测方法,其特征在于,所述步骤S1包括:S11:采集第一建模因子的第一定价数据和对应的第一纯风险保费形成第一模型样本集;其中所述第一建模因子包含从车信息、从人信息、平台信息、保单信息;S12:对所述第一模型样本集进行预处理,生成符合GLM模型要求的第一样本数据;S13:使用所述第一样本数据拟合第一层GLM模型;S14:在第一层GLM模型中输入所述第一定价数据,处理后,输出第一纯风险保费预测值;S15:通过所述纯风险保费预测值计算预测结果残差;所述第一预测结果残差=纯风险保费实际值

纯风险保费预测值。3.根据权利要求1或2所述的基于GLM及机器学习算法的车险纯风险保费预测方法,其特征在于,所述步骤S2包括:S21:在所述第一定价数据的基础上,采集第二建模因子;将所述第二建模因子的定价数据关联至所述第一定价数据,形成第二定价数据,并将第二定价数据作为第二模型样本集;其中第二建模因子包含从车信息、从人信息、平台信息、保单信息、高维从车信息;S22:对所述第二模型样本集进行预处理,生成符合XGBoost残差模型的第二样本数据;S23:使用分层随机抽样的方法将所述第二定价数据与第一预测结果残差划分为训练集、验证集和测试集;所述训练集、验证集和测试集划分比例为6:2:2;S24:使用所述训练集数据拟合XGBoost残差模型,使用所述验证集数据调整XGBoost残差模型训练过程中的超参,使用所述测...

【专利技术属性】
技术研发人员:赵昕
申请(专利权)人:上海七炅信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1