【技术实现步骤摘要】
一种基于改进型XGBoost类方法的数据分析方法、定价方法以及相关设备
[0001]本专利技术涉及机器学习技术和精算技术,具体涉及机器学习方法和最优化求解算法以及相应的大数据分析方法。
技术介绍
[0002]Ⅰ.纯保费测算模型。
[0003]在非寿险定价中,保险公司会对被保险人的纯保费进行测算,纯保费指被保险人的期望净赔付额。因非寿险保险期间较短,本文中的纯保费不考虑利息因素。要测算纯保费最好对损失(赔付)金额(单次出险的或保险期间内出险总和的)的概率分布做估计,而不能简单的只对损失额(赔付额)的期望值做估计。因为在补偿型保险中,一般对一次出险损失额或保险期间内的总损失的赔付有一个免赔额(或限额),只有测算出的损失额(赔付额)的概率分布,才能对免赔额(或限额)的调整使得纯保费的调整做相应的处理。有的文献或实际操作用E(Y)
‑
d(Y是损失随机变量,d代表免费额)代替有免赔额的纯保费,是一种很粗糙的估计。明显地,当d>E(Y)时,纯保费测算居然为负,是不正确的。对有非比例再保险分出的业务,损失额(赔付额)概率分布的测算同样重要。
[0004]其中,测算总损失额(赔付额)的概率分布有两类方法:
[0005]1.直接对保险期间内总损失额(赔付额)的概率分布做估计。
[0006]2.分别对保险期间内出险次数(赔付次数)的概率分布和每次出险的损失强度(赔付强度)的概率分布分别做估计。用复合分布模型对此两种概率分布做整合得到总损失(总赔付)的概率分布。一般也有两种假设:
...
【技术保护点】
【技术特征摘要】
1.基于改进型XGBoost类方法的数据分析方法,其特征在于,采用改进型XGBoost类方法基于获取到的变量参数进行预测评估,所述改进型XGBoost类方法对XGBoost类算法中的目标函数近似表达的二阶泰勒展开做修正,当其h
i
不恒为非负时,通过修改其h
i
相关项,使得改进型XGBoost类方法的适用性不局限于凸损失函数。2.根据权利要求1所述的基于改进型XGBoost类方法的数据分析方法,其特征在于,所述改进型XGBoost类方法将XGBoost类方法从单变量预测推广到参数分布的多参数预测,形成多轮循环改进型XGBoost类数据分析方法。3.根据权利要求1所述的基于改进型XGBoost类方法的数据分析方法,其特征在于,所述改进型XGBoost类方法将XGBoost类算法中预测变量的初始迭代值设置为极大似然估计值。4.根据权利要求1所述的基于改进型XGBoost类方法的数据分析方法,其特征在于,所述基于改进型XGBoost类方法的数据分析方法中以训练集的损失函数类型作为验证集和测试集的评估指标类型。5.根据权利要求1所述的基于改进型XGBoost类方法的数据分析方法,其特征在于,所述改进型XGBoost类方法中,设定损失函数在讨论的范围内:对二阶可导或对一阶可导;有且仅有一个局部极小值点并且仅在该点导数为0,或者严格单调。6.根据权利要求5所述的基于改进型XGBoost类方法的数据分析方法,其特征在于,所述改进型XGBoost类方法中,对第t次迭代的目标函数采用以下近似之一:(1)或(2)或(1)式和(2)式的加权平均表达。7.根据权利要求1所述的基于改进型XGBoost类方法的数据分析方法,其特征在于,将改进型XGBoost类方法与广义线性模型相结合,将广义线性模型中期望参数与特征向量的线性组合的连接更变为期望参数与以特征向量为自变量的改进型XGBoost类函数的连接,并且使得预测变量的概率分布类型不局限于指数分布族。8.一种定价方法,其特征在于,所述定价方法基于权利要求1
‑
7中任一项所述的数据分析方法进行精算定价。9.根据权利要求8所述的定价方法,其特征在于,所述定价方法包括:(1)首先选择要预测的随机变量,收集样本数据,包括样本属性和预测变量的观测值;(2)对样本数据进行预处理;(3)进行特征工程,得到更新后的样本集D={(x
i
,y
i
)};x
i
是第i个样本的特征向量;(4)将样本集划分为训练集,验证集和测试集;所述训练集用来训练用于预测预测变量的学习模型,验证集用来调整超参数,测试集用来评估学习模型性能;(5)选择预测随机变量的参数分布类型,用改进型XGBoost类方法求得预测变量的条件
概率分布;(6)在候选分布中重新选择需要拟合的分布,重复以上步骤(5),用测试集的评估指标确定最优参数分布。10.根据权利要求9所述的定价方法,其特征在于,所述定价方法基于改进型XGBoost类方法求得预测变量的条件概率分布,包括。(1)从候选参数概率分布中选择某一分布,确定其参数;(2)将预测变量的期望值表达式作为期望参数,对该概率分布的表达式进行变形,将期望参数作为预测参数,预测参数以外的参数看作麻烦参数、超参数;如该分布表达式本身已含期望参数,则不需要变形,直接设定预测参数和超参数;(3)确定目标函数,以该分布的负对数似然函数作为损失函数;(4)对超参数确定其值;(5)当超参数固定时,用改进型XGBoost类算法求得预测参数的预测值;(6)更换超参数取值,重复步骤(5),用验证集的评估指标确定最优参数预测值和最优超参数取值;从而得到预测变量的预测值和其具体概率分布表达式。11.一种数据分析方法,其特征在于,形成改进型XGBoost类方法,并直接推广至多元,形成多元正则化提升树方法,所述多元正则化提升树方法对XGBoost类方法中的目标函数近似表达的二阶泰勒展开做修正,修改其h;相关项,使得多元正则化提升树方法的适用性不局限于凸损失函数,并在算法层面同时最优化求解多元目标函数的多个变量。12.根据权利要求11所述的数据分析方法,其特征在于,所述多元正则化提升树方...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。