当前位置: 首页 > 专利查询>杨光专利>正文

一种基于改进型XGBoost类方法的数据分析方法、定价方法以及相关设备技术

技术编号:36329593 阅读:32 留言:0更新日期:2023-01-14 17:38
本发明专利技术公开了一种基于改进型XGBoost类方法的数据分析方法、定价方法以及相关设备;本方案采用改进型XGBoost类算法,所述改进型XGBoost类方法对目标函数的二阶泰勒展开做修正,修改了其h

【技术实现步骤摘要】
一种基于改进型XGBoost类方法的数据分析方法、定价方法以及相关设备


[0001]本专利技术涉及机器学习技术和精算技术,具体涉及机器学习方法和最优化求解算法以及相应的大数据分析方法。

技术介绍

[0002]Ⅰ.纯保费测算模型。
[0003]在非寿险定价中,保险公司会对被保险人的纯保费进行测算,纯保费指被保险人的期望净赔付额。因非寿险保险期间较短,本文中的纯保费不考虑利息因素。要测算纯保费最好对损失(赔付)金额(单次出险的或保险期间内出险总和的)的概率分布做估计,而不能简单的只对损失额(赔付额)的期望值做估计。因为在补偿型保险中,一般对一次出险损失额或保险期间内的总损失的赔付有一个免赔额(或限额),只有测算出的损失额(赔付额)的概率分布,才能对免赔额(或限额)的调整使得纯保费的调整做相应的处理。有的文献或实际操作用E(Y)

d(Y是损失随机变量,d代表免费额)代替有免赔额的纯保费,是一种很粗糙的估计。明显地,当d>E(Y)时,纯保费测算居然为负,是不正确的。对有非比例再保险分出的业务,损失额(赔付额)概率分布的测算同样重要。
[0004]其中,测算总损失额(赔付额)的概率分布有两类方法:
[0005]1.直接对保险期间内总损失额(赔付额)的概率分布做估计。
[0006]2.分别对保险期间内出险次数(赔付次数)的概率分布和每次出险的损失强度(赔付强度)的概率分布分别做估计。用复合分布模型对此两种概率分布做整合得到总损失(总赔付)的概率分布。一般也有两种假设:
[0007]a.标准假设。假设此两种分布相互独立,每次出险的损失(赔付)强度服从独立同分布。
[0008]b.此两种分布有关联,或者损失(赔付)强度不服从独立同分布。
[0009]标准假设是a假设,求总损失(总赔付)的概率分布的方法有特征函数类变换法(傅里叶变换法)或随机模拟法。对b假设,由于待估参数过多,可能存在过拟合的风险,业界很少采用。一般而言,第二类方法是更精细的方法,相比第一类方法有着诸多好处。
[0010]Ⅱ.广义线性模型(GLM)。
[0011]在非寿险定价中,广义线性模型(GLM)是一种标准工具。
[0012](1)指数分布族:
[0013]如果一个随机变量Y的概率值或概率密度可以写成 f(y;θ)=exp[a(y)b(θ)+c(θ)+d(y)],那么Y的概率分布属于指数分布族。如果a(y)=y,称为经典形式。如果该分布还有除了θ以外的参数,则被看作是麻烦参数,表达在a,b,c和d 中。著名的属于经典形式的指数分布族的离散型分布有泊松分布,二项分布,负二项分布;连续型分布有正态分布,伽马分布等。
[0014](2)广义线性模型:
[0015]a.模型:
[0016]模型由一组独立的随机变量Y1,...,Y
N
定义,Y
i
属于指数分布族,并且有如下性质:
[0017]1.每一个Y
i
的分布都是经典形式,取决于单一的参数θ
i
,θ
i
不一定全相同,即
[0018]f(y
i
;θ
i
)=exp[y
i
b
i

i
)+c
i

i
)+d
i
(y
i
)];
[0019]2.所有Y
i
的分布都有相同的形式,使得b,c,d的下标是不需要的。
[0020]因此,Y1,...,Y
N
的联合分布的概率(概率密度)是:
[0021][0022]假设E(Y
i
)=μ
i
,μ
i
是θ
i
的某种函数。有一组参数β1,...,β
p
(p<N),使得其中, g是单调(不必严格单调)可微函数,称为连接函数。
[0023]x
i
是解释变量的p
×
1向量(特征向量),
[0024]此外,广义加性模型作为广义线性模型的推广,可以看作是广义线性模型的一种特征工程处理方式。
[0025]b.参数估计的算法:
[0026]1.对β:当麻烦参数确定时,写出Y1,...,Y
N
联合概率分布的对数似然函数l,用极大似然估计法求β。大多数统计软件包拟合GLM的算法是迭代加权最小二乘法(Charnes etal.1976)。一种直观的写法是b
(m)
=b
(m

1)
+[J
(m

1)
]‑1U
(m

1)
。其中,b
(m)
是参数β的第m 次迭代估计。J和U的表达式参考相关文献。其本质是Newton

Raphson法,迭代求得使得的β值。
[0027]相较于其他算法如梯度下降法,该算法的优势在于可以求得b的统计信息,如b的方差
‑ꢀ
协方差矩阵E[(b

β)(b

β)
T
]。
[0028]2.对麻烦参数:采用网格搜寻法,寻找使得第一步求得的对数似然函数值最大时的参数值,将其确定为模型的参数估计。
[0029]特别地,当Y
i
~N((μ
i
,σ2),连接函数是恒等函数,即时,无论σ2取值是多少β的极大似然估计都有如下公式:
[0030]b=(X
T
X)
‑1X
T
y:其中,与线性回归模型中,使用最小二乘数法的估计结果一致。
[0031]可以证明σ2的无偏估计(Annette J.Dobson)
[0032]σ2的极大似然估计(Christopher M.Bishop)
[0033]注:线性回归的最小二乘法即是求使得均方误差最小的β的估计。
[0034](3)广义线性模型在非寿险定价中的运用:
[0035]主要步骤如下:
[0036]1.确定要预测分析的随机变量Y
i
,收集样本,对数据进行预处理。
[0037]2.选择Y
i
的分布类型以及连接函数的形式,根据经验进行特征工程。
[0038]3.选择算法计算β的估计值,以及β的p值(或其他的统计指标),以及分布中其余待
估参数的估计值。
[0039]4.根据β的p值,或其他的统计指标或者AIC,BIC筛选合适的特征。
[0040]5.更换Y
i
的分布类型或连接函数的形式,重复2

4步。
[0041]6.根据AIC或BIC选择最优的分布类型以及连接函数和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于改进型XGBoost类方法的数据分析方法,其特征在于,采用改进型XGBoost类方法基于获取到的变量参数进行预测评估,所述改进型XGBoost类方法对XGBoost类算法中的目标函数近似表达的二阶泰勒展开做修正,当其h
i
不恒为非负时,通过修改其h
i
相关项,使得改进型XGBoost类方法的适用性不局限于凸损失函数。2.根据权利要求1所述的基于改进型XGBoost类方法的数据分析方法,其特征在于,所述改进型XGBoost类方法将XGBoost类方法从单变量预测推广到参数分布的多参数预测,形成多轮循环改进型XGBoost类数据分析方法。3.根据权利要求1所述的基于改进型XGBoost类方法的数据分析方法,其特征在于,所述改进型XGBoost类方法将XGBoost类算法中预测变量的初始迭代值设置为极大似然估计值。4.根据权利要求1所述的基于改进型XGBoost类方法的数据分析方法,其特征在于,所述基于改进型XGBoost类方法的数据分析方法中以训练集的损失函数类型作为验证集和测试集的评估指标类型。5.根据权利要求1所述的基于改进型XGBoost类方法的数据分析方法,其特征在于,所述改进型XGBoost类方法中,设定损失函数在讨论的范围内:对二阶可导或对一阶可导;有且仅有一个局部极小值点并且仅在该点导数为0,或者严格单调。6.根据权利要求5所述的基于改进型XGBoost类方法的数据分析方法,其特征在于,所述改进型XGBoost类方法中,对第t次迭代的目标函数采用以下近似之一:(1)或(2)或(1)式和(2)式的加权平均表达。7.根据权利要求1所述的基于改进型XGBoost类方法的数据分析方法,其特征在于,将改进型XGBoost类方法与广义线性模型相结合,将广义线性模型中期望参数与特征向量的线性组合的连接更变为期望参数与以特征向量为自变量的改进型XGBoost类函数的连接,并且使得预测变量的概率分布类型不局限于指数分布族。8.一种定价方法,其特征在于,所述定价方法基于权利要求1

7中任一项所述的数据分析方法进行精算定价。9.根据权利要求8所述的定价方法,其特征在于,所述定价方法包括:(1)首先选择要预测的随机变量,收集样本数据,包括样本属性和预测变量的观测值;(2)对样本数据进行预处理;(3)进行特征工程,得到更新后的样本集D={(x
i
,y
i
)};x
i
是第i个样本的特征向量;(4)将样本集划分为训练集,验证集和测试集;所述训练集用来训练用于预测预测变量的学习模型,验证集用来调整超参数,测试集用来评估学习模型性能;(5)选择预测随机变量的参数分布类型,用改进型XGBoost类方法求得预测变量的条件
概率分布;(6)在候选分布中重新选择需要拟合的分布,重复以上步骤(5),用测试集的评估指标确定最优参数分布。10.根据权利要求9所述的定价方法,其特征在于,所述定价方法基于改进型XGBoost类方法求得预测变量的条件概率分布,包括。(1)从候选参数概率分布中选择某一分布,确定其参数;(2)将预测变量的期望值表达式作为期望参数,对该概率分布的表达式进行变形,将期望参数作为预测参数,预测参数以外的参数看作麻烦参数、超参数;如该分布表达式本身已含期望参数,则不需要变形,直接设定预测参数和超参数;(3)确定目标函数,以该分布的负对数似然函数作为损失函数;(4)对超参数确定其值;(5)当超参数固定时,用改进型XGBoost类算法求得预测参数的预测值;(6)更换超参数取值,重复步骤(5),用验证集的评估指标确定最优参数预测值和最优超参数取值;从而得到预测变量的预测值和其具体概率分布表达式。11.一种数据分析方法,其特征在于,形成改进型XGBoost类方法,并直接推广至多元,形成多元正则化提升树方法,所述多元正则化提升树方法对XGBoost类方法中的目标函数近似表达的二阶泰勒展开做修正,修改其h;相关项,使得多元正则化提升树方法的适用性不局限于凸损失函数,并在算法层面同时最优化求解多元目标函数的多个变量。12.根据权利要求11所述的数据分析方法,其特征在于,所述多元正则化提升树方...

【专利技术属性】
技术研发人员:杨光
申请(专利权)人:杨光
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1