【技术实现步骤摘要】
一种用于生存风险分析的多输出梯度提升树建模方法
本专利技术涉及计算机生存分析和机器学习领域,尤其涉及一种用于生存风险分析的多输出梯度提升树建模方法。
技术介绍
生存风险分析,在很多领域都有着广泛的应用,如金融,保险,医疗,交通,工业等。生存风险分析(简称生存分析)主要是研究在观测时间点发生某个特定事件的概率,进而估计随时间变化的风险曲线和生存曲线。与普通的分类和回归问题不同的是,生存风险分析的研究目标是在某个时间点发生特定事件的概率,而不仅仅只是一个目标变量,这使得其与一般研究的分类与回归问题有着较大不同。传统的生存风险分析方法通常以个体风险函数为主要研究对象,并对其做出某种假设,从而预测在不同时间点发生特定事件的概率;生存风险分析中另外一种是研究事件首次命中时间的预测模型。这两种传统的生存风险分析方法都对个体风险函数做出了某种形式的假设,并且设置模型参数与个体协变量之间为线性关系。在未知情况下,一旦个体风险函数违背模型的假设,那么由上述方法构建的生存预测模型的预测性能将会大大降低。用于建立生存预测模型的生存风险分析方法总体可分为以下几种:(1)Cox比例风险方法 ...
【技术保护点】
1.一种用于生存风险分析的多输出梯度提升树建模方法,其特征在于:该方法包括如下步骤:S1)在最优梯度提升树(XGBoost)的模型算法框架下,首先构建用于建立目标行业生存预测模型的生存数据的表达式;S2)定义所述目标行业生存预测模型的生存数据对应的损失函数表达式;S3)计算所述损失函数;S4)推导所述损失函数对应的一阶梯度和二阶梯度表达式;S5)计算所述损失函数对应的一阶梯度和二阶梯度;S6)将计算出的所述损失函数以及所述损失函数对应的一阶梯度和二阶梯度同时输入最优梯度提升树(XGBoost)的模型算法框架中,由最优梯度提升树(XGBoost)的模型算法框架自动训练生成所述 ...
【技术特征摘要】
1.一种用于生存风险分析的多输出梯度提升树建模方法,其特征在于:该方法包括如下步骤:S1)在最优梯度提升树(XGBoost)的模型算法框架下,首先构建用于建立目标行业生存预测模型的生存数据的表达式;S2)定义所述目标行业生存预测模型的生存数据对应的损失函数表达式;S3)计算所述损失函数;S4)推导所述损失函数对应的一阶梯度和二阶梯度表达式;S5)计算所述损失函数对应的一阶梯度和二阶梯度;S6)将计算出的所述损失函数以及所述损失函数对应的一阶梯度和二阶梯度同时输入最优梯度提升树(XGBoost)的模型算法框架中,由最优梯度提升树(XGBoost)的模型算法框架自动训练生成所述目标行业的生存预测模型;所述目标行业为金融、保险、医疗、交通和工业中的任意一种。2.根据权利要求1所述的用于生存风险分析的多输出梯度提升树建模方法,其特征在于,所述步骤S1)中构建用于建立目标行业生存预测模型的生存数据的表达式具体为:所述用于建立目标行业生存预测模型的生存数据由若干个观测对象的生存数据组成,其中,任意一个观测对象i的生存数据可以表示为{(xi,Ti,δi)|i=1,2,…,n},i表示第i个观测对象,n为观测对象的总个数,另外,表示第i个观测对象的协变量,表示第i个观测对象的末次观测时间,δi∈{0,1}表示在Ti时刻是否观测到第i个观测对象发生特定事件,其中,δi=0表示在Ti时刻未观测到第i个观测对象发生特定事件;δi=1表示在Ti时刻观测到第i个观测对象发生特定事件。3.根据权利要求2所述的用于生存风险分析的多输出梯度提升树建模方法,其特征在于,所述步骤S2)中定义所述目标行业生存预测模型的生存数据对应的损失函数表达式具体包括:S201)根据步骤S1)构建的所述用于建立目标行业生存预测模型的生存数据的表达式为最优梯度提升树(XGBoost)的模型算法框架定义损失函数,所述损失函数的表达式如下:L=L1+θ·L2其中,L1为所述损失函数的第一部分,L2为所述损失函数的第二部分,θ为所述损失函数的第二部分L2的系数,是所述目标行业生存预测模型中需要调整的参数,且0≤θ≤1;S202)定义L1的表达式:定义步骤S201)中的L1的表达式为似然函数负对数形式,其表示为:其中,表示第i个观测对象在协变量为xi时,在任意离散时间点t发生特定事件的预测概率,I(·)为指示函数,i=1,2,…,n;S203)定义L2的表达式:定义步骤S201)中的L2的表达式为:首先获得集合Ω:对于任意一个观测对象j,j=1,2,…,n,其末次观测时间为Tj,如果特定事件发生,则将末次观测时间小于Tj的其他观测对象i取出,并以(i,j)数对的形式存放在集合Ω,其中,i≠j,i,j=1,2,…,n;表示第i个观测对象在其末次观测时间Ti和Ti之前累积发生特定事件的预测概率,且对于所述集合Ω中任意一个数对(i,j),wi,j为的权值,并且,0<γ≤1,η>1,γ和η是所述目标行业生存预测模型中需要调整的参数。4.根据权利要求3所述的用于生存风险分析的多输出梯度提升树建模方法,其特征在于,所述步骤S3)中计算所述损失函数具体包括:S301)将满足步骤S1)构建的生存数据表达式的生存数据训练集输入经过步骤S2)定义了损失函数表达式的最优梯度提升树(XGBoost)的模型算法框架中,所述经过步骤S2)定义了损失函数表达式的最优梯度提升树(XGBoost)的模型算法框架对所述生存数据训练集中的任意一个观测对象i的生存数据的预测值向量为其中,是所述生存训练数据集中观测对象i的在任意离散时间点t的预测值,此时,该预测值等于步骤S202)中定义的预测概率的值;S302)计算L1:遍历所述生存数据训练集,对于任意一个观测对象i的生存数据,根据步骤S301)得到的预测值向量并采用步骤S202)定义的L1的表达式,计算得到L1;S303)计算L2:遍历所述集合Ω中的所有数对,根据步骤S301)得到的预测值向量并采用步骤S203)定义的L2的表达式,计算得到L2;S304)计算损失函数L:将通过步骤S302)和步骤S303)计算得到的L1和L2代入步骤S201)定义的损失函数L的表达式中,计算得到L。5.根据权利要求4所述的用于生存风险分析的多输出梯度提升树建模方法,其特征在于,...
【专利技术属性】
技术研发人员:付波,刘沛,付灵傲,郑鸿,邓玲,钟晓蓉,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。