一种用于风险预测任务的特征组合方法技术

技术编号:35783499 阅读:10 留言:0更新日期:2022-12-01 14:29
本发明专利技术公开了一种用于风险预测任务的特征组合方法,其特点是该方法包括:模型特征权重模块和加权求和组合特征模块,所述模型特征权重模块使用输入的特征和标签训练用于分类或回归的机器学习模型,得到模型中对应特征的权重系数或特征重要性;所述加权求和组合特征模块将特征权重系数或特征重要性经softmax转化为对应的特征权重分布,并与数据中对应的特征值进行加权求和得到新的组合特征值,考虑了数据中各个特征的重要性并基于特征重要性完成了对新特征的组合。本发明专利技术与现有技术相比具有选择特征并组合出稳定有效的特征值,优化了风险预测任务中的风险分层评估效果,为风险分析和风险预测提供支持,方法简单有效,具有广泛的应用前景。泛的应用前景。泛的应用前景。

【技术实现步骤摘要】
一种用于风险预测任务的特征组合方法


[0001]本专利技术涉及特征工程
,具体地说是一种用于风险预测任务的特征组合方法。

技术介绍

[0002]风险预测任务由于其能识别评估对象面临的各种风险、评估风险概率和可能带来的负面影响、确定组织或个人承受风险的能力,确定风险消减和控制的优先等级以及推荐风险消减对策等原因,一直在包括金融、医疗等领域备受关注。此类任务通常依据数据中的特征和标签的生存状态与天数使用包括Cox模型等来进行风险分析和预测。考虑到数据限制这一原因,风险预测任务往往不能做到有效的风险分层。因此,对于特征工程中的探索即如何充分地开发和利用数据,从数据中提取重要有效的信息至关重要。
[0003]目前,特征工程中普遍适用的特征组合方法主要包括特征之间的加减乘除、组合独热矢量等,组合的方式包括依据专家先验知识组合、随机组合以及机器学习模型自动组合等。但是,对于风险预测任务,特征组合既要考虑方法上的可解释性,又要考虑方式上的简单有效,因此,在风险预测任务的特征工程中如何选择特征并组合出稳定有效的特征值十分重要。
[0004]现有技术的特征组合的特征值稳定有效性差,识别评估对象和风险预测精度低,缺少针对风险预测任务的特征组合适用方法,需要高成本的人工规则定义与先验知识参与,未将风险预测任务组合特征的可解释性纳入考虑,风险分层评估效果差。

技术实现思路

[0005]本专利技术的目的是针对现有技术的不足而设计的一种用于风险预测任务的特征组合方法,采用模型特征权重模块和加权求和组合特征模块的方法,通过特征组合方法发现新的风险预测指标,有效优化了风险预测任务中的风险分层评估效果。模型特征权重模块使用输入的特征和标签训练用于分类或回归的机器学习模型,得到模型中对应特征的权重系数或特征重要性以反映每类特征的重要性,为后续特征值的组合做准备,加权求和组合特征模块将特征权重系数或特征重要性经过softmax转化为对应的特征权重分布,并与数据中对应的特征值进行加权求和得到最终新的组合特征值,考虑了数据中各个特征的重要性并基于特征重要性完成了对新特征的组合,组合出的风险预测指标有效优化了风险预测任务中的风险分层评估效果,为风险分析和风险预测提供支持,方法简单有效,能选择特征并组合出稳定有效的特征值,能够在医学生存分析、金融风险预测等真实场景中应用,具有广泛的实用意义和应用前景。
[0006]实现本专利技术目的的具体技术方案是:一种用于风险预测任务的特征组合方法,其特点是该方法包括如下步骤:
[0007]1)建立模型特征权重模块,该模块完成模型的训练并得到模型中对应特征的权重系数;在给定数据输入特征X
i
∈X和标签Y的条件下,训练一个分类或回归的机器学习模型
并得到模型中对应特征的权重系数W
i
或特征重要性F
i
。以分类模型逻辑回归为例,逻辑回归模型的目标函数h
W
(X)由下述(d)式表示为:
[0008][0009]其中,σ(W
T
X)为经过线性变换W
T
X与sigmoid激活函数转换得到输入数据样本属于某个类别的概率的表达式;为线性回归的表达式,W
i
即为对应特征的权重系数,是模型特征权重模块的目标。为sigmoid激活函数,将线性回归的返回值转换为区间[0,1]内的值,用于表示自变量属于某个类别的概率。
[0010]为得到模型特征权重模块的目标特征权重系数W
i
,逻辑回归模型需优化的损失函数目标由下述(c)式表示为:
[0011][0012]其中,损失函数为损失函数;y
i
∈Y表示数据中的第i条样本的标签;x
i
∈X表示数据中第i条样本的所有特征;h
W
(x
i
)为第i条样本的的目标函数。经过损失函数的优化来训练逻辑回归模型可得到模型中对应特征的权重系数W
i

[0013]除上例所述外,对于支持向量机、决策树和基于决策树的集成模型等,优化其相应的损失函数来训练模型也能得到模型中对应特征的权重系数W
i
或特征重要性F
i

[0014]2)建立加权求和组合特征模块,加权求和组合特征模块包括将从模型特征权重模块得到的特征权重系数或特征重要性经过softmax转化为对应的特征权重分布和将特征权重分布与数据中对应的特征值进行加权求和得到最终新的组合特征值两部分。其中:
[0015]2.1将从模型特征权重模块得到的特征权重系数W
i
或特征重要性F
i
经过softmax转化为对应的特征权重分布P
i
,其处理过程如下:
[0016]所述特征权重分布P
i
由下述(a)式表示为:
[0017][0018]其中,为每一类特征值X
i
对应的特征权重系数W
i
的元素值;为每一类特征值X
i
对应的特征重要性F
i
的元素值。
[0019]经过上述计算,每一类特征值X
i
对应的特征权重系数W
i
或特征重要性F
i
都能转化为其在n个特征中的特征权重分布P
i

[0020]2.2将特征权重分布P
i
与数据中对应的特征值X
i
进行加权求和得到最终新的组合特征值New_X
i
,加权求和得到最终新的组合特征值New_X
i
由下述(b)式表示为:
[0021][0022]其中,X
i
为数据中不同类对应的特征值。
[0023]按照上述公式,数据中的每一条样本的多类特征值最终都能组合出一个新的特征值New_X
i
,最终得到一列新的组合特征值New_X。
[0024]所述步骤1)中,除举例详解的逻辑回归模型与提及的模型外,其余能计算出特征权重系数W
i
或特征重要性F
i
的分类或回归模型也都适用于上述描述的特征组合方法。
[0025]本专利技术与现有技术相比具有以下显著的技术进步和有益效果优点:
[0026]1、适用性:相较于过去的方法能普遍适用于风险预测任务,只要能对分类或回归模型进行训练并得到特征权重系数或特征重要性,即可进行特征组合。
[0027]2、有效性:设计使用softmax将特征权重系数或特征重要性转化为特征权重分布,能够优化风险预测任务中的风险分层评估效果,为风险分析和风险预测提供支持。
[0028]3、实用性:该方法具有广泛的实用意义,能够在真实场景中应用,比如医学生存分析、金融风险预测等任务。
附图说明
[0029]图1为本专利技术方法流程图。
具体实施方式
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于风险预测任务的特征组合方法,其特征在于该方法采用模型特征权重模块与加权求和组合特征模块进行特征组合,所述模型特征权重模块使用输入的特征和标签训练用于分类或回归的机器学习模型,得到模型中对应特征的权重系数W
i
或特征重要性F
i
以反映每类特征的重要性,为后续特征值的组合做准备;所述加权求和组合特征模块将特征权重系数W
i
或特征重要性F
i
经softmax转化为对应的特征权重分布P
i
,并与数据中对应的特征值进行加权求和得到最终新的组合特征值,具体包括如下步骤:1)建立模型特征权重模块在给定数据输入特征X
i
∈X和标签Y的条件下,使用损失函数训练一个逻辑回归模型或支持向量机、决策树以及基于决策树的集成模型,得到模型中对应特征的权重系数W
i
或特征重要性F
i
;2)建立加权求和组合特征模块将模型特征权重模块得到的特征权重系数W
i
或特征重要性F
i
经softmax转化为其在n个特征中的特征权重分布P
i
,将特征权重分布P
i
与数据中对...

【专利技术属性】
技术研发人员:杨燕庄鹏杰贺樑
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1