一种用于风险预测任务的特征组合方法技术

技术编号：35783499 阅读：10 留言：0更新日期：2022-12-01 14:29

本发明专利技术公开了一种用于风险预测任务的特征组合方法，其特点是该方法包括：模型特征权重模块和加权求和组合特征模块，所述模型特征权重模块使用输入的特征和标签训练用于分类或回归的机器学习模型，得到模型中对应特征的权重系数或特征重要性；所述加权求和组合特征模块将特征权重系数或特征重要性经softmax转化为对应的特征权重分布，并与数据中对应的特征值进行加权求和得到新的组合特征值，考虑了数据中各个特征的重要性并基于特征重要性完成了对新特征的组合。本发明专利技术与现有技术相比具有选择特征并组合出稳定有效的特征值，优化了风险预测任务中的风险分层评估效果，为风险分析和风险预测提供支持，方法简单有效，具有广泛的应用前景。泛的应用前景。泛的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于风险预测任务的特征组合方法

[0001]本专利技术涉及特征工程
，具体地说是一种用于风险预测任务的特征组合方法。

技术介绍

[0002]风险预测任务由于其能识别评估对象面临的各种风险、评估风险概率和可能带来的负面影响、确定组织或个人承受风险的能力，确定风险消减和控制的优先等级以及推荐风险消减对策等原因，一直在包括金融、医疗等领域备受关注。此类任务通常依据数据中的特征和标签的生存状态与天数使用包括Cox模型等来进行风险分析和预测。考虑到数据限制这一原因，风险预测任务往往不能做到有效的风险分层。因此，对于特征工程中的探索即如何充分地开发和利用数据，从数据中提取重要有效的信息至关重要。
[0003]目前，特征工程中普遍适用的特征组合方法主要包括特征之间的加减乘除、组合独热矢量等，组合的方式包括依据专家先验知识组合、随机组合以及机器学习模型自动组合等。但是，对于风险预测任务，特征组合既要考虑方法上的可解释性，又要考虑方式上的简单有效，因此，在风险预测任务的特征工程中如何选择特征并组合出稳定有效的特征值十分重要。
[0004]现有技术的特征组合的特征值稳定有效性差，识别评估对象和风险预测精度低，缺少针对风险预测任务的特征组合适用方法，需要高成本的人工规则定义与先验知识参与，未将风险预测任务组合特征的可解释性纳入考虑，风险分层评估效果差。

技术实现思路

[0005]本专利技术的目的是针对现有技术的不足而设计的一种用于风险预测任务的特征组合方法，采用模型特征权重模块和加权求和组合特征模...

【技术保护点】

【技术特征摘要】
1.一种用于风险预测任务的特征组合方法，其特征在于该方法采用模型特征权重模块与加权求和组合特征模块进行特征组合，所述模型特征权重模块使用输入的特征和标签训练用于分类或回归的机器学习模型，得到模型中对应特征的权重系数W
i
或特征重要性F
i
以反映每类特征的重要性，为后续特征值的组合做准备；所述加权求和组合特征模块将特征权重系数W
i
或特征重要性F
i
经softmax转化为对应的特征权重分布P
i
，并与数据中对应的特征值进行加权求和得到最终新的组合特征值，具体包括如下步骤：1)建立模型特征权重模块在给定数据输入特征X
i
∈X和标签Y的条件下，使用损失函数训练一个逻辑回归模型或支持向量机、决策树以及基于决策树的集成模型，得到模型中对应特征的权重系数W
i
或特征重要性F
i
；2)建立加权求和组合特征模块将模型特征权重模块得到的特征权重系数W
i
或特征重要性F
i
经softmax转化为其在n个特征中的特征权重分布P
i
，将特征权重分布P
i
与数据中对...

【专利技术属性】
技术研发人员：杨燕，庄鹏杰，贺樑，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人