当前位置: 首页 > 专利查询>北京大学专利>正文

一种有趋势约束和变量选择的分箱回归方法技术

技术编号:38083051 阅读:20 留言:0更新日期:2023-07-06 08:49
本发明专利技术提供了一种有趋势约束和变量选择的分箱回归方法,获取用户数据,并进行数据分类,生成多个不同类型用户数据集;通过fused lasso对不同类型用户数据进行变量排序,确定不同类型用户数据的数据趋势;根据所述数据趋势,设定约束项;根据所述约束项,确定符合对用户数据进行信用评估的可选数据变量;将所述可选数据变量通过group lasso进行单变量选择,确定目标变量;将所述目标变量转换为离散变量,将所述离散变量的对应的用户数据进行单变量分箱处理,确定最优分箱结果;根据所述最优分箱结果,对用户进行信用评估。对用户进行信用评估。对用户进行信用评估。

【技术实现步骤摘要】
一种有趋势约束和变量选择的分箱回归方法


[0001]本专利技术涉及数据处理
,特别涉及一种有趋势约束和变量选择的分箱回归方法。

技术介绍

[0002]目前,在信用评估等问题中,需要将一些连续型变量如年龄、收入等离散化,然后对不同的离散值分别赋予不同的得分,最后根据得分来评估一个人的信用值。如何对变量进行离散化,是一个很有重要的问题。一个好的离散化对信用建模有重要的影响。传统的离散化通常考虑单个变量和结局(如信用)之间的相关性,采用融合临近值的方法去离散化。实际上离散化的过程就是一个分箱的过程。而分箱的过程,可以使用分段常数函数这一数学模型来刻画。
[0003]现有技术中,对于fused lasso以及group selection已经有很多研究,但是fused lasso主要针对一维信号。Group lasso的研究很丰富,有针对线性回归的,也有针对logistic回归的。当同时有fused lasso惩罚和group lasso的惩罚时,如何对参数求解也是一个未解决的问题。如果再加入一些约束,比如信号是单调的或者信号是U型的,更本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种有趋势约束和变量选择的分箱回归方法,其特征在于,包括:获取用户数据,并进行数据分类,生成多个不同类型用户数据集;通过fused lasso对不同类型用户数据集进行变量排序,确定不同类型用户数据的数据趋势;根据所述数据趋势,设定约束项;根据所述约束项,确定符合对用户数据进行信用评估的可选数据变量;将所述可选数据变量通过grouplasso进行单变量选择,确定目标变量;将所述目标变量转换为离散变量,将所述离散变量的对应的用户数据进行单变量分箱处理,确定最优分箱结果;根据所述最优分箱结果,对用户进行信用评估。2.如权利要求1所述的一种有趋势约束和变量选择的分箱回归方法,其特征在于,所述获取用户数据,并进行数据分类,生成多个不同类型用户数据集,包括:在不同的不同金融平台对用户的数据进行提取,确定用户数据;其中,所述用户数据包括:身份信息、收入数据、历史贷款数据和偿还状态数据;将所述用户数据通过M个不同的过滤器进行特征选择,分别得到M个不同的特征序列;其中,M为大于等于2的正整数;所述过滤器包括:身份数据过滤器、收入数据过滤器、历史贷款数据过滤器和偿还状态数据过滤器;对特征序列中的每个特征进行权重评估,根据评估得分进行降序排列,得到基于权重排序的特征子集;根据特征子集建立SVM模型,将特征子集作为训练样本,进行训练,利用集成学习策略的两层叠加框架,构建基于多模型融合集成学习的高维不平衡数据分类模型,对用户数据进行分类,生成多个不同类型用户数据集。3.如权利要求1所述的一种有趋势约束和变量选择的分箱回归方法,其特征在于,所述通过fused lasso对不同类型用户数据进行变量排序,确定不同类型用户数据的数据趋势,包括:根据所述多个不同类型用户数据集,确定多个不同类型的用户特征数据集;根据所述多个不同类型的用户特征数据集,确定多个不同类型的数据变量数据集;通过fused lasso对所述多个不同类型的数据变量数据集进行变量排序;根据所述变量排序,建立不同类型的用户数据的变量曲线;根据所述变量曲线,确定不同类型用户数据的数据趋势。4.如权利要求1所述的一种有趋势约束和变量选择的分箱回归方法,其特征在于,所述根据所述数据趋势,设定约束项,包括:根据所述数据趋势,确定用户信用的变化趋势,并根据所述变化趋势,构建用户数据的预测变换矩阵;获取信用评估标准,建立用户数据的趋势阈值;根据所述趋势阈值建立信用评估边界矩阵;将所述预测变换矩阵和信用评估边界矩阵进行数据拟合差项;
根据所述数据拟合差项,构建模型趋势约束项;根据所述模型趋势约束项,建立多个基于用户信用追踪的目标函数;根据所述目标函数,设定约束项。5.如权利要求1所述的一种有趋势约束和变量选择的分箱回归方法,其特征在于,所述根据所述约束项,确定符合对用户数据进行信用评估的可选数据变量,包括:基于所述约束项,生成对用户数据的信用评估的约束项集;其中,所述约束项集中包括每类用户数据的数据变量的变量...

【专利技术属性】
技术研发人员:贾金柱陈建王世今苏明富
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1