交叉变量数据的生成方法、设备和存储介质技术

技术编号:34958217 阅读:12 留言:0更新日期:2022-09-17 12:37
本申请公开了一种交叉变量数据的生成方法、设备和存储介质,该方法包括:获取若干第一变量数据集;其中,若干第一变量数据集为与信贷相关的数据集;对若干第一变量数据集进行交叉处理,得到若干初始交叉变量数据集;从若干初始交叉变量数据集中,选出符合第一预设要求的初始交叉变量数据集,作为目标交叉变量数据集。通过上述方式,本申请能够在不依赖人工业务经验的情况下生成符合要求的交叉变量数据。务经验的情况下生成符合要求的交叉变量数据。务经验的情况下生成符合要求的交叉变量数据。

【技术实现步骤摘要】
交叉变量数据的生成方法、设备和存储介质


[0001]本申请涉及金融
,特别是涉及一种交叉变量数据的生成方法、设备和存储介质。

技术介绍

[0002]目前,大多数评分卡模型仅考虑单个变量与目标变量的线性关系。在需要考虑进交叉变量时,大多采用人工经验衍生的交叉变量,十分依赖业务老师的经验,需要耗费大量的时间。

技术实现思路

[0003]本申请主要解决的技术问题是提供一种交叉变量数据的生成方法、设备和存储介质,能够在不依赖人工业务经验的情况下生成符合要求的交叉变量数据。
[0004]为解决上述技术问题,本申请采用的一个技术方案是:提供一种交叉变量数据的生成方法,该方法包括:获取若干第一变量数据集;其中,若干第一变量数据集为与信贷相关的数据集;对若干第一变量数据集进行交叉处理,得到若干初始交叉变量数据集;从若干初始交叉变量数据集中,选出符合第一预设要求的初始交叉变量数据集,作为目标交叉变量数据集。
[0005]其中,对若干第一变量数据集进行交叉处理是利用XGB模型执行的;XGB模型的树的深度小于或等于第一阈值,树的深度与初始交叉变量数据集的复杂度相关;XGB模型的树的棵树小于或等于第二阈值,树的棵树与初始交叉变量数据集的数量相关。
[0006]其中,在从若干初始交叉变量数据集中,选出符合第一预设要求的初始交叉变量数据集,作为目标交叉变量数据集之前,交叉变量数据的生成方法还包括:获取各初始交叉变量数据集对应的第一评估指标;从若干初始交叉变量数据集中,选出符合第一预设要求的初始交叉变量数据集,作为目标交叉变量数据集,包括:从若干初始交叉变量数据集中,选出第一评估指标符合第一预设要求的初始交叉变量数据集,作为目标交叉变量数据集。
[0007]其中,第一评估指标包括F1分数,第一预设要求为F1分数大于或等于第三阈值;从若干初始交叉变量数据集中,选出第一评估指标符合第一预设要求的初始交叉变量数据集,作为目标交叉变量数据集,包括:对于各初始交叉变量数据集,响应于初始交叉变量数据集的F1分数大于或等于第三阈值,将初始交叉变量数据集作为目标交叉变量数据集。
[0008]其中,在从若干初始交叉变量数据集中,选出符合第一预设要求的初始交叉变量数据集,作为目标交叉变量数据集之后,交叉变量数据的生成方法还包括:基于目标交叉变量数据集,得到若干变量组合数据集;利用交叉验证算法运行各变量组合数据集的逻辑回归模型,得到若干初始模型;从若干初始模型中,选出符合第二预设要求的初始模型,作为目标模型。
[0009]其中,在从若干初始模型中,选出符合第二预设要求的初始模型,作为目标模型之前,交叉变量数据的生成方法还包括:获取各初始模型对应的第二评估指标;从若干初始模
型中,选出符合第二预设要求的初始模型,作为目标模型,包括:从若干初始模型中,选出第二评估指标符合第二预设要求的初始模型,作为目标模型。
[0010]其中,第二评估指标包括KS的相关值,从若干初始模型中,选出第二评估指标符合第二预设要求的初始模型,作为目标模型,包括:对于各初始模型,响应于初始模型的KS的相关值符合第二预设要求,将初始模型作为目标模型。
[0011]其中,KS的相关值包括KS的最大值、KS的平均值和KS的最大差值,第二预设要求包括KS的最大值大于或等于第四阈值、且KS的平均值大于或等于第五阈值、且KS的最大差值大于或等于第六阈值。
[0012]其中,基于目标交叉变量数据集,得到若干变量组合数据集,包括:获取若干第二变量数据集;按照维度对若干第二变量数据集和目标交叉变量数据集进行划分,得到若干不同维度的变量组数据集;至少从部分不同维度的变量组数据集提取预设个数的变量数据集并进行组合,得到若干变量组合数据集。
[0013]为解决上述技术问题,本申请采用的另一个技术方案是:提供一种交叉变量数据的生成设备,该交叉变量数据的生成设备包括存储器和处理器,存储器存储有程序指令,处理器用于执行程序指令以实现上述的交叉变量数据的生成方法。
[0014]为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机可读存储介质,该计算机可读存储介质用于存储程序指令,程序指令能够被执行以实现上述的交叉变量数据的生成方法。
[0015]上述实施方式,对若干第一变量数据集进行交叉处理而得到若干初始交叉变量数据集,并从若干初始交叉变量数据集中选出符合第一预设要求的初始交叉变量数据集作为目标交叉变量数据集。故,通过对若干初始交叉变量数据集进行筛选,使得筛选出来的初始交叉变量数据集符合第一预设要求,即,在不依赖人工的业务经验情况下,能够筛选出来存在业务含义或者符合业务解释的交叉变量数据集;相比于依赖人工的业务经验衍生交叉变量数据集的方式,减少了构造生成交叉变量数据集的时间,提高了构造生成交叉变量数据集的效率。
附图说明
[0016]图1是本申请提供的交叉变量的生成方法一实施例的流程示意图;
[0017]图2是本申请提供的交叉变量的生成方法另一实施例的流程示意图;
[0018]图3是图2所示步骤S24一实施例的流程示意图;
[0019]图4是本申请提供的交叉变量的生成设备一实施例的结构示意图;
[0020]图5是本申请提供的计算机可读存储介质一实施例的结构示意图。
具体实施方式
[0021]下面结合说明书附图,对本申请实施例的方案进行详细说明。
[0022]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
[0023]本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文
中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
[0024]请参阅图1,图1是本申请提供的交叉变量数据的生成方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图1所示的流程顺序为限。如图1所示,本实施例包括:
[0025]步骤S11:获取若干第一变量数据集。
[0026]本实施例的方法用于基于若干第一变量数据集构造生成目标交叉变量数据集,使得构造生成的目标交叉变量数据集对应的目标交叉变量符合业务解释性,从而在后续将目标交叉变量数据集放到逻辑回归模型中,能够使得逻辑回归模型的效果好且符合业务解释性。其中,变量交叉是对数据处理的一种方式,通过变量组合的方式增加变量的维度,以使得后续获得更好的模型训练效果。
[0027]本实施方式中,获取若干第一变量数据集,用于后续进行交叉处理而得到初始交叉变量数据集,其中,若干第一变量数据集为与信贷本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种交叉变量数据的生成方法,其特征在于,所述方法包括:获取若干第一变量数据集;其中,所述若干第一变量数据集为与信贷相关的数据集;对所述若干第一变量数据集进行交叉处理,得到若干初始交叉变量数据集;从所述若干初始交叉变量数据集中,选出符合第一预设要求的所述初始交叉变量数据集,作为目标交叉变量数据集。2.根据权利要求1所述的方法,其特征在于,所述对所述若干第一变量数据集进行交叉处理是利用XGB模型执行的;所述XGB模型的树的深度小于或等于第一阈值,所述树的深度与所述初始交叉变量数据集的复杂度相关;所述XGB模型的树的棵树小于或等于第二阈值,所述树的棵树与所述初始交叉变量数据集的数量相关。3.根据权利要求1所述的方法,其特征在于,在所述从所述若干初始交叉变量数据集中,选出符合第一预设要求的所述初始交叉变量数据集,作为目标交叉变量数据集之前,所述方法还包括:获取各所述初始交叉变量数据集对应的第一评估指标;所述从所述若干初始交叉变量数据集中,选出符合第一预设要求的所述初始交叉变量数据集,作为目标交叉变量数据集,包括:从所述若干初始交叉变量数据集中,选出所述第一评估指标符合所述第一预设要求的所述初始交叉变量数据集,作为所述目标交叉变量数据集。4.根据权利要求3所述的方法,其特征在于,所述第一评估指标包括F1分数,所述第一预设要求为所述F1分数大于或等于第三阈值;所述从所述若干初始交叉变量数据集中,选出所述第一评估指标符合所述第一预设要求的所述初始交叉变量数据集,作为所述目标交叉变量数据集,包括:对于各所述初始交叉变量数据集,响应于所述初始交叉变量数据集的F1分数大于或等于所述第三阈值,将所述初始交叉变量作为所述目标交叉变量数据集。5.根据权利要求1所述的方法,其特征在于,在所述从所述若干初始交叉变量数据集中,选出符合第一预设要求的所述初始交叉变量数据集,作为目标交叉变量数据集之后,所述方法还包括:基于所述目标交叉变量数据集,得到若干变量组合数据集;利用交叉验证算法运行各所述变量组合数据集的逻辑回归模型,得到若干初始模型;从所述若干初始模型...

【专利技术属性】
技术研发人员:王娟孙野曹杨
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1