信用评分模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:28423440 阅读:24 留言:0更新日期:2021-05-11 18:31
本申请提供了一种信用评分模型的训练方法、装置、电子设备及存储介质,该方法包括:从多个历史用户的原始数据中提取原始数据的第一统计特征数据,第一统计特征数据包括原始数据所属的目标数据类型,确定原始数据在目标数据类型下的第二统计特征数据,根据第一统计特征数据和第二统计特征数据,确定至少一个待选训练的初始机器学习模型,采用第一统计特征数据和第二统计特征数据,训练至少一个初始机器学习模型,得到至少一个目标机器学习模型,从至少一个目标机器学习模型中选择出目标信用评分模型。利用该方法,能够实现更加精确的信用评分预测。

【技术实现步骤摘要】
信用评分模型的训练方法、装置、电子设备及存储介质
本申请涉及信用评估
,特别涉及一种信用评分模型的训练方法、装置、电子设备及存储介质。
技术介绍
风险控制是金融领域中的核心基础。当金融机构发放贷款额度的时候,需要知道如何评判一组贷款申请人。其中,利用申请人的个人信用评分进行评判,是一种方便有效的评判方法。个人信用评分是银行或者其他金融机构利用所获得的关于信用申请人的信息,进行风险预测的一种方式和技术,使用个人信用评分可以量化贷款的风险。目前,人们在实际使用中利用个人信用评分得到个人信用分数时,可以使用信用评分模型,模型的输入是申请人的某些信息,比如,最近一年的履约情况、最近一年的支付金额、风险分数等,模型的输出即为申请人的个人信用分数,信用分数越高表示申请人偿还贷款的可能性越大。对于一组申请人,可以按照个人的信用分数做一个排序,来判断优先发放贷款的顺序。现有技术中,生成信用评分模型的方式可以是使用机器学习方式,把历史申请人的原始数据信息提炼为特征数据得到训练数据集,选取合适的机器学习算法,调整算法参数,训练得到一个信用评分模型,然后对于新的申请人,可以用这个模型来计算个人信用分数。但是,现有技术中使用机器学习方式生成信用评分模型的方法,当数据变化的时候需要重新选择机器学习算法并重新训练模型,但是由于机器学习算法的类型很多,所以在重新训练模型的时候会面临很多选择,同时,机器学习算法所需要的特征工程比较复杂,耗费人力和时间,因此,使用现有技术的方法,存在处理复杂、效率较低的问题。专利
技术实现思路
有鉴于此,本申请的目的在于提供一种信用评分模型的训练方法、装置、电子设备及存储介质,以解决现有技术中进行信用评分时处理复杂、效率低下的问题。第一方面,本申请实施例提供一种信用评分模型的训练方法,包括:从多个历史用户的原始数据中提取所述原始数据的第一统计特征数据,所述第一统计特征数据包括:所述原始数据所属的目标数据类型;确定所述原始数据在所述目标数据类型下的第二统计特征数据;根据所述第一统计特征数据以及所述第二统计特征数据,确定至少一个待选训练的初始机器学习模型;采用所述第一统计特征数据以及所述第二统计特征数据,训练所述至少一个初始机器学习模型,得到至少一个目标机器学习模型;从所述至少一个目标机器学习模型中选择出目标信用评分模型。作为一种可能的实现方式,所述从多个历史用户的原始数据中提取所述原始数据的第一统计特征数据,包括:获取所述多个历史用户的至少一个数据维度上的原始数据;分别从所述多个历史用户的至少一个数据维度上的原始数据中提取所述第一统计特征数据。作为一种可能的实现方式,所述第一统计特征数据还包括:特征覆盖率、卡方统计量、互信息以及线性相关系数。作为一种可能的实现方式,所述确定所述原始数据在所述目标数据类型下的第二统计特征数据,包括:若所述目标数据类型为类别型,则确定所述原始数据在所述类别型下的第二统计特征数据,所述类别型下的第二统计特征数据包括:每个种类的数量、每个种类出现的频次、每个种类的统计众数。作为一种可能的实现方式,所述确定所述原始数据在所述目标数据类型下的第二统计特征数据,包括:若所述目标数据类型为数值型,则确定所述原始数据在所述数值型下的第二统计特征数据,所述数值型下的第二统计特征数据包括:最大值、最小值、平均值、中位数、偏度、峰度、分位数。作为一种可能的实现方式,所述根据所述第一统计特征数据以及所述第二统计特征数据,确定至少一个待选训练的初始机器学习模型,包括:若所述第一统计特征数据或所述第二统计特征数据为二分类数据,则将二分类机器学习模型作为所述初始机器学习模型,并将所述第一统计特征数据或所述第二统计特征数据作为二分类机器学习模型的训练数据;若所述第一统计特征数据或所述第二统计特征数据为多值数据,则将多分类机器学习模型作为所述初始机器学习模型,并将所述第一统计特征数据或所述第二统计特征数据作为多分类机器学习模型的训练数据;若所述第一统计特征数据或所述第二统计特征数据为连续数值数据,则将回归类机器学习模型作为所述初始机器学习模型,并将所述第一统计特征数据或所述第二统计特征数据作为回归机器学习模型的训练数据。作为一种可能的实现方式,所述采用所述第一统计特征数据以及所述第二统计特征数据,训练所述至少一个初始机器学习模型,包括:采用所述第一统计特征数据、所述第二统计特征数据以及多个历史用户的原始数据,训练所述至少一个初始机器学习模型。第二方面,本申请实施例提供一种信用评分模型的训练装置,包括:提取模块,用于从多个历史用户的原始数据中提取所述原始数据的第一统计特征数据,所述第一统计特征数据包括:所述原始数据所属的目标数据类型;第一确定模块,用于确定所述原始数据在所述目标数据类型下的第二统计特征数据;第二确定模块,用于根据所述第一统计特征数据以及所述第二统计特征数据,确定至少一个待选训练的初始机器学习模型;训练模块,用于采用所述第一统计特征数据以及所述第二统计特征数据,训练所述至少一个初始机器学习模型,得到至少一个目标机器学习模型;选择模块,用于从所述至少一个目标机器学习模型中选择出目标信用评分模型。作为一种可能的实现方式,所述提取模块具体用于:获取所述多个历史用户的至少一个数据维度上的原始数据;分别从所述多个历史用户的至少一个数据维度上的原始数据中提取所述第一统计特征数据。作为一种可能的实现方式,所述第一统计特征数据还包括:特征覆盖率、卡方统计量、互信息以及线性相关系数。作为一种可能的实现方式,所述第一确定模块具体用于:若所述目标数据类型为类别型,则确定所述原始数据在所述类别型下的第二统计特征数据,所述类别型下的第二统计特征数据包括:每个种类的数量、每个种类出现的频次、每个种类的统计众数。作为一种可能的实现方式,所述第一确定模块具体用于:若所述目标数据类型为数值型,则确定所述原始数据在所述数值型下的第二统计特征数据,所述数值型下的第二统计特征数据包括:最大值、最小值、平均值、中位数、偏度、峰度、分位数。作为一种可能的实现方式,所述选择模块具体用于:若所述第一统计特征数据或所述第二统计特征数据为二分类数据,则将二分类机器学习模型作为所述初始机器学习模型,并将所述第一统计特征数据或所述第二统计特征数据作为二分类机器学习模型的训练数据;若所述第一统计特征数据或所述第二统计特征数据为多值数据,则将多分类机器学习模型作为所述初始机器学习模型,并将所述第一统计特征数据或所述第二统计特征数据作为多分类机器学习模型的训练数据;若所述第一统计特征数据或所述第二统计特征数据为连续数值数据,则将回归类机器学习模型作为所述初始机器学习模型,并将所述第一统计特征数据或所述第二统计特征数据作为回归机器学习模型的训练数据。作为一种可本文档来自技高网
...

【技术保护点】
1.一种信用评分模型的训练方法,其特征在于,包括:/n从多个历史用户的原始数据中提取所述原始数据的第一统计特征数据,所述第一统计特征数据包括:所述原始数据所属的目标数据类型;/n确定所述原始数据在所述目标数据类型下的第二统计特征数据;/n根据所述第一统计特征数据以及所述第二统计特征数据,确定至少一个待选训练的初始机器学习模型;/n采用所述第一统计特征数据以及所述第二统计特征数据,训练所述至少一个待选训练的初始机器学习模型,得到至少一个目标机器学习模型;/n从所述至少一个目标机器学习模型中选择出目标信用评分模型。/n

【技术特征摘要】
1.一种信用评分模型的训练方法,其特征在于,包括:
从多个历史用户的原始数据中提取所述原始数据的第一统计特征数据,所述第一统计特征数据包括:所述原始数据所属的目标数据类型;
确定所述原始数据在所述目标数据类型下的第二统计特征数据;
根据所述第一统计特征数据以及所述第二统计特征数据,确定至少一个待选训练的初始机器学习模型;
采用所述第一统计特征数据以及所述第二统计特征数据,训练所述至少一个待选训练的初始机器学习模型,得到至少一个目标机器学习模型;
从所述至少一个目标机器学习模型中选择出目标信用评分模型。


2.根据权利要求1所述的方法,其特征在于,所述从多个历史用户的原始数据中提取所述原始数据的第一统计特征数据,包括:
获取所述多个历史用户的至少一个数据维度上的原始数据;
分别从所述多个历史用户的至少一个数据维度上的原始数据中提取所述第一统计特征数据。


3.根据权利要求2所述的方法,其特征在于,所述第一统计特征数据还包括:特征覆盖率、卡方统计量、互信息以及线性相关系数。


4.根据权利要求1所述的方法,其特征在于,所述确定所述原始数据在所述目标数据类型下的第二统计特征数据,包括:
若所述目标数据类型为类别型,则确定所述原始数据在所述类别型下的第二统计特征数据,所述类别型下的第二统计特征数据包括:每个种类的数量、每个种类出现的频次、每个种类的统计众数。


5.根据权利要求1所述的方法,其特征在于,所述确定所述原始数据在所述目标数据类型下的第二统计特征数据,包括:
若所述目标数据类型为数值型,则确定所述原始数据在所述数值型下的第二统计特征数据,所述数值型下的第二统计特征数据包括:最大值、最小值、平均值、中位数、偏度、峰度、分位数。


6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述第一统计特征数据以及所述第二统计特征数据,确定至少一个待选训练的初始机器学习模型,包括:
若所述第一统计特征数据或所述第二统计特征数据为二分类数据,则将二分类机器学习模型作为所述初始机器学习模型,并将所述第...

【专利技术属性】
技术研发人员:张琛梁秀钦陈嘉真
申请(专利权)人:上海明略人工智能集团有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1