样本生成方法、装置及存储介质制造方法及图纸

技术编号:22755664 阅读:46 留言:0更新日期:2019-12-07 04:13
本申请公开了一种样本生成方法、装置及存储介质,属于机器学习领域。所述方法包括:根据多个用户申请信用评估的申请时间,对初始训练集进行划分,得到多个验证集;确定候选特征集中的每个用户特征在各个验证集上的信息值,候选特征集包括N个用户特征或N个用户特征中除初始化用户特征之外的用户特征;根据候选特征集中的每个用户特征在各个验证集上的信息值,从候选特征集中确定满足参考条件的至少一个参考用户特征;将入模用户特征作为信用评估模型的训练样本,入模用户特征包括确定的参考用户特征或确定的参考用户特征和初始化用户特征。本申请通过基于用户特征在各个验证集上的信息值,对用户特征进行筛选,提供了模型的稳定性和使用寿命。

Sample generation method, device and storage medium

The application discloses a sample generation method, a device and a storage medium, belonging to the field of machine learning. The method includes: dividing the initial training set according to the application time of multiple users applying for credit evaluation to obtain multiple verification sets; determining the information value of each user feature in each verification set in the candidate feature set, and the candidate feature set includes N user features or user features other than the initial user features in n user features; and The information value of each user feature on each verification set determines at least one reference user feature that meets the reference conditions from the candidate feature set; the input user feature is used as the training sample of the credit evaluation model, and the input user feature includes the determined reference user feature or the determined reference user feature and the initialization user feature. The application provides the stability and service life of the model by filtering the user characteristics based on the information value of the user characteristics on each verification set.

【技术实现步骤摘要】
样本生成方法、装置及存储介质
本申请涉及机器学习领域,特别涉及一种样本生成方法、装置及存储介质。
技术介绍
在互联网金融领域,常使用信用评估模型来对用户的信用风险进行评估,以确定用户的信用标签。为了构建信用评估模型,需要先获取大量用户的用户特征和对应的信用标签,并将这些数据作为训练样本进行模型训练,才能得到该信用评估模型。但是,由于有些用户特征与用户信用风险有关,而有些用户特征对用户信用风险无关,因此,在获取训练样本的过程中,还需要对用户特征进行筛选。相关技术中,可以先获取多个用户的用户特征集和信用标签,得到初始训练集,其中,每个用户的用户特征集包括该用户的N个用户特征的用户特征值。然后,根据初始训练集包括的多个用户的用户特征集和对应的信用标签,计算N个用户特征中的每个用户特征在该初始训练集上的信息值。之后,按照在初始训练集上的信息值从大到小的顺序,从N个用户特征中选择用户特征,得到至少一个参考用户特征,然后,将多个用户中每个用户的至少一个参考用户特征的用户特征值和每个用户的信用标签,作为信息评估模型的训练样本,以基于该训练样本进行模型训练。由于用户的金融业务是会随时间发生变动的,因此,仅根据N个用户特征在整个初始训练集上的信息值,来从这N个用户特征中筛选用于训练的用户特征,会导致训练得到的信用评估模型容易出现过拟合,模型稳定性较低,使用寿命较短。
技术实现思路
本申请实施例提供了一种样本生成方法、装置及存储介质,可以用于解决相关技术中存在的仅根据N个用户特征在整个初始训练集上的信息值来筛选用于训练的用户特征,会导致训练得到的信用评估模型容易出现过拟合,模型稳定性较低,使用寿命较短的问题。所述技术方案如下:一方面,提供了一种样本生成方法,所述方法包括:获取多个用户的第一用户特征集和信用标签,得到初始训练集,每个用户的第一用户特征集包括每个用户的N个用户特征的用户特征值,所述多个用户为申请信用评估的用户,所述N为正整数;根据所述多个用户申请信用评估的申请时间,对所述初始训练集进行划分,得到多个验证集,所述多个验证集对应用户的申请时间处于不同时间段;确定候选特征集中的每个用户特征在各个验证集上的信息值,所述候选特征集包括所述N个用户特征,或所述N个用户特征中除初始化用户特征之外的用户特征,所述信息值用于衡量用户特征的预测能力;根据所述候选特征集中的每个用户特征在各个验证集上的信息值,从所述候选特征集中确定满足参考条件的至少一个参考用户特征;将所述多个用户的第二用户特征集和信用标签,作为信用评估模型的训练样本,每个用户的第二用户特征集包括每个用户的入模用户特征的用户特征值,所述入模用户特征包括所述至少一个参考用户特征,或所述至少一个参考用户特征和所述初始化用户特征。可选地,所述根据所述候选特征集中的每个用户特征在各个验证集上的信息值,从所述候选特征集中确定满足参考条件的至少一个参考用户特征,包括:对于所述多个验证集中的每个验证集,从所述候选特征集中确定在每个验证集上信息值最大的用户特征,对确定出的用户特征进行去重,得到种子特征集;从所述种子特征集中,选择满足参考条件的参考用户特征,将选择的参考用户特征从所述候选特征集中删除;若基于已选择的参考用户特征,确定当前满足特征选择停止条件,则将已选择的参考用户特征确定为所述至少一个参考用户特征;若基于已选择的参考用户特征,确定当前不满足特征选择停止条件,则将删除用户特征后的候选特征集确定为待处理的候选特征集,并重复执行对于所述多个验证集中的每个验证集,从所述候选特征集中确定在每个验证集上信息值最大的用户特征,对确定出的用户特征进行去重,得到种子特征集,从所述种子特征集中,选择满足参考条件的参考用户特征,将选择的参考用户特征从所述候选特征集中删除的步骤,直至基于已选择的参考用户特征,确定当前满足特征选择停止条件为止。可选地,所述根据所述候选特征集中的每个用户特征在各个验证集上的信息值,从所述候选特征集中选择满足参考条件的至少一个参考用户特征之前,还包括:对所述候选特征集中的用户特征进行分类,得到多个特征类别,每个特征类别包括一个或多个用户特征;所述对于所述多个验证集中的每个验证集,从所述候选特征集中确定在每个验证集上信息值最大的用户特征,对确定出的用户特征进行去重,得到种子特征集,包括:按照参考规则,依次从所述多个特征类别中选择一个特征类别;对于所述多个验证集中的每个验证集,从选择的特征类别包括的用户特征中确定在每个验证集上信息值最大的用户特征;对确定出的用户特征进行去重,得到所述种子特征集。可选地,所述按照参考规则,依次从所述多个特征类别中选择一个特征类别,包括:按照平均遍历法,对所述多个特征类别进行遍历,或者,按照所述多个特征类别的权重,对所述多个特征类别进行遍历;将每次遍历到的特征类别,确定为当前选择的特征类别。可选地,所述从所述种子特征集中,选择满足参考条件的参考用户特征,包括:从所述种子特征集中,确定M个备选用户特征;其中,对于所述M个备选用户特征中的任一备选用户特征,基于所述多个用户的所述任一备选用户特征、初始用户特征和信用标签构建的待检验信用评估模型能够通过模型检验;确定所述M个备选用户特征中的每个备选用户特征对应的待检验信用评估模型在所述多个验证集中每个验证集上的增益,所述增益用于衡量待检验信用评估模型的预测能力;基于各个备选用户特征对应的待检验信用评估模型在所述多个验证集中每个验证集上的增益,确定各个备选用户特征的参考增益;从所述M个备选用户特征中,选择参考增益最大的备选用户特征作为满足参考条件的参考用户特征。可选地,所述从所述种子特征集中,确定M个备选用户特征,包括:对于所述种子特征集中的任一用户特征,基于所述多个用户的所述任一用户特征、初始用户特征和信用标签,构建待检验信用评估模型;对构建的待检验信用评估模型进行模型检验;若模型检验通过,则将所述任一用户特征确定为一个备选用户特征。可选地,所述对构建的待检验信用评估模型进行模型检验,包括:对构建的待检验信用评估模型进行假定值检验和/或参数检验。可选地,所述对构建的待检验信用评估模型进行模型检验之后,还包括:若模型检验未通过,则将所述任一用户特征从所述候选特征集中删除。可选地,所述基于各个备选用户特征对应的待检验信用评估模型,在所述多个验证集中每个验证集上的增益,确定各个备选用户特征的参考增益,包括:将各个备选用户特征对应的待检验信用评估模型,在所述多个验证集中每个验证集上的增益中的最小增益,确定为各个备选用户特征的参考增益;或者,将各个备选用户特征对应的待检验信用评估模型,在所述多个验证集中每个验证集上的增益的平均增益,确定为各个备选用户特征的参考增益。可选地,所述将所述多个用户的第二用户特征集和信用标签,作为信用评估本文档来自技高网...

【技术保护点】
1.一种样本生成方法,其特征在于,所述方法包括:/n获取多个用户的第一用户特征集和信用标签,得到初始训练集,每个用户的第一用户特征集包括每个用户的N个用户特征的用户特征值,所述多个用户为申请信用评估的用户,所述N为正整数;/n根据所述多个用户申请信用评估的申请时间,对所述初始训练集进行划分,得到多个验证集,所述多个验证集对应用户的申请时间处于不同时间段;/n确定候选特征集中的每个用户特征在各个验证集上的信息值,所述候选特征集包括所述N个用户特征,或所述N个用户特征中除初始化用户特征之外的用户特征,所述信息值用于衡量用户特征的预测能力;/n根据所述候选特征集中的每个用户特征在各个验证集上的信息值,从所述候选特征集中确定满足参考条件的至少一个参考用户特征;/n将所述多个用户的第二用户特征集和信用标签,作为信用评估模型的训练样本,每个用户的第二用户特征集包括每个用户的入模用户特征的用户特征值,所述入模用户特征包括所述至少一个参考用户特征,或所述至少一个参考用户特征和所述初始化用户特征。/n

【技术特征摘要】
1.一种样本生成方法,其特征在于,所述方法包括:
获取多个用户的第一用户特征集和信用标签,得到初始训练集,每个用户的第一用户特征集包括每个用户的N个用户特征的用户特征值,所述多个用户为申请信用评估的用户,所述N为正整数;
根据所述多个用户申请信用评估的申请时间,对所述初始训练集进行划分,得到多个验证集,所述多个验证集对应用户的申请时间处于不同时间段;
确定候选特征集中的每个用户特征在各个验证集上的信息值,所述候选特征集包括所述N个用户特征,或所述N个用户特征中除初始化用户特征之外的用户特征,所述信息值用于衡量用户特征的预测能力;
根据所述候选特征集中的每个用户特征在各个验证集上的信息值,从所述候选特征集中确定满足参考条件的至少一个参考用户特征;
将所述多个用户的第二用户特征集和信用标签,作为信用评估模型的训练样本,每个用户的第二用户特征集包括每个用户的入模用户特征的用户特征值,所述入模用户特征包括所述至少一个参考用户特征,或所述至少一个参考用户特征和所述初始化用户特征。


2.根据权利要求1所述的方法,其特征在于,所述根据所述候选特征集中的每个用户特征在各个验证集上的信息值,从所述候选特征集中确定满足参考条件的至少一个参考用户特征,包括:
对于所述多个验证集中的每个验证集,从所述候选特征集中确定在每个验证集上信息值最大的用户特征,对确定出的用户特征进行去重,得到种子特征集;
从所述种子特征集中,选择满足参考条件的参考用户特征,将选择的参考用户特征从所述候选特征集中删除;
若基于已选择的参考用户特征,确定当前满足特征选择停止条件,则将已选择的参考用户特征确定为所述至少一个参考用户特征;
若基于已选择的参考用户特征,确定当前不满足特征选择停止条件,则将删除用户特征后的候选特征集确定为待处理的候选特征集,并重复执行对于所述多个验证集中的每个验证集,从所述候选特征集中确定在每个验证集上信息值最大的用户特征,对确定出的用户特征进行去重,得到种子特征集,从所述种子特征集中,选择满足参考条件的参考用户特征,将选择的参考用户特征从所述候选特征集中删除的步骤,直至基于已选择的参考用户特征,确定当前满足特征选择停止条件为止。


3.根据权利要求2所述的方法,其特征在于,所述根据所述候选特征集中的每个用户特征在各个验证集上的信息值,从所述候选特征集中选择满足参考条件的至少一个参考用户特征之前,还包括:
对所述候选特征集中的用户特征进行分类,得到多个特征类别,每个特征类别包括一个或多个用户特征;
所述对于所述多个验证集中的每个验证集,从所述候选特征集中确定在每个验证集上信息值最大的用户特征,对确定出的用户特征进行去重,得到种子特征集,包括:
按照参考规则,依次从所述多个特征类别中选择一个特征类别;
对于所述多个验证集中的每个验证集,从选择的特征类别包括的用户特征中确定在每个验证集上信息值最大的用户特征;
对确定出的用户特征进行去重,得到所述种子特征集。


4.根据权利要求3所述的方法,其特征在于,所述按照参考规则,依次从所述多个特征类别中选择一个特征类别,包括:
按照平均遍历法,对所述多个特征类别进行遍历,或者,按照所述多个特征类别的权重,对所述多个特征类别进行遍历;
将每次遍历到的特征类别,确定为当前选择的特征类别。

【专利技术属性】
技术研发人员:李京昊陈鹏程陈金辉朱晨庞云蔚
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1