System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于构建风险识别模型的方法、装置、存储介质及处理器制造方法及图纸_技高网

用于构建风险识别模型的方法、装置、存储介质及处理器制造方法及图纸

技术编号:40964160 阅读:4 留言:0更新日期:2024-04-18 20:43
本申请实施例提供一种用于构建风险识别模型的方法、装置、存储介质及处理器。方法包括:将获取的每个训练样本集中的每个第一信贷样本输入信贷风险识别模型,以得到对应的信贷风险预测值;将每个第一信贷样本和对应的信贷风险预测值输入可解释机器学习模型,以得到每个第一信贷样本中每个第一信贷特征的特征归因值;针对多个第一信贷样本中的同一信贷特征,在根据全部的同一信贷特征的特征归因值确定存在需更新的第二信贷特征时,根据每个第二信贷特征的特征预设值和特征归因值确定对应的预测区分度;根据每个训练样本集对应的多个预测区分度更新每个训练样本集中的第一信贷样本,直至得到训练完成的风险识别模型,以提高风险识别模型的可靠性。

【技术实现步骤摘要】

本申请涉及数据处理,具体地涉及一种用于构建风险识别模型的方法、装置、存储介质及处理器


技术介绍

1、目前,通常建立规则或模型将交易行为划分为高风险和低风险等多个级别,以实现信贷风险识别,从而达到预警的作用。而在构建模型实现信贷风险识别时,其采集客户数据之后即划分为对应的训练样本,并以该训练样本训练模型,以得到信贷风险识别模型。

2、通过上述方式,训练模型所采用的训练样本的质量较低,导致训练完成的信贷风险识别模型的可靠性低下,且在采用其对后续信贷风险进行识别时,也会大大降低模型的预测精准度。


技术实现思路

1、本申请实施例的目的是提供一种用于构建风险识别模型的方法、装置、存储介质及处理器,用以解决现有技术中风险识别模型的可靠性低下的问题。

2、为了实现上述目的,本申请第一方面提供一种用于构建风险识别模型的方法,包括:

3、获取多个训练样本集,每个训练样本集包括多个第一信贷样本,每个第一信贷样本包括多个第一信贷特征,其中,第一信贷样本是根据用户的历史信贷信息生成的;

4、针对每个训练样本集,将训练样本集中的每个第一信贷样本输入至信贷风险识别模型,以得到每个第一信贷样本的信贷风险预测值;

5、针对每个第一信贷样本,将第一信贷样本和对应的信贷风险预测值输入至可解释机器学习模型,以得到第一信贷样本中每个第一信贷特征对应的特征归因值;

6、针对多个第一信贷样本中的同一信贷特征,根据全部的同一信贷特征的特征归因值判断训练样本集中是否存在需要更新的第二信贷特征;

7、在存在第二信贷特征的情况下,针对每个第二信贷特征,根据第二信贷特征的特征预设值和对应的特征归因值确定第二信贷特征的预测区分度;

8、针对每个训练样本集,根据训练样本集对应的多个预测区分度更新训练样本集中的第一信贷样本;

9、针对每个训练样本集,在对训练样本集中的第一信贷样本更新完成的情况下,回到将训练样本集中的每个第一信贷样本输入至信贷风险识别模型的步骤,并根据全部第一信贷样本的信贷风险预测值确定风险识别模型的训练完成度;

10、在训练完成度达到预设阈值的情况下,确定得到训练完成的风险识别模型。

11、在本申请实施例中,针对每个训练样本集,根据训练样本集对应的多个预测区分度更新训练样本集中的第一信贷样本包括:针对每个训练样本集中的每个第二信贷特征,在第二信贷特征的预测区分度小于第一预设数值的情况下,将第二信贷特征确定为待剔除信贷特征;针对每个训练样本集中的每个第二信贷特征,在第二信贷特征的预测区分度大于或等于第二预设数值的情况下,将第二信贷特征确定为待保留信贷特征;在全部的待保留信贷特征中存在特征标识为第一预设标识的待拆分信贷特征的情况下,根据待拆分信贷特征确定针对每个第一信贷样本的待增加信贷特征;根据每个第一信贷样本的待剔除信贷特征、待保留信贷特征以及待增加信贷特征更新训练样本集中的第一信贷样本。

12、在本申请实施例中,根据待拆分信贷特征确定针对每个第一信贷样本的待增加信贷特征包括:从全部的待保留信贷特征中选取特征标识为第二预设标识的信贷特征作为待匹配信贷特征;确定待匹配信贷特征所对应的特征分布区间,并按照特征分布区间对待拆分信贷特征进行分箱操作,以得到对应的多个信贷分类特征;将每个信贷分类特征与待匹配信贷特征进行组合,以得到针对每个第一信贷样本的多个待增加信贷特征。

13、在本申请实施例中,针对多个第一信贷样本中的同一信贷特征,根据全部的同一信贷特征的特征归因值判断训练样本集中是否存在需要更新的第二信贷特征包括:针对多个第一信贷样本中的同一信贷特征,确定与全部的同一信贷特征的特征归因值对应的取值分布结果;将取值分布结果与同一信贷特征在信贷风险预测值下的历史分布结果对比;在取值分布结果与历史分布结果不一致的情况下,确定训练样本集中存在需要更新的第二信贷特征,并将同一信贷特征确定为第二信贷特征。

14、在本申请实施例中,获取多个训练样本集包括:获取多个历史信贷样本,其中,每个历史信贷样本中包括多个历史信贷特征;针对多个历史信贷特征,判断每个历史信贷特征的信贷预设值是否处于对应的预设范围;在多个历史信贷特征的信贷预设值均处于对应的预设范围的情况下,将与多个历史信贷特征对应的历史信贷样本确定为第一历史样本;对多个第一历史样本分别进行预处理,以得到多个第一信贷样本;将多个第一信贷样本进行划分,以得到多个训练样本集。

15、在本申请实施例中,对多个第一历史样本分别进行预处理,以得到多个第一信贷样本包括:针对多个第一历史样本中的第一相同信贷特征,将存在第一相同信贷特征的信贷预设值缺失的第一历史样本确定为异常样本;根据异常样本的数量和多个第一历史样本中除异常样本外的正常样本的数量确定针对第一相同信贷特征的信贷预设值的缺失比例;在缺失比例小于预设比例的情况下,确定正常样本中针对第一相同信贷特征的信贷预设值的特征平均值;根据特征平均值更新每个异常样本中的第一相同信贷特征的信贷预设值,并将正常样本和更新后的异常样本作为第二历史样本;针对全部第二历史样本中的第二相同信贷特征,根据全部的第二相同信贷特征的信贷预设值确定第二相同信贷特征的距离相关系数;针对每个距离相关系数,在距离相关系数大于预设系数的情况下,将与距离相关系数对应的第二相同信贷特征确定为有效信贷特征;根据有效信贷特征更新每个第二历史样本,并将更新后的每个第二历史样本确定为第三历史样本;基于smote过采样算法对每个第三历史样本进行类别不平衡处理,并将类别不平衡处理后的每个第三历史样本确定为第一信贷样本。

16、在本申请实施例中,方法还包括:在存在第二信贷特征的情况下,根据第二信贷特征的取值分布结果调整对应的历史信贷特征所处的预设范围,其中,取值分布结果是根据多个第一信贷样本中的同一信贷特征的特征归因值确定的。

17、在本申请实施例中,方法还包括:获取用户发送的任意一个信贷申请请求,信贷申请请求携带多个当前信贷特征,其中,每个当前信贷特征根据用户的当前信贷信息生成的;将多个当前信贷特征输入训练完成的风险识别模型,以使训练完成的风险识别模型输出用户的信贷风险值。

18、本申请第二方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令在被处理器执行时使得处理器被配置成执行上述的用于构建风险识别模型的方法。

19、本申请第三方面提供一种处理器,被配置成执行上述的用于构建风险识别模型的方法。

20、本申请第四方面提供一种用于构建风险识别模型的装置,包括:

21、存储器,被配置成存储指令;以及

22、上述的处理器。

23、通过上述技术方案,获取多个训练样本集,将训练样本集中的每个第一信贷样本输入至信贷风险识别模型,以得到每个第一信贷样本的信贷风险预测值,针对每个第一信贷样本,将第一信贷样本和对应的信贷风险预测值输入至可解释机器学习模型,以得到第本文档来自技高网...

【技术保护点】

1.一种用于构建风险识别模型的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的用于构建风险识别模型的方法,其特征在于,所述针对每个训练样本集,根据所述训练样本集对应的多个预测区分度更新所述训练样本集中的第一信贷样本包括:

3.根据权利要求2所述的用于构建风险识别模型的方法,其特征在于,所述根据所述待拆分信贷特征确定针对每个第一信贷样本的待增加信贷特征包括:

4.根据权利要求1所述的用于构建风险识别模型的方法,其特征在于,所述针对多个第一信贷样本中的同一信贷特征,根据全部的同一信贷特征的特征归因值判断所述训练样本集中是否存在需要更新的第二信贷特征包括:

5.根据权利要求1所述的用于构建风险识别模型的方法,其特征在于,所述获取多个训练样本集包括:

6.根据权利要求5所述的用于构建风险识别模型的方法,其特征在于,所述对多个第一历史样本分别进行预处理,以得到多个第一信贷样本包括:

7.根据权利要求5所述的用于构建风险识别模型的方法,其特征在于,所述方法还包括:

8.根据权利要求1所述的用于构建风险识别模型的方法,其特征在于,所述方法还包括:

9.一种机器可读存储介质,其特征在于,该机器可读存储介质上存储有指令,该指令用于使得机器执行根据权利要求1至8中任一项所述的用于构建风险识别模型的方法。

10.一种处理器,其特征在于,被配置成执行根据权利要求1至8中任意一项所述的用于构建风险识别模型的方法。

11.一种用于构建风险识别模型的装置,其特征在于,所述装置包括:

...

【技术特征摘要】

1.一种用于构建风险识别模型的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的用于构建风险识别模型的方法,其特征在于,所述针对每个训练样本集,根据所述训练样本集对应的多个预测区分度更新所述训练样本集中的第一信贷样本包括:

3.根据权利要求2所述的用于构建风险识别模型的方法,其特征在于,所述根据所述待拆分信贷特征确定针对每个第一信贷样本的待增加信贷特征包括:

4.根据权利要求1所述的用于构建风险识别模型的方法,其特征在于,所述针对多个第一信贷样本中的同一信贷特征,根据全部的同一信贷特征的特征归因值判断所述训练样本集中是否存在需要更新的第二信贷特征包括:

5.根据权利要求1所述的用于构建风险识别模型的方法,其特征在于,所述获取多个训练样本集...

【专利技术属性】
技术研发人员:刘志伟李俊雄李思韬廖松黄嘉振
申请(专利权)人:中科云谷科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1