样本预测方法、装置、终端及存储介质制造方法及图纸

技术编号:36428295 阅读:23 留言:0更新日期:2023-01-20 22:39
本申请公开了一种样本预测方法、装置、终端及存储介质,方法包括:获取目标样本;基于目标样本和N个初始二分类模型,得到N个目标二分类模型;基于目标样本、N个目标二分类模型和预设的融合方法,得到融合结果;基于融合结果和预设的判断条件,确定目标样本是否为好样本。本发明专利技术引入了一种新的模型融合方法,在有放回的采样中训练多个基分类器,基分类器的打分不直接融合,而是转化为相对排序值,即打分值在全量训练样本中的正排序的均值除以全量训练样本量,多个基分类器的相对排序值取平均来作为融合模型的最终结果。在信贷风控场景中,保证融合模型不会过拟合的同时,不需要调整基分类器的权重,就能获得较好的融合效果。就能获得较好的融合效果。就能获得较好的融合效果。

【技术实现步骤摘要】
样本预测方法、装置、终端及存储介质


[0001]本申请涉及信贷风控
,具体而言,涉及一种样本预测方法、装置、终端及存储介质。

技术介绍

[0002]风控是信贷业务的核心,业务实践中经常会出现样本选择性偏差(sample bias),从而影响信贷业务。因此,在实际信贷风控场景中,好坏样本的分类尤为重要。
[0003]目前,主要采用信贷风控模型进行样本的分类,其中,信贷风控模型中的模型融合方法通常采用bagging和stacking的两种方式。其中,Stacking类方法训练较为复杂,通常使用5折交叉训练后的均值作为第二层模型训练的一个特征,而信贷建模通常为不平衡样本集,坏样本量通常远小于好样本,实际使用时最终结果容易过拟合,训练集效果和跨时间验证样本上效果差异较大。而Bagging类方法一般由于各个基分类器的输出结果的尺度可能不一样,比如基分类器1输出的最大值和最小值在0.1

0.3之间,基分类器2在0.2

0.6之间,直接平均可能导致融合效果一般,需要摸索调整权重才能有更好的融合效果。...

【技术保护点】

【技术特征摘要】
1.一种样本预测方法,其特征在于,包括:获取目标样本,其中,所述目标样本用于表征信贷风控中的业务样本;基于所述目标样本和N个初始二分类模型,得到N个目标二分类模型,其中,所述N个初始二分类模型与所述N个目标二分类模型一一对应;基于所述目标样本、所述N个目标二分类模型和预设的融合方法,得到融合结果,其中,N为大于1的正整数;基于所述融合结果和预设的判断条件,确定所述目标样本是否为好样本。2.如权利要求1所述样本预测方法,其特征在于,所述基于所述目标样本和N个初始二分类模型,得到N个目标二分类模型,包括:采用有放回抽样对所述目标样本进行抽样,得到N个子样本集合,其中,所述N个子样本集合中的每个子样本集合的样本量相同;利用所述N个子样本集合对所述N个初始二分类模型进行训练,得到所述N个目标二分类模型,其中,所述N个子样本集合与所述N个初始二分类模型一一对应。3.如权利要求1所述样本预测方法,其特征在于,所述目标样本包括S个样本,S为大于1的正整数;所述基于所述目标样本、所述N个目标二分类模型和预设的融合方法,得到融合结果,包括:将所述S个样本输入所述N个目标二分类模型中的每个目标二分类模型中,得到所述每个目标二分类模型对应的S个样本分值;基于所述每个目标二分类模型对应的S个样本分值,确定所述每个目标二分类模型对应的S个映射值;将所述每个目标二分类模型对应的S个映射值进行汇总,得到N*S个映射值;基于所述预设的融合方法和所述N*S个映射值,得到所述S个样本中的每个子样本对应的融合结果。4.如权利要求3所述样本预测方法,其特征在于,所述基于所述每个目标二分类模型对应的S个样本分值,确定所述每个目标二分类模型对应的S个映射值,包括:将所述每个目标二分类模型对应的S个样本分值按照正向排序进行排序,得到排序后的S个样本分值,并为所述排序后的S个样本分值中的每个样本分值配置对应的排序序号;将所述每个样本分值对应的排序序号与S作商,得到每个样本分值对应的映...

【专利技术属性】
技术研发人员:曾开新许贤铭
申请(专利权)人:度小满科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1