一种用于风险预测的模型训练方法和装置制造方法及图纸

技术编号:35736218 阅读:26 留言:0更新日期:2022-11-26 18:38
本发明专利技术的目的是提供一种用于风险预测的模型训练方法和装置。所述方法包括:通过对源域和目标域的样本进行二分类训练,得到源域和目标域的样本的相似度信息;从源域的样本中筛选出特征分布与目标域样本相似的样本;将筛选后的源域的样本作为训练样本来训练风险预测模型。本申请实施例具有以下优点:在训练风险预测模型时基于相似度来筛选源域中的样本,并基于相似度指标赋予筛选后的样本训练权重来训练风险预测模型,使得源域样本能够最大程度地贴合目标域样本的特征分布,提升了模型预测的准确性。的准确性。的准确性。

【技术实现步骤摘要】
一种用于风险预测的模型训练方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种用于风险预测的模型训练方法和装置。

技术介绍

[0002]基于现有技术,信贷风控的建模方案一般是直接利用目标样本建模,或者对目标样本进行客群画像分析,尽量选取有标签的样本池(源域)中客群和目标样本类似的客群进行建模。
[0003]然而,在目标样本量不足或者目标样本没有标签的情况下,直接使用目标样本建模的方案,由于样本量太少,通常模型效果不稳定或泛化能力较差;客群画像分析的方案中选取的样本的特征分布和目标域仍然存在差距,使得模型在目标域的预测效果较差。

技术实现思路

[0004]本专利技术的目的是提供一种用于风险预测的模型训练方法和装置。
[0005]根据本申请的实施例,提供了一种用于风险预测的模型训练方法,其中,所述方法包括:
[0006]通过对源域和目标域的样本进行二分类训练,得到源域和目标域的样本的相似度信息;
[0007]从源域的样本中筛选出特征分布与目标域样本相似的样本;
>[0008]将筛选本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于风险预测的模型训练方法,其中,所述方法包括:通过对源域和目标域的样本进行二分类训练,得到源域和目标域的样本的相似度信息;从源域的样本中筛选出特征分布与目标域样本相似的样本;将筛选后的源域的样本作为训练样本来训练风险预测模型。2.根据权利要求1所述的方法,其中,所述方法包括:基于训练好的风险预测模型进行风险预测。3.根据权利要求1所述的方法,其中,所述从源域的样本中筛选出特征分布与目标域样本相似的样本包括:基于得到的相似度信息从源域的样本中筛选出特征分布与目标域样本相似的样本。4.根据权利要求1所述的方法,其中,所述从源域的样本中筛选出特征分布与目标域样本相似的样本的步骤包括:基于得到的相似度信息和模型的评价指标,从源域的样本中筛选出特征分布与目标域样本相似的样本。5.根据权利要求1至4中任一项所述的方法,其中,所述方法采用KS作为评价指标,其中,所述通过对源域和目标域的样本进行二分类训练,得到源域和目标域的样本的相似度信息包括:通过二分类训练方法训练第一模型,得到第一模型输出的相似度信息,其中,该第一模型的训练样本为源域和目标域的样本,样本权重为1;其中,所述从源域的样本中筛选出特征分布与目标域样本相似的样本包括:使用第一模型对目标域和源域的样本进行预测,得到相应的概率值;计算使得第一模型的KS最大时相应的概率值,作为预定阈值;在源域的样本中筛选出概率值大于预定阈值的样本,作为优化样本;其中,所述将筛选后的源域的样本作为训练样本来训练风险预测模型包括:通过二分类训练方法训练第二模型,以将第二模型作为风险预测模型,其中,该第二模型的训练样本为所述优化样本,样本权重为通...

【专利技术属性】
技术研发人员:曾开新许贤铭杨青
申请(专利权)人:度小满科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1