用户筛选方法、装置及电子设备制造方法及图纸

技术编号:32830652 阅读:19 留言:0更新日期:2022-03-26 20:42
本申请提供一种用户筛选方法、装置及电子设备,通过只保留判断能力强的第一预设规则,将部分规则后置,保留更多的初始建模样本,提升模型效果,并针对模型对样本的预测值,将样本划分为高、中、低三种用户集合,针对不同分层的样本区别设置规则引擎,提高了决策引擎整体的可靠性。的可靠性。的可靠性。

【技术实现步骤摘要】
用户筛选方法、装置及电子设备


[0001]本申请涉及风控大数据处理领域,具体而言,涉及一种用户筛选方法、装置及电子设备。

技术介绍

[0002]风控决策引擎是金融机构对申请客户进行信用评估、授信定价的一整套决策流。现有风控决策引擎中,规则引擎使用的目的是提升决策引擎的整体效果,而现有的规则引擎中部分规则的使用会导致拒绝过多的负样本导致模型引擎的建模样本减少,整体决策引擎的效果提升有限,并且建模样本中客观存在正负样本,对所有样本采取同样的规则引擎存在一定的不合理性。

技术实现思路

[0003]为了克服现有技术中的上述不足,本申请的目的在于提供一种用户筛选方法,所述方法包括:
[0004]获取第一待处理用户集合,所述第一待处理用户集合包括多个待处理用户,每个所述待处理用户包括用户信息;
[0005]根据第一预设规则及各所述待处理用户的用户信息,对所述第一待处理用户集合进行筛选,获得第二待处理用户集合;
[0006]使用训练好的第一预测模型对所述第二待处理用户集合进行处理,获得所述各第二待处理用户集合中各待处理用户的用户分值,其中,所述用户分值越高,表征该待处理用户被预测为正样本的概率越低;所述正样本为被预测为会产生借贷逾期的用户;
[0007]获取预设的第一分数阈值和第二分数阈值,所述第一分数阈值小于所述第二分数阈值;
[0008]根据所述第一分数阈值、所述第二分数阈值及所述第一预测模型得出的用户分值,将所述第二待处理用户集合划分为低分待处理用户集合、中分待处理用户集合及高分待处理用户集合;
[0009]分别使用训练好的第二预测模型和第三预测模型,对所述高分待处理用户集合和所述中分待处理用户集合进行处理,获得所述高分待处理用户集合和所述中分待处理用户集合的用户分值;
[0010]根据所述第二预测模型和所述第三预测模型对应的筛选分数阈值,从所述高分待处理用户集合和所述中分待处理用户集合中筛选出用户分值满足条件的待处理用户样本作为准入用户。
[0011]在一种可能的实现方式中,获取第一训练样本集合,所述第一训练样本集合包括多个训练样本,每个所述训练样本包括用户数据及用户还款逾期标签;
[0012]根据所述第一预设规则对所述第一训练样本集合进行筛选,获得第二训练样本集合;
[0013]将所述第二训练样本集合中具有逾期记录的用户样本作为正样本标签,将没有逾期记录的用户样本作为负样本标签,对第一预测模型进行训练;
[0014]通过训练后的第一预测模型对所述第二训练样本集合进行处理,获得所述各第二训练样本集合中各训练样本的第一用户分值,其中,所述第一用户分值越高,表征该训练样本被预测为正样本的概率越低;
[0015]获取预设的第一分数阈值和第二分数阈值,所述第一分数阈值小于所述第二分数阈值;
[0016]根据所述第一分数阈值、所述第二分数阈值及所述第一用户分值,将所述第二训练样本集合划分为低分样本用户集合、中分样本用户集合及高分样本用户集合;
[0017]针对所述高分样本用户集合,将具有逾期记录的用户样本作为正样本标签,将没有逾期记录的用户样本作为负样本标签,对第二预测模型进行训练;
[0018]通过训练后的第二预测模型对所述高分样本用户集合进行处理,获得所述各高分样本用户集合中各训练样本的第二用户分值,其中,所述第二用户分值越高,表征该训练样本被预测为正样本的概率越低;
[0019]针对所述中分样本用户集合,将具有逾期记录的用户样本作为正样本标签,将没有逾期记录的用户样本作为负样本标签,对第三预测模型进行训练;
[0020]通过训练后的第三预测模型对所述中分样本用户集合进行处理,获得所述各中分样本用户集合中各训练样本的第三用户分值,其中,所述第三用户分值越高,表征该训练样本被预测为正样本的概率越低;
[0021]获取预设正样本比例,将所述第二预测模型从所述高分样本用户集合中得出的最高的第二用户分值作为第三分数阈值,将所述第三预测模型从所述中分样本用户集合中得出的最高的第三用户分值作为第四分数阈值;
[0022]逐渐降低所述第三分数阈值,若在所述第三分数阈值降至所述第二预测模型从所述高分样本用户集合中得出的最低的第二用户分值之前,所述高分样本用户集合中,所述第二用户分值大于所述第三分数阈值且具有正样本标签的用户样本数量与所述第二用户分值大于所述第三分数阈值的用户样本数量之比达到所述预设正样本比例,则将当前的第三分数阈值作为所述第二预测模型的筛选分数阈值,将所述第四分数阈值作为所述第三预测模型的筛选分数阈值;
[0023]若所述第三分数阈值降至所述第二预测模型从所述高分样本用户集合中得出的最低的第二用户分值时,所述高分样本用户集合中,所述第二用户分值大于所述第三分数阈值且具有正样本标签的用户样本数量与所述第二用户分值大于所述第三分数阈值的用户样本数量之比未达到所述预设正样本比例,则将当前的所述第三分数阈值作为所述第二预测模型的筛选分数阈值,并逐渐降低所述第四分数阈值,并计算所述第二用户分值大于所述第三分数阈值且具有正样本标签的用户样本数量与所述第三用户分值大于所述第四分数阈值且具有正样本标签的用户样本数量的第一和值,计算所述第二用户分值大于所述第三分数阈值的用户样本数量与所述第三用户分值大于所述第四分数阈值的用户样本数量的第二和值,直至所述第一和值与所述第二和值之比达到所述预设正样本比例,将所述第四分数阈值作为所述第三预测模型的筛选分数阈值。
[0024]在一种可能的实现方式中,在所述根据所述第一分数阈值、所述第二分数阈值及
所述第一用户分值,将所述第二训练样本集合划分为低分样本用户集合、中分样本用户集合及高分样本用户集合的步骤之后,所述方法还包括:
[0025]根据第二预设规则及各所述待处理用户的用户信息,对所述高分样本用户集合进行筛选,获得筛选后的高分样本用户集合;
[0026]根据第三预设规则及各所述待处理用户的用户信息,对所述中分样本用户集合进行筛选,获得筛选后的中分样本用户集合。
[0027]在一种可能的实现方式中,所述将所述第二训练样本集合中具有逾期记录的用户样本作为正样本标签,将没有逾期记录的用户样本作为负样本标签,对第一预测模型进行训练的步骤,包括:
[0028]将所述第二训练样本集合划分为第二训练集合和第二测试集合;
[0029]将具有逾期记录的用户样本作为正样本标签,将没有逾期记录的用户样本作为负样本标签,使用所述第二训练集合对所述第一预测模型进行训练,并使用所述第二测试集合对训练后的所述第一预测模型进行测试,直至所述第一预测模型的在所述第二训练样本集合上计算得到的AUC或KS的数值最高,且所述第一预测模型在所述第二训练集合和所述第二测试集合上得出的AUC或KS的数值之差在设定数值范围内。
[0030]在一种可能的实现方式中,所述针对所述高分样本用户集合,将具有逾期记录的用户样本作为正样本标签,将没有逾期记录的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户筛选方法,其特征在于,所述方法包括:获取第一待处理用户集合,所述第一待处理用户集合包括多个待处理用户,每个所述待处理用户包括用户信息;根据第一预设规则及各所述待处理用户的用户信息,对所述第一待处理用户集合进行筛选,获得第二待处理用户集合;使用训练好的第一预测模型对所述第二待处理用户集合进行处理,获得所述各第二待处理用户集合中各待处理用户的用户分值,其中,所述用户分值越高,表征该待处理用户被预测为正样本的概率越低;所述正样本为被预测为会产生借贷逾期的用户;获取预设的第一分数阈值和第二分数阈值,所述第一分数阈值小于所述第二分数阈值;根据所述第一分数阈值、所述第二分数阈值及所述第一预测模型得出的用户分值,将所述第二待处理用户集合划分为低分待处理用户集合、中分待处理用户集合及高分待处理用户集合;分别使用训练好的第二预测模型和第三预测模型,对所述高分待处理用户集合和所述中分待处理用户集合进行处理,获得所述高分待处理用户集合和所述中分待处理用户集合的用户分值;根据所述第二预测模型和所述第三预测模型对应的筛选分数阈值,从所述高分待处理用户集合和所述中分待处理用户集合中筛选出用户分值满足条件的待处理用户样本作为准入用户。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取第一训练样本集合,所述第一训练样本集合包括多个训练样本,每个所述训练样本包括用户数据及用户还款逾期标签;根据所述第一预设规则对所述第一训练样本集合进行筛选,获得第二训练样本集合;将所述第二训练样本集合中具有逾期记录的用户样本作为正样本标签,将没有逾期记录的用户样本作为负样本标签,对第一预测模型进行训练;通过训练后的第一预测模型对所述第二训练样本集合进行处理,获得所述各第二训练样本集合中各训练样本的第一用户分值,其中,所述第一用户分值越高,表征该训练样本被预测为正样本的概率越低;获取预设的第一分数阈值和第二分数阈值,所述第一分数阈值小于所述第二分数阈值;根据所述第一分数阈值、所述第二分数阈值及所述第一用户分值,将所述第二训练样本集合划分为低分样本用户集合、中分样本用户集合及高分样本用户集合;针对所述高分样本用户集合,将具有逾期记录的用户样本作为正样本标签,将没有逾期记录的用户样本作为负样本标签,对第二预测模型进行训练;通过训练后的第二预测模型对所述高分样本用户集合进行处理,获得所述各高分样本用户集合中各训练样本的第二用户分值,其中,所述第二用户分值越高,表征该训练样本被预测为正样本的概率越低;针对所述中分样本用户集合,将具有逾期记录的用户样本作为正样本标签,将没有逾期记录的用户样本作为负样本标签,对第三预测模型进行训练;
通过训练后的第三预测模型对所述中分样本用户集合进行处理,获得所述各中分样本用户集合中各训练样本的第三用户分值,其中,所述第三用户分值越高,表征该训练样本被预测为正样本的概率越低;获取预设正样本比例,将所述第二预测模型从所述高分样本用户集合中得出的最高的第二用户分值作为第三分数阈值,将所述第三预测模型从所述中分样本用户集合中得出的最高的第三用户分值作为第四分数阈值;逐渐降低所述第三分数阈值,若在所述第三分数阈值降至所述第二预测模型从所述高分样本用户集合中得出的最低的第二用户分值之前,所述高分样本用户集合中,所述第二用户分值大于所述第三分数阈值且具有正样本标签的用户样本数量与所述第二用户分值大于所述第三分数阈值的用户样本数量之比达到所述预设正样本比例,则将当前的第三分数阈值作为所述第二预测模型的筛选分数阈值,将所述第四分数阈值作为所述第三预测模型的筛选分数阈值;若所述第三分数阈值降至所述第二预测模型从所述高分样本用户集合中得出的最低的第二用户分值时,所述高分样本用户集合中,所述第二用户分值大于所述第三分数阈值且具有正样本标签的用户样本数量与所述第二用户分值大于所述第三分数阈值的用户样本数量之比未达到所述预设正样本比例,则将当前的所述第三分数阈值作为所述第二预测模型的筛选分数阈值,并逐渐降低所述第四分数阈值,并计算所述第二用户分值大于所述第三分数阈值且具有正样本标签的用户样本数量与所述第三用户分值大于所述第四分数阈值且具有正样本标签的用户样本数量的第一和值,计算所述第二用户分值大于所述第三分数阈值的用户样本数量与所述第三用户分值大于所述第四分数阈值的用户样本数量的第二和值,直至所述第一和值与所述第二和值之比达到所述预设正样本比例,将所述第四分数阈值作为所述第三预测模型的筛选分数阈值。3.根据权利要求2所述的方法,其特征在于,在所述根据所述第一分数阈值、所述第二分数阈值及所述第一用户分值,将所述第二训练样本集合划分为低分样本用户集合、中分样本用户集合及高分样本用户集合的步骤之后,所述方法还包括:根据第二预设规则及各所述待处理用户的用户信息,对所述高分样本用户集合进行筛选,获得筛选后的高分样本用户集合;根据第三预设规则及各所述待处理用户的用户信息,对所述中分样本用户集合进行筛选,获得筛选后的中分样本用户集合。4.根据权利要求2所述的方法,其特征在于,所述将所述第二训练样本集合中具有逾期记录的用户样本作为正样本标签,将没有逾期记录的用户样本作为负样本标签,对第一预测模型进行训练的步骤,包括:将所述第二训练样本集合划分为第二训练集合和第二测试集合;将具有逾期记录的用户样本作为正样本标签,将没有逾期记录的用户样本作为负样本标签,使用所述第二训练集合对所述第一预测模型进行训练,并使用所述第二测试集合对训练后的所述第一预测模型进行测试,直至所述第一预测模型的在所述第二训练样本集合上计算得到的AUC或KS的数值最高,且所述第一预测模型在所述第二训练集合和所述第二测试集合上得出的AUC或KS的数值之差在设定数值范围内。5.根据权利要求2所述的方法,其特征在于,所述针对所述高分样本用户集合,将具有
逾期记录的用户样本作为正样本标签,将没有逾期记录的用户样本作为负样本标签,对第二预测模型进行训练的步骤,包括:将所述高分样本用户集合划分为高分样本训练集合和高分样本测试集合;将具有逾期记录的用户样本作为正样本标签,将没有逾期记录的用户样本作为负样本标签,使用所述高分样本训练集合对所述第二预测模型进行训练,并使用所述高分样本测试...

【专利技术属性】
技术研发人员:顾凌云周轩乔韵如王震宇陶帅
申请(专利权)人:上海冰鉴信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1