迁移率预测模型的训练方法、使用方法、装置及设备制造方法及图纸

技术编号:31896112 阅读:17 留言:0更新日期:2022-01-15 12:26
本发明专利技术实施例公开一种迁移率预测模型的训练方法,通过在服务器端利用非隐私数据和类别标签进行第一迁移率预测模型的训练,使得最终得到的模型对待预测用户进行预测时能够识别当前用户类别,增强模型的学习能力且提高预测准确度性;并且在客户端处利用隐私数据对第一迁移率预测模型进行训练得到第二迁移率预测模型,可以增强用于实时预测的模型的稳定性和泛化性能,能够提高第二迁移率预测模型对各个用户进行预测的自适应性、实效性和准确性,增强了通过机器学习对用户的迁移率预测的准确性;且第二迁移率预测模型在客户端上能够使用单独用户的较少数据进行快速迭代,既降低了模型的数据成本,又可保证对各个用户的个性化预测,提高预测准确性。提高预测准确性。提高预测准确性。

【技术实现步骤摘要】
迁移率预测模型的训练方法、使用方法、装置及设备


[0001]本专利技术涉及机器学习
,尤其涉及一种迁移率预测模型的训练方法、使用方法、装置及设备。

技术介绍

[0002]在现有技术中,利用light

gbm等机器学习方法对用户迁移率进行预测建模以进行逾期风险的预警,实现提前进入逾期还款的干预状态,降低坏账损失,但是,现有技术中需要较大的数据量进行建模与后续迭代,且不能排除数据分布变化的干扰,稳定性较弱。同时,现有技术中对样本特征要求较高,在不便于采集用户隐私数据特征的金融场景中训练效果和预测效果都会受到影响,预测准确性有待提高。

技术实现思路

[0003]本专利技术的主要目的在于提供一种迁移率预测模型的训练方法、装置、计算机设备及存储介质,可以解决现有技术中对用户迁移率进行预测准确性不高的问题。
[0004]为实现上述目的,本专利技术第一方面提供一种迁移率预测模型的训练方法,所述方法应用于服务器,所述方法包括:
[0005]获取目标用户的第一样本数据集,所述第一样本数据集包括所述目标用户的非隐私数据以及所述目标用户的类别标签;
[0006]将所述第一样本数据集包括的训练集输入梯度提升模型进行单步预测,确定第一损失;根据所述第一损失及梯度算法,得到一阶梯度;
[0007]将所述第一样本数据集包括的测试集输入所述梯度提升模型进行单步预测,得到第二损失;根据所述第二损失、所述一阶梯度以及学习率,确定二阶梯度;
[0008]利用所述二阶梯度对所述梯度提升模型进行单步更新,得到更新后的梯度提升模型;返回执行所述获取目标用户的第一样本数据集的步骤,直至返回执行次数达到预设迭代次数,并将最后得到的梯度提升模型确定为第一迁移率预测模型;
[0009]将所述第一迁移率预测模型分发至各个待预测用户对应的客户端。
[0010]在一种可行实现方式中,所述将最后得到的梯度提升模型确定为第一迁移率预测模型之后,还包括:
[0011]利用所述第一迁移率预测模型对各个候选用户进行迁移率预测,得到各个所述候选用户对应的迁移率;
[0012]利用各个所述候选用户对应的迁移率及预设统计学算法,确定统计均值和统计方差;
[0013]将所述统计均值和统计方差分发至各个所述待预测用户对应的客户端,所述客户端用于基于所述统计均值和统计方差确定风险信号强度,所述风险信号强度用于指示所述待预测用户的逾期还款的风险强度。
[0014]在一种可行实现方式中,将所述第一迁移率预测模型分发至各个待预测用户对应
的客户端,之后还包括:
[0015]接收各个所述待预测用户对应的客户端上报的风险提示信息,所述风险提示信息包括风险信号强度;
[0016]根据所述风险信号强度及预设的等级确定规则,确定所述风险信号强度对应的风控等级;
[0017]基于所述风控等级对所述待预测用户执行对应的风控操作。
[0018]在一种可行实现方式中,所述获取目标用户的第一样本数据集之前还包括:
[0019]获取样本用户的非隐私数据,根据所述非隐私数据对已达到风险表现期的候选用户进行聚类,得到所述候选用户对应的类别标签;
[0020]将所述候选用户的非隐私数据按照数据产生时间顺序进行排序,得到样本数据序列,所述样本数据序列包括所述候选用户的非隐私数据及所述候选用户的类别标签;
[0021]则所述获取目标用户的第一样本数据集包括:
[0022]利用随机抽取规则从所述样本数据序列中进行随机抽取,得到第一样本数据集,所述随机抽取规则包括预设的类别抽取数量;
[0023]按照预设划分比例对所述第一样本数据集进行划分,确定第一样本数据集对应的训练集以及测试集。
[0024]为实现上述目的,本专利技术第二方面提供一种迁移率预测模型的使用方法,所述方法应用于客户端,所述方法包括:
[0025]接收所述服务器发送的第一迁移率预测模型、以及获取与所述客户端对应的待预测用户的第一隐私样本数据,所述第一隐私样本数据包括所述待预测用户的非隐私数据以及所述待预测用户的隐私数据,所述第一迁移率预测模型基于第一方面中的一种迁移率预测模型的训练方法得到的;
[0026]根据所述第一迁移率预测模型以及所述第一隐私样本数据确定所述待预测用户对应的第二迁移率预测模型;
[0027]利用所述第二迁移率预测模型以及预设风险判断规则,确定所述待预测用户是否存在逾期风险。
[0028]在一种可行实现方式中,所述根据所述第一迁移率预测模型以及所述第一隐私样本数据确定所述待预测用户对应的第二迁移率预测模型,包括:
[0029]将所述第一隐私样本数据输入所述第一迁移率预测模型,得到第二迁移率预测模型;
[0030]确定所述隐私数据的数据更新次数;
[0031]当所述数据更新次数达到预设的更新次数阈值,则将所述第二隐私样本数据输入所述第二迁移率预测模型,得到第三迁移率预测模型,所述第二隐私样本数据包括所述数据更新次数达到所述更新次数阈值的所述待预测用户的隐私数据及所述待预测用户的非隐私数据。
[0032]在一种可行实现方式中,所述利用所述第二迁移率预测模型以及预设风险判断规则,确定所述待预测用户是否存在逾期风险,包括:
[0033]利用所述第一隐私样本数据及所述第二迁移率预测模型对所述待预测用户的迁移率进行分析及预测,得到所述待预测用户的总体均值;
[0034]利用所述第二隐私样本数据以及所述第三迁移率预测模型对所述待预测用户的迁移率进行分析及预测,得到所述待预测用户的样本均值及样本方差;
[0035]根据所述总体均值、样本均值、样本方差及数据更新次数,确定所述待预测用户对应的逾期检验值;
[0036]若所述逾期检验值小于安全阈值,则确定所述待预测用户存在逾期风险;
[0037]若所述逾期检验值大于等于所述安全阈值,则确定所述待预测用户不存在逾期风险。
[0038]在一种可行实现方式中,所述方法,还包括:
[0039]若所述待预测用户存在逾期风险,则获取服务器发送的统计均值以及统计方差;
[0040]利用所述统计均值、统计方差、样本均值及样本方差,确定所述逾期风险的风险信号强度,所述风险信号强度用于指示用户逾期还款的风险强度;
[0041]利用所述风险信号强度生成风险提示信息,将所述风险提示信息上报至服务器;
[0042]若所述待预测用户不存在逾期风险,则将所述第三迁移率预测模型作为下一次对所述待预测用户进行迁移率预测所使用的预测模型,且将所述样本均值作为所述总体均值,并继续执行所述确定所述隐私数据的数据更新次数的步骤。
[0043]为实现上述目的,本专利技术第三方面提供一种迁移率预测模型的训练装置,所述装置应用于服务器,所述装置包括:
[0044]数据确定模块:用于获取目标用户的第一样本数据集,所述第一样本数据集包括所述目标用户的非隐本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种迁移率预测模型的训练方法,其特征在于,所述方法应用于服务器,所述方法包括:获取目标用户的第一样本数据集,所述第一样本数据集包括所述目标用户的非隐私数据以及所述目标用户的类别标签;将所述第一样本数据集包括的训练集输入梯度提升模型进行单步预测,确定第一损失;根据所述第一损失及梯度算法,得到一阶梯度;将所述第一样本数据集包括的测试集输入所述梯度提升模型进行单步预测,得到第二损失;根据所述第二损失、所述一阶梯度以及学习率,确定二阶梯度;利用所述二阶梯度对所述梯度提升模型进行单步更新,得到更新后的梯度提升模型;返回执行所述获取目标用户的第一样本数据集的步骤,直至返回执行次数达到预设迭代次数,并将最后得到的梯度提升模型确定为第一迁移率预测模型;将所述第一迁移率预测模型分发至各个待预测用户对应的客户端。2.根据权利要求1所述方法,其特征在于,所述将最后得到的梯度提升模型确定为第一迁移率预测模型之后,还包括:利用所述第一迁移率预测模型对各个候选用户进行迁移率预测,得到各个所述候选用户对应的迁移率;利用各个所述候选用户对应的迁移率及预设统计学算法,确定统计均值和统计方差;将所述统计均值和统计方差分发至各个所述待预测用户对应的客户端,所述客户端用于基于所述统计均值和统计方差确定风险信号强度,所述风险信号强度用于指示所述待预测用户的逾期还款的风险强度。3.根据权利要求1所述方法,其特征在于,所述将所述第一迁移率预测模型分发至各个待预测用户对应的客户端,之后还包括:接收各个所述待预测用户对应的客户端上报的风险提示信息,所述风险提示信息包括风险信号强度;根据所述风险信号强度及预设的等级确定规则,确定所述风险信号强度对应的风控等级;基于所述风控等级对所述待预测用户执行对应的风控操作。4.根据权利要求1所述方法,其特征在于,所述获取目标用户的第一样本数据集之前还包括:获取样本用户的非隐私数据,根据所述非隐私数据对已达到风险表现期的候选用户进行聚类,得到所述候选用户对应的类别标签;将所述候选用户的非隐私数据按照数据产生时间顺序进行排序,得到样本数据序列,所述样本数据序列包括所述候选用户的非隐私数据及所述候选用户的类别标签;则所述获取目标用户的第一样本数据集包括:利用随机抽取规则从所述样本数据序列中进行随机抽取,得到第一样本数据集,所述随机抽取规则包括预设的类别抽取数量;按照预设划分比例对所述第一样本数据集进行划分,确定第一样本数据集对应的训练集以及测试集。5.一种迁移率预测模型的使用方法,其特征在于,所述方法应用于客户端,所述方法包
括:接收所述服务器发送的第一迁移率预测模型、以及获取与所述客户端对应的待预测用户的第一隐私样本数据,所述第一隐私样本数据包括所述待预测用户的非隐私数据以及所述待预测用户的隐私数据,所述第一迁移率预测模型基于权利要求1中的一种迁移率预测模型的训练方法得到的;根据所述第一迁移率预测模型以及所述第一隐私样本数据确定所述待预测用户对应的第二迁移率预测模型;利用所述第二迁移率预测模型以及预设风险判断规则,确定所述待预测用户是否存在逾期风险。6.根据权利要求5所述方法,其特征在于,所述根据所述第一迁移率预测模型以及所述第一隐私样本数据确定所述待预测用户对应的第二迁移率预测模型,包括:将所述第一隐私样本数据输入所述第一迁移率预测模型,得到第二迁移率预测模型;确定所述隐私数据的数据更新次数;当所述数据更新次数达到预设的更新次数阈值,则将所述第二隐私样本数据输入所述第二迁移率预测模型,得到第三迁移率预测模型,所述第二隐...

【专利技术属性】
技术研发人员:李骏琪邵俊万友平
申请(专利权)人:深圳索信达数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1