数据处理方法、模型训练方法、设备及存储介质技术

技术编号:38766393 阅读:12 留言:0更新日期:2023-09-10 10:39
本申请实施例提供一种数据处理方法、模型训练方法、设备及存储介质。其中,方法包括如下的步骤:确定待预测用户的用户特征以及训练过的混合治愈模型;混合治愈模型包括:发生率部分和潜伏期部分;发生率部分用于描述违约事件的发生率;潜伏期部分用于描述违约用户的生存函数;利用训练过的第一特征编码模型和第二特征编码模型分别对用户特征进行特征编码,得到适用于发生率部分的第一特征和适用于潜伏期部分的第二特征;根据第一特征和第二特征,利用混合治愈模型预测待预测用户的生存函数。本申请实施例提供的混合治愈模型能够提供更多的、更准确的用于风险控制的参考信息,有助于提供更加精细化、更加准确的风险控制。更加准确的风险控制。更加准确的风险控制。

【技术实现步骤摘要】
数据处理方法、模型训练方法、设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种数据处理方法、模型训练方法、设备及存储介质。

技术介绍

[0002]违约行为是指合同当事人违反合同义务的行为。为了降低风险,一般需要对违约风险进行识别。
[0003]以信用贷款为例,信用贷款是指以借款人的信誉发放的贷款,借款人不需要提供担保,其特征就是债务人无需提供抵押品或第三方担保仅凭自己的信誉就能取得贷款,并以借款人信用程度作为还款保证的。由于这种贷款方式风险较大,一般需要对借款人的各方面情况进行详细地分析研究,以降低风险。
[0004]现有的信用贷款风险控制方案中,利用信用贷款风险模型评估对用户进行风险评估,以评估用户是否会发生违约;然后,根据风险评估结果进行风险控制。现有的技术方案存在不够完善的地方,需要进行改进。

技术实现思路

[0005]鉴于以上问题,本申请提供了一种数据处理方法、模型训练方法、设备及存储介质。
[0006]于是,在本申请的一个实施例中,提供了一种数据处理方法。该方法包括:
[0007]确定待预测用户的用户特征以及训练过的混合治愈模型;所述混合治愈模型包括:发生率部分和潜伏期部分;所述发生率部分用于描述违约事件的发生率;所述潜伏期部分用于描述违约用户的生存函数;
[0008]利用第一特征编码模型和第二特征编码模型分别对所述用户特征进行特征编码,得到适用于所述发生率部分的第一特征和适用于所述潜伏期部分的第二特征;所述第一特征编码模型是训练过的用于预测用户的违约事件发生率的模型;所述第二特征编码模型是训练过的用于预测用户的生存时间的模型;所述生存时间指的是从观察点到违约事件发生的时间;
[0009]根据所述第一特征和所述第二特征,利用所述混合治愈模型预测所述待预测用户的生存函数。
[0010]在本申请的又一实施例中,提供了一种模型训练方法。该方法,包括:
[0011]确定初始训练样本数据以及待训练的混合治愈模型;所述初始训练样本数据中包括:样本用户的样本用户特征;所述混合治愈模型包括:发生率部分和潜伏期部分;所述发生率部分用于描述违约事件的发生率;所述潜伏期部分用于描述违约用户的生存函数;
[0012]利用第一特征编码模型和第二特征编码模型分别对所述样本用户特征进行特征编码,得到适用于所述发生率部分的第一样本特征和适用于所述潜伏期部分的第二样本特征;所述第一特征编码模型是训练过的用于预测用户的违约事件发生率的模型;所述第二
特征编码模型是训练过的用于预测用户的生存时间的模型;所述生存时间指的是从观察点到违约事件发生的时间;
[0013]根据所述第一样本特征和所述第二样本特征,对所述混合治愈模型进行参数估计,得到满足收敛条件的参数估计值。
[0014]在本申请的又一实施例中,提供了一种电子设备。该电子设备,包括:存储器和处理器,其中,
[0015]所述存储器,用于存储程序;
[0016]所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以实现上述任一项所述的方法。
[0017]在本申请的又一实施例中,提供了一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述任一项所述的方法。
[0018]本申请实施例提供的技术方案中,由于混合治愈模型是二分类和生存分析的混合模型,利用混合治愈模型评估风险,不仅可以预测用户是否会发生违约,还可以预测用户违约发生的时点,与现有的风险模型相比,能够提供更多的信息,有助于提供更加精细化的风险控制,并且,利用训练过的第一特征编码模型和第二特征编码模型分别对用户特征进行特征编码,有助于提高模型的表达能力,进而提高模型的准确率以确保提高风险控制的有效性。
附图说明
[0019]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1为本申请一实施例提供的数据处理方法的流程示意图;
[0021]图2为本申请一实施例提供的模型参数估计方法的流程示意图;
[0022]图3为本申请一实施例提供的数据处理方法的流程示意图;
[0023]图4为本申请一实施例提供的模型训练方法的流程示例图;
[0024]图5为本申请一实施例提供的电子设备的结构框图。
具体实施方式
[0025]对于传统风险模型来说,其只关注了违约事件是否会发生(也即发生的概率),而忽略了违约会在什么时间点发生这个重要的信息。假如我们能够预测用户违约发生的时间,就可以有效指导我们设计出更加精细化的风险策略,扩充风险管理的手段,例如在批准或拦截之外,增加授信时长等软性限制。
[0026]生存分析泛指一系列以生存时间为目标的统计方法,主要应用于生物医药行业。本申请提出利用混合治愈模型,构建一套端到端的风险模型训练和应用的解决方案。其中,混合治愈模型有治愈的假设,即不发生违约,这与信用贷款等合同应用场景非常贴合。例如:在信用贷款风险控制样本中,绝大部分样本都不会发生违约,因此治愈部分的假设就非常有必要,可以提升模型的准确性。混合治愈模型对于治愈率不是简单的常数估计,因此该
模型本身就可以捕捉非线性的关系。此外,本申请还提出,在混合治愈模型训练前,增加基于两个训练好的特征编码模型分别对模型的发生率部分和潜伏期部分的特征进行特征编码,以增强模型的表达能力。
[0027]为了使本
的人员更好地理解本申请方案,下面将根据本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0028]此外,在本申请的说明书、权利要求书及上述附图中描述的一些流程中,包含了按照特定顺序出现的多个操作,这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等,仅仅是用于区分各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
[0029]需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:确定待预测用户的用户特征以及训练过的混合治愈模型;所述混合治愈模型包括:发生率部分和潜伏期部分;所述发生率部分用于描述违约事件的发生率;所述潜伏期部分用于描述违约用户的生存函数;利用第一特征编码模型和第二特征编码模型分别对所述用户特征进行特征编码,得到适用于所述发生率部分的第一特征和适用于所述潜伏期部分的第二特征;所述第一特征编码模型是训练过的用于预测用户的违约事件发生率的模型;所述第二特征编码模型是训练过的用于预测用户的生存时间的模型;所述生存时间指的是从观察点到违约事件发生的时间;根据所述第一特征和所述第二特征,利用所述混合治愈模型预测所述待预测用户的生存函数。2.根据权利要求1所述的方法,其特征在于,所述第一特征编码模型包括:梯度提升分类树模型。3.根据权利要求1所述的方法,其特征在于,所述第二特征编码模型包括:梯度提升回归树模型。4.根据权利要求1至3中任一项所述的方法,其特征在于,还包括:获取初始训练样本数据;所述初始训练样本数据中包括:样本用户的样本用户特征;利用训练过的第一特征编码模型和第二特征编码模型分别对所述样本用户特征进行特征编码,得到适用于所述发生率部分的第一样本特征和适用于所述潜伏期部分的第二样本特征;根据所述第一样本特征和所述第二样本特征,对所述混合治愈模型进行参数估计,得到满足收敛条件的参数估计值。5.根据权利要求4所述的方法,其特征在于,所述初始训练样本数据中还包括:所述样本用户的生存时间以及删失指标。6.根据权利要求5所述的方法,其特征在于,还包括:根据所述初始训练样本数据,确定第一训练样本数据;所述第一训练样本数据中包括:所述样本用户的样本用户特征和用于指示所述样本用户是否发生过违约事件的第一期望预测结果;所述第一期望预测结果是根据所述删失指标确定的;根据所述第一训练样本数据对所述第一特征编码模型进行训练,得到模型预测损失值小于或等于第一预设值的第一特征编码模型。7.根据权利要求5所述的方法,其特征在于,还...

【专利技术属性】
技术研发人员:周逸文
申请(专利权)人:阿里云计算有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1