基于拒绝推断方法的模型构建方法、装置和电子设备制造方法及图纸

技术编号:27687843 阅读:20 留言:0更新日期:2021-03-17 04:11
本发明专利技术提供了一种基于拒绝推断方法的模型构建方法、装置和电子设备。该方法包括:获取全量样本数据,对接受样本定义正、负样本,以建立训练数据集,训练数据集包括用户特征数据和金融表现数据;构建初始风险评估模型,使用训练数据集训练初始风险评估模型;使用训练好的初始风险评估模型,为拒绝样本打分,得到每个拒绝样本的变坏概率;采用拒绝推断方法,对拒绝样本进行加权扩展,还对所有接受样本进行加权处理;整合加权处理后的接受样本和拒绝样本,建立新训练数据集;使用新训练数据集,重新训练初始风险评估模型,以得到最终风险评估模型。本发明专利技术有效解决了样本偏差或样本数据缺失等的问题,提高了模型预测精度。

【技术实现步骤摘要】
基于拒绝推断方法的模型构建方法、装置和电子设备
本专利技术涉及计算机信息处理领域,具体而言,涉及一种基于拒绝推断方法的模型构建方法、装置和电子设备。
技术介绍
风险预测是对风险的量化,是风险管理的关键性技术。目前一般通过建模的方式进行风险预测,在模型的建立过程中,主要有数据抽取、特征生成、特征选取、算法模型生成和合理性评估等步骤。在现有技术中,金融风险预测主要的目的是如何区分出好客户和坏客户,评估用户的风险情况,以降低信用风险,并实现利润最大化。此外,随着数据的来源渠道越来越丰富,可以作为风险特征变量的数据也越来越多。但是,在建立模型时,通常仅使用已通过用户(或者具有标签的用户数据)作为建模样本,而没有考虑那些被拒绝用户的好坏状态,由此导致所建的模型总是“使用部分样本数据去估计总体”,因而存在参数估计的偏差。进一步地,还存在不使用没有标签的用户数据及其他相关数据等问题,这都会导致模型计算值不够准确,风险预测的准确性较低。此外,在模型计算精度、数据更新方面仍存在很大改进空间。因此,有必要提供一种改进了的模型构建方法。
技术实现思路
为了降低金融服务机构的金融风险损失,提高模型预测精度,并解决拒绝样本的缺失数据问题,本专利技术提供了一种基于拒绝推断方法的模型构建方法,包括:获取全量样本数据,对接受样本定义正、负样本,以建立训练数据集,所述训练数据集包括用户特征数据和金融表现数据,该金融表现数据包括违约概率和/或逾期概率;构建初始风险评估模型,使用所述训练数据集训练该初始风险评估模型;使用训练好的初始风险评估模型,为拒绝样本打分,得到每个拒绝样本的变坏概率;采用拒绝推断方法,对拒绝样本进行加权扩展,还对所有接受样本进行加权处理;整合加权处理后的接受样本和拒绝样本,建立新训练数据集;使用新训练数据集,重新训练所述初始风险评估模型,以得到最终风险评估模型。优选地,所述采用拒绝推断方法,对拒绝样本进行加权扩展,还对所有接受样本进行加权处理包括:根据所计算的每个拒绝变坏概率,采用外推法将每一个拒绝样本扩展成一个正样本和一个负样本,为所述一个负样本给定权重系数P,为所述一个正样本给定权重系数1-P,为每一个接受样本给定权重系数1。优选地,使用聚类分析方法,将具有标签值的接受样本分为两类,分别计算每一类的中心点;对每一个拒绝样本,分别计算该拒绝样本到各中心点的欧式距离,并基于所计算的欧式距离进行分类,以确定每一个拒绝样本的标签值。优选地,所述整合加权处理后的接受样本和拒绝样本包括:将计算加权处理后的接受样本和拒绝样本的总量,并判断正样本与负样本的比例是否在阈值范围内。优选地,在判断为不在阈值范围内的情况下,进行过采样或欠采样,以使正样本与负样本的数量相等。优选地,使用接受样本和加权处理且打标后的拒绝样本,建立新训练数据集,并使用所述新训练数据集构建最终风险评估模型。优选地,获取目标用户的用户特征数据,使用所述最终风险评估模型,计算所述目标用户的风险评估值。此外,本专利技术提高了一种基于拒绝推断方法的模型构建装置,包括:数据获取模块,用于获取全量样本数据,对接受样本定义正、负样本,以建立训练数据集,所述训练数据集包括用户特征数据和金融表现数据,该金融表现数据包括违约概率和/或逾期概率;第一构建模块,用于构建初始风险评估模型,使用所述训练数据集训练该初始风险评估模型;打分估算模块,用于使用训练好的初始风险评估模型,为拒绝样本打分,得到每个拒绝样本的变坏概率;第一处理模块,用于采用拒绝推断方法,对拒绝样本进行加权扩展,还对所有接受样本进行加权处理;第二处理模块,用于整合加权处理后的接受样本和拒绝样本,建立新训练数据集;第二构建模块,用于使用新训练数据集,重新训练所述初始风险评估模型,以得到最终风险评估模型。优选地,根据所计算的每个拒绝变坏概率,采用外推法将每一个拒绝样本扩展成一个正样本和一个负样本,为所述一个负样本给定权重系数P,为所述一个正样本给定权重系数1-P,为每一个接受样本给定权重系数1。优选地,还包括分类模块,所述分类模块用于使用聚类分析方法,将具有标签值的接受样本分为两类,分别计算每一类的中心点;对每一个拒绝样本,分别计算该拒绝样本到各中心点的欧式距离,并基于所计算的欧式距离进行分类,以确定每一个拒绝样本的标签值。优选地,还包括判断模块,所述判断模块用于将计算加权处理后的接受样本和拒绝样本的总量,并判断正样本与负样本的比例是否在阈值范围内。优选地,在判断为不在阈值范围内的情况下,进行过采样或欠采样,以使正样本与负样本的数量相等。优选地,使用接受样本和加权处理且打标后的拒绝样本,建立新训练数据集,并使用所述新训练数据集构建最终风险评估模型。优选地,获取目标用户的用户特征数据,使用所述最终风险评估模型,计算所述目标用户的风险评估值。此外,本专利技术还提供了一种电子设备,其中,该电子设备包括:处理器;以及,存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行本专利技术所述的基于拒绝推断方法的模型构建方法。此外,本专利技术还提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现本专利技术所述的基于拒绝推断方法的模型构建方法。有益效果与现有技术相比,本专利技术基于拒绝推断方法对拒绝样本进行加权扩增,并对接受样本给定权重,建立新训练数据集,使用新训练数据进行模型构建,再使用所构建的模型进行用户风险预测,从而有效解决了样本偏差或样本数据缺失等的问题,提高了模型预测精度,还降低了金融服务机构的金融风险损失。附图说明为了使本专利技术所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本专利技术的具体实施例。但需声明的是,下面描述的附图仅仅是本专利技术本专利技术示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。图1是本专利技术的实施例1的基于拒绝推断方法的模型构建方法的一示例的流程图。图2是本专利技术的实施例1的基于拒绝推断方法的模型构建方法的另一示例的流程图。图3是本专利技术的实施例1的基于拒绝推断方法的模型构建方法的又一示例的流程图。图4是本专利技术的实施例2的基于拒绝推断方法的模型构建装置的一示例的示意图。图5是本专利技术的实施例2的基于拒绝推断方法的模型构建装置的另一示例的示意图。图6是本专利技术的实施例2的基于拒绝推断方法的模型构建装置的又一示例的示意图。图7是根据本专利技术的一种电子设备的示例性实施例的结构框图。图8是根据本专利技术的计算机可读介质的示例性实施例的结构框图。具体实施方式现在将参考附图更全面地描述本专利技术的示例性实施例。然而,示例性实施例能够以多种形式实施,且不应被理解为本专利技术仅限于在此阐述的实施例。相反,提供这些示例性实施例能够使得本专利技术更加全面和完整,更加便于将专利技术构思全面地传达给本本文档来自技高网...

【技术保护点】
1.一种基于拒绝推断方法的模型构建方法,其特征在于,包括:/n获取全量样本数据,对接受样本定义正、负样本,以建立训练数据集,所述训练数据集包括用户特征数据和金融表现数据,该金融表现数据包括违约概率和/或逾期概率;/n构建初始风险评估模型,使用所述训练数据集训练该初始风险评估模型;/n使用训练好的初始风险评估模型,为拒绝样本打分,得到每个拒绝样本的变坏概率;/n采用拒绝推断方法,对拒绝样本进行加权扩展,还对所有接受样本进行加权处理;/n整合加权处理后的接受样本和拒绝样本,建立新训练数据集;/n使用新训练数据集,重新训练所述初始风险评估模型,以得到最终风险评估模型。/n

【技术特征摘要】
1.一种基于拒绝推断方法的模型构建方法,其特征在于,包括:
获取全量样本数据,对接受样本定义正、负样本,以建立训练数据集,所述训练数据集包括用户特征数据和金融表现数据,该金融表现数据包括违约概率和/或逾期概率;
构建初始风险评估模型,使用所述训练数据集训练该初始风险评估模型;
使用训练好的初始风险评估模型,为拒绝样本打分,得到每个拒绝样本的变坏概率;
采用拒绝推断方法,对拒绝样本进行加权扩展,还对所有接受样本进行加权处理;
整合加权处理后的接受样本和拒绝样本,建立新训练数据集;
使用新训练数据集,重新训练所述初始风险评估模型,以得到最终风险评估模型。


2.根据权利要求1所述的模型构建方法,其特征在于,所述采用拒绝推断方法,对拒绝样本进行加权扩展,还对所有接受样本进行加权处理包括:
根据所计算的每个拒绝变坏概率,采用外推法将每一个拒绝样本扩展成一个正样本和一个负样本,为所述一个负样本给定权重系数P,为所述一个正样本给定权重系数1-P,为每一个接受样本给定权重系数1。


3.根据权利要求1所述的模型构建方法,其特征在于,
使用聚类分析方法,将具有标签值的接受样本分为两类,分别计算每一类的中心点;
对每一个拒绝样本,分别计算该拒绝样本到各中心点的欧式距离,并基于所计算的欧式距离进行分类,以确定每一个拒绝样本的标签值。


4.根据权利要求2或3所述的模型构建方法,其特征在于,所述整合加权处理后的接受样本和拒绝样本包括:
将计算加权处理后的接受样本和拒绝样本的总量,并判断正样本与负样本的比例是否在阈值范围内。


5.根据权利要求4所述的模型构建方法,其特征在于,
在判断为不在阈值范围内的情况下,...

【专利技术属性】
技术研发人员:聂婷婷
申请(专利权)人:北京淇瑀信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1