一种变量选择方法、装置及服务器制造方法及图纸

技术编号:19427670 阅读:18 留言:0更新日期:2018-11-14 11:02
本申请实施例提供了一种变量选择方法、装置及服务器。其中的方法包括:获取样本数据,并按照预设分段规则将样本数据划分为M段,得到M段样本数据,样本数据包括至少一个自变量,M为正整数;根据预设因变量确定规则确定出N个因变量,N为正整数;根据N个因变量和M段样本数据,生成M*N个自变量选择样本;根据自变量在M*N个自变量选择样本中的信息价值,从至少一个自变量中选择出符合预设条件的目标自变量。采用本申请实施例实现了根据自变量在多个样本中的信息价值,选择用于建模的自变量,从而提高了模型的鲁棒性。

【技术实现步骤摘要】
一种变量选择方法、装置及服务器
本申请涉及互联网金融领域,尤其涉及一种变量选择方法、装置及服务器。
技术介绍
评分卡模型是一种预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用。评分卡模型在建模时必不可少的因素之一为建模自变量。通常情况下,建模自变量的选择是首先确定一个建模因变量,接着根据该建模因变量在一个样本集中对多个自变量进行分析和筛选得到的。此种方法得到的建模自变量可能存在的问题是该建模自变量只适用于当前样本集或者当前建模因变量的场景中,如果样本集发生变化或者建模因变量发生改变,就可能导致评分卡模型的鲁棒性受到影响。因此,为了解决现有的评分卡模型建模过程中的问题,如何选择合适的建模自变量成为研究重点。
技术实现思路
本申请实施例提供了一种变量选择方法、装置及服务器,实现了根据自变量在多个样本中的信息价值选择用于建模的自变量,从而提高了模型的鲁棒性。本申请实施例第一方面提供了一种变量选择方法,包括:获取样本数据,并按照预设分段规则将样本数据划分为M段,得到M段样本数据,样本数据包括至少一个自变量,M为正整数;根据预设因变量确定规则确定出N个因变量,N为正整数;根据N个因变量和M段样本数据,生成M*N个自变量选择样本;根据自变量在M*N个自变量选择样本中的信息价值,从至少一个自变量中选择出符合预设条件的目标自变量。可选的,根据自变量在M*N个自变量选择样本中的信息价值,从至少一个自变量中确定出符合预设条件的目标自变量之前,变量选择方法还包括:针对至少一个自变量中的任意一个自变量,计算任意一个自变量在M*N个自变量选择样本包括的每一个自变量选择样本中的信息价值。可选的,计算任意一个自变量在M*N个自变量选择样本包括的每一个自变量选择样本中的信息价值,包括:根据任意一个自变量的特征,确定任意一个自变量的分组;利用证据权重计算公式,分别计算分组包括的每一组在M*N个自变量选择样本包括的每一个自变量选择样本中的证据权重;利用信息价值计算公式和证据权重,计算任意一个自变量在每一个自变量选择样本中的信息价值。可选的,根据自变量在M*N个自变量选择样本中的信息价值,从至少一个自变量中确定出符合预设条件的目标自变量,包括:若任意一个自变量在每一个自变量选择样本中的信息价值均不小于预设信息价值,且任意一个自变量在每一个自变量选择样本中的信息价值之间的差值在预设差值范围内、任意一个自变量在每一个自变量选择样本中的信息价值变化趋势一致,则确定任意一个自变量符合预设条件,并将任意一个自变量作为目标自变量。可选的,根据预设因变量确定规则确定出N个因变量,包括:获取预设因变量确定规则,预设因变量确定规则包括:逾期方面的标准严宽以及短期逾期情况、中期逾期情况和长期逾期情况;根据逾期方面的标准严宽以及短期逾期情况、中期逾期情况和长期逾期情况确定出N个因变量。可选的,自变量包括贷款人的性别、年龄、信用卡张数、工作年限和所在城市中的一种或多种。可选的,预设分段规则包括贷款时间。本申请实施例第二方面提供了一种变量选择装置,包括:获取单元,用于获取样本数据,样本数据包括至少一个自变量;划分单元,用于按照预设分段规则将样本数据划分为M段,得到M段样本数据,M为正整数;确定单元,用于根据预设因变量确定规则中确定出N个因变量,N为正整数;生成单元,用于根据N个因变量和M段样本数据,生成M*N个自变量选择样本;选择单元,用于根据自变量在M*N个自变量选择样本中的信息价值,从至少一个自变量中选择出符合预设条件的目标自变量。可选的,变量选择装置还包括:计算单元,用于针对至少一个自变量中的任意一个自变量,计算任意一个自变量在M*N个自变量选择样本包括的每一个自变量选择样本中的信息价值。可选的,计算单元具体用于:根据任意一个自变量的特征,确定任意一个自变量的分组;利用证据权重计算公式,分别计算分组包括的每一组在M*N个自变量选择样本包括的每一个自变量选择样本中的证据权重;利用信息价值计算公式和证据权重,计算任意一个自变量在每一个自变量选择样本中的信息价值。可选的,选择单元具体用于:若任意一个自变量在每一个自变量选择样本中的信息价值均不小于预设信息价值,且任意一个自变量在每一个自变量选择样本中的信息价值之间的差值在预设差值范围内、任意一个自变量在每一个自变量选择样本中的信息价值变化趋势一致,则确定任意一个自变量符合预设条件,并选择任意一个自变量作为目标自变量。可选的,确定单元具体用于:获取预设因变量确定规则,预设因变量确定规则包括:逾期方面的标准严宽以及短期逾期情况、中期逾期情况和长期逾期情况;根据逾期方面的标准严宽以及短期逾期情况、中期逾期情况和长期逾期情况确定出N个因变量。可选的,自变量包括贷款人的性别、年龄、信用卡张数、工作年限和所在城市中的一种或多种。可选的,述预设分段规则包括贷款时间。第三方面,本申请实施例提供了一种服务器,包括处理器和存储器,处理器和存储器相互连接,其中,存储器用于存储支持服务器执行上述方法的计算机程序,计算机程序包括程序指令,处理器被配置用于调用程序指令,执行上述第一方面的方法。第四方面,本申请实施例提供了一种计算机可读存储介质,计算机存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时使处理器执行上述第一方面的方法。本申请实施例中在获取到样本数据后,将样本数据根据预设分段规则划分为M段,并且根据预设因变量确定规则确定出N个因变量,进而根据M段样本数据和N个因变量,生成M*N个自变量选择样本,从而能够实现根据自变量在M*N个自变量选择样本中的信息价值,从所述至少一个自变量中选择出符合预设条件的目标自变量,该目标自变量用于建模,可以提高模型的鲁棒性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种变量选择方法的流程示意图;图2是本申请实施例提供的另一种变量选择方法的流程示意图;图3是本申请实施提供的一种信息价值计算方法的流程示意图;图4是本申请实施提供的一种变量选择装置的结构示意图;图5是本申请实施例提供的一种服务器的结构示意图。具体实施方式下面结合附图,对本申请的实施例进行描述。在对评分卡建模的研究中发现,常用评分卡建模在建模之初会根据巴塞尔协议、产品特点以及坏账容忍度等来设定一个因变量,一旦因变量确定以后,根据该因变量对一个样本中的自变量进行单因素分析、变量筛选等处理,得到用于建模的自变量。但是由于的评分卡建模自变量选择方法是在一个因变量和一个样本条件下筛选得到的,因此如果换个样本或者逾期定义,评分卡的鲁棒性等性能会受到影响。针对上述问题,本申请实施例提出一种变量选择方法、装置及服务器,通过将样本数据按照分段规则分成M段,以及根据预设因变量确定规则确定出N个因变量,生成了M*N个自变量选择样本,进一步的依据自变量在M*N个自变量选择样本中的信息价值,从至少一个自变量中选择出符合预设条件的目标自变量,实现了根据自变量在多个样本中的信息本文档来自技高网...

【技术保护点】
1.一种变量选择方法,其特征在于,包括:获取样本数据,并按照预设分段规则将所述样本数据划分为M段,得到M段样本数据,所述样本数据包括至少一个自变量,所述M为正整数;根据预设因变量确定规则确定出N个因变量,所述N为正整数;根据所述N个因变量和所述M段样本数据,生成M*N个自变量选择样本;根据自变量在所述M*N个自变量选择样本中的信息价值,从所述至少一个自变量中选择出符合预设条件的目标自变量。

【技术特征摘要】
1.一种变量选择方法,其特征在于,包括:获取样本数据,并按照预设分段规则将所述样本数据划分为M段,得到M段样本数据,所述样本数据包括至少一个自变量,所述M为正整数;根据预设因变量确定规则确定出N个因变量,所述N为正整数;根据所述N个因变量和所述M段样本数据,生成M*N个自变量选择样本;根据自变量在所述M*N个自变量选择样本中的信息价值,从所述至少一个自变量中选择出符合预设条件的目标自变量。2.根据权利要求1所述的方法,所述根据自变量在所述M*N个自变量选择样本中的信息价值,从所述至少一个自变量中确定出符合预设条件的目标自变量之前,所述方法还包括:针对所述至少一个自变量中的任意一个自变量,计算所述任意一个自变量在所述M*N个自变量选择样本包括的每一个自变量选择样本中的信息价值。3.根据权利要求2所述的方法,其特征在于,所述计算所述任意一个自变量在所述M*N个自变量选择样本包括的每一个自变量选择样本中的信息价值,包括:根据所述任意一个自变量的特征,确定所述任意一个自变量的分组;利用证据权重计算公式,分别计算所述分组包括的每一组在所述M*N个自变量选择样本包括的每一个自变量选择样本中的证据权重;利用信息价值计算公式和所述证据权重,计算所述任意一个自变量在所述每一个自变量选择样本中的信息价值。4.根据权利要求2或3所述的方法,其特征在于,所述根据自变量在所述M*N个自变量选择样本中的信息价值,从所述至少一个自变量中选择出符合预设条件的目标自变量,包括:若所述任意一个自变量在所述每一个自变量选择样本中的信息价值均不小于预设信息价值,且所述任意一个自变量在所述每一个自变量选择样本中的信息价值之间的差值在预设差值范围内、所述任意一个自变量在所述每一个自变量选择样本中的信息...

【专利技术属性】
技术研发人员:张焯
申请(专利权)人:重庆小雨点小额贷款有限公司
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1