征信数据的特征项处理方法、装置、计算机设备制造方法及图纸

技术编号:17940733 阅读:26 留言:0更新日期:2018-05-15 20:54
本发明专利技术涉及一种征信数据的特征项处理方法、装置、计算机设备及存储介质,包括:对征信数据中的样本数据进行分组,从样本数据中提取特征项,计算每个特征项的信息值,提取信息值高于预设值的特征项,计算提取的特征项的信息增益值和基尼系数,根据信息增益值和基尼系数筛选特征项,得到筛选后的特征项,采用逐步回归算法剔除筛选后的特征项中的多重共线性特征项,得到最终特征项。由于计算出了信息增益值和基尼系数,可以更加快速的挑选出有效的特征项,而且使用逐步回归算法剔除特征项中的多重共线性特征项,可以使信用评分更加精确。

Characteristic data processing method, device and computer equipment for credit data

The invention relates to a characteristic item processing method, device, computer equipment and storage medium for the data collection, including: grouping the sample data in the data collection, extracting the feature items from the sample data, calculating the information value of each feature item, extracting the features of the information value higher than the pre set value, and calculating the extracted features. The information gain value and the Gene coefficient are selected according to the information gain value and the Gene coefficient. The feature term after screening is obtained, and the multiple collinear feature items in the selected feature items are eliminated by stepwise regression algorithm, and the final feature term is obtained. By calculating the information gain and the Gene coefficient, the effective feature items can be picked out more quickly, and the multiple collinear feature items in the feature items can be eliminated by the stepwise regression algorithm, which can make the credit score more accurate.

【技术实现步骤摘要】
征信数据的特征项处理方法、装置、计算机设备
本专利技术涉及计算机
,特别是涉及一种征信数据的特征项处理方法、装置、计算机设备及存储介质。
技术介绍
随着市场经济的不断发展和征信报告数据的不断增加,征信报告数据中数据的特征项也越来越多。特征项是对目标变量有显著的区分作用的已知变量,在对客户的信用进行评分时,通常需要挑选出有效的特征项用于建模,以用于对客户的信用进行评分。传统的特征项的处理方法都是计算特征项的信息值,选取信息值符合标准的特征项用于建模对客户的信用进行评分。传统的特征项的处理方法比较单一,都是简单的以信息值大于设定值为标准挑选特征项,使用这种方式挑选特征项后剩余的特征项还是很多,并且不太准确,导致特征项不能被有效的挖掘,从而影响对信用的评分。
技术实现思路
基于此,有必要针对上述特征项不能被有效的挖掘,影响对信用的评分的问题,提供一种征信数据的特征项处理方法、装置、计算机设备及存储介质。一种征信数据的特征项处理方法,所述方法包括:对征信数据中的样本数据进行分组;从所述样本数据中提取特征项;计算每个所述特征项的信息值;提取所述信息值高于预设值的特征项;计算提取的特征项的信息增益值和基尼系数,根据所述信息增益值和基尼系数筛选特征项,得到筛选后的特征项;采用逐步回归算法剔除所述筛选后的特征项中的多重共线性特征项,得到最终特征项。在一个实施例中,所述样本数据分为正样本和负样本;所述计算每个所述特征项的信息值包括:获取所述样本数据中的正样本数量总和和负样本数量总和;对于每一个特征项,获取所述样本数据中任意一组样本数据中的正样本数量和负样本数量,计算所述正样本数量占所述正样本数量总和的第一比率和所述负样本数量占所述负样本数量总和的第二比率;根据所述第一比率和第二比率计算特征项的信息值。在一个实施例中,所述计算提取的特征项的信息增益值,包括:计算提取的特征项的信息熵和条件熵;所述提取的特征项的信息增益值为所述信息熵与所述条件熵的差值。在一个实施例中,所述计算提取的特征项的基尼系数,包括:计算提取的所述信息值高于预设值的特征项的概率;根据所述概率计算所述提取特征项的基尼系数。在一个实施例中,所述采用逐步回归算法剔除所述筛选后的特征项中的多重共线性特征项,得到最终特征项,包括:依次对所述筛选后的特征项进行检验,得到检验后的特征项;当前一个检验后的特征项的显著性低于后一个筛选后的特征项的显著性时,删除前一个筛选后的特征项。在一个实施例中,在所述得到最终特征项之后,还包括:根据所述最终特征项建立征信评价模型。在一个实施例中,所述方法还包括:获取待评价用户的征信数据,将所述待评价用户的征信数据输入所述征信评价模型中进行验证,得到待评价用户的征信评分。一种征信数据的特征项处理装置,所述装置包括:数据分组模块,用于对征信数据中的样本数据进行分组;第一特征项提取模块,用于从所述样本数据中提取特征项;信息值计算模块,用于计算每个所述特征项的信息值;第二特征项提取模块,用于提取所述信息值高于预设值的特征项;特征项筛选模块,用于计算提取的特征项的信息增益值和基尼系数,根据所述信息增益值和基尼系数筛选特征项,得到筛选后的特征项;特征项剔除模块,用于采用逐步回归算法剔除所述筛选后的特征项中的多重共线性特征项,得到最终特征项。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。上述征信数据的特征项处理方法、装置、计算机设备及存储介质,通过对征信数据中的样本数据进行分组,从样本数据中提取特征项,计算每个特征项的信息值,提取信息值高于预设值的特征项,计算提取的特征项的信息增益值和基尼系数,根据信息增益值和基尼系数筛选特征项,得到筛选后的特征项,采用逐步回归算法剔除筛选后的特征项中的多重共线性特征项,得到最终特征项。由于计算出了信息增益值和基尼系数,可以更加快速的挑选出有效的特征项,而且使用逐步回归算法剔除特征项中的多重共线性特征项,可以使信用评分更加精确。附图说明图1为一个实施例中征信数据的特征项处理方法的应用环境图;图2为一个实施例中图1中服务器的内部结构图;图3为一个实施例中征信数据的特征项处理方法的流程图;图4为一个实施例中计算每个特征项信息值的方法流程图;图5为一个实施例中计算提取的特征项的信息增益值的方法流程图;图6为一个实施例中计算提取的特征项的基尼系数的方法流程图;图7为一个实施例中采用逐步回归算法得到最终特征项的方法流程图;图8为一个实施例中建立征信评价模型以及对模型进行验证的方法流程图;图9为一个实施例中征信数据的特征项处理装置的结构框图;图10为另一个实施例中征信数据的特征项处理装置的结构框图。具体实施方式为使本专利技术的目的、特征和优点能够更加明显易懂,下面结合附图对本专利技术的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术。但是本专利技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况下做类似改进,因此本专利技术不受下面公开的具体实施的限制。图1为一个实施例中征信数据的特征项处理方法的应用环境图。如图1所示,该应用环境包括终端110和服务器120,其中,终端110通过网络与服务器120进行通信。终端110可为笔记本电脑、台式计算机、个人数字电脑、便携式膝上型电脑、智能手机等,但并不局限于此。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。首先,终端110可以获取征信数据中的样本数据,再将样本数据上传到服务器120,服务器120对上传的征信数据中的样本数据进行分组,再从样本数据中提取特征项,然后计算出每个特征项的信息值,之后再提取信息值高于预设值的特征项,计算提取的特征项的信息增益值和基尼系数,根据信息增益值和基尼系数筛选特征项,得到筛选后的特征项,然后采用逐步回归算法剔除筛选后的特征项中的多重共线性特征项,得到最终特征项,最后,根据最终特征项建立征信评价模型,将获取到的待评价用户的征信数据输入征信评价模型中进行验证,得到待评价用户的征信评分。最后,可以将用户的征信评分发送给终端110。在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,图1中的服务器120的内部结构如图2所示,服务器120包括通过系统总线连接的处理器、存储介质、内存和网络接口。其中,该处理器120用于提供计算和控制能力,支撑整个用户终端的运行。服务器120的存储介质存储有操作系统以及一种征信数据的特征项处理装置的计算机程序,该征信数据的特征项处理装置的计算机程序被处理器执行时,用于实现一种征信数据的特征项处理方法。服务器120中的内存为存储介质中实现征信数据的特征项处理装置的运行提供环境,网络接口用于与终端110进行网络通信,例如,接收终端110上传的征信数据中的样本数据,服务器120还可以通过网络接口发送用户的征信评分。图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比本文档来自技高网...
征信数据的特征项处理方法、装置、计算机设备

【技术保护点】
一种征信数据的特征项处理方法,其特征在于,所述方法包括:对征信数据中的样本数据进行分组;从所述样本数据中提取特征项;计算每个所述特征项的信息值;提取所述信息值高于预设值的特征项;计算提取的特征项的信息增益值和基尼系数,根据所述信息增益值和基尼系数筛选特征项,得到筛选后的特征项;采用逐步回归算法剔除所述筛选后的特征项中的多重共线性特征项,得到最终特征项。

【技术特征摘要】
1.一种征信数据的特征项处理方法,其特征在于,所述方法包括:对征信数据中的样本数据进行分组;从所述样本数据中提取特征项;计算每个所述特征项的信息值;提取所述信息值高于预设值的特征项;计算提取的特征项的信息增益值和基尼系数,根据所述信息增益值和基尼系数筛选特征项,得到筛选后的特征项;采用逐步回归算法剔除所述筛选后的特征项中的多重共线性特征项,得到最终特征项。2.根据权利要求1所述的方法,其特征在于,所述样本数据分为正样本和负样本;所述计算每个所述特征项的信息值包括:获取所述样本数据中的正样本数量总和和负样本数量总和;对于每一个特征项,获取所述样本数据中任意一组样本数据中的正样本数量和负样本数量,计算所述正样本数量占所述正样本数量总和的第一比率和所述负样本数量占所述负样本数量总和的第二比率;根据所述第一比率和第二比率计算特征项的信息值。3.根据权利要求1所述的方法,其特征在于,所述计算提取的特征项的信息增益值,包括:计算提取的特征项的信息熵和条件熵;所述提取的特征项的信息增益值为所述信息熵与所述条件熵的差值。4.根据权利要求1所述的方法,其特征在于,所述计算提取的特征项的基尼系数,包括:计算提取的所述信息值高于预设值的特征项的概率;根据所述概率计算所述提取特征项的基尼系数。5.根据权利要求1所述的方法,其特征在于,所述采用逐步回归算法剔除所述筛选后的特征项中的多重共线性特征项,得到最终特征项,包括:依次对所述筛选...

【专利技术属性】
技术研发人员:张诗雨赖晓彬刘奕慧
申请(专利权)人:深圳市牛鼎丰科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1