The invention relates to a characteristic item processing method, device, computer equipment and storage medium for the data collection, including: grouping the sample data in the data collection, extracting the feature items from the sample data, calculating the information value of each feature item, extracting the features of the information value higher than the pre set value, and calculating the extracted features. The information gain value and the Gene coefficient are selected according to the information gain value and the Gene coefficient. The feature term after screening is obtained, and the multiple collinear feature items in the selected feature items are eliminated by stepwise regression algorithm, and the final feature term is obtained. By calculating the information gain and the Gene coefficient, the effective feature items can be picked out more quickly, and the multiple collinear feature items in the feature items can be eliminated by the stepwise regression algorithm, which can make the credit score more accurate.
【技术实现步骤摘要】
征信数据的特征项处理方法、装置、计算机设备
本专利技术涉及计算机
,特别是涉及一种征信数据的特征项处理方法、装置、计算机设备及存储介质。
技术介绍
随着市场经济的不断发展和征信报告数据的不断增加,征信报告数据中数据的特征项也越来越多。特征项是对目标变量有显著的区分作用的已知变量,在对客户的信用进行评分时,通常需要挑选出有效的特征项用于建模,以用于对客户的信用进行评分。传统的特征项的处理方法都是计算特征项的信息值,选取信息值符合标准的特征项用于建模对客户的信用进行评分。传统的特征项的处理方法比较单一,都是简单的以信息值大于设定值为标准挑选特征项,使用这种方式挑选特征项后剩余的特征项还是很多,并且不太准确,导致特征项不能被有效的挖掘,从而影响对信用的评分。
技术实现思路
基于此,有必要针对上述特征项不能被有效的挖掘,影响对信用的评分的问题,提供一种征信数据的特征项处理方法、装置、计算机设备及存储介质。一种征信数据的特征项处理方法,所述方法包括:对征信数据中的样本数据进行分组;从所述样本数据中提取特征项;计算每个所述特征项的信息值;提取所述信息值高于预设值的特征项;计算提取的特征项的信息增益值和基尼系数,根据所述信息增益值和基尼系数筛选特征项,得到筛选后的特征项;采用逐步回归算法剔除所述筛选后的特征项中的多重共线性特征项,得到最终特征项。在一个实施例中,所述样本数据分为正样本和负样本;所述计算每个所述特征项的信息值包括:获取所述样本数据中的正样本数量总和和负样本数量总和;对于每一个特征项,获取所述样本数据中任意一组样本数据中的正样本数量和负样本数量,计算所述正 ...
【技术保护点】
一种征信数据的特征项处理方法,其特征在于,所述方法包括:对征信数据中的样本数据进行分组;从所述样本数据中提取特征项;计算每个所述特征项的信息值;提取所述信息值高于预设值的特征项;计算提取的特征项的信息增益值和基尼系数,根据所述信息增益值和基尼系数筛选特征项,得到筛选后的特征项;采用逐步回归算法剔除所述筛选后的特征项中的多重共线性特征项,得到最终特征项。
【技术特征摘要】
1.一种征信数据的特征项处理方法,其特征在于,所述方法包括:对征信数据中的样本数据进行分组;从所述样本数据中提取特征项;计算每个所述特征项的信息值;提取所述信息值高于预设值的特征项;计算提取的特征项的信息增益值和基尼系数,根据所述信息增益值和基尼系数筛选特征项,得到筛选后的特征项;采用逐步回归算法剔除所述筛选后的特征项中的多重共线性特征项,得到最终特征项。2.根据权利要求1所述的方法,其特征在于,所述样本数据分为正样本和负样本;所述计算每个所述特征项的信息值包括:获取所述样本数据中的正样本数量总和和负样本数量总和;对于每一个特征项,获取所述样本数据中任意一组样本数据中的正样本数量和负样本数量,计算所述正样本数量占所述正样本数量总和的第一比率和所述负样本数量占所述负样本数量总和的第二比率;根据所述第一比率和第二比率计算特征项的信息值。3.根据权利要求1所述的方法,其特征在于,所述计算提取的特征项的信息增益值,包括:计算提取的特征项的信息熵和条件熵;所述提取的特征项的信息增益值为所述信息熵与所述条件熵的差值。4.根据权利要求1所述的方法,其特征在于,所述计算提取的特征项的基尼系数,包括:计算提取的所述信息值高于预设值的特征项的概率;根据所述概率计算所述提取特征项的基尼系数。5.根据权利要求1所述的方法,其特征在于,所述采用逐步回归算法剔除所述筛选后的特征项中的多重共线性特征项,得到最终特征项,包括:依次对所述筛选...
【专利技术属性】
技术研发人员:张诗雨,赖晓彬,刘奕慧,
申请(专利权)人:深圳市牛鼎丰科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。