一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置制造方法及图纸

技术编号:18426303 阅读:24 留言:0更新日期:2018-07-12 01:59
本发明专利技术公开一种基于ur‑CAIM算法的不平衡数据集特征选择方法,其包括:步骤a:定义数据集合;步骤b:计算初始CAIM准则,即数据集类别标签集合与数据集连续属性之间的相关性;步骤c:计算类别标签集合与数据集连续属性之间的互信息;步骤d:计算CAIR准则:步骤e:计算CAIU准则;步骤f:对CAIM准则进行改进;步骤g,根据改进的CAIM准则计算离散值、计算属性F的IV值,并设定阈值e,将IV值大于e的属性作为后续建模需要的特征;本发明专利技术还公开一种与基于ur‑CAIM算法的不平衡数据集特征选择方法相对应的装置。这样,本发明专利技术利用改进的CAIM准则对连续属性离散化,挑选出了对后续建模有重要作用的特征变量,减少了异常值对模型的影响,具有一定的稳健性。

An algorithm and device for feature selection of imbalanced datasets based on ur-CAIM algorithm

This invention discloses an unbalanced data set feature selection method based on ur CAIM algorithm, which includes step a: defining the data set; step B: calculating the initial CAIM criterion, that is, the correlation between the set tag set of the dataset and the continuous attributes of the data set; step C: calculating the continuous attributes of the category label set and the data set Mutual information between between; step D: calculate the CAIR criterion: step e: calculate the CAIU criterion; step f: improve the CAIM criterion; step g, calculate the discrete value, calculate the IV value of the property F according to the improved CAIM criterion, and set the threshold e, and make the IV value larger than the attribute required for subsequent modeling; the invention also discloses one kind of characteristics. Based on the ur CAIM algorithm, an unbalanced data set feature selection method corresponding to the device is presented. In this way, the invention makes use of the improved CAIM criterion to discretize the continuous attributes, and selects the characteristic variables that play an important role in the subsequent modeling, reducing the effect of the abnormal value on the model, and has certain robustness.

【技术实现步骤摘要】
一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置
本专利技术属于数据处理
,具体涉及基于ur-CAIM算法的不平衡数据集特征选择方法及装置。
技术介绍
特征选择通常被视为数据挖掘的第一步,特别是对于高维稀疏数据,通过特征选择可以去除大量的冗余和不相关特征信息的干扰,有效降低问题特征空间的维数,从而提高对目标函数的预测性能,降低分析成本,而且经过选择的特征更易于被人理解,有利于揭示底层数据中蕴藏的有用信息。在信贷行业中,个人信用数据集一般都是非平衡数据集,即正常客户的实例数远远超过违约用户的实例数,以此建立的个人信用评分模型将很难准确地抓住坏客户的行为特征。另外数据集中往往不只存在着离散型数据,也存在着大量连续型数据,而用多个弱分类器组合成强分类器的集成模型虽然内置了特征选择方法,但仍是以离散值为处理对象,需要对连续属性进行离散化。传统的基于熵的特征选择方法在计算连续属性的信息增益时只是将该属性分成两个区间,这样做会损失部分信息,并且对于不平衡数据集而言,会倾向于将属于多数类的样本分配在一个区间中,而少数类分配在该区间将很难被模型识别鉴于上述缺陷,本专利技术创作者经过长时间的研究和实践终于获得了本专利技术。
技术实现思路
为解决上述技术缺陷,本专利技术采用的技术方案在于,提供一种基于ur-CAIM算法的不平衡数据集特征选择方法,其包括:步骤a:定义数据集样本集合、属性集合以及数据集类别标签集合;步骤b:计算初始CAIM准则,即数据集类别标签集合与数据集连续属性之间的相关性;步骤c:根据互信息的定义计算类别标签集合与数据集连续属性之间的互信息;步骤d:计算CAIR准则:步骤e:计算CAIU准则;步骤f:对CAIM准则进行改进;步骤g,根据改进的CAIM准则计算离散值、计算属性F的IV值,并设定阈值e,将IV值大于e的属性作为后续建模需要的特征。较佳的,所述步骤b中计算类别标签集合与数据集连续属性之间的相关性的公式如下:其中M+r由表1定义,maxr表示第i个区间中qir的最大值。较佳的,步骤c中计算类别标签集合与数据集连续属性之间的互信息的步骤包括:步骤c1:根据表1中的字符定义,计算同时属于第r个区间Dr=(dr-1,dr]和第i个类别的联合概率:步骤c2:计算样本属于类别Ci的边际概率:步骤c3:计算样本落在区间Dr=(dr-1,dr]中的概率:步骤c4:计算类别标签集合与数据集连续属性之间的互信息:步骤d1:根据相对熵的定义,计算类别分布与属性分布之间相对熵的相反数:较佳的,步骤d中包括如下步骤:步骤d2:计算类别与属性联合分布的熵:步骤d3:计算CAIR准则较佳的,步骤e计算CAIU准则的公式为:较佳的,步骤f对CAIM准则进行改进的步骤包括:步骤f1:考虑全部样本数,对公式(1)进行改进,得到公式(10):步骤f2:引进不平衡比例因子,对公式(5)进行改进,得到公式(11);步骤f3:以上准则合并,计算改进的CAIM准则:ur-CAIM=CAIMN·CAIR·(1-CAIU)(12)较佳的,步骤g包括:步骤g1:根据改进的CAIM准则进行迭代最大化,输出离散化得到的区间D=[d0,d1]...(dr-1,dr]...(dn-1,dn],并将其转化为离散值x1,x2,...,xn;步骤g2:用公式(13)计算WOE(WeightofEvidence):步骤g3:计算属性F的IV值:步骤g4:给定阈值e,将IV值大于e的属性作为后续建模需要的特征。一种与以上所述的基于ur-CAIM算法的不平衡数据集特征选择方法对应的装置,其包括:集合定义单元:定义数据集样本集合、属性集合以及数据集类别标签集合;初始CAIM准则计算单元:计算初始CAIM准则,即数据集类别标签集合与数据集连续属性之间的相关性;互信息生成单元:根据互信息的定义计算类别标签集合与数据集连续属性之间的互信息;CAIR准则计算单元:计算CAIR准则:CAIU准则计算单元:计算CAIU准则;CAIM准则改进单元:对CAIM准则进行改进;建模特征生成单元,根据改进的CAIM准则计算离散值、计算属性F的IV值,并设定阈值e,将IV值大于e的属性作为后续建模需要的特征。较佳的,所述CAIM准则改进单元包括:初始CAIM准则改进子单元:考虑全部样本数,对公式(1)进行改进;互信息改进子单元:引进不平衡比例因子,对公式(5)进行改进;准则合并子单元:合并所述CAIM准则改进单元准则中的准则,计算改进的CAIM准则。较佳的,所述建模特征生成单元包括:离散值生成子单元:根据改进的CAIM准则进行迭代最大化,输出离散化得到的区间,并将其转化为离散值;WOE生成子单元:计算WOE(WeightofEvidence);IV值生成子单元:计算属性F的IV值;建模特征输出子单元:给定阈值e,将IV值大于e的属性作为后续建模需要的特征。与现有技术比较本专利技术的有益效果在于:本专利技术利用改进的CAIM准则对连续属性离散化,充分利用了属性与类别之间的分布信息,解决了不平衡数据对离散化过程的影响;并利用IV值对属性与类别之间的相关性进行排序,挑选出了对后续建模有重要作用的特征变量;同时由于对连续属性离散化将区间转化为了离散值,减少了异常值对模型的影响,具有一定的稳健性。附图说明为了更清楚地说明本专利技术各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。图1为本专利技术实施例一的一种基于ur-CAIM算法的不平衡数据集特征选择方法的流程图;图2为本专利技术实施例四的步骤c的流程图;图3为本专利技术实施例五的步骤d的流程图;图4为本专利技术实施例七的步骤f的流程图;图5为本专利技术实施例八的步骤g的流程图;图6为本专利技术实施例九的基于ur-CAIM算法的不平衡数据集特征选择装置的功能框图;图7为本专利技术实施例十二的互信息生成单元的功能框图;图8为本专利技术实施例十三的CAIR准则计算单元的功能框图;图9为本专利技术实施例十五的对初始CAIM准则改进单元的功能框图;图10为本专利技术实施例十六的步骤c建模特征生成单元的功能框图。具体实施方式以下结合附图,对本专利技术上述的和另外的技术特征和优点作更详细的说明。实施例一图1为本专利技术一种基于ur-CAIM算法的不平衡数据集特征选择方法的流程图,基于ur-CAIM算法的不平衡数据集特征选择方法是一种结合改进的类属性关联最大化(CAIM)与度量属性相对于类标签相关程度的信息值(Informationvalue)标准的特征选择方法,其包括:步骤a:定义数据集样本集合、属性集合以及数据集类别标签集合;步骤b:计算初始CAIM准则,即数据集类别标签集合与数据集连续属性之间的相关性;步骤c:根据互信息的定义计算类别标签集合与数据集连续属性之间的互信息;步骤d:计算CAIR(class-attributeinterdependenceredundancy)准则:步骤e:计算CAIU(class-attributeinterdependenceuncertainty)准则;步骤f:对CAIM准则进行改进;步骤g,根据改进的CAIM准则计算离散值、计算属性F的IV值,并设定阈值e,将IV值大于e的属性作为后续建模需要的特征。本专利技术利用改进的CAIM准则对连续属性离散化,本文档来自技高网...

【技术保护点】
1.一种基于ur‑CAIM算法的不平衡数据集特征选择方法,其特征在于,包括:步骤a:定义数据集样本集合、属性集合以及数据集类别标签集合;步骤b:计算初始CAIM准则,即数据集类别标签集合与数据集连续属性之间的相关性;步骤c:根据互信息的定义计算类别标签集合与数据集连续属性之间的互信息;步骤d:计算CAIR准则:步骤e:计算CAIU准则;步骤f:对CAIM准则进行改进;步骤g,根据改进的CAIM准则计算离散值、计算属性F的IV值,并设定阈值e,将IV值大于e的属性作为后续建模需要的特征。

【技术特征摘要】
1.一种基于ur-CAIM算法的不平衡数据集特征选择方法,其特征在于,包括:步骤a:定义数据集样本集合、属性集合以及数据集类别标签集合;步骤b:计算初始CAIM准则,即数据集类别标签集合与数据集连续属性之间的相关性;步骤c:根据互信息的定义计算类别标签集合与数据集连续属性之间的互信息;步骤d:计算CAIR准则:步骤e:计算CAIU准则;步骤f:对CAIM准则进行改进;步骤g,根据改进的CAIM准则计算离散值、计算属性F的IV值,并设定阈值e,将IV值大于e的属性作为后续建模需要的特征。2.根据权利要求1所述的基于ur-CAIM算法的不平衡数据集特征选择方法,其特征在于,所述步骤b中计算类别标签集合与数据集连续属性之间的相关性的公式如下:其中M+r由表1定义,maxr表示第i个区间中qir的最大值。3.根据权利要求2所述的基于ur-CAIM算法的不平衡数据集特征选择方法,其特征在于,步骤c中计算类别标签集合与数据集连续属性之间的互信息的步骤包括:步骤c1:根据表1中的字符定义,计算同时属于第r个区间Dr=(dr-1,dr]和第i个类别的联合概率:步骤c2:计算样本属于类别Ci的边际概率:步骤c3:计算样本落在区间Dr=(dr-1,dr]中的概率:步骤c4:计算类别标签集合与数据集连续属性之间的互信息:。步骤d1:根据相对熵的定义,计算类别分布与属性分布之间相对熵的相反数。4.根据权利要求3所述的基于ur-CAIM算法的不平衡数据集特征选择方法,其特征在于,步骤d中包括如下步骤:步骤d2:计算类别与属性联合分布的熵:步骤d3:计算CAIR准则。5.根据权利要求4所述的基于ur-CAIM算法的不平衡数据集特征选择方法,其特征在于,步骤e计算CAIU准则的公式为:。6.根据权利要求5所述的基于ur-CAIM算法的不平衡数据集特征选择方法,其特征在于,步骤f对CAIM准则进行改进的步骤包括:步骤f1:考虑全部样本数,对公式(1)进行改进,得到公式(10):步骤f2:引进不平衡比例因子,对公式(5)进行改进,得到公式(11);步骤f3:以上准则合并,计算改进的CAIM准则:ur-CAIM=CAIMN·CAIR·(1-CA...

【专利技术属性】
技术研发人员:王平李青海潘宇翔黄超张晓亭杨婉
申请(专利权)人:广东精点数据科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1