This invention discloses an unbalanced data set feature selection method based on ur CAIM algorithm, which includes step a: defining the data set; step B: calculating the initial CAIM criterion, that is, the correlation between the set tag set of the dataset and the continuous attributes of the data set; step C: calculating the continuous attributes of the category label set and the data set Mutual information between between; step D: calculate the CAIR criterion: step e: calculate the CAIU criterion; step f: improve the CAIM criterion; step g, calculate the discrete value, calculate the IV value of the property F according to the improved CAIM criterion, and set the threshold e, and make the IV value larger than the attribute required for subsequent modeling; the invention also discloses one kind of characteristics. Based on the ur CAIM algorithm, an unbalanced data set feature selection method corresponding to the device is presented. In this way, the invention makes use of the improved CAIM criterion to discretize the continuous attributes, and selects the characteristic variables that play an important role in the subsequent modeling, reducing the effect of the abnormal value on the model, and has certain robustness.
【技术实现步骤摘要】
一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置
本专利技术属于数据处理
,具体涉及基于ur-CAIM算法的不平衡数据集特征选择方法及装置。
技术介绍
特征选择通常被视为数据挖掘的第一步,特别是对于高维稀疏数据,通过特征选择可以去除大量的冗余和不相关特征信息的干扰,有效降低问题特征空间的维数,从而提高对目标函数的预测性能,降低分析成本,而且经过选择的特征更易于被人理解,有利于揭示底层数据中蕴藏的有用信息。在信贷行业中,个人信用数据集一般都是非平衡数据集,即正常客户的实例数远远超过违约用户的实例数,以此建立的个人信用评分模型将很难准确地抓住坏客户的行为特征。另外数据集中往往不只存在着离散型数据,也存在着大量连续型数据,而用多个弱分类器组合成强分类器的集成模型虽然内置了特征选择方法,但仍是以离散值为处理对象,需要对连续属性进行离散化。传统的基于熵的特征选择方法在计算连续属性的信息增益时只是将该属性分成两个区间,这样做会损失部分信息,并且对于不平衡数据集而言,会倾向于将属于多数类的样本分配在一个区间中,而少数类分配在该区间将很难被模型识别鉴于上述缺陷,本专利技术创作者经过长时间的研究和实践终于获得了本专利技术。
技术实现思路
为解决上述技术缺陷,本专利技术采用的技术方案在于,提供一种基于ur-CAIM算法的不平衡数据集特征选择方法,其包括:步骤a:定义数据集样本集合、属性集合以及数据集类别标签集合;步骤b:计算初始CAIM准则,即数据集类别标签集合与数据集连续属性之间的相关性;步骤c:根据互信息的定义计算类别标签集合与数据集连续属性之间的互信息;步骤 ...
【技术保护点】
1.一种基于ur‑CAIM算法的不平衡数据集特征选择方法,其特征在于,包括:步骤a:定义数据集样本集合、属性集合以及数据集类别标签集合;步骤b:计算初始CAIM准则,即数据集类别标签集合与数据集连续属性之间的相关性;步骤c:根据互信息的定义计算类别标签集合与数据集连续属性之间的互信息;步骤d:计算CAIR准则:步骤e:计算CAIU准则;步骤f:对CAIM准则进行改进;步骤g,根据改进的CAIM准则计算离散值、计算属性F的IV值,并设定阈值e,将IV值大于e的属性作为后续建模需要的特征。
【技术特征摘要】
1.一种基于ur-CAIM算法的不平衡数据集特征选择方法,其特征在于,包括:步骤a:定义数据集样本集合、属性集合以及数据集类别标签集合;步骤b:计算初始CAIM准则,即数据集类别标签集合与数据集连续属性之间的相关性;步骤c:根据互信息的定义计算类别标签集合与数据集连续属性之间的互信息;步骤d:计算CAIR准则:步骤e:计算CAIU准则;步骤f:对CAIM准则进行改进;步骤g,根据改进的CAIM准则计算离散值、计算属性F的IV值,并设定阈值e,将IV值大于e的属性作为后续建模需要的特征。2.根据权利要求1所述的基于ur-CAIM算法的不平衡数据集特征选择方法,其特征在于,所述步骤b中计算类别标签集合与数据集连续属性之间的相关性的公式如下:其中M+r由表1定义,maxr表示第i个区间中qir的最大值。3.根据权利要求2所述的基于ur-CAIM算法的不平衡数据集特征选择方法,其特征在于,步骤c中计算类别标签集合与数据集连续属性之间的互信息的步骤包括:步骤c1:根据表1中的字符定义,计算同时属于第r个区间Dr=(dr-1,dr]和第i个类别的联合概率:步骤c2:计算样本属于类别Ci的边际概率:步骤c3:计算样本落在区间Dr=(dr-1,dr]中的概率:步骤c4:计算类别标签集合与数据集连续属性之间的互信息:。步骤d1:根据相对熵的定义,计算类别分布与属性分布之间相对熵的相反数。4.根据权利要求3所述的基于ur-CAIM算法的不平衡数据集特征选择方法,其特征在于,步骤d中包括如下步骤:步骤d2:计算类别与属性联合分布的熵:步骤d3:计算CAIR准则。5.根据权利要求4所述的基于ur-CAIM算法的不平衡数据集特征选择方法,其特征在于,步骤e计算CAIU准则的公式为:。6.根据权利要求5所述的基于ur-CAIM算法的不平衡数据集特征选择方法,其特征在于,步骤f对CAIM准则进行改进的步骤包括:步骤f1:考虑全部样本数,对公式(1)进行改进,得到公式(10):步骤f2:引进不平衡比例因子,对公式(5)进行改进,得到公式(11);步骤f3:以上准则合并,计算改进的CAIM准则:ur-CAIM=CAIMN·CAIR·(1-CA...
【专利技术属性】
技术研发人员:王平,李青海,潘宇翔,黄超,张晓亭,杨婉,
申请(专利权)人:广东精点数据科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。