一种改进的选择性朴素贝叶斯方法技术

技术编号:19426476 阅读:23 留言:0更新日期:2018-11-14 10:49
本发明专利技术公开的一种改进的选择性朴素贝叶斯方法,包括以下步骤:将WoE值和IV值引入属性选择中,得到与类别相关度较高的属性子集,构造朴素贝叶斯分类器;然后在其基础上进一步删除冗余属性,得到最优属性子集。本发明专利技术改进的选择性朴素贝叶斯方法现有的贝叶斯算法的基础上,将WoE和IV指标引入属性选择,提高朴素贝叶斯在属性冗余时的分类性能,同时在属性不冗余的情况下保持朴素贝叶斯的分类性能;根据阈值筛选得到第一轮属性子集,从而减少了遍历空间,解决了在减少属性维度的同时提高分类的正确性的问题。

【技术实现步骤摘要】
一种改进的选择性朴素贝叶斯方法
本专利技术属于属性选择方法
,具体涉及一种改进的选择性朴素贝叶斯方法。
技术介绍
对一个学习任务来说,给定属性集,其中有些属性可能很关键、很有用,我们将其称为“相关属性”(relevantfeature)、没有用的属性称为“无关属性”(irrelevantfeature)。从给定的属性集合中选择出相关属性子集的过程,称为“属性选择”(featureselection)。现实任务中经常会因为属性过多而造成维数灾难问题,若能通过属性选择筛选出重要的属性,那么会大大提高处理高维数据的效率。除了去除“无关属性”,还应该去除“冗余属性”、即那些自身所包含的信息能从其他属性中推演出来的一类属性。需要注意的是,属性选择过程必须确保不丢失重要属性,否则后续学习过程会因为重要信息的缺失而无法获得好的性能。选择好的属性能够提高模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。常见的属性选择方法大致可以分为三类:过滤式(filter)、包裹式(wrapper)和嵌入式(embedding)。过滤式方法通过相关系数、信息增益(InfoGain)、增益率(GainRatio)、OneR等方法计算原始属性集中各个条件属性与类别属性的相关程度,然后进行“过滤”,再用过滤后的属性来训练模型。过滤属性的标准是按照对原始属性集进行相关程度的先后排序。与过滤式属性选择不必考虑后续学习的情况不同,包裹式属性选择直接把最终将要使用的学习器的性能作为属性子集的评价标准。一般而言,由于包裹式属性选择方法直接针对给定学习器进行优化,因此从最终学习器性能来看,包裹式属性选择比过滤式属性选择更好。但另一方面,由于属性选择过程中需要多次训练学习器,因此包裹式属性选择的计算开销通常比过滤式属性选择大得多。在过滤式和包裹式属性选择方法中,属性选择过程与学习器训练过程有明显的区别;与此不同,嵌入式属性选择是将属性选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了属性选择。
技术实现思路
本专利技术的目的是提供一种改进的选择性朴素贝叶斯方法,解决了在减少属性维度的同时提高分类的正确性的问题本专利技术所采用的技术方案是,一种改进的选择性朴素贝叶斯方法,包括以下步骤:步骤1,给定含有n个属性的数据集T,设S={A1,A2,…,An}为离散属性变量有限集,C={C1,C2,…,Cm}为类变量,m为类变量的取值个数,Cj为类变量的第j个取值;当讨论二分类问题,即假设j=2,C={C1,C2}时,对于任意的条件属性变量Ai,设其有Si个不同的取值即属性Ai的第k个取值表示为aik;步骤2,定义WoE指标WoE指标是对原始自变量的一种编码形式,要对一个变量进行WoE编码,需要先把这个变量进行分组处理,如公式(2)和(3):公式(2)-(3)式中:C1表示第1个训练样本的类标签,C2表示第2个训练样本的类标签,P(A=aik|C=C1)表示属性为aik、类别为C1的条件概率,P(A=aik|C=C2)表示属性为aik、类别为C2的条件概率,N(C)表示类别为C的样本数,N为数据样本总数,N(A=aik|C)表示类别和属性值为aik时的样本数;步骤3,定义IV指标IV指标是用来衡量变量的信息量,即自变量对于目标变量的影响程度,如公式(4)所示:IV(aik,C)=(P(A=aik|C=C1)-P(A=aik|C=C2))*WoE(aik,C)(4)则属性Ai的IV值为各个分组的IV值之和,即:步骤4,结合步骤1,将步骤2的WoE指标和步骤3的IV指标引入属性选择中,构造朴素贝叶斯分类器;步骤5,在步骤4的基础上,需先通过IV指标对步骤1的最原始的离散属性变量有限集S进行过滤,得到符合阈值要求的属性子集S',并对S'中的属性按照IV值大小由高到低的顺序进行排序,最后在排列有序的属性子集S'上搜索能使分类器的性能达到最优的属性集合。本专利技术的特征还在于,步骤4的具体操作为:步骤4.1,通过IV值计算从原始属性集合中筛选出与类别高度相关的属性子集:根据朴素贝叶斯加权公式可知,要对样本X进行分类需要公式(6)、公式(7):公式(6)-(7)中:P(aik|C1)与P(A=aik|C=C1)相同,表示属性为aik、类别为C1的条件概率;P(aik|C2)与P(A=aik|C=C2)相同,表示属性为aik、类别为C2的条件概率;P(C1)表示类别为C1的条件概率;P(C2)表示类别为C2的条件概率;P(C1|X)表示属性为X、类别为C1的条件概率;P(C2|X)表示属性为X、类别为C2的条件概率;X表示每个没有类标号的数据库样本用n维特征向量;步骤4.2,选取阈值进行属性过滤对公式(6)进行归一化可得公式(8):其中可知a在给定的数据集下为常量,同理,对公式(7)进行归一化可得公式(9):公式(8)-(9)中:P(C1|X)'归一化后表示属性为X、类别为C1的条件概率;P(C2|X)'表示归一化后属性为X、类别为C2的条件概率;步骤4.3,在步骤4.2中分类能力较好的属性子集上构造朴素贝叶斯分类器。步骤4.2中的阈值与IV值衡量属性与类属性的相关程度的划分如下:相关程度IV值无相关性IV<0.02弱相关性0.02≤IV<0.1中等相关0.1≤IV<0.3强相关性IV≥0.3步骤5的具体操作为:步骤5.1,输入步骤1中待分类的样本数据集T,条件属性集合即离散属性变量有限集S={A1,A2,…,An},决策属性集合即类变量C={C1,C2,…,Cm};并对待分类的样本数据集T进行数据预处理;步骤5.2,初始化备选条件属性集合S,经过属性选择被选中的属性集合为S',未被选中的属性集合为S”,根据属性的IV指标高低排序的属性集合为S”',令S'、S”、S”'都为空,最大正确率Accuracymax=0,当前正确率Accuracycur=0;步骤5.3,计算条件属性集合S中所有属性的信息价值IV值,并通过阈值进行第一轮筛选,将IV值大于等于阈值的属性添加到集合步骤5.2中的S”'中,IV值小于阈值的属性添加到集合S”中,并对S”中的属性按照IV值由高至低排序;步骤5.4,如果S”'为0,则结束计算,保存此时的S'和Accuracymax;步骤5.5,如果S”'不为0,继续计算,选择属性集合S”'中第一个属性Ai,将其从S”'中删除,并添加到S'中,在更新的S'上构造朴素贝叶斯分类器,并计算Accuracycur;步骤5.6,如果步骤5.5中的Accuracycur>Accuracymax,则更新为Accuracymax=Accuracycur;如果步骤5.5中的Accuracycur≤Accuracymax,将Ai从S'中移除,添加到S”中,保存此时的S'和Accuracymax,结束计算。本专利技术的有益效果是:本专利技术一种改进的选择性朴素贝叶斯方法现有的贝叶斯算法的基础上,将WoE和IV指标引入属性选择,提高朴素贝叶斯在属性冗余时的分类性能,同时在属性不冗余的情况下保持朴素贝叶斯的分类性能;根据阈值筛选得到第一轮属性子集,从而减少本文档来自技高网
...

【技术保护点】
1.一种改进的选择性朴素贝叶斯方法,其特征在于,包括以下步骤:步骤1,给定含有n个属性的数据集T,设S={A1,A2,…,An}为离散属性变量有限集,C={C1,C2,…,Cm}为类变量,m为类变量的取值个数,Cj为类变量的第j个取值;当讨论二分类问题,即假设j=2,C={C1,C2}时,对于任意的条件属性变量Ai,设其有Si个不同的取值

【技术特征摘要】
1.一种改进的选择性朴素贝叶斯方法,其特征在于,包括以下步骤:步骤1,给定含有n个属性的数据集T,设S={A1,A2,…,An}为离散属性变量有限集,C={C1,C2,…,Cm}为类变量,m为类变量的取值个数,Cj为类变量的第j个取值;当讨论二分类问题,即假设j=2,C={C1,C2}时,对于任意的条件属性变量Ai,设其有Si个不同的取值即属性Ai的第k个取值表示为aik;步骤2,定义WoE指标WoE指标是对原始自变量的一种编码形式,要对一个变量进行WoE编码,需要先把这个变量进行分组处理,如公式(2)和(3):公式(2)-(3)式中:C1表示第1个训练样本的类标签,C2表示第2个训练样本的类标签,P(A=aik|C=C1)表示属性为aik、类别为C1的条件概率,P(A=aik|C=C2)表示属性为aik、类别为C2的条件概率,N(C)表示类别为C的样本数,N为数据样本总数,N(A=aik|C)表示类别和属性值为aik时的样本数;步骤3,定义IV指标IV指标是用来衡量变量的信息量,即自变量对于目标变量的影响程度,如公式(4)所示:IV(aik,C)=(P(A=aik|C=C1)-P(A=aik|C=C2))*WoE(aik,C)(4)则属性Ai的IV值为各个分组的IV值之和,即:步骤4,结合步骤1,将步骤2的WoE指标和步骤3的IV指标引入属性选择中,构造朴素贝叶斯分类器;步骤5,在步骤4的基础上,需先通过IV指标对步骤1的最原始的离散属性变量有限集S进行过滤,得到符合阈值要求的属性子集S',并对S'中的属性按照IV值大小由高到低的顺序进行排序,最后在排列有序的属性子集S'上搜索能使分类器的性能达到最优的属性集合。2.根据权利要求1所述的一种改进的选择性朴素贝叶斯方法,其特征在于,所述步骤4的具体操作为:步骤4.1,通过IV值计算从原始属性集合中筛选出与类别高度相关的属性子集:根据朴素贝叶斯加权公式可知,要对样本X进行分类需要公式(6)、公式(7):公式(6)-(7)中:P(aik|C1)与P(A=aik|C=C1)相同,表示属性为aik、类别为C1的条件概率;P(aik|C2)与P(A=aik|C=C2)相同,表示属性为aik、类别为C2的条件概率;P(C1)表示类别为C1的条件概率;P(C2)表示类别为C2的条件概率;P(C1|X)表示属性为X、类别为C1的条件概率;P(C2|X)表示属性为X、类别...

【专利技术属性】
技术研发人员:姚全珠李莎莎费蓉范慧敏白赞
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1