基于相关性的特征加权过滤方法及朴素贝叶斯分类方法技术

技术编号:14581250 阅读:227 留言:0更新日期:2017-02-08 11:42
本发明专利技术提供了一种基于相关性的特征加权过滤方法,将每个特征变量的权值直接定义为该特征变量和类变量的相关性与该特征变量和其他特征变量的平均冗余性的差。本发明专利技术同时提供了依托于上述方法的特征加权的朴素贝叶斯分类方法,是将得到的一组权值代入朴素贝叶斯分类公式对测试实例进行最终分类。本发明专利技术不仅同时考虑到了特征变量和类变量之间的相关性以及特征变量和特征变量之间的冗余性,还维持了模型的计算复杂性和简单性,经过大量的实验研究验证了本发明专利技术所提特征加权方法及分类方法的有效性和精确性。

【技术实现步骤摘要】

本专利技术涉及一种基于相关性的特征加权过滤方法及朴素贝叶斯分类方法,属于人工智能数据挖掘分类

技术介绍
假定A1,A2,…,Am是m个特征变量,一个测试实例x就可表达成一个特征矢量<a1,a2,…,am>,其中ai是特征变量Ai的取值。令C表示类变量,c表示C的取值,特征加权的朴素贝叶斯用公式1来分类x。c(x)=argmaxc∈CP(c)Πi=1mP(ai|c)wi---(1)]]>式中wi∈R+,是特征变量Ai的权值。从上面的分类方程可以看出,如何定义并计算每个特征变量Ai的权值wi成了学习特征加权的朴素贝叶斯的关键,学者们为此提出了许多经典的特征加权方法。概括起来,这些方法可以分成两类:过滤法和包装法。过滤法包括基于Kullback-Leibler度量的特征加权方法(简记为KLMFW),基于信息增益比的特征加权方法(简记为GRFW)、基于决策树的特征加权方法(简记为DTFW)、以及深度特征加权的方法(简记为DFW)。包装法包括基于差分演化的特征加权方法(简记为DEFW),基于条件似然对数的特征加权方法(简记为CLLFW)、以及基于均方误差的特征加权方法(简记为MSEFW)。在这些方法中,基于Kullback-Leibler度量的特征加权方法(KLMFW)和基于信息增益比的特征加权方法(GRFW)只考虑到了特征变量和类变量之间的相关性而没有考虑特征变量和特征变量之间的冗余性,因而未能很好地改进朴素贝叶斯的分类性能。其余的方法,虽然同时考虑到了特征变量和类变量之间的相关性以及特征变量和特征变量之间的冗余性,但都牺牲了模型的计算复杂性和简单性。比如,基于决策树的特征加权方法(DTFW)需要同时构造多棵未修剪的决策树来计算每个特征变量的权值,其余四种方法(DFW、DEFW、CLLFW和MSEFW)都需要利用某种启发式搜索算法来搜索最优的特征权值。这在一定程度上,影响了这些方法的推广应用,尤其在大数据集上的应用。因此本专利技术的目的是为朴素贝叶斯提供一种简单、快速且有效的特征加权的过滤方法。
技术实现思路
为了解决现有技术的不足,本专利技术提供了一种基于相关性的特征加权过滤方法及贝叶斯分类方法,其理论基础在于既然朴素贝叶斯假定所有的特征变量在给定类变量的前提下是完全相互独立的,则一个重要的特征应该是跟类变量具有很强的相关性而跟其他的特征变量具有很弱的冗余性。基于此,本方法将每个特征变量的权值直接定义为该特征变量和类变量的相关性与该特征变量和其他特征变量的平均冗余性的差。本专利技术为解决其技术问题所采用的技术方案是:提供了一种基于相关性的特征加权过滤方法,包括以下步骤:(1)设A1,A2,...,Am表示一个已知的训练实例集中训练实例的m个特征变量,ai表示特征变量Ai的取值,i∈[1,m];C表示训练实例的类变量,c表示C的取值,则对每一个特征变量Ai,用以下公式计算其与类变量C之间的相互信息I(Ai;C):I(Ai;C)=ΣaiΣcP(ai,c)logP(ai,c)P(ai)P(c)---(2)]]>其中,P(ai)为属性值ai在训练实例集中发生的概率,P(c)为类c在训练实例集中发生的概率,P(ai,c)为属性值ai和类c在训练实例集中的联合发生的概率;(2)对于m个特征变量中的每一对特征变量Ai和Aj,i≠j,用以下公式计算其相互信息I(Ai;Aj):I(Ai;Aj)=ΣaiΣajP(ai,aj)logP(ai,aj)P(ai)P(aj)---(3)]]>(3)对于m个特征变量中的每一个特征变量Ai,用以下公式标准化Ai与类变量C之间的相互信息:NI(Ai;C)=I(Ai;C)1mΣi=1mI(Ai;C)---(4)]]>其中NI(Ai;C)表示标准化后的Ai与C之间的相互信息;(4)对于m个特征变量中的每一对特征变量Ai和Aj,i≠j,用以下公式标准化Ai与Aj之间的相互信息:其中NI(Ai;Aj)表示标准化后的Ai与Aj之间的相互信息;(5)对于m个特征变量中的每一个特征变量Ai,用以下公式计算该特征变量和类变量的相互信息与该特征变量和其他特征变量的平均相互信息的差di:(6)对于m个特征变量中的每一个特征变量Ai,用以下公式将di映射到(0,1)区间,得到特征变量Ai的权值wi:wi=11+e-di---(7)]]>则得到每一个特征变量对应的权值。本专利技术同时提供了一种依托于上述方法的特征加权的朴素贝叶斯分类方法,将步骤(6)得到的一组权值代入特征加权的朴素贝叶斯分类公式,得到特征加权的朴素贝叶斯分类结果。所述将步骤(6)得到的一组权值代入特征加权的朴素贝叶斯分类公式,得到特征加权的朴素贝叶斯分类结果,具体包括以下过程:将该组权值代入以下特征加权的朴素贝叶斯分类公式,得到待分类的测试实例x的分类结果:c(x)=argmaxc∈CP(c)Πi=1mP(ai|c)wi---(1)]]>其中,i∈[1,m],先验概率和条件概率用以下公式计算得到:P(c)=1/k+Σj=1nδ(cj,c)1+n---(8)]]>P(ai|c)=wi/ni+Σj=1nδ(aji,ai)δ(cj,c)wi+Σj=1nδ(cj,c)---(9)]]>式中k是训练实例集中类别的数目,n是训练实例集中训练实例的数目,ni是特征变量Ai特征值的数目,cj是训练实例集中第j个训练实例的类标记,aji是训练实例集中第j个训练实例的第i个特征值,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0。本专利技术基于其技术方案所具有的有益效果在于:(1)本专利技术提供的一种基于相关性的特征加权过滤方法是一种过滤的特征加权方法,不仅同时考虑到了特征变量和类变量之间的相关性以及特征变量和特征变量之间的冗余性,还维持了模型的计算复杂性和简单性;(2)本专利技术提供的一种基于相关性的特征加权过滤方法所得权值,可以应用于现有的大部分已知朴素贝叶斯分类器,移植性强;(3)本专利技术提供的一种依托于上述方法的特征加权的朴素贝叶斯分类方法,尤其在采用朴素贝叶斯分类公式进行分类时,经过大量的实验研究验证了本专利技术所提特征加权方法的有效性和精确性。具体实施方式下面结合实施例对本专利技术作进一步说明。本专利技术提供了一种基于相关性的特征加权过滤方法,包括以下步骤:(1)设A1,A2,...,Am表示一个已知的训练实例集中训练实例的m个特征变量,ai表示特征变量Ai的取值,i∈[1,m];C表示训练实例的类变量,c表示C的取值,则对每一个特征变量Ai,用以下公式计算其与类变量C之间的相互信息I(Ai;C):I(Ai;C)=ΣaiΣcP(ai,c)logP(ai,c)P(ai)P(c)---(2)]]>其中,P(ai)为属性值ai在训练实例集中发生的概率,P(c)为类c在训练实例集中发生的概率,P(ai,c)为属性值ai和类c在训练实例集中的联合发生的概率;(2)对于m个特征变量中的每一对特征变量Ai和Aj,i≠j,用以下公式计算其相互信息I(Ai;Aj本文档来自技高网
...

【技术保护点】
一种基于相关性的特征加权过滤方法,其特征在于包括以下步骤:(1)设A1,A2,...,Am表示一个已知的训练实例集中训练实例的m个特征变量,ai表示特征变量Ai的取值,i∈[1,m];C表示训练实例的类变量,c表示C的取值,则对每一个特征变量Ai,用以下公式计算其与类变量C之间的相互信息I(Ai;C):I(Ai;C)=ΣaiΣcP(ai,c)logP(ai,c)P(ai)P(c)]]>其中,P(ai)为属性值ai在训练实例集中发生的概率,P(c)为类c在训练实例集中发生的概率,P(ai,c)为属性值ai和类c在训练实例集中的联合发生的概率;(2)对于m个特征变量中的每一对特征变量Ai和Aj,i≠j,用以下公式计算其相互信息I(Ai;Aj):I(Ai;Aj)=ΣaiΣajP(ai,aj)logP(ai,aj)P(ai)P(aj)]]>(3)对于m个特征变量中的每一个特征变量Ai,用以下公式标准化Ai与类变量C之间的相互信息:NI(Ai;C)=I(Ai;C)1mΣi=1mI(Ai;C)]]>其中NI(Ai;C)表示标准化后的Ai与C之间的相互信息;(4)对于m个特征变量中的每一对特征变量Ai和Aj,i≠j,用以下公式标准化Ai与Aj之间的相互信息:其中NI(Ai;Aj)表示标准化后的Ai与Aj之间的相互信息;(5)对于m个特征变量中的每一个特征变量Ai,用以下公式计算该特征变量和类变量的相互信息与该特征变量和其他特征变量的平均相互信息的差di:(6)对于m个特征变量中的每一个特征变量Ai,用以下公式将di映射到(0,1)区间,得到特征变量Ai的权值ωi:wi=11+e-di]]>则得到每一个特征变量对应的权值。...

【技术特征摘要】
1.一种基于相关性的特征加权过滤方法,其特征在于包括以下步骤:(1)设A1,A2,...,Am表示一个已知的训练实例集中训练实例的m个特征变量,ai表示特征变量Ai的取值,i∈[1,m];C表示训练实例的类变量,c表示C的取值,则对每一个特征变量Ai,用以下公式计算其与类变量C之间的相互信息I(Ai;C):I(Ai;C)=ΣaiΣcP(ai,c)logP(ai,c)P(ai)P(c)]]>其中,P(ai)为属性值ai在训练实例集中发生的概率,P(c)为类c在训练实例集中发生的概率,P(ai,c)为属性值ai和类c在训练实例集中的联合发生的概率;(2)对于m个特征变量中的每一对特征变量Ai和Aj,i≠j,用以下公式计算其相互信息I(Ai;Aj):I(Ai;Aj)=ΣaiΣajP(ai,aj)logP(ai,aj)P(ai)P(aj)]]>(3)对于m个特征变量中的每一个特征变量Ai,用以下公式标准化Ai与类变量C之间的相互信息:NI(Ai;C)=I(Ai;C)1mΣi=1mI(Ai;C)]]>其中NI(Ai;C)表示标准化后的Ai与C之间的相互信息;(4)对于m个特征变量中的每一对特征变量Ai和Aj,i≠j,用以下公式标准化Ai与Aj之间的相互信息:其中NI(Ai;Aj)表示标准化后的Ai与Aj之间的相互信息;(5)对于m个特征变量中的每一个特征变量Ai,用以下公式计算该特征变量和类变量的相互信息与该特征变量和...

【专利技术属性】
技术研发人员:蒋良孝张伦干李超群
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1