基于相关性的特征加权过滤方法及朴素贝叶斯分类方法技术

技术编号：14581250 阅读：227 留言：0更新日期：2017-02-08 11:42

本发明专利技术提供了一种基于相关性的特征加权过滤方法，将每个特征变量的权值直接定义为该特征变量和类变量的相关性与该特征变量和其他特征变量的平均冗余性的差。本发明专利技术同时提供了依托于上述方法的特征加权的朴素贝叶斯分类方法，是将得到的一组权值代入朴素贝叶斯分类公式对测试实例进行最终分类。本发明专利技术不仅同时考虑到了特征变量和类变量之间的相关性以及特征变量和特征变量之间的冗余性，还维持了模型的计算复杂性和简单性，经过大量的实验研究验证了本发明专利技术所提特征加权方法及分类方法的有效性和精确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于相关性的特征加权过滤方法及朴素贝叶斯分类方法，属于人工智能数据挖掘分类

技术介绍
假定A1，A2，…，Am是m个特征变量，一个测试实例x就可表达成一个特征矢量<a1，a2，…，am>，其中ai是特征变量Ai的取值。令C表示类变量，c表示C的取值，特征加权的朴素贝叶斯用公式1来分类x。c(x)=argmaxc∈CP(c)Πi=1mP(ai|c)wi---(1)]]>式中wi∈R+，是特征变量Ai的权值。从上面的分类方程可以看出，如何定义并计算每个特征变量Ai的权值wi成了学习特征加权的朴素贝叶斯的关键，学者们为此提出了许多经典的特征加权方法。概括起来，这些方法可以分成两类：过滤法和包装法。过滤法包括基于Kullback-Leibler度量的特征加权方法(简记为KLMFW)，基于信息增益比的特征加权方法(简记为GRFW)、基于决策树的特征加权方法(简记为DTFW)、以及深度特征加权的方法(简记为DFW)。包装法包括基于差分演化的特征加权方法(简记为DEFW)，基于条件似然对数的特征加权方法(简记为CLLFW)、以及基于均方误差的特征加权方法(简记为MSEFW)。在这些方法中，基于Kullback-Leibler度量的特征加权方法(KLMFW)和基于信息增益比的特征加权方法(GRFW)只考虑到了特征变量和类变量之间的相关性而没有考虑特征变量和特征变量之间的冗余性，因而未能很好地改进朴素贝叶斯的分类性能。其余的方法，虽然同时考虑到了特征变量和类变量之间的相关性以及特征变量和特征变量之间的冗余性，但...

【技术保护点】
一种基于相关性的特征加权过滤方法，其特征在于包括以下步骤：(1)设A1,A2,...,Am表示一个已知的训练实例集中训练实例的m个特征变量，ai表示特征变量Ai的取值，i∈[1,m]；C表示训练实例的类变量，c表示C的取值，则对每一个特征变量Ai，用以下公式计算其与类变量C之间的相互信息I(Ai；C)：I(Ai;C)=ΣaiΣcP(ai,c)logP(ai,c)P(ai)P(c)]]>其中，P(ai)为属性值ai在训练实例集中发生的概率，P(c)为类c在训练实例集中发生的概率，P(ai，c)为属性值ai和类c在训练实例集中的联合发生的概率；(2)对于m个特征变量中的每一对特征变量Ai和Aj，i≠j，用以下公式计算其相互信息I(Ai；Aj)：I(Ai;Aj)=ΣaiΣajP(ai,aj)logP(ai,aj)P(ai)P(aj)]]>(3)对于m个特征变量中的每一个特征变量Ai，用以下公式标准化Ai与类变量C之间的相互信息：NI(Ai;C)=I(Ai;C)1mΣi=1mI(Ai;C)]]>其中NI(Ai；C)表示标准化后的Ai与...

【技术特征摘要】
1.一种基于相关性的特征加权过滤方法，其特征在于包括以下步骤：(1)设A1,A2,...,Am表示一个已知的训练实例集中训练实例的m个特征变量，ai表示特征变量Ai的取值，i∈[1,m]；C表示训练实例的类变量，c表示C的取值，则对每一个特征变量Ai，用以下公式计算其与类变量C之间的相互信息I(Ai；C)：I(Ai;C)=ΣaiΣcP(ai,c)logP(ai,c)P(ai)P(c)]]>其中，P(ai)为属性值ai在训练实例集中发生的概率，P(c)为类c在训练实例集中发生的概率，P(ai，c)为属性值ai和类c在训练实例集中的联合发生的概率；(2)对于m个特征变量中的每一对特征变量Ai和Aj，i≠j，用以下公式计算其相互信息I(Ai；Aj)：I(Ai;Aj)=ΣaiΣajP(ai,aj)logP(ai,aj)P(ai)P(aj)]]>(3)对于m个特征变量中的每一个特征变量Ai，用以下公式标准化Ai与类变量C之间的相互信息：NI(Ai;C)=I(Ai;C)1mΣi=1mI(Ai;C)]]>其中NI(Ai；C)表示标准化后的Ai与C之间的相互信息；(4)对于m个特征变量中的每一对特征变量Ai和Aj，i≠j，用以下公式标准化Ai与Aj之间的相互信息：其中NI(Ai；Aj)表示标准化后的Ai与Aj之间的相互信息；(5)对于m个特征变量中的每一个特征变量Ai，用以下公式计算该特征变量和类变量的相互信息与该特征变量和...

【专利技术属性】
技术研发人员：蒋良孝，张伦干，李超群，
申请(专利权)人：中国地质大学武汉，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人