一种基于特征选择的均值漂移文本分类方法技术

技术编号:4251785 阅读:276 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出了一种基于特征选择的均值漂移文本分类方法。首先利用信息增益理论提取出对分类贡献最大的若干单词组成特征空间,然后使用一种改进的Mean?Shift算法对训练样本进行计算得到各分类中心,最后基于各分类中心对测试样本进行预测实现文本的自动分类。实验表明,本发明专利技术提出的方法与一些经典的文本分类算法相比,具有良好的分类效果和较低的时间复杂度。

【技术实现步骤摘要】

本专利技术涉及,用于应用于信息检索、机器翻译、自动文摘、信息过滤、邮件分类等领域。
技术介绍
为了在当前爆炸式增长的海量数据中找到有价值的信息,文本自动分类成为了一个非常重要的研究课题。文本自动分类是指通过自动为文本标注类别,帮助人们组织管理文本信息。 对于数据分类而言,如果能够探测到各个分类的中心,在此基础上便可以实现对数据的分类,这种思想叫做基于质心(Centroid-based)的分类。而Mean Shift算法能够迅速准确的探测到局部极大值的特点非常适合用于寻找分类算法中的质心。在先前国内外的研究中,这一特点不但已经得到了理论证明,并在很多应用领域中进行了很好的实现。如果能够将Mean Shift算法应用于基于质心的分类,不但可以保证自动分类的准确性,同时能够继承基于质心分类的低时间复杂度。 Mean Shift这个概念最早是由Fukunaga等人于1975年在一篇关于概率密度梯度函数估计的论文中提出的,在90年代由Yizong Cheng, Comaniciu等人将其推广并运用在其他领域。目前,在目标跟踪、图像分割以及聚类的研究中,Mean Shift都得到了很好的应用。但是,在分类这一研究领域,还尚未有学者尝试应用Mean Shift。
技术实现思路
本专利技术的目的在于提供本专利技术在尽可能少的损失文本相关度信息的基础上,基于信息增益理论对文本的高维样本空间通过特征提取的方法进行降维,使其分布于一个可以接受的较低维的空间。然后利用本文提出的改进的Mean Shift算法对其进行分类。 本专利技术的技术方案为提供,包括以下阶段( — )基于信息增益的特征选取,根据如下公式/G(,)一l;尸(c,)logP(c,) + i^)l;尸(c,卞)log尸(c, 1,) +尸(F)l;尸(c, ir)log尸(c, ir) 其中P(Ci)表示Ci类文本在样本空间中出现的概率,P(t)表示样本空间中包含单词t的文本的概率,P(Ci|t)表示文本包含单词t时属于Ci类的条件概率,P(T)表示样本空间中不包含单词t的文本的概率,P(Ci|T)表示文本不包含单词t时属于Ci类的条件概率,m表示类别数。 计算样本空间中各单词的信息增益,选取信息增益最大的N个单词构成新的N维特征空间。在此RW空间中,每一个文本都可表示为一个N维的特征向量f(N)。考虑到各特征的信息增益和出现频度应能够较好的反映其重要性,提出了以下的特征向量表示方法3CNf(N) = (fpf2,…,fN) fi二freqiXIGi 其中,freqi表示第i个特征在此文本中出现的频度,IGi表示第i个特征的信息增益; ( 二 )改进的均值漂移算法,对带宽自适应算法进行改进,针对每一个不同的点Xi,选取其k个最近邻Xi,k通过计算欧氏范数来估计hi,如下公式所示, 1 II 化'=—》 ||x —《.' & ^产l II ' Euclidean 与全局统一的带宽值不同,本方法提出根据每一点的若干最近邻点的分布情况选择一个相应的带宽值。在密度较大的区域,各点位置相对集中,样本点与k个最近邻点的间距较小,通过上述公式计算所得的带宽值也较小,符合密度分布的情况;反之在密度较低的区域,各点分布稀疏,间距较大,对应的带宽值也较大。这种带宽值的计算方法考虑到了每一点周围的密度分布情况,根据不同的情况选择适合的带宽值,从而更加准确的估计MeanShift向量,提高了计算的精确度。利用该均值漂移算法对训练样本空间中的每一个分类进行计算,找出每一个分类的中心。最终,得到的若干个分类中心的集合就是训练的结果;(三)对测试样本进行分类阶段,依次计算每一个样本与各分类中心的距离,将其归入距离最近的分类; 对于数据集中的任一分类,本分类方法都可以达到良好的效果,平均准确率为0. 948,平均F1值为0. 805,这两项数据与经典的文本分类算法不相上下,证明了本方法的确是一个行之有效的方法。 本专利技术,其优点在于本方法与一些经典的文本分类法相比,具有良好的分类效果和更低的时间消耗。附图说明 图1是基于特征选择的均值漂移文本分类方法步骤 图2是MSBC算法,Rocchio算法及KNN算法在数据集20NewsGroup上进行分类的结果; 图3是MSBC算法,Rocchio算法及KNN算法在数据集Reuters-21578上进行分类的结果; 图4是MSBC算法,Rocchio算法及KNN算法对来自数据集20NewsGroup的测试样本的分类时间; 图5是MSBC算法,Rocchio算法及KNN算法对来自数据集Reuters-21578的测试样本的分类时间;具体实施例方式基于特征选择的均值漂移文本分类方法(Mean Shift Based Classification,MSBC),作为一种基于质心的分类方法,主要分为三个阶段首先基于信息增益选择若干单词构造一个较低维的特征空间,此空间去除了对文本相关度贡献较低的特征,保留了对分4类有重要指导意义的特征;然后基于此特征空间,对训练样本的每一个分类分别使用改进 的均值漂移算法进行计算,得到若干个分类的中心,完成训练过程;最后,对测试样本进行 分类,计算每一个测试样本点与各分类中心的距离,并将其归入与其距离最近的分类。图1 对MSBC方法的三个阶段进行了概括的介绍。 本专利技术选择了当前本领域研究中最权威的两个数据集Reuters-21578和 20NewsGroup为基础,分别提取出其中6个和8个主要分类,进行文本分类实验,并与经典方 法KNN和Rocchio方法结果进行比较。 衡量分类质量的方式有数种,其中使用最为广泛的为F-l指标F-1指标是一种衡 量簇间差异的计算方式,该方式综合查准率和查全率来衡量分类质量。F-l值越大,说明分 类质量越好。任一类别i的F-l值按如下方式计算 [画]《J—扁, 其中precision和recall是两个常用的评估参数,其定义如下所示若对于任一类别,分类结果用表l表示 表1分类结果表示<table>table see original document page 5</column></row><table> 则有 C<3〃,=<formula>formula see original document page 5</formula>r《+ F7V, 其中,recall用于测量被正确提取的信息的比例,precision用于测量提取出的 信息中有多少是正确的。 实验包括两部分内容实验1考查了利用本专利技术方法的分类效果;实验2考查了 应用本专利技术方法对未知样本进行自动分类的时间消耗。同时,在两个实验中选择了文本分 类的经典算法KNN和Rocchio作为对比参考。 第一部分以各数据集F-1的平均值作为衡量标准,考查本专利技术方法的分类准确 性。实验结果如图2和图3所示。 从图2我们可以看出,当特征数量小于150时,分类效果明显降低,这说明特征数 量过少则不能反映出样本空间的特点以及各分类之间的差别,从而影响分类的准确性;而 当特征数量增长到一定的范围,特征空间已经能够表达并替代原始样本空间,算法取得了 良好的效果;此本文档来自技高网...

【技术保护点】
一种基于特征选择的均值漂移文本分类方法,在减少的损失文本相关度信息的基础上,基于信息增益理论对文本的高维样本空间通过特征提取的方法进行降维,使其分布于一个可以接受的低维空间;然后利用一种改进的Mean  Shift方法对其进行分类,其特征在于:该文档分类方法包括三个阶段:基于信息增益的特征选取、改进的均值漂移算法、对测试样本进行分类。

【技术特征摘要】
一种基于特征选择的均值漂移文本分类方法,在减少的损失文本相关度信息的基础上,基于信息增益理论对文本的高维样本空间通过特征提取的方法进行降维,使其分布于一个可以接受的低维空间;然后利用一种改进的Mean Shift方法对其进行分类,其特征在于该文档分类方法包括三个阶段基于信息增益的特征选取、改进的均值漂移算法、对测试样本进行分类。2. 如权利要求1所述的一种基于特征选择的均值漂移文本分类方法,其特征在于将均值漂移算法应用于文本分类。3. 如权利要求1所述的一种基于特征选择的均值漂移文本分类方法,其特征在于利用信息增益进行特征选取以达到降维目的;根据信息增益公式<formula>formula see original document page 2</formula>、计算样本空间中...

【专利技术属性】
技术研发人员:欧阳元新任捷辜玉熊璋
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1