一种基于频繁词集的网络新闻自动文本分类的方法技术

技术编号:8022469 阅读:155 留言:0更新日期:2012-11-29 04:42
本发明专利技术公开了一种基于频繁词集的网络新闻自动文本分类的方法,该方法具体为:步骤(1)数据预处理和特征选择;步骤(2)提取频繁词集;步骤(3)基于频繁词集的文本表示;步骤(4)训练分类器并对文本进行分类。本发明专利技术能够利用频繁词集的新的约束参数AD-Sup,使频繁特征具有更好的类别区分能力。并且针对频繁特征上的数据稀疏性问题,提出了基于特征相似度的权重计算方法,有效的降低了文档在新增频繁词特征上的数据稀疏性。

【技术实现步骤摘要】

本专利技术涉及信息检索、信息过滤、搜索引擎、推荐系统等
,特别涉及。
技术介绍
随着互联网的发展,海量的网络数据使得有效的检索和管理变得越来越重要。由于绝大多数信息仍以文本形式呈现,基于文本内容的信息检索和数据挖掘成为备受关注的研究领域。文本分类(Text categorization)是文本挖掘中的重要内容之一,是在预先标注的类别集合上,对未标注的文本(文档)根据内容判定其类别。作为一种有效的信息组织和管理方法,文本分类便于用户和信息系统准确定位所需信息,在信息检索、信息过滤、搜索引擎、推荐系统等领域有着广泛的应用。目前文本分类的常用方法主要是基于机器学习 的,典型的包括朴素贝叶斯、决策树、k-NN、Rocchio和SVM等。在这些方法中,文本的表示是基于向量空间模型(VSM)的。在VSM中,文本内容被视为“Bag of words”(B0W),B0W的处理方法忽略了词条之间的关联性,不能保留文本的上下文和语法信息,而这种关联性却在自然语言中对文本内容所包含的具体含义有着重要的影响。频繁项目集是数据挖掘中的基本概念,指共同出现次数即支持度高于一定阈值的一组项目集合。频繁项目集隐含了其中各项之间的关联性,当其中的项目是文本中的词条,频繁项目集也就包含了更多的上下文信息。
技术实现思路
本专利技术要解决的技术问题为克服现有技术的不足,提供一种基于频繁词集的文本分类方法,该方法考虑文本上下文和语法信息,提出了一种新的文本表示策略,通过初始单词和频繁词集共同构建特征空间,并提高了文本分类的准确性。本专利技术解决上述技术问题的技术方案为,该方法具体步骤如下步骤(I)、数据预处理和特征选取利用词干提取和停等词去除来进行文本数据预处理,利用信息增益来对文本数据进行特征选取,利用基于特征相似度的权重计算方法,对包含部分频繁词集的特征进行权重预测,有效的降低了文档在新增频繁词特征上的数据稀疏性。步骤(2)、频繁词集抽取从步骤(I)生成的候选词集中发现支持度高于最低支持度的词集。频繁词集抽取的过程利用Apriori算法,通过宽度优先的策略逐级生成各项频繁项目集;通过AD-Sup对提起的频繁集进行了优化步骤(3)、文本表示把频繁词集和初始单词作为一个整体,特征空间同时包含单词和频繁词集,并且利用基于相似度的权重的计算方法解决频繁集特征的数据稀释问题;步骤(4)、文本分类在训练集上构建分类器,并且在测试集上进行分类。利用的分类器是SVM。所述步骤(2)中对候选词集的频繁词抽取,具体如下步骤①、采用新的文本分类的频繁集生成约束参数均偏差支持率。假定文档集合包含n个类别Iclass1,…Classi,…classj ,令FS表示词集,t为词集FS中的词条,则AD-Sup的表达式为公式(1),而在公式(2)中,Sup (FS)i指的是词集FS在类别i中的支持数,在公式(3)中,df (t)指的是词条t的文档频率权利要求1.,其特征在于该方法具体步骤如下 步骤(I)、数据预处理和特征选取利用词干提取和停等词去除来进行文本数据预处理,利用信息増益来对文本数据进行特征选取; 步骤(2)、频繁词集抽取从步骤(I)生成的候选词集中发现支持度高于最低支持度的词集;频繁词集抽取的过程利用Apriori算法,通过宽度优先的策略逐级生成各项频繁项目集; 步骤(3)、文本表示把频繁词集和初始单词作为ー个整体,初始单词视为只包含ー个频繁项的单元词集;当频繁词集数量为0,特征空间就是由传统的bag of words组成,而当初始单词数量为0,那么特征空间就仅包含有频繁词集;并且利用基于相似度的权重的计算方法解决数据稀释的问题; 步骤(4)、文本分类在训练集上构建分类器,并且在测试集上进行分类,利用的分类器是SVM。2.根据权利要求I所述的ー种基于频繁词集的网络新闻自动文本分类的方法,其特征在于所述步骤(2)中对候选词集的频繁词抽取,具体如下 步骤①、采用新的文本分类的频繁集生成约束參数均偏差支持率;假定文档集合包含n个类别Iclass1, ---Classi,,classj ,令FS表示词集,t为词集FS中的词条,贝UAD-Sup的表达式为公式(1),而在公式(2)中,Sup (FS)i指的是词集FS在类别i中的支持数,在公式(3)中,df (t)指的是词条t的文档频率3.根据权利要求I或2所述的ー种基于频繁词集的网络新闻自动文本分类的方法,其特征在于所述步骤(3)中的文本的表示方法,具体如下 步骤A、把在步骤(2)中得到的频繁词集和初始单词作为ー个整体考虑,初始单词视为只包含一个频繁项的单元词集;因此全局特征空间就包含了项目数从I到n的各级词集; 步骤B、采用ー种基于特征相似度的权重计算方法来解决数据稀疏性的问题;当ー个文档包含某词集的一部分时,该部分词集即为原词集特征的ー个相似特征;相似特征的权重可以通过原词集和部分词集之间的相似度来获得;若FS'为相似特征,FS为原特征,W为特征权重,则二者的相似度可以通过公式(4)来计算全文摘要本专利技术公开了,该方法具体为步骤(1)数据预处理和特征选择;步骤(2)提取频繁词集;步骤(3)基于频繁词集的文本表示;步骤(4)训练分类器并对文本进行分类。本专利技术能够利用频繁词集的新的约束参数AD-Sup,使频繁特征具有更好的类别区分能力。并且针对频繁特征上的数据稀疏性问题,提出了基于特征相似度的权重计算方法,有效的降低了文档在新增频繁词特征上的数据稀疏性。文档编号G06F17/30GK102799666SQ201210244558公开日2012年11月28日 申请日期2012年7月13日 优先权日2012年7月13日专利技术者袁满, 欧阳元新, 赵海, 熊璋 申请人:北京航空航天大学本文档来自技高网...

【技术保护点】
一种基于频繁词集的网络新闻自动文本分类的方法,其特征在于:该方法具体步骤如下:步骤(1)、数据预处理和特征选取:利用词干提取和停等词去除来进行文本数据预处理,利用信息增益来对文本数据进行特征选取;步骤(2)、频繁词集抽取:从步骤(1)生成的候选词集中发现支持度高于最低支持度的词集;频繁词集抽取的过程利用Apriori算法,通过宽度优先的策略逐级生成各项频繁项目集;步骤(3)、文本表示:把频繁词集和初始单词作为一个整体,初始单词视为只包含一个频繁项的单元词集;当频繁词集数量为0,特征空间就是由传统的bag?of?words组成,而当初始单词数量为0,那么特征空间就仅包含有频繁词集;并且利用基于相似度的权重的计算方法解决数据稀释的问题;步骤(4)、文本分类:在训练集上构建分类器,并且在测试集上进行分类,利用的分类器是SVM。

【技术特征摘要】

【专利技术属性】
技术研发人员:袁满欧阳元新赵海熊璋
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1