一种基于吸引因子的特征选择的文本分类方法技术

技术编号:24799636 阅读:46 留言:0更新日期:2020-07-07 21:03
本发明专利技术公开了一种基于吸引因子的特征选择的文本分类方法,使用朴素贝叶斯分类器和支持向量机分类器进行数据集预处理,获取数据集,消除数据集中词条在文档中出现的频率超过25%的词条及词条出现的文档少于3篇的词条,采用交叉验证法划分测试集和训练集;使用基于吸引因子的特征选择方法,设置测试集和训练集特征词数量,生成最优特征子集;使用朴素贝叶斯分类器和支持向量机分类器对训练集的最优特征子集依次进行训练和分类,训练出分类器模型,将测试集的最优特征子集输入分类器模型得到分类结果;使用微平均‑F1与宏平均‑F1两个评价指标对分类结果进行评估,验证该方法的性能。

【技术实现步骤摘要】
一种基于吸引因子的特征选择的文本分类方法
本专利技术属于数据挖掘方法
,涉及一种基于吸引因子的特征选择的文本分类方法。
技术介绍
文本分类是为文档分配预定义类别的任务,传统上分类任务是由领域专家手动执行的,但是随着互联网上可用的数字文档数量的显著增长,不可能手动处理如此大量的信息,分类算法随着IT技术的发展应运而生。在信息科学和计算机科学中研究的文本分类已在许多领域中找到了许多应用,例如信息检索,体裁分类,垃圾邮件过滤,语言识别等。文本分类是文本信息挖掘的基本功能,也是处理和组织文本数据的核心技术,能够有效地辅助人们组织和分类信息数据,使信息杂乱的问题在较大程度上得到解决,对于信息的高效管理及有效利用都具有很强的现实的意义,因此文本分类技术成为了数据挖掘领域的重要研究方向之一。文本分类技术是一个复杂的系统工程,特征选择又是文本分类的关键技术之一。特征选择是文本分类中的一个重要问题,能够不牺牲分类性能的情况下缩减特征空间大小,同时避免过度拟合现象的产生。其主要思想是按照一定规则从原本的高维特征集合空间中将对文本分类没有多大贡献的特征词删除,选取出一部分最为有效的、最具有代表性的特征词构成新的特征子集。通过特征选择这一步骤,一些和需求无关的特征词会被剔除,使文本特征集合空间的维数得到大幅度降低,进而提高文本分类的效率和精度。文本分类的主要特征是,即使对于中等大小的数据集,特征空间中的特征数量也可以轻松达到数万个数量级,因此在高维情况下存在以下两个问题:一个是某些复杂的算法无法在文本分类中最佳使用;另一个问题是,当大多数算法在训练集中训练时,过度分类在文本分类中是不可避免的,导致分类精准度低。因此,降维一直是主要的研究领域。与此同时,文本分类技术的飞速发展也带来了前所未遇的困难和挑战,在理论和实践上文本分类技术的研究仍存在很大的发展空间。
技术实现思路
本专利技术的目的是提供一种基于吸引因子的特征选择的文本分类方法,解决了现有技术中存在的分类精准度低的问题。本专利技术所采用的技术方案是,一种基于吸引因子的特征选择的文本分类方法,具体包括如下步骤:步骤1:使用朴素贝叶斯分类器NB和支持向量机分类器SVM进行数据集预处理,获取已经进行了词干提取和去停用词处理的若干数据集,消除数据集中词条在文档中出现的频率超过25%的词条及词条出现的文档少于3篇的词条,采用交叉验证法划分测试集和训练集;步骤2:使用基于吸引因子的特征选择方法,设置步骤1中得到的测试集和训练集特征词数量,生成最优特征子集;步骤3:使用朴素贝叶斯分类器NB和支持向量机分类器SVM对步骤2中得到的训练集的最优特征子集依次进行训练和分类,训练出分类器模型,将步骤2中得到的测试集的最优特征子集输入分类器模型得到分类结果;步骤4:使用微平均-F1与宏平均-F1两个评价指标对步骤3中得到的分类结果进行评估,验证基于吸引因子的特征选择方法的性能。本专利技术的特点还在于:步骤1中的数据集为20Newsgroups、WebKB、K1a、K1b这四种数据集。步骤2具体步骤为:步骤2.1:计算吸引因子T(ti),其中吸引因子代表的是术语在类别中的每个文本中出现的平均频率;步骤2.2:计算最大术语正率MT,即取真正率和假正率中的最大值来权衡术语的真实相关性;步骤2.3:根据步骤2.2中计算的真正率tpr和假正率fpr,再计算归一化差异测量因子NDM;步骤2.4:按照下列公式计算每个词条的权重值MTFS(ti),然后进行排序,根据词条个数选择出最优特征子集,MTFS(ti)=MT·T(ti)·NDM其中MT代表步骤2.2中的最大术语正率,T(ti)为步骤2.1中的吸引因子,NDM代表步骤2.3中的归一化差异测量因子。步骤2的具体步骤为:步骤2.1:计算吸引因子T(ti),其中吸引因子代表的是术语在类别中的每个文本中出现的平均频率其中,其中,tfij是术语在类别Ci中的文本dj中出现的次数,N为类别Ci中的总文本数;步骤2.2:计算最大术语正率MT,即取真正率tpr和假正率fpr中的最大值来权衡术语的真实相关性;其中真正率tpr和假正率fpr的计算公式为:其中,tp表示包含词条ti并且属于类别Ck的文本数;fn表示不包含词条ti并且属于类别Ck的文本数;fp表示包含词条ti并且不属于类别Ck的文本数;tn表示不包含词条ti并且不属于类别Ck的文本数;步骤2.3:根据步骤2.2中公式(2)、(3)计算的真正率tpr和假正率fpr,再按照如下公式计算归一化差异测量因子,步骤2.4:按照如下公式计算每个词条的权重值MTFS(ti),然后进行排序,根据词条个数选择出最优特征子集,其中MT代表步骤2.2中得到的最大术语正率,T(ti)为步骤2.1中得到的吸引因子,NDM代表步骤2.3中得到的归一化差异测量因子。步骤4中微平均-F1计算公式如下:其中,为平均查准率,为平均查全率,查准率查全率tp表示包含词条ti并且属于类别Ck的文本数;fn表示不包含词条ti并且属于类别Ck的文本数;fp表示包含词条ti并且不属于类别Ck的文本数;宏平均-F1计算公式如下:式中F1(k)表示第k个测试类别的微平均-F1的值,K表示测试类别的总个数。本专利技术的有益效果是:1.本专利技术综合地考虑了文档频率和术语在类中及类间的分布问题对分类的贡献,因此在分类准确率上相比于传统的CHI算法、GINI算法、NDM算法、OR算法,本专利技术在数据集20Newsgroups、WebKB、K1a、K1b上具有明显的优势结果,实验证明该基于吸引因子的特征选择方法应用于文本分类时可以提高分类精度,是一种有效的特征选择算法。2.在与不同的分类器配合上,将本专利技术和其他传统的CHI算法、GINI算法、NDM算法、OR算法四种算法选择的特征子集分别在NB和SVM这两种分类器上运行,最终结果表明本专利技术结果具有好的效果,分类准确率高。附图说明图1是本专利技术一种基于吸引因子的特征选择的文本分类方法的流程图;图2是本专利技术一种基于吸引因子的特征选择的文本分类方法与现有技术在不同数据集上、不同词条维数下使用朴素贝叶斯分类器时微平均-F1值的折线对比图;图3是本专利技术一种基于吸引因子的特征选择的文本分类方法与现有技术在不同数据集上、不同词条维数下使用朴素贝叶斯分类器时宏平均-F1值的折线对比图;图4是本专利技术一种基于吸引因子的特征选择的文本分类方法与现有技术在不同数据集上、不同词条维数下使用支持向量机分类器时微平均-F1值的折线对比图;图5是本专利技术一种基于吸引因子的特征选择的文本分类方法与现有技术在不同数据集上、不同词条维数下使用支持向量机分类器时宏平均-F1值的折线对比图;图6是本专利技术一种基于吸引因子的本文档来自技高网
...

【技术保护点】
1.一种基于吸引因子的特征选择的文本分类方法,其特征在于,具体包括如下步骤:/n步骤1:使用朴素贝叶斯分类器NB和支持向量机分类器SVM进行数据集预处理,获取已经进行了词干提取和去停用词处理的若干数据集,消除所述数据集中词条在文档中出现的频率超过25%的词条及词条出现的文档少于3篇的词条,采用交叉验证法划分测试集和训练集;/n步骤2:使用基于吸引因子的特征选择方法,设置所述步骤1中得到的测试集和训练集特征词数量,生成最优特征子集;/n步骤3:使用朴素贝叶斯分类器NB和支持向量机分类器SVM对所述步骤2中得到的训练集的最优特征子集依次进行训练和分类,训练出分类器模型,将所述步骤2中得到的测试集的最优特征子集输入所述分类器模型得到分类结果;/n步骤4:使用微平均-F1与宏平均-F1两个评价指标对所述步骤3中得到的分类结果进行评估,验证基于吸引因子的特征选择方法的性能。/n

【技术特征摘要】
1.一种基于吸引因子的特征选择的文本分类方法,其特征在于,具体包括如下步骤:
步骤1:使用朴素贝叶斯分类器NB和支持向量机分类器SVM进行数据集预处理,获取已经进行了词干提取和去停用词处理的若干数据集,消除所述数据集中词条在文档中出现的频率超过25%的词条及词条出现的文档少于3篇的词条,采用交叉验证法划分测试集和训练集;
步骤2:使用基于吸引因子的特征选择方法,设置所述步骤1中得到的测试集和训练集特征词数量,生成最优特征子集;
步骤3:使用朴素贝叶斯分类器NB和支持向量机分类器SVM对所述步骤2中得到的训练集的最优特征子集依次进行训练和分类,训练出分类器模型,将所述步骤2中得到的测试集的最优特征子集输入所述分类器模型得到分类结果;
步骤4:使用微平均-F1与宏平均-F1两个评价指标对所述步骤3中得到的分类结果进行评估,验证基于吸引因子的特征选择方法的性能。


2.根据权利要求1所述的一种基于吸引因子的特征选择的文本分类方法,其特征在于,所述步骤1中的数据集为20Newsgroups、WebKB、K1a、K1b这四种数据集。


3.根据权利要求1所述的一种基于吸引因子的特征选择的文本分类方法,其特征在于,所述步骤2具体步骤为:
步骤2.1:计算吸引因子T(ti),其中吸引因子代表的是术语在类别中的每个文本中出现的平均频率;
步骤2.2:计算最大术语正率MT,即取真正率和假正率中的最大值来权衡术语的真实相关性;
步骤2.3:根据所述步骤2.2中计算的真正率tpr和假正率fpr,再计算归一化差异测量因子NDM;
步骤2.4:按照下列公式计算每个词条的权重值MTFS(ti),然后进行排序,根据词条个数选择出最优特征子集,
MTFS(ti)=MT·T(ti)·NDM
其中MT代表所述步骤2.2中的最大术语正率,T(ti)为所述步骤2.1中的吸引因子,NDM代表所述步骤2.3中的归一化差异测量因子。
...

【专利技术属性】
技术研发人员:周红芳韩霜
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1