一种基于吸引因子的特征选择的文本分类方法技术

技术编号：24799636 阅读：46 留言：0更新日期：2020-07-07 21:03

本发明专利技术公开了一种基于吸引因子的特征选择的文本分类方法，使用朴素贝叶斯分类器和支持向量机分类器进行数据集预处理，获取数据集，消除数据集中词条在文档中出现的频率超过25％的词条及词条出现的文档少于3篇的词条，采用交叉验证法划分测试集和训练集；使用基于吸引因子的特征选择方法，设置测试集和训练集特征词数量，生成最优特征子集；使用朴素贝叶斯分类器和支持向量机分类器对训练集的最优特征子集依次进行训练和分类，训练出分类器模型，将测试集的最优特征子集输入分类器模型得到分类结果；使用微平均‑F1与宏平均‑F1两个评价指标对分类结果进行评估，验证该方法的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于吸引因子的特征选择的文本分类方法
本专利技术属于数据挖掘方法
，涉及一种基于吸引因子的特征选择的文本分类方法。
技术介绍
文本分类是为文档分配预定义类别的任务，传统上分类任务是由领域专家手动执行的，但是随着互联网上可用的数字文档数量的显著增长，不可能手动处理如此大量的信息，分类算法随着IT技术的发展应运而生。在信息科学和计算机科学中研究的文本分类已在许多领域中找到了许多应用，例如信息检索，体裁分类，垃圾邮件过滤，语言识别等。文本分类是文本信息挖掘的基本功能，也是处理和组织文本数据的核心技术，能够有效地辅助人们组织和分类信息数据，使信息杂乱的问题在较大程度上得到解决，对于信息的高效管理及有效利用都具有很强的现实的意义，因此文本分类技术成为了数据挖掘领域的重要研究方向之一。文本分类技术是一个复杂的系统工程，特征选择又是文本分类的关键技术之一。特征选择是文本分类中的一个重要问题，能够不牺牲分类性能的情况下缩减特征空间大小，同时避免过度拟合现象的产生。其主要思想是按照一定规则从原本的高维特征集合空间中将对文本分类没有多大贡献的特征词删除，选取出一部分最为有效的、最具有代表性的特征词构成新的特征子集。通过特征选择这一步骤，一些和需求无关的特征词会被剔除，使文本特征集合空间的维数得到大幅度降低，进而提高文本分类的效率和精度。文本分类的主要特征是，即使对于中等大小的数据集，特征空间中的特征数量也可以轻松达到数万个数量级，因此在高维情况下存在以下两个问题：一个是某些复杂的算法无法在文本分类中最佳...

【技术保护点】
1.一种基于吸引因子的特征选择的文本分类方法，其特征在于，具体包括如下步骤：/n步骤1：使用朴素贝叶斯分类器NB和支持向量机分类器SVM进行数据集预处理，获取已经进行了词干提取和去停用词处理的若干数据集，消除所述数据集中词条在文档中出现的频率超过25％的词条及词条出现的文档少于3篇的词条，采用交叉验证法划分测试集和训练集；/n步骤2：使用基于吸引因子的特征选择方法，设置所述步骤1中得到的测试集和训练集特征词数量，生成最优特征子集；/n步骤3：使用朴素贝叶斯分类器NB和支持向量机分类器SVM对所述步骤2中得到的训练集的最优特征子集依次进行训练和分类，训练出分类器模型，将所述步骤2中得到的测试集的最优特征子集输入所述分类器模型得到分类结果；/n步骤4：使用微平均-F1与宏平均-F1两个评价指标对所述步骤3中得到的分类结果进行评估，验证基于吸引因子的特征选择方法的性能。/n

【技术特征摘要】
1.一种基于吸引因子的特征选择的文本分类方法，其特征在于，具体包括如下步骤：
步骤1：使用朴素贝叶斯分类器NB和支持向量机分类器SVM进行数据集预处理，获取已经进行了词干提取和去停用词处理的若干数据集，消除所述数据集中词条在文档中出现的频率超过25％的词条及词条出现的文档少于3篇的词条，采用交叉验证法划分测试集和训练集；
步骤2：使用基于吸引因子的特征选择方法，设置所述步骤1中得到的测试集和训练集特征词数量，生成最优特征子集；
步骤3：使用朴素贝叶斯分类器NB和支持向量机分类器SVM对所述步骤2中得到的训练集的最优特征子集依次进行训练和分类，训练出分类器模型，将所述步骤2中得到的测试集的最优特征子集输入所述分类器模型得到分类结果；
步骤4：使用微平均-F1与宏平均-F1两个评价指标对所述步骤3中得到的分类结果进行评估，验证基于吸引因子的特征选择方法的性能。

2.根据权利要求1所述的一种基于吸引因子的特征选择的文本分类方法，其特征在于，所述步骤1中的数据集为20Newsgroups、WebKB、K1a、K1b这四种数据集。

3.根据权利要求1所述的一种基于吸引因子的特征选择的文本分类方法，其特征在于，所述步骤2具体步骤为：
步骤2.1：计算吸引因子T(ti)，其中吸引因子代表的是术语在类别中的每个文本中出现的平均频率；
步骤2.2：计算最大术语正率MT，即取真正率和假正率中的最大值来权衡术语的真实相关性；
步骤2.3：根据所述步骤2.2中计算的真正率tpr和假正率fpr，再计算归一化差异测量因子NDM；
步骤2.4：按照下列公式计算每个词条的权重值MTFS(ti)，然后进行排序，根据词条个数选择出最优特征子集，
MTFS(ti)＝MT·T(ti)·NDM
其中MT代表所述步骤2.2中的最大术语正率，T(ti)为所述步骤2.1中的吸引因子，NDM代表所述步骤2.3中的归一化差异测量因子。
...

【专利技术属性】
技术研发人员：周红芳，韩霜，
申请(专利权)人：西安理工大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人