【技术实现步骤摘要】
基于文档层词频重排序的特征选择方法
本专利技术属于数据挖掘方法
,涉及一种基于文档层词频重排序的特征选择方法。
技术介绍
随着互联网的不断发展,科学知识、互联网数据以及各种资源呈现出海量的特点。数据处理与数据存储技术不断提高,也使网络中文档数量不断地呈指数级增长,如何从海量信息中快速、准确的获取有价值的信息成为人们迫切需要解决的难题。手动处理数据的能力已远远不能满足现实生活的要求,有效地组织和管理信息,快速地区分有用和无用信息,都面临着巨大的挑战。分类技术成为解决这一问题的关键技术,并且被广泛应用到不同场景,如信息过滤、信息检索、搜索引擎、词义辨析、邮件分类、数字图书馆、文本语料库构建等。在信息科学领域中,它是指计算机按照一定标准或类别体系对数据集进行自动类别划分的过程。分类技术可分为数据集预处理、特征选择、分类算法、性能评估等多个阶段。因为在分类的处理过程中必然出现“高维度”的问题,在分类器的运行时间和准确性方面,高维数据会使其分类性能大大降低。因此特征选择作为一种常见的降维方法已成为信息分类的关键技术。特征选择指的是从原始特征空间中选择出具有较强的类别区 ...
【技术保护点】
1.一种基于文档层词频重排序的特征选择方法,其特征在于,具体操作步骤如下:步骤1:获取已经进行了词干提取和去停用词处理的WAP、RE0、RE1、K1a、K1b、20Newsgroups这六种数据集,消除数据集中频繁出现的词条和几乎不出现的词条,采用5折交叉验证法划分测试集和训练集;步骤2:使用基于文档层词频重排序的特征选择方法,设置特征词个数,生成最优特征子集;步骤3:使用朴素贝叶斯分类器和支持向量机分类器对最优特征子集依次进行训练和分类,训练出分类器的模型,得到分类结果。
【技术特征摘要】
1.一种基于文档层词频重排序的特征选择方法,其特征在于,具体操作步骤如下:步骤1:获取已经进行了词干提取和去停用词处理的WAP、RE0、RE1、K1a、K1b、20Newsgroups这六种数据集,消除数据集中频繁出现的词条和几乎不出现的词条,采用5折交叉验证法划分测试集和训练集;步骤2:使用基于文档层词频重排序的特征选择方法,设置特征词个数,生成最优特征子集;步骤3:使用朴素贝叶斯分类器和支持向量机分类器对最优特征子集依次进行训练和分类,训练出分类器的模型,得到分类结果。2.根据权利要求1所述的一种基于文档层词频重排序的特征选择方法,其特征在于:步骤1所述频繁出现的词条是指词条出现的文档频率超过25%的词条。3.根据权利要求1所述的一种基于文档层词频重排序的特征选择方法,其特征在于:步骤1所述几乎不出现的词条为词条出现的文档少于3篇的词条。4.根据权利要求1所述的一种基于文档层词频重排序的特征选择方法,其特征在于:所述步骤2的具体步骤为:步骤2.1:计算出每篇文档中词条ti的词频,记为tfij,根据如下公式计算出类内词频总和,其中,...
【专利技术属性】
技术研发人员:周红芳,张英杰,刘虹江,张尧,张懿辉,吴珞风,
申请(专利权)人:西安理工大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。