一种改进特征选择的算法制造技术

技术编号:20329591 阅读:25 留言:0更新日期:2019-02-13 06:01
本发明专利技术公开了一种改进特征选择的算法,属于特征空间的高维度特征选择技术领域。本发明专利技术首先使用RDC(相对判别标准)度量来计算每个特征的相关性,然后使用皮尔逊相关系数来计算特征之间的相关值。最后通过计算本发明专利技术定义的M值来逐步选择最优特征。本发明专利技术不仅选择特征空间中最相关的特征,而且使用相关性度量考虑它们之间的冗余,能从特征空间中过滤冗余和不相关的特征,选择特征空间中最优特征子集,将特征空间降维,从而提高文本分类的性能。

【技术实现步骤摘要】
一种改进特征选择的算法
本专利技术涉及一种改进特征选择的算法,属于特征空间的高维度特征选择

技术介绍
大数据时代缔造者就是互联网,互联网的急速发展使数据量呈现爆炸式增加。在如此大的数据量面前,既给人们带来千载难逢的机遇又给人们带来了极大的挑战。很多有价值的信息被大量的无用数据淹没,使人们很难获得自己需要而且又有价值的信息,因此如何从大量数据中挖掘出人们需要的信息成为研究的重点方向。文本分类己成为一个重要的研究课题,在机器学习、信息检索和垃圾邮件过滤中得到了广泛的研究和应用。在这些领域应用文本分类技术,有许多优点。对于数字图书馆的分类管理,相对于人工方法,大大缩短了文档的归类整理时问。在信息检索领域,借助文本分类技术,将文本信息分为相关和不相关类别,过滤掉无用的检索结果,能明显提高检索的准确率和速度。当前文本分类的技术和理论已比较成熟,并取得了不错的成果。但是随着移动互联网的发展,文本数据出现了许多新的特征。例如以微博、微信、社区和贴吧为主的社交网络流行,短文本数据在逐渐增多。此外,文本的类别数日增多、类别分布不均匀、类别标注困难等新的变化,也给文本分类带来了巨人挑战。文本分类还有很大的改善空间,仍有必要对其进行研究,改善文本分类的效果。在文本分类的过程中,文档通常被建模为一个向量空间,其中每个单词被认为是一个特征。在文档的矢量模型中,特征的值可以是其对应词的频率或词频-逆文档频率(tf-idf)。文本分类中最重要的问题之一是处理特征空间的高维度。特征空间的高维特别是在包含大量单词的文本分类任务中导致增加的计算成本和降低的分类性能。特征选择和提取是降低文本特征空间维度的两种主要方法。特征选择近年来得到关注,旨在从数据中利用一定的策略选择出原始特征集的一个最优子集,从而促进后续其它目标任务的学习。特征选择的目标包含三个方面的意义:(1)提高目标模型的预测性能;(2)减少目标模型的训练时间和预测时间,提高效率;(3)揭示数据中的隐含意义和数据的产生过程。简单来讲就是,特征选择使得数据更加精简有效,同时有助于更好地理解数据。特征选择作为数据处理的首要一步,对于大数据,可减小数据规模,降低目标模型学习的难度,对于高维数据,能对数据降维以克服“维度灾难”问题,防止模型过拟合。尤其是对高维数据的学习中,对数据进行分析和学习的难度和成本相对数据维度呈现指数级增长,必须学习复杂模型,以提高模型的表达能力,同时还需要指数级增长的数据量来支持复杂模型的学习。数据量过小,则会导致模型过拟合,模型的泛化性能差。因此,对数据进行特征选择十分必要,但要在原始特征集的庞大子集空间中找到最优特征集作为对数据的表示,难度极大。特征提取是指通过合并或变换原始类型来生成一小组新特征的过程,而在特征选择中,通过选择最显着的特征来减少空间维度。特征选择方法可以分为四类:过滤器,包装器,嵌入式和混合式方法。过滤器方法对特征空间执行统计分析以选择特征的区分性子集。特征选择方法应该能够识别和移除尽可能多的不相关和冗余特征。大多数特征选择方法可以有效地去除不相关的特征,但是不能处理冗余特征。
技术实现思路
本专利技术要解决的技术问题是提供了一种改进特征选择算法,目的是为了克服上述现有技术的不足,该算法能从特征空间中过滤冗余和不相关的特征,选择特征空间中最优特征子集,从而达到降维的目的,进一步提高文本分类的效果。本专利技术采用的技术方案是:一种改进特征提取的算法,包括如下步骤:Step1:输入最终特征空间包含的特征数量k,创建一个新的集合S,F为文档D的所有特征集合;Step2:遍历F中的每一个特征fs,计算其相关性值RDC(fs),即使用下列方程组计算RDC值:RDC(Wi)=AUC(wi,tcm),其中Wi为特征词,dfpos(wi)和dfneg(wi)分别是含有词语Wi的文档数量和不含有词语Wi的文档数量,tcj(wi)表示词语Wi在文档j中的数量,AUC(wi,tcj)表示特征词Wi与词频tcj的ROC曲线下面积,tcj-1表示特征词在文档j-1中的数量,tcj+1表示特征词在文档j+1中的数量,tcm表示特征词在最后一个文档m中的数量;Step3:根据step2所计算出的RDC值进行排序;Step4:选择最大的RDC的特征fmax;Step5:添加fmax至集合S;Step6:从集合F中移除fmax;Step7:遍历集合F,对每一个特征值令sum(fi)=0;Step8:遍历集合F,对每一个特征值fi,计算其与S中每一个特征fs的相关度Correlation(fi,fs)并且计算Step9:对集合F中的每一个特征值fi,使用以下公式计算其M(fi)值,即:M(fi)=RDC(fi)-sum(fi),其中RDC(fi)是特征fi的相关值,并且correlation(fi,fj)表示由它们的相似性值定义的两个特征fi和fj之间的相关性,用Pearson相关系数来计算相关值:其中fi,d和fj,d分别是第d个文档的特征词i和j的词频,和分别是fi和fj在文档集合中词频的平均值,Correlation(fi,fj)为1时表示最大的正相关,Correlation(fi,fj)为-1时表示最大的负相关,其值介于-1与1之间;Step10:选择M值最大的特征fmax;Step11:增加fmax到集合S;Step12:从集合F中移除fmax;Step13:重复step8-Step12直到集合S中的数量等于K;Step14:集合S即为最终选择的特征。本专利技术的有益效果是:1、本专利技术的精度比传统方法RDC的精度高;2、本专利技术从特征空间去除冗余和不相关的特征,实现了进一步特征空间降维。附图说明图1为本专利技术的方法流程图。具体实施方式下面结合附图和具体实施例,对本专利技术作进一步的详细说明。实施例1:如图1所示,一种改进特征提取的算法,包括如下步骤:本专利技术首先使用RDC(相对判别标准)度量来计算每个特征的相关性,然后使用皮尔逊相关系数来计算特征之间的相关值。最后通过计算本专利技术定义的M值来逐步选择最优特征。具体如下:Step1:输入最终特征空间包含的特征数量k(k的值根据实际情况设定,这里不作具体限定),创建一个新的集合S,F为文档D的所有特征集合;Step2:遍历F中的每一个特征fs,计算其相关性值RDC(fs),即使用下列方程组计算RDC值:RDC(Wi)=AUC(wi,tcm),其中Wi为特征词,dfpos(wi)和dfneg(wi)分别是含有词语Wi的文档数量和不含有词语Wi的文档数量,tcj(wi)表示词语Wi在文档j中的数量,AUC(wi,tcj)表示特征词Wi与词频tcj的ROC曲线下面积,tcj-1表示特征词在文档j-1中的数量,tcj+1表示特征词在文档j+1中的数量,tcm表示特征词在最后一个文档m中的数量;Step3:根据step2所计算出的RDC值进行排序;Step4:选择最大的RDC的特征fmax;Step5:添加fmax至集合S;Step6:从集合F中移除fmax;Step7:遍历集合F,对每一个特征值令sum(fi)=0;Step8:遍历集合F,对每一个特征值fi,计算其与S中每一个特征fs的相关度Correlation(fi,fs)并且计本文档来自技高网
...

【技术保护点】
1.一种改进特征提取的算法,其特征在于:包括如下步骤:Step1:输入最终特征空间包含的特征数量k,创建一个新的集合S,F为文档D的所有特征集合;Step2:遍历F中的每一个特征fs,计算其相关性值RDC(fs),即使用下列方程组计算RDC值:

【技术特征摘要】
1.一种改进特征提取的算法,其特征在于:包括如下步骤:Step1:输入最终特征空间包含的特征数量k,创建一个新的集合S,F为文档D的所有特征集合;Step2:遍历F中的每一个特征fs,计算其相关性值RDC(fs),即使用下列方程组计算RDC值:RDC(Wi)=AUC(wi,tcm),其中Wi为特征词,dfpos(wi)和dfneg(wi)分别是含有词语Wi的文档数量和不含有词语Wi的文档数量,tcj(wi)表示词语Wi在文档j中的数量,AUC(wi,tcj)表示特征词Wi与词频tcj的ROC曲线下面积,tcj-1表示特征词在文档j-1中的数量,tcj+1表示特征词在文档j+1中的数量,tcm表示特征词在最后一个文档m中的数量;Step3:根据step2所计算出的RDC值进行排序;Step4:选择最大的RDC的特征fmax;Step5:添加fmax至集合S;Step6:从集合F中移除fmax;Step7:遍历集合F,对每一个特征值令sum(fi)=0;Step8:遍...

【专利技术属性】
技术研发人员:汪海涛唐康
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1