一种改进特征选择的算法制造技术

技术编号：20329591 阅读：25 留言：0更新日期：2019-02-13 06:01

本发明专利技术公开了一种改进特征选择的算法，属于特征空间的高维度特征选择技术领域。本发明专利技术首先使用RDC(相对判别标准)度量来计算每个特征的相关性，然后使用皮尔逊相关系数来计算特征之间的相关值。最后通过计算本发明专利技术定义的M值来逐步选择最优特征。本发明专利技术不仅选择特征空间中最相关的特征，而且使用相关性度量考虑它们之间的冗余，能从特征空间中过滤冗余和不相关的特征，选择特征空间中最优特征子集，将特征空间降维，从而提高文本分类的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种改进特征选择的算法
本专利技术涉及一种改进特征选择的算法，属于特征空间的高维度特征选择

技术介绍
大数据时代缔造者就是互联网,互联网的急速发展使数据量呈现爆炸式增加。在如此大的数据量面前,既给人们带来千载难逢的机遇又给人们带来了极大的挑战。很多有价值的信息被大量的无用数据淹没,使人们很难获得自己需要而且又有价值的信息,因此如何从大量数据中挖掘出人们需要的信息成为研究的重点方向。文本分类己成为一个重要的研究课题，在机器学习、信息检索和垃圾邮件过滤中得到了广泛的研究和应用。在这些领域应用文本分类技术，有许多优点。对于数字图书馆的分类管理，相对于人工方法，大大缩短了文档的归类整理时问。在信息检索领域，借助文本分类技术，将文本信息分为相关和不相关类别，过滤掉无用的检索结果，能明显提高检索的准确率和速度。当前文本分类的技术和理论已比较成熟，并取得了不错的成果。但是随着移动互联网的发展，文本数据出现了许多新的特征。例如以微博、微信、社区和贴吧为主的社交网络流行，短文本数据在逐渐增多。此外，文本的类别数日增多、类别分布不均匀、类别标注困难等新的变化，也给文本分类带来了巨人挑战。文本分类还有很大的改善空间，仍有必要对其进行研究，改善文本分类的效果。在文本分类的过程中，文档通常被建模为一个向量空间，其中每个单词被认为是一个特征。在文档的矢量模型中，特征的值可以是其对应词的频率或词频-逆文档频率(tf-idf)。文本分类中最重要的问题之一是处理特征空间的高维度。特征空间的高维特别是在包含大量单词的文本分类任务中导致增加的计算成本和降低的分类性能。特征选择和提取是...

【技术保护点】
1.一种改进特征提取的算法，其特征在于：包括如下步骤：Step1:输入最终特征空间包含的特征数量k，创建一个新的集合S，F为文档D的所有特征集合；Step2:遍历F中的每一个特征fs，计算其相关性值RDC(fs)，即使用下列方程组计算RDC值：

【技术特征摘要】
1.一种改进特征提取的算法，其特征在于：包括如下步骤：Step1:输入最终特征空间包含的特征数量k，创建一个新的集合S，F为文档D的所有特征集合；Step2:遍历F中的每一个特征fs，计算其相关性值RDC(fs)，即使用下列方程组计算RDC值：RDC(Wi)＝AUC(wi,tcm)，其中Wi为特征词,dfpos(wi)和dfneg(wi)分别是含有词语Wi的文档数量和不含有词语Wi的文档数量，tcj(wi)表示词语Wi在文档j中的数量,AUC(wi,tcj)表示特征词Wi与词频tcj的ROC曲线下面积，tcj-1表示特征词在文档j-1中的数量，tcj+1表示特征词在文档j+1中的数量，tcm表示特征词在最后一个文档m中的数量；Step3:根据step2所计算出的RDC值进行排序；Step4:选择最大的RDC的特征fmax；Step5:添加fmax至集合S；Step6:从集合F中移除fmax；Step7:遍历集合F，对每一个特征值令sum(fi)＝0；Step8:遍...

【专利技术属性】
技术研发人员：汪海涛，唐康，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人