一种不平衡数据集下的两阶段文本特征选择方法技术

技术编号:24122846 阅读:40 留言:0更新日期:2020-05-13 03:37
本发明专利技术公开了一种不平衡数据集下的两阶段文本特征选择方法,属于自然语言处理中文本特征选择领域,本发明专利技术将训练集数据按照其类别标签进行分词预处理,为每个类别均形成一个初始的特征集合T

A two-stage feature selection method for unbalanced data sets

【技术实现步骤摘要】
一种不平衡数据集下的两阶段文本特征选择方法
本专利技术属于自然语言处理中文本特征选择领域,具体涉及一种不平衡数据集下的两阶段文本特征选择方法。
技术介绍
文本分类是指让计算机对给定的文本内容,自动将其判别为事先定义好的类别中的某一类或某几类的过程。文本分类主要分为五个步骤,获取训练集、文本预处理、特征提取、文档表示、分类算法。一般数据集经过预处理后可产生上万个特征,大的数据集甚至可产生上百万个特征,高维度特征不仅增加计算的时间还会降低文本分类的准确度。而有效的特征提取可降低特征维度、提高文本分类的准确度,因此特征提取是文本分类的核心技术之一。特征提取又分为特征选择和特征抽取,特征选择是指从原始N个特征中选择类别代表能力排名前n的特征,而特征抽取是指将原始N维特征空间映射到m维空间中。其中特征选择因其计算简便等优点成为特征提取的主流方法。现用的特征选择方法有卡方统计量(CHI-squarestatistic,CHI)、信息增益(InformationGain,IG)、互信息(mutualinformationMI,)等,Yang教授通过实验表明信息增益和CHI效果最好,所以许多研究者选择这两种特征选择方法进行研究与改进。大致有两个方向,一种是针对这两种方法的缺陷单独改进,例如宋呈祥等人提出了一种对CHI改进的特征选择方法,通过加入词频因子、基于熵的类间类内分布因子等提高了CHI特征选择方法的性能;另一种方向是研究者选择将两种方法进行结合,例如唐康等人提出的混合CHI和IG的特征选择方法,使用归一化方法将IG和CHI两个单一指标组合成一个指标,产生了更稳定的筛选标准。但改进的特征选择方法仍存在缺陷,比如上述方法在平衡数据集下有很好的效果,但在不平衡数据集下性能有所下降。现有的特征选择方法大部分是提取相对于整个文档集的全局特征,这些特征选择方法忽略了特征与各个类别之间的相关性。并且现有特征选择方法在平衡数据集下有较优的效果,但在不平衡数据集下容易偏向多数类而忽略小类别中特征,而分布在网络上的大多数数据集都是未经处理过的不平衡数据集。
技术实现思路
针对现有技术中存在的上述技术问题,本专利技术提出了一种不平衡数据集下的两阶段文本特征选择方法,设计合理,克服了现有技术的不足,具有良好的效果。为了实现上述目的,本专利技术采用如下技术方案:一种不平衡数据集下的两阶段文本特征选择方法,包括局部特征选择方法与全局特征选择方法;局部特征选择方法,即使用基于词频的CHI特征选择方法挑选出局部特征词,具体包括如下步骤:步骤S11:获取带有类别标签的文本数据,将其作为训练样本集D={d1,d2,...dt};步骤S12:对训练样本集中的文本数据进行预处理,得到类别标签集合C={c1,c2,...cm},按照类别进行分词和去停用词处理,将每个类别ci形成一个初始特征集合Ti={ti1,ti2,...tik},1≤i≤m;步骤S13:使用基于词频的CHI特征评估函数,计算初始特征集合Ti中的特征词的卡方值;步骤S14:从各个类别的初始特征集合中提取卡方值排名前K1的特征词放入集合Si中,且第一次特征选择后的特征集合全局特征选择方法,即使用改进的IG特征选择方法挑选出全局特征词,具体包括如下步骤:具体包括以下步骤:步骤S21:使用IG特征评估函数,针对第一次特征选择后的结果集合S,计算其每个特征词的信息增益值;步骤S22:选择信息增益值排名前K2的特征词放入最终用于文本分类的特征集合中;步骤S23:将选择出的特征词,输入到SVM文本分类算法训练分类器。优选地,步骤S13中所述基于词频的CHI特征评估函数χ2(t,ci)表示形式如公式(1)所示:其中,N表示训练集中总的文档数,A表示包含特征词t且属于类别ci的文档数,B表示是包含t但不属于类别ci的文档数,C表示属于类别ci但不包含特征词t的文档数,D表示既不包含特征t也不属于类别ci的文档数,tf(t,dj)表示类别ci的第dj篇文档中特征词t出现的次数,dfij表示类别ci的第dj篇文档中所有特征词出现的次数的总和,|ci|表示类别ci的总文档数;若仅仅计算特征词在类别ci中出现的总次数,那么在数据集不平衡以及文本长度不一致情况下,会影响特征词的CHI值,因此使用来去除文档长度不一致带来的影响,同时考虑不平衡数据集每类中的文本数量不一致的情况,使用去除不平衡数据集对词频的影响;对于每个类别的初始特征集合Ti,使用公式(1)计算每个特征词的卡方值,并使用公式(2)进行特征选择:其中,nlargest函数表示取卡方值排名前n的特征词,Si表示每个类别经过第一阶段特征选择后的特征集合,S表示整个训练集经过第一阶段特征选择后的特征集合。优选地,在步骤S21中,具体包括如下步骤:步骤S21.1:根据公式(3),计算归一化词频因子λit:其中,λit表示特征词t在ci类中的归一化词频因子,当λit越大,特征词t在ci类中出现的次数越多,其类别代表能力越强;将IG特征评估函数改进为:公式(4)表示加入归一化词频因子λit后的IG特征评估函数,当λit越大,特征词的IG值越大,那么可筛选出指定类中多次出现的高频特征词;步骤S21.3:根据公式(5),计算基于熵的类内分散度因子βit:其中,tf(t,ci)表示类别ci中特征词t的总词频数,表征特征词在类别ci的每篇文档中出现的概率,βit为特征词t在ci类中的类内分散度因子,βit越大,其熵值越大,那么特征词t在ci类中的各个文档中分布越均匀,这样的特征词类别代表能力强,应当被选出,因此在公式(4)的基础上对IG特征评估函数进一步改进,如公式(6)所示:公式(6)表示加入类内分散度因子βit后的IG特征评估函数,当βit越大,特征词的IG值越大,那么能够筛选出在类内分布均匀的高频特征词;步骤S21.4:根据公式(7),计算基于熵的类间集中度因子θt:其中,dfti表示特征词在类别ci中出现的文档频率,dft表示特征词在整个文档集中出现的文档频率,使用量化特征词在ci类中出现的概率;θt表示特征词t在各个类之间的集中度因子,当特征词仅在单一类别中出现时,θt达到最小且最小值为0,而当特征词在所有类别中均出现时,θt达到最大值,所以特征词在各个类间的分布熵与其类别代表能力相反;在公式(6)的基础之上对IG特征评估函数进一步改进,如公式(8)所示:公式(8)为加入类间集中度因子后的IG特征评估函数,当θt减小时,增加,特征词t的IG值随之增加,此时能够筛选出集中出现在少数类中并且在类内分布均匀的高频特征词;步骤S21.5:使用IG特征评估函数,计算第一次特征选择后的结果集合S中每个特征词的IG值,选取IG值排名前K2的特征词作为最后的特征选择集合W,如公式(9)所示:本本文档来自技高网
...

【技术保护点】
1.一种不平衡数据集下的两阶段文本特征选择方法,其特征在于:包括局部特征选择方法与全局特征选择方法;/n局部特征选择方法,即使用基于词频的CHI特征选择方法挑选出局部特征词,具体包括如下步骤:/n步骤S11:获取带有类别标签的文本数据,将其作为训练样本集D={d

【技术特征摘要】
1.一种不平衡数据集下的两阶段文本特征选择方法,其特征在于:包括局部特征选择方法与全局特征选择方法;
局部特征选择方法,即使用基于词频的CHI特征选择方法挑选出局部特征词,具体包括如下步骤:
步骤S11:获取带有类别标签的文本数据,将其作为训练样本集D={d1,d2,…dt};
步骤S12:对训练样本集中的文本数据进行预处理,得到类别标签集合C={c1,c2,…cm},按照类别进行分词和去停用词处理,将每个类别ci形成一个初始特征集合Ti={ti1,ti2,…tik},1≤i≤m;
步骤S13:使用基于词频的CHI特征评估函数,计算初始特征集合Ti中的特征词的卡方值;
步骤S14:从各个类别的初始特征集合中提取卡方值排名前K1的特征词放入集合Si中,且第一次特征选择后的特征集合
全局特征选择方法,即使用改进的IG特征选择方法挑选出全局特征词,具体包括如下步骤:
具体包括以下步骤:
步骤S21:使用IG特征评估函数,针对第一次特征选择后的结果集合S,计算其每个特征词的信息增益值;
步骤S22:选择信息增益值排名前K2的特征词放入最终用于文本分类的特征集合中;
步骤S23:将选择出的特征词,输入到SVM文本分类算法训练分类器。


2.根据权利要求1所述的不平衡数据集下的两阶段文本特征选择方法,其特征在于:步骤S13中所述基于词频的CHI特征评估函数χ2(t,ci)表示形式如公式(1)所示:



其中,N表示训练集中总的文档数,A表示包含特征词t且属于类别ci的文档数,B表示是包含t但不属于类别ci的文档数,C表示属于类别ci但不包含特征词t的文档数,D表示既不包含特征t也不属于类别ci的文档数,tf(t,dj)表示类别ci的第dj篇文档中特征词t出现的次数,dfij表示类别ci的第dj篇文档中所有特征词出现的次数的总和,|ci|表示类别ci的总文档数;若仅仅计算特征词在类别ci中出现的总次数,那么在数据集不平衡以及文本长度不一致情况下,会影响特征词的CHI值,因此使用来去除文档长度不一致带来的影响,同时考虑不平衡数据集每类中的文本数量不一致的情况,使用去除不平衡数据集对词频的影响;
对于每个类别的初始特征集合Ti,使用公式(1)计算每个特征词的卡方值,并使用公式(2)进行特征选择:



其中,nlargest函数表示取卡方值排名前n的特征词,Si表示每...

【专利技术属性】
技术研发人员:赵卫东赵嘉莹王铭
申请(专利权)人:山东科技大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1