一种不平衡数据集下的两阶段文本特征选择方法技术

技术编号：24122846 阅读：40 留言：0更新日期：2020-05-13 03:37

本发明专利技术公开了一种不平衡数据集下的两阶段文本特征选择方法，属于自然语言处理中文本特征选择领域，本发明专利技术将训练集数据按照其类别标签进行分词预处理，为每个类别均形成一个初始的特征集合T

A two-stage feature selection method for unbalanced data sets

全部详细技术资料下载

【技术实现步骤摘要】
一种不平衡数据集下的两阶段文本特征选择方法
本专利技术属于自然语言处理中文本特征选择领域，具体涉及一种不平衡数据集下的两阶段文本特征选择方法。
技术介绍
文本分类是指让计算机对给定的文本内容，自动将其判别为事先定义好的类别中的某一类或某几类的过程。文本分类主要分为五个步骤，获取训练集、文本预处理、特征提取、文档表示、分类算法。一般数据集经过预处理后可产生上万个特征，大的数据集甚至可产生上百万个特征，高维度特征不仅增加计算的时间还会降低文本分类的准确度。而有效的特征提取可降低特征维度、提高文本分类的准确度，因此特征提取是文本分类的核心技术之一。特征提取又分为特征选择和特征抽取，特征选择是指从原始N个特征中选择类别代表能力排名前n的特征，而特征抽取是指将原始N维特征空间映射到m维空间中。其中特征选择因其计算简便等优点成为特征提取的主流方法。现用的特征选择方法有卡方统计量(CHI-squarestatistic，CHI)、信息增益(InformationGain，IG)、互信息(mutualinformationMI，)等，Yang教授通过实验表明信息增益和CHI效果最好，所以许多研究者选择这两种特征选择方法进行研究与改进。大致有两个方向，一种是针对这两种方法的缺陷单独改进，例如宋呈祥等人提出了一种对CHI改进的特征选择方法，通过加入词频因子、基于熵的类间类内分布因子等提高了CHI特征选择方法的性能；另一种方向是研究者选择将两种方法进行结合，例如唐康等人提出的混合CHI和IG的特征选择方法，使用归一化方法将IG和C...

【技术保护点】
1.一种不平衡数据集下的两阶段文本特征选择方法，其特征在于：包括局部特征选择方法与全局特征选择方法；/n局部特征选择方法，即使用基于词频的CHI特征选择方法挑选出局部特征词，具体包括如下步骤：/n步骤S11：获取带有类别标签的文本数据，将其作为训练样本集D＝{d

【技术特征摘要】
1.一种不平衡数据集下的两阶段文本特征选择方法，其特征在于：包括局部特征选择方法与全局特征选择方法；
局部特征选择方法，即使用基于词频的CHI特征选择方法挑选出局部特征词，具体包括如下步骤：
步骤S11：获取带有类别标签的文本数据，将其作为训练样本集D＝{d1,d2,…dt}；
步骤S12：对训练样本集中的文本数据进行预处理，得到类别标签集合C＝{c1,c2,…cm}，按照类别进行分词和去停用词处理，将每个类别ci形成一个初始特征集合Ti＝{ti1,ti2,…tik}，1≤i≤m；
步骤S13：使用基于词频的CHI特征评估函数，计算初始特征集合Ti中的特征词的卡方值；
步骤S14：从各个类别的初始特征集合中提取卡方值排名前K1的特征词放入集合Si中，且第一次特征选择后的特征集合
全局特征选择方法，即使用改进的IG特征选择方法挑选出全局特征词，具体包括如下步骤：
具体包括以下步骤：
步骤S21：使用IG特征评估函数，针对第一次特征选择后的结果集合S，计算其每个特征词的信息增益值；
步骤S22：选择信息增益值排名前K2的特征词放入最终用于文本分类的特征集合中；
步骤S23：将选择出的特征词，输入到SVM文本分类算法训练分类器。

2.根据权利要求1所述的不平衡数据集下的两阶段文本特征选择方法，其特征在于：步骤S13中所述基于词频的CHI特征评估函数χ2(t,ci)表示形式如公式(1)所示：

其中，N表示训练集中总的文档数，A表示包含特征词t且属于类别ci的文档数，B表示是包含t但不属于类别ci的文档数，C表示属于类别ci但不包含特征词t的文档数，D表示既不包含特征t也不属于类别ci的文档数，tf(t,dj)表示类别ci的第dj篇文档中特征词t出现的次数，dfij表示类别ci的第dj篇文档中所有特征词出现的次数的总和，|ci|表示类别ci的总文档数；若仅仅计算特征词在类别ci中出现的总次数，那么在数据集不平衡以及文本长度不一致情况下，会影响特征词的CHI值，因此使用来去除文档长度不一致带来的影响，同时考虑不平衡数据集每类中的文本数量不一致的情况，使用去除不平衡数据集对词频的影响；
对于每个类别的初始特征集合Ti，使用公式(1)计算每个特征词的卡方值，并使用公式(2)进行特征选择：

其中，nlargest函数表示取卡方值排名前n的特征词，Si表示每...

【专利技术属性】
技术研发人员：赵卫东，赵嘉莹，王铭，
申请(专利权)人：山东科技大学，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人