【技术实现步骤摘要】
一种不平衡数据集下的两阶段文本特征选择方法
本专利技术属于自然语言处理中文本特征选择领域,具体涉及一种不平衡数据集下的两阶段文本特征选择方法。
技术介绍
文本分类是指让计算机对给定的文本内容,自动将其判别为事先定义好的类别中的某一类或某几类的过程。文本分类主要分为五个步骤,获取训练集、文本预处理、特征提取、文档表示、分类算法。一般数据集经过预处理后可产生上万个特征,大的数据集甚至可产生上百万个特征,高维度特征不仅增加计算的时间还会降低文本分类的准确度。而有效的特征提取可降低特征维度、提高文本分类的准确度,因此特征提取是文本分类的核心技术之一。特征提取又分为特征选择和特征抽取,特征选择是指从原始N个特征中选择类别代表能力排名前n的特征,而特征抽取是指将原始N维特征空间映射到m维空间中。其中特征选择因其计算简便等优点成为特征提取的主流方法。现用的特征选择方法有卡方统计量(CHI-squarestatistic,CHI)、信息增益(InformationGain,IG)、互信息(mutualinformationMI,)等,Yang教授通过实验表明信息增益和CHI效果最好,所以许多研究者选择这两种特征选择方法进行研究与改进。大致有两个方向,一种是针对这两种方法的缺陷单独改进,例如宋呈祥等人提出了一种对CHI改进的特征选择方法,通过加入词频因子、基于熵的类间类内分布因子等提高了CHI特征选择方法的性能;另一种方向是研究者选择将两种方法进行结合,例如唐康等人提出的混合CHI和IG的特征选择方法,使用归一化方法将IG和C ...
【技术保护点】
1.一种不平衡数据集下的两阶段文本特征选择方法,其特征在于:包括局部特征选择方法与全局特征选择方法;/n局部特征选择方法,即使用基于词频的CHI特征选择方法挑选出局部特征词,具体包括如下步骤:/n步骤S11:获取带有类别标签的文本数据,将其作为训练样本集D={d
【技术特征摘要】
1.一种不平衡数据集下的两阶段文本特征选择方法,其特征在于:包括局部特征选择方法与全局特征选择方法;
局部特征选择方法,即使用基于词频的CHI特征选择方法挑选出局部特征词,具体包括如下步骤:
步骤S11:获取带有类别标签的文本数据,将其作为训练样本集D={d1,d2,…dt};
步骤S12:对训练样本集中的文本数据进行预处理,得到类别标签集合C={c1,c2,…cm},按照类别进行分词和去停用词处理,将每个类别ci形成一个初始特征集合Ti={ti1,ti2,…tik},1≤i≤m;
步骤S13:使用基于词频的CHI特征评估函数,计算初始特征集合Ti中的特征词的卡方值;
步骤S14:从各个类别的初始特征集合中提取卡方值排名前K1的特征词放入集合Si中,且第一次特征选择后的特征集合
全局特征选择方法,即使用改进的IG特征选择方法挑选出全局特征词,具体包括如下步骤:
具体包括以下步骤:
步骤S21:使用IG特征评估函数,针对第一次特征选择后的结果集合S,计算其每个特征词的信息增益值;
步骤S22:选择信息增益值排名前K2的特征词放入最终用于文本分类的特征集合中;
步骤S23:将选择出的特征词,输入到SVM文本分类算法训练分类器。
2.根据权利要求1所述的不平衡数据集下的两阶段文本特征选择方法,其特征在于:步骤S13中所述基于词频的CHI特征评估函数χ2(t,ci)表示形式如公式(1)所示:
其中,N表示训练集中总的文档数,A表示包含特征词t且属于类别ci的文档数,B表示是包含t但不属于类别ci的文档数,C表示属于类别ci但不包含特征词t的文档数,D表示既不包含特征t也不属于类别ci的文档数,tf(t,dj)表示类别ci的第dj篇文档中特征词t出现的次数,dfij表示类别ci的第dj篇文档中所有特征词出现的次数的总和,|ci|表示类别ci的总文档数;若仅仅计算特征词在类别ci中出现的总次数,那么在数据集不平衡以及文本长度不一致情况下,会影响特征词的CHI值,因此使用来去除文档长度不一致带来的影响,同时考虑不平衡数据集每类中的文本数量不一致的情况,使用去除不平衡数据集对词频的影响;
对于每个类别的初始特征集合Ti,使用公式(1)计算每个特征词的卡方值,并使用公式(2)进行特征选择:
其中,nlargest函数表示取卡方值排名前n的特征词,Si表示每...
【专利技术属性】
技术研发人员:赵卫东,赵嘉莹,王铭,
申请(专利权)人:山东科技大学,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。