当前位置: 首页 > 专利查询>江苏大学专利>正文

一种结合SVM和半监督聚类的不平衡文本分类方法及系统技术方案

技术编号:22261277 阅读:28 留言:0更新日期:2019-10-10 14:16
本发明专利技术公开了一种结合SVM和半监督聚类的不平衡文本分类方法及系统,对待处理文本进行预处理,获得向量格式的文本数据作为数据集;使用训练集对SVM分类器进行训练得到分类模型,利用分类模型对测试集进行预测,得到测试集的所属类别和置信度;利用半监督聚类算法对数据集进行聚簇,得到测试集的所属类别及其置信度;将SVM分类器和半监督聚类算法的所获得测试集所属类别及其置信度进行融合,得到最终的输出。本发明专利技术结合了不平衡文本分类的技术领域中不同类型的方法,实现了不同方法的优势互补,使用向量化和归一化的方法,弥补了在处理高维稀疏的文本数据时,因为有标签文本过少而导致的文本分类结果不精确的缺点。有效解决了文本类别不平衡的问题。

An unbalanced text categorization method and system based on SVM and semi-supervised clustering

【技术实现步骤摘要】
一种结合SVM和半监督聚类的不平衡文本分类方法及系统
本专利技术属于自然语言处理领域,特别是不平衡文本分类领域,尤其涉及一种结合SVM和半监督聚类的不平衡文本分类方法及系统。
技术介绍
文本分类问题是自然语言处理领域中一个经典的问题,其在信息过滤、邮件分类、查询意图预测、文本主题跟踪等领域都有着广泛地应用。传统的文本分类方法主要是针对平衡文本分类问题设计的,在处理规模较小、数据分布均匀且密集的平衡文本分类问题时效果良好。但是仍然存在较多的局限性。特别在现实应用中,由于类别不平衡、有标签文本过少和样本具有高维稀疏等特点,增加了文本分类的复杂性,导致分类准确率下降,限制了文本分类方法在实际中的应用。目前,解决这些问题主要有以下几类方法和思路:1)针对文本分类中类别不平衡的问题,提出了改变度量方式、重取样、代价相关学习等解决方法。通常采用ROC曲线、F-度量等度量方式;上取样、下取样、混合取样的重取样方法;加大小类文本的错分成本的代价相关学习方法。这些方法可以较好的解决低维空间中的类别不平衡问题,但是针对于文本分类问题所特有的高维空间,其学习的代价很高且结果不是很精确。2)针对文本分类中有标签文本过少的问题,提出了两类半监督算法。一类,在原有的分类模型中增加一部分依赖于无标签文本的项,使得最终的文本分类结果由有标签文本和无标签文本共同决定,解决了有标签文本过少的问题,但是在实现过程中如果分类模型与文本不匹配,算法性能会随着训练而降低。另一类,利用有标签文本训练一个分类器,然后标定未标记文本的类别,得到伪标签文本,最后使用所有的文本训练得出一个新的分类器,重复直到收敛。这一方法也解决了有标签文本过少的问题,但是由于伪标签文本中存在噪声,重复训练会导致噪声积累,降低了文本分类的准确性。3)针对文本分类中有文本具有高维稀疏特点的问题,提出了特征压缩的方法,其可以分为两类:特征选择与特征抽取。其中,特征抽取是根据某种准则从文本中抽取特征;特征选择是根据某种准则从原始特征中选择部分最有类别区分能力的特征。这两种方法减少了文本数据在训练和分类时间上带来的开销,同时也降低了维数灾难发生的可能性。但是,在压缩时难免会舍去有效的文本信息,造成文本分类不够准确的问题。基于上述解决不平衡文本分类问题的方法所存在的一定不足,为了达到更好的分类效果,有必要提供一种更高效的算法以解决上述问题。
技术实现思路
本专利技术根据现有技术中存在的问题,提出了一种结合SVM和半监督聚类的不平衡文本分类方法及系统,能够改善现有对不平衡文本分类问题中单一的分类器或算法分类效果不佳的情况,最终达到不平衡文本准确分类的目的。本专利技术所采用的技术方案如下:一种结合SVM和半监督聚类的不平衡文本分类方法,过程如下:S1、对待处理文本进行预处理,获得向量格式的文本数据作为数据集;所述数据集分为训练集和测试集;S2、使用训练集对SVM分类器进行训练得到分类模型,利用分类模型对测试集进行预测,得到测试集的所属类别和置信度;S3、利用半监督聚类算法对数据集进行聚簇,得到测试集的所属类别及其置信度;S4、将SVM分类器和半监督聚类算法的所获得测试集所属类别及其置信度进行融合,得到最终的输出,实现对不平衡文本做出最终分类。进一步,S2过程为:S2.1.在训练集中,采用一对一(one-versus-one)法,在任意两类样本之间找到一个超平面,将不同类别的文本分开,得到基于SVM训练的分类模型,将多分类问题分成多个二分类问题;S2.2.对训练集中的样本到超平面的距离设置权重,获得到一个新的决策函数;S2.3.根据新的决策函数计算得到样本所属类别及其概率;对于多类分类,采用一对一(one-versus-one)法投票,得到最终测试文本的所属类别;S2.4.由概率计算出置信度。进一步,所述新的决策函数表示为:正、负样本分类时,考虑到文本在分类问题中具有类别不平衡特征。针对这一问题,我们在其计算决策函数值后(决策函数值与样本到距离正相关),给其加上一个权值,使得阈值发生移动。其中,分别表示标签为正、负样本时添加的权重;N+代表标签为正的样本个数,N-代表标签为负的样本个数,f(x)为SVM的决策函数。进一步,所述S3过程为:S3.1.由训练集确定的簇数量(K值)和所属类别,根据训练集中每个样本的标签依次划分至对应的簇,得到初始化的簇;S3.2.对每个簇,更新质心,并根据样本到达质心的距离重新把样本划分到各个簇中;S3.3.判断每个簇是否满足分裂条件,将满足条件的簇分裂,再次更新质心和K值;S3.4.根据各测试集样本与质心之间的距离,将样本重新划分至对应的簇中,并计算其置信度;S3.5.重复以上S3.2-S3.4步骤,直至满足迭代终止条件;S3.6.根据簇所属类别,得到测试文本的所属类别及置信度。进一步,所述S3.2中更新质心的过程为:S3.2.1.计算质心:S3.2.2.样本到达质心的距离为:S3.2.3.对样本到达质心的距离加权处理,得到:其中,|Cm|表示簇Cm的样本数,μm表示簇Cm对应的质心。xi为簇内某个样本,Vm表示质心μm所属类别中样本的个数,V代表所有样本的个数,K是质心的维数。μm[i]和x[i]分别表示质心μm和样本x的第i个特征值。进一步,所述分裂条件为:判断训练集是否包含噪声,若当前簇内有噪声(错分样本),则当前簇需要进行分裂,反之,则不需要进行分裂。进一步,所述S4的过程为:分别计算SVM分类器和半监督聚类下的灵敏度SE和特异性SP;分别计算SVM分类器和半监督聚类下的灵敏度SE和特异性SP的Gmean值,根据所获得的Gmean值得到一个权重μ,利用该权重μ对分类结果的置信度CSKAS(xi)做归一化处理,根据归一化处理的结果确定采用SVM分类器或半监督聚类中的分类结果。对所确定的分类结果进行融合,输出测试文本的最终预测结果。进一步,所述置信度的计算方法为分类类别中最大的概率减去其第二大概率。进一步,所述预处理的过程为:挑选待测文本中的关键词,除去停用词;依据关键词频率计算出权值,最终使待测文本向量化,再采用离差标准化的方式对向量进行归一化处理。本专利技术还设计一种结合SVM和半监督聚类的不平衡文本分类系统,包括预处理单元、训练单元和预测单元;所述预处理单元对待测文本进行向量化处理,并对向量作归一化处理,最终获得向量的格式的数据集,并将数据集输入到训练单元;所述训练单元包括SVM单元和半监督聚类单元,分别利用SVM单元和半监督聚类单元对测试集分类,得到测试集所属类别及其置信度;所述预测单元:将SVM分类器和半监督聚类单元输出的所属类别及其置信度,经过融合处理得出最终的结果。本专利技术的有益效果:本专利技术所设计的分类方法由SVM分类器和半监督Kmeans算法组合构建而成,实现了两种方法的优势互补。使用向量化和归一化的方法,弥补了在处理高维稀疏的文本数据时,因为有标签文本过少而导致的文本分类结果不精确的缺点。通过改进半监督聚类算法,解决了文本类别不平衡的问题。利用SVM的文本分类结果解决了在半监督聚类中初始化K值和质心难确定的问题。同时,本专利技术设计了一种分裂算法,可以有效提升文本分类时的准确度。本专利技术极大地改善了以现有对不平衡文本分类问题中单一的分类器或算法分类效本文档来自技高网
...

【技术保护点】
1.一种结合SVM和半监督聚类的不平衡文本分类方法,其特征在于,包括以下步骤:S1.对待处理文本进行预处理,获得向量格式的文本数据作为数据集;所述数据集分为训练集和测试集;S2.使用训练集对SVM分类器进行训练得到分类模型,利用分类模型对测试集进行预测,得到测试集的所属类别和置信度;S3.利用半监督聚类算法对数据集进行聚簇,得到测试集的所属类别及其置信度;S4.将SVM分类器和半监督聚类算法的所获得测试集所属类别及其置信度进行融合,得到最终的输出,实现对不平衡文本做出最终分类。

【技术特征摘要】
1.一种结合SVM和半监督聚类的不平衡文本分类方法,其特征在于,包括以下步骤:S1.对待处理文本进行预处理,获得向量格式的文本数据作为数据集;所述数据集分为训练集和测试集;S2.使用训练集对SVM分类器进行训练得到分类模型,利用分类模型对测试集进行预测,得到测试集的所属类别和置信度;S3.利用半监督聚类算法对数据集进行聚簇,得到测试集的所属类别及其置信度;S4.将SVM分类器和半监督聚类算法的所获得测试集所属类别及其置信度进行融合,得到最终的输出,实现对不平衡文本做出最终分类。2.根据权利要求1所述的一种结合SVM和半监督聚类的不平衡文本分类方法,其特征在于,S2过程为:S2.1.在训练集中,采用一对一法,在任意两类样本之间找到一个超平面,将不同类别的文本分开;S2.2.对训练集中的样本到超平面的距离设置权重,获得到一个新的决策函数;S2.3.根据新的决策函数计算得到样本所属类别及其概率;其中,对于多类分类,采用一对一法投票,得到最终测试文本的所属类别;S2.4.由概率计算出置信度。3.根据权利要求2所述的一种结合SVM和半监督聚类的不平衡文本分类方法,其特征在于,所述新的决策函数表示为:其中,分别表示标签为正、负样本时添加的权重;N+代表标签为正的样本个数,N-代表标签为负的样本个数,f(x)为SVM的决策函数。4.根据权利要求1所述的一种结合SVM和半监督聚类的不平衡文本分类方法,其特征在于,所述S3过程为:S3.1.由训练集确定的簇数量和所属类别,根据训练集中每个样本的标签依次划分至对应的簇,得到初始化的簇;S3.2.对每个簇,更新质心,并根据样本到达质心的距离重新把样本划分到各个簇中;S3.3.判断每个簇是否满足分裂条件,将满足条件的簇分裂,再次更新质心和K值;S3.4.根据各测试集样本与质心之间的距离,将样本重新划分至对应的簇中,并计算其置信度;S3.5.重复以上S3.2-S3.4步骤,直至满足迭代终止条件;S3.6.根据簇所属类别,得到测试文本的所属类别及置信度。5.根据权利要求4所述的一种结合SVM和半监督聚类的不平衡文本分类方法,其特征在于,所述S3.2中的更新...

【专利技术属性】
技术研发人员:姜震熊相真杜阳冯路捷孙祥瑜
申请(专利权)人:江苏大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1