一种结合SVM和半监督聚类的不平衡文本分类方法及系统技术方案

技术编号：22261277 阅读：28 留言：0更新日期：2019-10-10 14:16

本发明专利技术公开了一种结合SVM和半监督聚类的不平衡文本分类方法及系统，对待处理文本进行预处理，获得向量格式的文本数据作为数据集；使用训练集对SVM分类器进行训练得到分类模型，利用分类模型对测试集进行预测，得到测试集的所属类别和置信度；利用半监督聚类算法对数据集进行聚簇，得到测试集的所属类别及其置信度；将SVM分类器和半监督聚类算法的所获得测试集所属类别及其置信度进行融合，得到最终的输出。本发明专利技术结合了不平衡文本分类的技术领域中不同类型的方法，实现了不同方法的优势互补，使用向量化和归一化的方法，弥补了在处理高维稀疏的文本数据时，因为有标签文本过少而导致的文本分类结果不精确的缺点。有效解决了文本类别不平衡的问题。

An unbalanced text categorization method and system based on SVM and semi-supervised clustering

全部详细技术资料下载

【技术实现步骤摘要】
一种结合SVM和半监督聚类的不平衡文本分类方法及系统
本专利技术属于自然语言处理领域，特别是不平衡文本分类领域，尤其涉及一种结合SVM和半监督聚类的不平衡文本分类方法及系统。
技术介绍
文本分类问题是自然语言处理领域中一个经典的问题，其在信息过滤、邮件分类、查询意图预测、文本主题跟踪等领域都有着广泛地应用。传统的文本分类方法主要是针对平衡文本分类问题设计的，在处理规模较小、数据分布均匀且密集的平衡文本分类问题时效果良好。但是仍然存在较多的局限性。特别在现实应用中，由于类别不平衡、有标签文本过少和样本具有高维稀疏等特点，增加了文本分类的复杂性，导致分类准确率下降，限制了文本分类方法在实际中的应用。目前，解决这些问题主要有以下几类方法和思路：1)针对文本分类中类别不平衡的问题，提出了改变度量方式、重取样、代价相关学习等解决方法。通常采用ROC曲线、F-度量等度量方式；上取样、下取样、混合取样的重取样方法；加大小类文本的错分成本的代价相关学习方法。这些方法可以较好的解决低维空间中的类别不平衡问题，但是针对于文本分类问题所特有的高维空间，其学习的代价很高且结果不是很精确。2)针对文本分类中有标签文本过少的问题，提出了两类半监督算法。一类，在原有的分类模型中增加一部分依赖于无标签文本的项，使得最终的文本分类结果由有标签文本和无标签文本共同决定，解决了有标签文本过少的问题，但是在实现过程中如果分类模型与文本不匹配，算法性能会随着训练而降低。另一类，利用有标签文本训练一个分类器，然后标定未标记文本的类别，得到伪标签文本，最后使用所有的文本训练得出一个新的分类器，重复直到...

【技术保护点】
1.一种结合SVM和半监督聚类的不平衡文本分类方法，其特征在于，包括以下步骤：S1.对待处理文本进行预处理，获得向量格式的文本数据作为数据集；所述数据集分为训练集和测试集；S2.使用训练集对SVM分类器进行训练得到分类模型，利用分类模型对测试集进行预测，得到测试集的所属类别和置信度；S3.利用半监督聚类算法对数据集进行聚簇，得到测试集的所属类别及其置信度；S4.将SVM分类器和半监督聚类算法的所获得测试集所属类别及其置信度进行融合，得到最终的输出，实现对不平衡文本做出最终分类。

【技术特征摘要】
1.一种结合SVM和半监督聚类的不平衡文本分类方法，其特征在于，包括以下步骤：S1.对待处理文本进行预处理，获得向量格式的文本数据作为数据集；所述数据集分为训练集和测试集；S2.使用训练集对SVM分类器进行训练得到分类模型，利用分类模型对测试集进行预测，得到测试集的所属类别和置信度；S3.利用半监督聚类算法对数据集进行聚簇，得到测试集的所属类别及其置信度；S4.将SVM分类器和半监督聚类算法的所获得测试集所属类别及其置信度进行融合，得到最终的输出，实现对不平衡文本做出最终分类。2.根据权利要求1所述的一种结合SVM和半监督聚类的不平衡文本分类方法，其特征在于，S2过程为：S2.1.在训练集中，采用一对一法，在任意两类样本之间找到一个超平面，将不同类别的文本分开；S2.2.对训练集中的样本到超平面的距离设置权重，获得到一个新的决策函数；S2.3.根据新的决策函数计算得到样本所属类别及其概率；其中，对于多类分类，采用一对一法投票，得到最终测试文本的所属类别；S2.4.由概率计算出置信度。3.根据权利要求2所述的一种结合SVM和半监督聚类的不平衡文本分类方法，其特征在于，所述新的决策函数表示为：其中，分别表示标签为正、负样本时添加的权重；N+代表标签为正的样本个数，N-代表标签为负的样本个数，f(x)为SVM的决策函数。4.根据权利要求1所述的一种结合SVM和半监督聚类的不平衡文本分类方法，其特征在于，所述S3过程为：S3.1.由训练集确定的簇数量和所属类别，根据训练集中每个样本的标签依次划分至对应的簇，得到初始化的簇；S3.2.对每个簇，更新质心，并根据样本到达质心的距离重新把样本划分到各个簇中；S3.3.判断每个簇是否满足分裂条件，将满足条件的簇分裂，再次更新质心和K值；S3.4.根据各测试集样本与质心之间的距离，将样本重新划分至对应的簇中，并计算其置信度；S3.5.重复以上S3.2-S3.4步骤，直至满足迭代终止条件；S3.6.根据簇所属类别，得到测试文本的所属类别及置信度。5.根据权利要求4所述的一种结合SVM和半监督聚类的不平衡文本分类方法，其特征在于，所述S3.2中的更新...

【专利技术属性】
技术研发人员：姜震，熊相真，杜阳，冯路捷，孙祥瑜，
申请(专利权)人：江苏大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人