一种基于标签子集的分类方法及系统技术方案

技术编号：32968347 阅读：11 留言：0更新日期：2022-04-09 11:28

本发明专利技术公开了一种基于标签子集的分类方法及系统，属于计算机技术领域，所述方法包括：将多标签数据样本集转换成单标签数据集；计算所述单标签数据集中所有样本的标签子集，构建基于所述标签子集的新的样本数据集；所述标签子集的计算包括：计算样本中所有特征的重要性、相关性以及冗余性，并结合特征之间的相关性和冗余性，选出排序靠前的标签，构建标签子集；将每个样本的标签子集放入到原来的样本中，得到新的单标签数据集；基于新的单标签数据集构建单标签分类模型，然后统计每个样本在每个单标签分类模型中的标签，得出最终的多标签分类结果。本发明专利技术通过分析标签中特征之间的相关性和冗余性，选出优异的标签子集，有效地提升分类模型的性能。提升分类模型的性能。提升分类模型的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于标签子集的分类方法及系统

[0001]本专利技术涉及计算机
，尤其涉及一种基于标签子集的分类方法及系统。

技术介绍

[0002]多标签分类主要用于处理一个数据同时属于多个类别的情况，现实中这种情况是广泛存在的，例如一篇文章同时属于“新闻”“经济”“文化”等类别。为了对现实场景中的多义性对象进行准确的划分，很多研究人员对多标签分类方法进行了深入的研究。
[0003]在机器学习领域，提出了很多的多标签分类算法，现有的多标签分类方案通常是基于多个单标签分类模型实现的，利用多个单标签分类模型分别对多标签任务进行分类，然后，将所有单标签分类器的预测结果的合集作为该多标签任务的最终预测结果，单标签分类器的预测准确性会直接影响多标签分类的准确性。而在实际应用中，用于每个单标签分类器的样本会比较少，如此会使得单个单标签分类器的预测结果准确性较差，从而会影响多标签任务的最终预测结果的准确性，且现有的多标签分类算法往往未考虑标签间的关联性。
[0004]此外，研究发现，如果多标签分类方法在分类时只考虑标签间的关联性，该方法不一定得到较好的分类性能，也就是说，在特征选择中，单个好的特征的组合并不能总是提升分类方法的分类性能，因为有可能特征之间是高度相关的，这就导致了特征之间存在冗余，会影响方法的分类性能。

技术实现思路

[0005]本专利技术的目的在于克服现有技术中多标签分类方法存在的问题，提供了一种基于标签子集的分类方法及系统。
[0006]本专利技术的目的是通过以下技术方案来实现的...

【技术保护点】

【技术特征摘要】
1.一种基于标签子集的分类方法，其特征在于，所述方法包括以下内容：获取多标签数据样本集，并将多标签数据样本集转换成单标签数据集；计算所述单标签数据集中所有样本的标签子集，构建基于所述标签子集的新的样本数据集；所述标签子集的计算包括：计算样本中所有特征的重要性；计算特征之间的相关性；计算特征之间的冗余性，并结合特征之间的相关性和冗余性，选出排序靠前的标签，构建标签子集；将每个样本的标签子集放入到原来单标签数据集的样本中，得到新的单标签数据集；基于新的单标签数据集构建单标签分类模型，然后统计每个样本在每个单标签分类模型中的标签，得出最终的多标签分类结果。2.根据权利要求1所述的一种基于标签子集的分类方法，其特征在于，所述将多标签数据样本集转换成单标签数据集，包括：将多标签数据样本集中的单个标签对应到每一个样本中，分解成与标签数量等同的数据子集。3.根据权利要求1所述的一种基于标签子集的分类方法，其特征在于，所述方法还包括：对所述多标签数据样本集进行预处理，所述预处理包括：对数据特征值缺失的样本进行删除处理，保留数据特征完整的样本，然后将多标签数据样本集随机划分为训练集和测试集。4.根据权利要求1所述的一种基于标签子集的分类方法，其特征在于，通过F
‑
score公式计算各个特征的重要性，所述F
‑
score公式为：其中，F
i
越大，该特征x
i
的类辨能力越强。5.根据权利要求4所述的一种基于标签子集的分类方法，其特征在于，使用互信息计算特征之间的相关性，计算公式如下：X表示特征变量，Y表示标签变量，p(x
i
)和p(y
j
)分别...

【专利技术属性】
技术研发人员：彭黎文，
申请(专利权)人：四川警察学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人