一种基于标签子集的分类方法及系统技术方案

技术编号:32968347 阅读:11 留言:0更新日期:2022-04-09 11:28
本发明专利技术公开了一种基于标签子集的分类方法及系统,属于计算机技术领域,所述方法包括:将多标签数据样本集转换成单标签数据集;计算所述单标签数据集中所有样本的标签子集,构建基于所述标签子集的新的样本数据集;所述标签子集的计算包括:计算样本中所有特征的重要性、相关性以及冗余性,并结合特征之间的相关性和冗余性,选出排序靠前的标签,构建标签子集;将每个样本的标签子集放入到原来的样本中,得到新的单标签数据集;基于新的单标签数据集构建单标签分类模型,然后统计每个样本在每个单标签分类模型中的标签,得出最终的多标签分类结果。本发明专利技术通过分析标签中特征之间的相关性和冗余性,选出优异的标签子集,有效地提升分类模型的性能。提升分类模型的性能。提升分类模型的性能。

【技术实现步骤摘要】
一种基于标签子集的分类方法及系统


[0001]本专利技术涉及计算机
,尤其涉及一种基于标签子集的分类方法及系统。

技术介绍

[0002]多标签分类主要用于处理一个数据同时属于多个类别的情况,现实中这种情况是广泛存在的,例如一篇文章同时属于“新闻”“经济”“文化”等类别。为了对现实场景中的多义性对象进行准确的划分,很多研究人员对多标签分类方法进行了深入的研究。
[0003]在机器学习领域,提出了很多的多标签分类算法,现有的多标签分类方案通常是基于多个单标签分类模型实现的,利用多个单标签分类模型分别对多标签任务进行分类,然后,将所有单标签分类器的预测结果的合集作为该多标签任务的最终预测结果,单标签分类器的预测准确性会直接影响多标签分类的准确性。而在实际应用中,用于每个单标签分类器的样本会比较少,如此会使得单个单标签分类器的预测结果准确性较差,从而会影响多标签任务的最终预测结果的准确性,且现有的多标签分类算法往往未考虑标签间的关联性。
[0004]此外,研究发现,如果多标签分类方法在分类时只考虑标签间的关联性,该方法不一定得到较好的分类性能,也就是说,在特征选择中,单个好的特征的组合并不能总是提升分类方法的分类性能,因为有可能特征之间是高度相关的,这就导致了特征之间存在冗余,会影响方法的分类性能。

技术实现思路

[0005]本专利技术的目的在于克服现有技术中多标签分类方法存在的问题,提供了一种基于标签子集的分类方法及系统。
[0006]本专利技术的目的是通过以下技术方案来实现的
[0007]主要提供一种基于标签子集的分类方法,所述方法包括以下内容:
[0008]获取多标签数据样本集,并将多标签数据样本集转换成单标签数据集;
[0009]计算所述单标签数据集中所有样本的标签子集,构建基于所述标签子集的新的样本数据集;所述标签子集的计算包括:计算样本中所有特征的重要性;计算特征之间的相关性;计算特征之间的冗余性,并结合特征之间的相关性和冗余性,选出排序靠前的标签,构建标签子集;
[0010]将每个样本的标签子集放入到原来单标签数据集的样本中,得到新的单标签数据集;
[0011]基于新的单标签数据集构建单标签分类模型,然后统计每个样本在每个单标签分类模型中的标签,得出最终的多标签分类结果。
[0012]作为一选项,所述将多标签数据样本集转换成单标签数据集,包括:
[0013]将多标签数据样本集中的单个标签对应到每一个样本中,分解成与标签数量等同的数据子集。
[0014]作为一选项,所述方法还包括:
[0015]对所述多标签数据样本集进行预处理,所述预处理包括:
[0016]对数据特征值缺失的样本进行删除处理,保留数据特征完整的样本,然后将多标签数据样本集随机划分为训练集和测试集。
[0017]作为一选项,通过F

score公式计算各个特征的重要性,所述F

score公式为:
[0018][0019]其中,F
i
越大,该特征x
i
的类辨能力越强。
[0020]作为一选项,使用互信息计算特征之间的相关性,计算公式如下:
[0021][0022]X表示特征变量,Y表示标签变量,p(x
i
)和p(y
j
)分别是变量X和Y的边缘概率,p(x
i
,y
j
)是X和Y的联合概率分布函数。
[0023]作为一选项,所述结合特征之间的相关性和冗余性,选出排序靠前的标签,包括:
[0024]计算所有特征与目标变量之间的互信息均值,计算公式如下:
[0025][0026]其中,S表示已选特征集合,c表示目标变量,即类标签变量;
[0027]计算特征之间的冗余信息量,计算公式如下:
[0028][0029]根据所述互信息均值和冗余信息量,选出冗余性小、相关性大的标签,选择计算公式如下:
[0030][0031]其中,m为特征的数量,根据上述公式计算的结果将排序在前70%的标签选择出来。
[0032]作为一选项,训练集和测试集的比例为1:1。
[0033]作为一选项,使用贝叶斯算法构建单标签分类模型。
[0034]作为一选项,所述多标签数据样本集中包含多个不同的标签,包含多个不同的特征。
[0035]本专利技术还提供一种基于标签子集的分类系统,所述系统包括:
[0036]样本获取模块,用于获取多标签数据样本集,并将多标签数据样本集转换成单标签数据集;
[0037]标签子集计算模块,用于计算所述单标签数据集中所有样本的标签子集,构建基
于所述标签子集的新的样本数据集;所述标签子集的计算包括:计算样本中所有特征的重要性;计算特征之间的相关性;计算特征之间的冗余性,并结合特征之间的相关性和冗余性,选出排序靠前的标签,构建标签子集;
[0038]样本重组模块,用于将每个样本的标签子集放入到原来的样本中,得到新的单标签数据集;
[0039]建模和分类模块,用于基于新的单标签数据集构建单标签分类模型,然后统计每个样本在每个单标签分类模型中的标签,得出最终的多标签分类结果。
[0040]需要进一步说明的是,上述各选项对应的技术特征在不冲突的情况下可以相互组合或替换构成新的技术方案。
[0041]与现有技术相比,本专利技术有益效果是:
[0042]将多标签数据样本集转换成单标签数据集,通过计算单标签数据集中所有特征的重要性、计算特征之间的相关性、计算特征之间的冗余性,并结合特征之间的相关性和冗余性,有效地选出优异的标签子集,取得的特征与特征之间的冗余性尽量小,而特征之间的相关性尽量大,既考虑标签之间的关联性,又避免了特征之间的冗余对模型分类性能的影响,提高模型的分类性能。
附图说明
[0043]图1为本专利技术一种基于标签子集的分类方法的流程示意图。
具体实施方式
[0044]下面结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0045]此外,下面所描述的本专利技术不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
[0046]本专利技术主要通过将多标签数据样本集转换成单标签数据集,通过计算单标签数据集中所有特征的重要性、计算特征之间的相关性、计算特征之间的冗余性,并结合特征之间的相关性和冗余性,有效地选出优异的标签子集,取得的特征与特征之间的冗余性尽量小,而特征之间的相关性尽量大,既考虑标签之间的关联性,又避免了特征之间的冗余对模型分类性能的影响,达到提高模型的分类性能的目的。
[0047]实施例1
[0048]在一示例性实施例中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于标签子集的分类方法,其特征在于,所述方法包括以下内容:获取多标签数据样本集,并将多标签数据样本集转换成单标签数据集;计算所述单标签数据集中所有样本的标签子集,构建基于所述标签子集的新的样本数据集;所述标签子集的计算包括:计算样本中所有特征的重要性;计算特征之间的相关性;计算特征之间的冗余性,并结合特征之间的相关性和冗余性,选出排序靠前的标签,构建标签子集;将每个样本的标签子集放入到原来单标签数据集的样本中,得到新的单标签数据集;基于新的单标签数据集构建单标签分类模型,然后统计每个样本在每个单标签分类模型中的标签,得出最终的多标签分类结果。2.根据权利要求1所述的一种基于标签子集的分类方法,其特征在于,所述将多标签数据样本集转换成单标签数据集,包括:将多标签数据样本集中的单个标签对应到每一个样本中,分解成与标签数量等同的数据子集。3.根据权利要求1所述的一种基于标签子集的分类方法,其特征在于,所述方法还包括:对所述多标签数据样本集进行预处理,所述预处理包括:对数据特征值缺失的样本进行删除处理,保留数据特征完整的样本,然后将多标签数据样本集随机划分为训练集和测试集。4.根据权利要求1所述的一种基于标签子集的分类方法,其特征在于,通过F

score公式计算各个特征的重要性,所述F

score公式为:其中,F
i
越大,该特征x
i
的类辨能力越强。5.根据权利要求4所述的一种基于标签子集的分类方法,其特征在于,使用互信息计算特征之间的相关性,计算公式如下:X表示特征变量,Y表示标签变量,p(x
i
)和p(y
j
)分别...

【专利技术属性】
技术研发人员:彭黎文
申请(专利权)人:四川警察学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1