一种不完全标注数据的多标签分类处理方法及装置制造方法及图纸

技术编号:27506730 阅读:14 留言:0更新日期:2021-03-02 18:34
本发明专利技术涉及一种不完全标注数据的多标签分类处理方法及装置,属于数据分类技术领域,解决了现有的多标签分类方法对具有数据重合标签分类的实用性较低的问题。方法包括:获取训练数据集;基于训练数据集对神经网络进行参数训练,得到训练好的神经网络;对训练好的神经网络中间层的输出进行预处理,得到神经网络的最优网络结构;将待分类的不完全标注数据输入神经网络的最优网络结构,得到待分类的不完全标注数据对应的所有标签类别向量。实现了不完全标注数据的多标签分类,提高了数据标签分类的精确度,具有较高的实用性。具有较高的实用性。具有较高的实用性。

【技术实现步骤摘要】
一种不完全标注数据的多标签分类处理方法及装置


[0001]本专利技术涉及数据分类
,尤其涉及一种不完全标注数据的多标签分类处理方法及装置。

技术介绍

[0002]传统的数据分类问题中,各个类别的数据具有较为显著的类别特征,不同类别之间没有重合度,即同一个数据不能同时具有两个类别的特征。因此在理论上存在分类超曲面,使得不同类别的数据分别分布在被分类超曲面分割的不同区域中。
[0003]在某些应用领域中,由于具体场景和数据标识的方法,导致不同类别的数据具有一定的重合度,不同类别的数据分布既存在公共部分,又具有类别独有的数据。例如在网络安全领域,不同IP地址接收的流量数据代表用户的行为分布,由于用户的业务具有独特性,不同业务的用户会产生不同的流量分布。这些用户在终端中会产生一些公共操作。在采集用户数据的过程中,采集特定IP地址的数据会产生自动的标签,即该IP地址的用户,如果将用户作为类别,通过用户产生的流量数据对用户进行识别是分类问题,一些用户由于相同的用户行为而导致不同IP地址(不同类别)的流量数据具有重合度。
[0004]传统的分类方法无法鉴别不同类别的公共部分,所以传统的多标签分类方法对具有数据重合的标签分类的实用性较低。

技术实现思路

[0005]鉴于上述的分析,本专利技术实施例旨在提供一种不完全标注数据的多标签分类处理方法及装置,用以解决现有的多标签分类方法对具有数据重合的标签分类的实用性较低的问题。
[0006]一方面,本专利技术实施例提供了一种不完全标注数据的多标签分类处理方法,包括下述步骤:
[0007]获取训练数据集,所述训练数据集包括多个训练数据向量及其对应的标签类别向量;
[0008]基于所述训练数据集对神经网络进行参数训练,得到训练好的神经网络;其中,所述神经网络包括输入层、中间层和输出层;
[0009]对所述训练好的神经网络中间层的输出进行预处理,得到神经网络的最优网络结构;
[0010]将待分类的不完全标注数据输入所述神经网络的最优网络结构,得到所述待分类的不完全标注数据对应的所有标签类别向量。
[0011]进一步,对所述训练好的神经网络中间层的输出进行预处理,得到神经网络的最优网络结构,包括下述步骤:
[0012]对所述训练好的神经网络中间层的输出进行聚类,得到每一个训练数据向量对应的马氏距离;
[0013]基于所述马氏距离计算每一个训练数据向量的类别相似度;
[0014]判断所述类别相似度是否满足终止条件,若是,结束训练,所述训练好的神经网络即为神经网络的最优网络结构;若否,更新标签类别向量,并基于训练数据向量及更新后的标签类别向量重新训练神经网络的参数,直至训练数据向量的类别相似度满足终止条件,得到神经网络的最优网络结构。
[0015]进一步,基于GMM聚类方法对所述训练好的神经网络中间层的输出进行聚类,得到每一个训练数据向量对应的马氏距离。
[0016]进一步,所述类别相似度的计算公式为:
[0017][0018]式中,表示类别相似度,表示训练数据向量对应的马氏距离,j∈[1,n],其中,n为训练数据的个数,i∈[1,m],m表示训练数据的类别数。
[0019]进一步,所述终止条件的计算公式为:
[0020]|y
j-s
j
|<τ
[0021]式中,y
j
表示训练数据向量对应的标签类别向量,τ为给定阈值。
[0022]进一步,所述更新后的标签类别向量的计算公式为:
[0023]y

j
=(1-w)
·
y
j
+w
·
s
j
[0024]式中,y

j
表示更新后的标签类别向量,w为类别相似度对应的权重。
[0025]另一方面,本专利技术实施例提供了一种不完全标注数据的多标签分类处理装置,包括:
[0026]训练数据集获得模块,用于获取训练数据集,所述训练数据集包括多个训练数据向量及其对应的标签类别向量;
[0027]参数训练模块,用于根据所述训练数据集对神经网络进行参数训练,得到训练好的神经网络;其中,所述神经网络包括输入层、中间层和输出层;
[0028]聚类模块,用于对所述训练好的神经网络中间层的输出进行预处理,得到神经网络的最优网络结构;
[0029]结果获得模块,用于将待分类的不完全标注数据输入所述神经网络的最优网络结构,得到待分类的不完全标注数据对应的所有标签类别向量。
[0030]进一步,所述聚类模块用于:
[0031]对所述训练好的神经网络中间层的输出进行聚类,得到每一个训练数据向量对应的马氏距离;
[0032]基于所述马氏距离计算每一个训练数据向量的类别相似度;
[0033]判断所述类别相似度是否满足终止条件,若是,结束训练,所述训练好的神经网络即为神经网络的最优网络结构;若否,更新标签类别向量,并基于训练数据向量及更新后的
标签类别向量重新训练神经网络的参数,直至训练数据向量的类别相似度满足终止条件,得到神经网络的最优网络结构。
[0034]进一步,所述聚类模块根据GMM聚类方法得到每一个训练数据向量对应的马氏距离。
[0035]进一步,所述类别相似度的计算公式为:
[0036][0037]式中,表示类别相似度,表示训练数据向量对应的马氏距离,j∈[1,n],其中,n为训练数据的个数,i∈[1,m],m表示训练数据的类别数。
[0038]与现有技术相比,本专利技术至少可实现如下有益效果之一:
[0039]1、一种不完全标注数据的多标签分类处理方法,通过训练数据集对神经网络进行训练,得到训练好的神经网络,接着基于GMM聚类方法对训练好的神经网络的中间层的输出进行聚类,得到训练数据向量对应的马氏距离,并依据马氏距离计算类别相似度,并判断该类别相似度是否满足终止条件,满足时训练好的神经网络即为神经网络的最优网络结构,不满足终止条件时,更新标签类别向量,并利用训练数据向量和更新后的标签类别向量重新训练神经网络,直至类别相似度满足终止条件,对应得到神经网络的最优网络结构,最后将待分类的不完全标注数据输入神经网络的最优网络结构,得到待分类的不完全标注数据对应的所有标签类别向量,简单易行,易于实施,实现了不完全标注数据的分类,具有较高的实用性。
[0040]2、通过获得训练数据集,为后期进行神经网络的训练提供了技术支撑和依据,同时,为后期更新标签类别向量提供便利。
[0041]3、通过GMM聚类方法对神经网络中间层的输出进行聚类,以得到马氏距离,并依据马氏距离计算类别相似度,最后根据类别相似度是否满足终止条件判断是否终止训练,以得到神经网络的最优网络结构,方法新颖,易于实施,同时,采用神经网络提高了标签分类的精确度。
[0042]本专利技术中,上述各技术方案之间还可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种不完全标注数据的多标签分类处理方法,其特征在于,包括下述步骤:获取训练数据集,所述训练数据集包括多个训练数据向量及其对应的标签类别向量;基于所述训练数据集对神经网络进行参数训练,得到训练好的神经网络;其中,所述神经网络包括输入层、中间层和输出层;对所述训练好的神经网络中间层的输出进行预处理,得到神经网络的最优网络结构;将待分类的不完全标注数据输入所述神经网络的最优网络结构,得到所述待分类的不完全标注数据对应的所有标签类别向量。2.根据权利要求1所述的不完全标注数据的多标签分类处理方法,其特征在于,对所述训练好的神经网络中间层的输出进行预处理,得到神经网络的最优网络结构,包括下述步骤:对所述训练好的神经网络中间层的输出进行聚类,得到每一个训练数据向量对应的马氏距离;基于所述马氏距离计算每一个训练数据向量的类别相似度;判断所述类别相似度是否满足终止条件,若是,结束训练,所述训练好的神经网络即为神经网络的最优网络结构;若否,更新标签类别向量,并基于训练数据向量及更新后的标签类别向量重新训练神经网络的参数,直至训练数据向量的类别相似度满足终止条件,得到神经网络的最优网络结构。3.根据权利要求2所述的不完全标注数据的多标签分类处理方法,其特征在于,基于GMM聚类方法对所述训练好的神经网络中间层的输出进行聚类,得到每一个训练数据向量对应的马氏距离。4.根据权利要求2所述的不完全标注数据的多标签分类处理方法,其特征在于,所述类别相似度的计算公式为:式中,表示类别相似度,表示训练数据向量对应的马氏距离,j∈[1,n],其中,n为训练数据的个数,i∈[1,m],m表示训练数据的类别数。5.根据权利要求4所述的不完全标注数据的多标签分类处理方法,其特征在于,所述终止条件的计算公式为:|y
j-s
j
|<τ式中,y
j
表示训练数据向量对应的标签类别向量,τ为给定阈值。6.根据权利要求5所述的不完全标注数据的多标签分类处理方法,其特征在于,所...

【专利技术属性】
技术研发人员:王础王佳佳陈浩侯健王凤敏王立霞李娜
申请(专利权)人:北京京航计算通讯研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1