一种不完全标注数据的多标签分类处理方法及装置制造方法及图纸

技术编号：27506730 阅读：14 留言：0更新日期：2021-03-02 18:34

本发明专利技术涉及一种不完全标注数据的多标签分类处理方法及装置，属于数据分类技术领域，解决了现有的多标签分类方法对具有数据重合标签分类的实用性较低的问题。方法包括：获取训练数据集；基于训练数据集对神经网络进行参数训练，得到训练好的神经网络；对训练好的神经网络中间层的输出进行预处理，得到神经网络的最优网络结构；将待分类的不完全标注数据输入神经网络的最优网络结构，得到待分类的不完全标注数据对应的所有标签类别向量。实现了不完全标注数据的多标签分类，提高了数据标签分类的精确度，具有较高的实用性。具有较高的实用性。具有较高的实用性。

全部详细技术资料下载

【技术实现步骤摘要】
一种不完全标注数据的多标签分类处理方法及装置

[0001]本专利技术涉及数据分类
，尤其涉及一种不完全标注数据的多标签分类处理方法及装置。

技术介绍

[0002]传统的数据分类问题中，各个类别的数据具有较为显著的类别特征，不同类别之间没有重合度，即同一个数据不能同时具有两个类别的特征。因此在理论上存在分类超曲面，使得不同类别的数据分别分布在被分类超曲面分割的不同区域中。
[0003]在某些应用领域中，由于具体场景和数据标识的方法，导致不同类别的数据具有一定的重合度，不同类别的数据分布既存在公共部分，又具有类别独有的数据。例如在网络安全领域，不同IP地址接收的流量数据代表用户的行为分布，由于用户的业务具有独特性，不同业务的用户会产生不同的流量分布。这些用户在终端中会产生一些公共操作。在采集用户数据的过程中，采集特定IP地址的数据会产生自动的标签，即该IP地址的用户，如果将用户作为类别，通过用户产生的流量数据对用户进行识别是分类问题，一些用户由于相同的用户行为而导致不同IP地址(不同类别)的流量数据具有重合度。
[0004]传统的分类方法无法鉴别不同类别的公共部分，所以传统的多标签分类方法对具有数据重合的标签分类的实用性较低。

技术实现思路

[0005]鉴于上述的分析，本专利技术实施例旨在提供一种不完全标注数据的多标签分类处理方法及装置，用以解决现有的多标签分类方法对具有数据重合的标签分类的实用性较低的问题。
[0006]一方面，本专利技术实施例提供了一种不完全标注数据的多标...

【技术保护点】

【技术特征摘要】
1.一种不完全标注数据的多标签分类处理方法，其特征在于，包括下述步骤：获取训练数据集，所述训练数据集包括多个训练数据向量及其对应的标签类别向量；基于所述训练数据集对神经网络进行参数训练，得到训练好的神经网络；其中，所述神经网络包括输入层、中间层和输出层；对所述训练好的神经网络中间层的输出进行预处理，得到神经网络的最优网络结构；将待分类的不完全标注数据输入所述神经网络的最优网络结构，得到所述待分类的不完全标注数据对应的所有标签类别向量。2.根据权利要求1所述的不完全标注数据的多标签分类处理方法，其特征在于，对所述训练好的神经网络中间层的输出进行预处理，得到神经网络的最优网络结构，包括下述步骤：对所述训练好的神经网络中间层的输出进行聚类，得到每一个训练数据向量对应的马氏距离；基于所述马氏距离计算每一个训练数据向量的类别相似度；判断所述类别相似度是否满足终止条件，若是，结束训练，所述训练好的神经网络即为神经网络的最优网络结构；若否，更新标签类别向量，并基于训练数据向量及更新后的标签类别向量重新训练神经网络的参数，直至训练数据向量的类别相似度满足终止条件，得到神经网络的最优网络结构。3.根据权利要求2所述的不完全标注数据的多标签分类处理方法，其特征在于，基于GMM聚类方法对所述训练好的神经网络中间层的输出进行聚类，得到每一个训练数据向量对应的马氏距离。4.根据权利要求2所述的不完全标注数据的多标签分类处理方法，其特征在于，所述类别相似度的计算公式为：式中，表示类别相似度，表示训练数据向量对应的马氏距离，j∈[1，n]，其中，n为训练数据的个数，i∈[1,m]，m表示训练数据的类别数。5.根据权利要求4所述的不完全标注数据的多标签分类处理方法，其特征在于，所述终止条件的计算公式为：|y
j-s
j
|＜τ式中，y
j
表示训练数据向量对应的标签类别向量，τ为给定阈值。6.根据权利要求5所述的不完全标注数据的多标签分类处理方法，其特征在于，所...

【专利技术属性】
技术研发人员：王础，王佳佳，陈浩，侯健，王凤敏，王立霞，李娜，
申请(专利权)人：北京京航计算通讯研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人