基于视图位置信息的多视图多标签分类方法技术

技术编号：38241069 阅读：7 留言：0更新日期：2023-07-25 18:04

本发明专利技术公开了一种基于视图位置信息的多视图多标签分类方法，包括以下步骤：(1)在公共特征提取层通过最小化对抗损失和多标签损失提取视图共享特征；(2)在特有特征提取层通过对(1)提取的共享特征进行正交约束得到视图特有特征；(3)将视图共享特征和特有特征根据维度结合，再加入位置信息编码成为新的特征空间；(4)对进行自注意力学习，得到带有视图位置信息的特征空间；(5)将(4)结果放入全连接层，得到预测结果y。本发明专利技术可以有效进行多视图多标签分类，满足图片分类、视频注释等多种应用的需求。的需求。的需求。

全部详细技术资料下载

【技术实现步骤摘要】
基于视图位置信息的多视图多标签分类方法

[0001]本专利技术属于多视图多标签分类领域，更确切地说，涉及一种基于视图位置信息的多视图多标签分类方法。

技术介绍

[0002]在多视图多标签学习中，每个实例可以与一组标签相关联，这些实例由不同视图的特征共同表示。在许多现实应用中，一个对象具有多个标签，传统的多标签学习基于单一的数据结构进行学习。事实上，随着数据类型的不断增多，多视图数据逐渐成为主流数据类型之一，在视频监控、娱乐媒体等领域呈爆炸式增长。因此，为了更好解决现实场景中更为复杂的分类问题，出现了多视图多标签学习。
[0003]现有的多视图多标签学习方法通过子空间学习利用视图的共享信息和视图特定信息。然而，在特征提取过程中，往往忽略了特征的位置信息，没有指定特征来自的具体视图。

技术实现思路

[0004]本专利技术所要解决的技术问题在于通过添加视图位置信息优化多视图多标签分类结果。
[0005]本专利技术的多视图多标签分类方法，包括以下几个步骤：
[0006](1)通过最小化对抗损失l
adv
和共享子空间的多标签损失l
cml
提取视图共享特征c；
[0007](2)将提取出的视图共享特征c进行正交约束获取视图特有特征；
[0008](3)将视图公共特征与特有特征根据维度结合，添加可学习的位置编码形成协同特征P，P＝[p1,p2,...,p
M
,C]+E
POS
，其中E
POS/>为位置编码；
[0009](4)为协同特征后进行自注意力学习，得到带有视图位置信息以及自注意分配完成的特征空间P
final
；
[0010](5)将所述最终特征空间与标签空间放入全连接层，获得最终预测结果
[0011]所述的步骤(1)具体计算过程如下：
[0012]l
common
＝l
adv
+l
cml
[0013][0014][0015]其中，τ(
·
)＝e
‑
x
，s
i
为的M维视图标签向量，其中为1，其他为0，表示的视图来源，y为真实标签，为预测标签，n为样1本数量，M为视图数量，q为标签数量。
[0016]所述的步骤(2)具体计算过程如下：
[0017][0018]其中为包含所有视图的公共信息的k维特征向量,p
m
表示第m个视图的特征空间经过特有特征提取层w(
·
)后的k维特征。
[0019]本专利技术采用Adam作为优化方法，总损失函数可以表示为：
[0020]L＝l
ml
+λl
cml
+γl
special
[0021]其中，控制最终模型的多标签损失，λ、γ为超参数。
[0022]所述的步骤(4)具体计算过程如下：
[0023]将步骤(3)得到的协同特征P放入学习Transformer Encoder中进行学习，本专利Transformer encoder由多头自注意力(Multi
‑
headed Self
‑
attention，以下简称为MSA)和MLP两个模块构成。在MSA模块中，视图注意力权重的计算如下：
[0024][Q,K,V]＝PW
QKV
[0025][0026]SA(P)＝AV
[0027]其中d
K
是比例因子，本文使用自注意力机制，协同特征P与W
QKV
相乘分为三部分作为查询、键和值。在多头注意力机制中，查询、键和值通过线性映射被划分为多个部分，并赋予每个部分相应的注意力权重，本文将协同特征P分为8个部分，公式表示如下：
[0028]head
i
＝SA(P
i
)
[0029]MultiHead(P1,P2,...,P8)＝Concat(head1,head2,...,head8)W0[0030]其中head
i
表示第i个head的关注度，Concat(
·
)是将各个head的输出矩阵根据维度拼接得到新矩阵，再与W0矩阵相乘得到输出。
[0031]MLP模块包含了两层非线性GELU。
[0032]Transformer encoder整体可以被公式表示为：
[0033]P0＝P＝[p1,p2,...,p
M
,C]+E
POS
[0034]P
l
'＝MultiHead
l
‑1(P1,P2,...,P8)+P
l
‑1[0035]P
l
＝MLP(P'
l
)+P'
l
[0036][0037]本专利技术能够达到的有益效果如下：
[0038]现有的多视图多标签分类忽略了视图位置信息在分类过程中的作用，限制了多视图多标签分类领域的研究。本专利技术提出的方法在多视图多标签分类领域首次提出在特征中加入视图位置信息，改善了多视图多标签分类在图片标注、文本分类等现实领域出现的错标、漏标的情况，提高了分类性能。
附图说明
[0039]图1是本专利技术的基于视图位置信息的多视图多标签分类方法的流程图。
[0040]图2是图1中Transformer Encoder模块的具体流程示意图。
具体实施方式
[0041]为了使本专利技术的目的、技术方案及优点更加清楚明白，以下对本专利技术的具体实施方式进行进一步详细说明。
[0042]实施例一
[0043]如图1、图2可见，本实施例一具体过程如下：
[0044](1)输入多标签数据集，通过最小化对抗损失l
adv
和多标签损失l
cml
提取视图共享特征c，计算过程可以表示为：
[0045]l
common
＝l
adv
+l
cml
[0046][0047][0048]其中，τ(
·
)＝e
‑
x
，s
i
为的M维视图标签向量，其中为1，其他为0，表示的视图来源，y为真实标签，为预测标签，n为样本数量，M为视图数量，q为标签数量。
[0049](2)将提取出的视图共享特征c进行正交约束获取视图特有特征，可以表示为：
[0050]其中为包含所有视图的公共信息的k维特征向量,p
m
表示第m个视图的特征空间经过特有特征提取层w(
·
)后的k维特征。
[0051](3)将视图公共特征与特有特征根据维度结合，添加可学习的位置编码形成协同特征P，P＝[p1,p2,...,p
M
,C]+E
...

【技术保护点】

【技术特征摘要】
1.一种基于视图位置信息的多视图多标签分类方法，包括以下步骤：(1)在多视图多标签数据集中，通过最小化对抗损失l
adv
和共享子空间的多标签损失l
cml
提取视图共享特征c；所述多视图多标签数据集由数据集中全部样本对应的多个视图的特征空间和标签空间组成，所述数据集类型包括但不限于生物、音乐和图像；(2)将提取出的视图共享特征c进行正交约束获取视图特有特征；(3)将视图公共特征与特有特征根据维度结合，再加入位置信息编码得到协同特征P，所述位置信息是指特征具体来源的视图位置；(4)对P进行自注意力学习和位置编码学习，得到带有视图位置信息以及自注意分配完成的特征空间P
final
；(5)将所述特征空间P
final
与标签空间放入全连接层，获得最终预测结果2.如权利要求1所述的基于视图位置信息的多视图多标签分类方法，其特征在于：所述步骤(3)位置信息编码添加过程包括：P＝[p1,p2,...,p
M
,C]+E
POS
其中E
POS
为位置编码，得到的嵌入矢量矩阵命名为协同特征，用作编码器的输入；添加视图位置编码为1
‑
D位置编码；位置编码维度与共享特征与特有特征根据维度结合后的特征空间维度相同。3.如权利要求1所述的基于视图位置信息的多视图多标签分类方法，其特征在于：所述步骤(4)注意力分配过程包括：协同特征P作为输入进入Transformer enco...

【专利技术属性】
技术研发人员：程玉胜，王佳宝，吴海峰，王一宾，程一飞，余钟萍，孙鸿飞，
申请(专利权)人：程玉胜，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人