一种基于异构Transformer的无监督视频目标分割算法制造技术

技术编号:36895226 阅读:11 留言:0更新日期:2023-03-15 22:25
一种基于异构Transformer的无监督视频目标分割算法,为无监督视频目标分割网络在外观运动特征融合的浅层和深层阶段设计两种不同的基于Transformer的融合策略,分别是全局上下文共享的Transformer和语义聚合

【技术实现步骤摘要】
一种基于异构Transformer的无监督视频目标分割算法


[0001]本专利技术属于机器学习、语义分割、无监督视频目标分割领域,涉及特征提取网络Swin

Transformer、语义分割解码器SegformerMLPHead、全局上下文网络GCNet和视觉Transformer等算法,具体为一种基于异构Transformer的无监督视频目标分割算法。

技术介绍

[0002]语义分割作为计算机视觉领域的基础任务之一,是理解复杂场景的核心技术。语义分割通常被定义为预测每个像素类别的任务,即像素所属的对象的类别。语义分割领域基于深度学习方法的首篇工作FCN首次使用全卷积神经网络和池化运算来提取具有深层语义信息的低分辨率特征。随后以DeepLab系列和PSPNet为代表的工作通过扩大神经网络的感受野来增强全局的空间信息从而得到更加精准的分割结果。之后的工作大多受非局部网络(Non

localNetwork)的启发探究通过注意力机制捕获全局的语义上下文信息提升分割的性能。最近的工作将视觉Transformer引入到语义分割领域并取得了巨大的成功。
[0003]作为语义分割任务的分支,无监督视频目标分割旨在发掘视频序列中最引人注目的物体,因此可以被定义为具有两个类别的视频语义分割问题。与主要依赖外观特征的静态图像分割不同,无监督视频目标分割进一步通过探索时序运动信息来获得可靠且具有时域一致性的分割结果。季葛鹏等人提出的FSNet(Full

duplex Strategy Network)和杨澍等人提出的AMCNet(Attentive Multi

Modality Collaboration Network)等主流方法主要采用手工设计的特征融合模块来聚合外观和运动信息并将所设计的融合模块无差别地应用到多阶段的特征融合过程中。虽然这些工作推动了无监督视频目标分割的进步和发展,但如何设计更适合无监督视频目标分割任务的多阶段外观运动特征融合的方法仍然是一个开放的问题。
[0004]最近,得益于强大的全局注意力建模能力和多模态融合的灵活性,视觉Transformer在很多计算机视觉任务上取得了巨大的突破。然而,这种优点还尚未在无监督视频目标分割领域得到充分的探索。本专利技术的基线方法是使用标准视觉Transformer模块作为外观运动特征的融合模块。初步的实验表明,对于每个特征融合阶段,将外观运动特征拼接在一起后直接送入标准的视觉Transformer模块可以取得最先进的性能,然而代价是计算量过大、推理耗时较长。因此如何在保持高准确率的前提下有效地降低计算成本是视觉Transformer在无监督视频目标分割领域能够成功应用的关键问题。

技术实现思路

[0005]为了解决上述问题,本专利技术设计了两种基于Transformer的模块,分别是上下文共享的Transformer模块和语义聚合

回嵌的Transformer模块。这两种模块均能在保持标准视觉Transformer精度的前提下大大降低计算成本,从而使视觉Transformer在无监督视频目标分割任务上能够更高效地应用。基于这两种模块,本专利技术提出了一种高性能、轻量化的异构Transformer网络架构来解决无监督的视频目标分割任务。
[0006]本专利技术的技术方案:
[0007]一种基于异构Transformer的无监督视频目标分割算法,包含上下文共享的Transformer模块和语义聚合

回嵌的Transformer模块,以及基于两种模块所设计的异构Transformer网络架构:
[0008]异构Transformer网络架构包含一个外观特征提取网络、一个运动特征提取网络、两个上下文共享的Transformer融合模块、两个语义聚合

回嵌的Transformer融合模块和一个解码器,其中两个特征提取网络均使用Swin

Tiny,解码器使用Segformer中设计的基于全连接层的分割头。两个特征提取网络分别提取到四个阶段的外观和运动特征,并在每个阶段l(l∈{1,2,3,4})用通道维度拼接外观和运动特征的方式得到初步的融合特征其中c
l
代表第l阶段的融合特征维度,w
l
和h
l
分别代表第l阶段的融合特征分辨率的宽和高。为方便表示,下面在指定特征融合阶段l后的公式中不再附带下标l。
[0009]标准的视觉Transformer模块由一个残差结构的多头注意力计算模块和一个残差结构的前馈神经网络模块组成。上下文共享的Transformer模块通过全局上下文建模来简化标准视觉Transformer模块中的多头注意力计算,为所有的询问特征向量(query)计算一个共享且独立于询问特征向量的权重图。全局上下文建模包含一个询问特征向量独立的空间注意力计算和通道注意力计算。具体而言,在得到浅层阶段l(l∈{1,2})的融合特征(同时作为全局上下文建模的询问特征向量)后,首先通过一个1
×
1卷积和SoftMax函数生成一个单通道的注意力权重图这个权重图通过加权融合特征X获得一个询问特征向量共享的加权表征为了进一步建模通道间的相关性,使用两组由1
×
1卷积、批量归一化和ReLU函数组成的通道注意力模块来对加权表征W
g
进行调优。在全局上下文建模后使用残差结构来聚合全局上下文信息和融合特征X。全局上下文建模的输出被送入标准视觉Transformer中的残差结构的前馈神经网络模块后得到最终的融合特征
[0010]虽然算法较为简单,但是上下文共享的Transformer模块在不影响高性能的前提下显著地加速了标准Transformer的推理速度(从3帧每秒提升到36帧每秒)。
[0011]语义聚合

回嵌的Transformer的核心思想是分别建模前景和背景的语义相关性并同时降低计算成本。该模块包含两条并行对称的分支来分别处理前景和背景的特征,每个分支主要包含了挑选询问特征向量(query)、键

值特征向量(key

value)软聚合、相关性建模计算和询问特征向量回嵌。其中,询问特征向量(query)、键

值特征向量(key

value)为标准视觉Transformer模块的输入。
[0012]对于从深层阶段l(l∈{3,4})的融合表征首先使用一个1
×
1卷积和Sigmoid函数生成一个单通道的特征向量选择热力图基于此热力图,属于前景的询问特征向量X
F
=X[H
i
≥F
th
]和属于背景的询问特征向量X
B
=X[H
i
<B
th
]被分别选中,其中F
th
和B...

【技术保护点】

【技术特征摘要】
1.一种基于异构Transformer的无监督视频目标分割算法,其特征在于,基于异构Transformer的无监督视频目标分割算法中包含上下文共享的Transformer模块和语义聚合

回嵌的Transformer模块,以及基于两种模块所设计的异构Transformer网络架构:异构Transformer网络架构包含一个外观特征提取网络、一个运动特征提取网络、两个上下文共享的Transformer融合模块、两个语义聚合

回嵌的Transformer融合模块和一个解码器,其中外观特征提取网络和运动特征提取网络均使用Swin

Tiny,解码器使用Segformer中设计的基于全连接层的分割头;外观特征提取网络和运动特征提取网络分别提取四个阶段的外观特征和运动特征,并在每个阶段l用通道维度拼接外观特征和运动特征的方式得到初步的融合特征其中c
l
代表第l阶段的融合特征维度,w
l
和h
l
分别代表第l阶段的融合特征分辨率的宽和高,l∈{1,2,3,4};标准的视觉Transformer模块主要由一个残差结构的多头注意力计算模块和一个残差结构的前馈神经网络模块组成;上下文共享的Transformer融合模块通过全局上下文建模来简化标准视觉Transformer模块中的残差结构的多头注意力计算模块,为对所有的询问特征向量计算一个共享且独立于询问特征向量的权重图;全局上下文建模包含一个询问特征向量独立的空间注意力计算和通道注意力计算;具体而言,在得到浅层阶段l的融合特征后,l∈{1,2},浅层阶段l的融合特征同时作为全局上下文建模的询问特征向量,首先通过一个1
×
1卷积层和SoftMax函数生成一个单通道的注意力权重图这个单通道的注意力权重图通过浅层阶段l的融合特征X获得一个询问特征向量共享的加权表征为了进一步建模通道间的相关性,使用两组由1
×
1卷积层、批量归一化和ReLU函数组成的通道注意力模块对加权表征W
g
进行调优;在全局上下文建模后使用残差结构来聚合全局上下文...

【专利技术属性】
技术研发人员:王一帆袁亦忱卢湖川王立君
申请(专利权)人:大连理工大学宁波研究院大连维视科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1