【技术实现步骤摘要】
一种基于异构Transformer的无监督视频目标分割算法
[0001]本专利技术属于机器学习、语义分割、无监督视频目标分割领域,涉及特征提取网络Swin
‑
Transformer、语义分割解码器SegformerMLPHead、全局上下文网络GCNet和视觉Transformer等算法,具体为一种基于异构Transformer的无监督视频目标分割算法。
技术介绍
[0002]语义分割作为计算机视觉领域的基础任务之一,是理解复杂场景的核心技术。语义分割通常被定义为预测每个像素类别的任务,即像素所属的对象的类别。语义分割领域基于深度学习方法的首篇工作FCN首次使用全卷积神经网络和池化运算来提取具有深层语义信息的低分辨率特征。随后以DeepLab系列和PSPNet为代表的工作通过扩大神经网络的感受野来增强全局的空间信息从而得到更加精准的分割结果。之后的工作大多受非局部网络(Non
‑
localNetwork)的启发探究通过注意力机制捕获全局的语义上下文信息提升分割的性能。最近的工作将视觉Tra ...
【技术保护点】
【技术特征摘要】
1.一种基于异构Transformer的无监督视频目标分割算法,其特征在于,基于异构Transformer的无监督视频目标分割算法中包含上下文共享的Transformer模块和语义聚合
‑
回嵌的Transformer模块,以及基于两种模块所设计的异构Transformer网络架构:异构Transformer网络架构包含一个外观特征提取网络、一个运动特征提取网络、两个上下文共享的Transformer融合模块、两个语义聚合
‑
回嵌的Transformer融合模块和一个解码器,其中外观特征提取网络和运动特征提取网络均使用Swin
‑
Tiny,解码器使用Segformer中设计的基于全连接层的分割头;外观特征提取网络和运动特征提取网络分别提取四个阶段的外观特征和运动特征,并在每个阶段l用通道维度拼接外观特征和运动特征的方式得到初步的融合特征其中c
l
代表第l阶段的融合特征维度,w
l
和h
l
分别代表第l阶段的融合特征分辨率的宽和高,l∈{1,2,3,4};标准的视觉Transformer模块主要由一个残差结构的多头注意力计算模块和一个残差结构的前馈神经网络模块组成;上下文共享的Transformer融合模块通过全局上下文建模来简化标准视觉Transformer模块中的残差结构的多头注意力计算模块,为对所有的询问特征向量计算一个共享且独立于询问特征向量的权重图;全局上下文建模包含一个询问特征向量独立的空间注意力计算和通道注意力计算;具体而言,在得到浅层阶段l的融合特征后,l∈{1,2},浅层阶段l的融合特征同时作为全局上下文建模的询问特征向量,首先通过一个1
×
1卷积层和SoftMax函数生成一个单通道的注意力权重图这个单通道的注意力权重图通过浅层阶段l的融合特征X获得一个询问特征向量共享的加权表征为了进一步建模通道间的相关性,使用两组由1
×
1卷积层、批量归一化和ReLU函数组成的通道注意力模块对加权表征W
g
进行调优;在全局上下文建模后使用残差结构来聚合全局上下文...
【专利技术属性】
技术研发人员:王一帆,袁亦忱,卢湖川,王立君,
申请(专利权)人:大连理工大学宁波研究院大连维视科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。