当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于Transformer的半监督视频目标分割方法技术

技术编号:33309723 阅读:44 留言:0更新日期:2022-05-06 12:21
本发明专利技术公开了一种基于Transformer的半监督视频目标分割方法,其实现方案为:1)获取数据集与分割标签;2)数据扩充与处理;3)构建分割模型;4)构建损失函数;5)训练分割模型;6)视频目标分割。本发明专利技术通过设计时空整合模块压缩时空信息,引入多尺度层生成跨尺度输入特征,构建双分支交叉注意力模块以兼顾目标信息的多个特征。本发明专利技术的方法能够在减少计算成本的同时,有效提高对小尺度目标和相似目标的分割精度。精度。

【技术实现步骤摘要】
一种基于Transformer的半监督视频目标分割方法


[0001]本专利技术涉及图像处理
,具体涉及一种基于Transformer的半监督视频目标分割方法。

技术介绍

[0002]视频对象分割是视频理解的重要前提,具有许多潜在的应用,例如视频检索、视频编辑、自动驾驶等。半监督视频目标分割的目的是,在给定视频第一帧分割目标(即分割标签)的前提下,将该目标从整个视频序列的其他帧中分割出来。
[0003]由于Transformer架构在图像分类、对象检测、语义分割、对象跟踪等计算机视觉任务上的强大性能,目前的许多研究都将其应用于视频目标分割。Transformer架构具有出色的长期依赖(Long

range dependency)建模能力,可以有效地挖掘给定视频中的时空信息,从而提高分割精度。然而,大多数基于Transformer的方法将存储池中所有帧的特征直接输入到多头注意力模块中,随着已分割帧的增多,这中做法计算成本高,而且经典的Transformer架构缺乏内在归纳偏置,对小尺度目标和相似目标的分割精度较差。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的半监督视频目标分割方法,其特征在于包括以下步骤:(1)获取数据集与分割标签:获取视频目标分割数据集和静态图像数据集及这两个数据集所对应的分割标签,将数据集中的每一张图像及对应的分割标签组成一个图像对;(2)数据扩充与处理,具体包括以下步骤:(2

a)对步骤(1)获取的静态图像数据集及对应的分割标签组成的每一个图像对进行归一化处理后,重复以下流程,得到每一个图像对对应的合成视频训练样本,合成视频训练样本的集合组成合成视频训练集:I.将图像对的短边缩小至w像素,长边则按与短边等比例缩小,将得到的图像对随机裁剪为h
×
w像素大小,其中w为裁剪后图像的宽,h为裁剪后图像的高,w、h都为正整数,其取值范围为[10,3000];II.对裁剪后的图像对依次应用随机缩放、随机水平翻转、随机颜色抖动和随机灰度转换,得到该图像对对应的增强图像对;III.重复流程II三次,得到该图像对对应的三个增强图像对,这三个增强图像对组成一个合成视频训练样本;(2

b)对步骤(1)获取的视频目标分割数据集中的每一个视频及对应的分割标签进行归一化处理后,重复以下流程,得到每一个视频对应的真实视频训练样本,真实视频训练样本的集合组成真实视频训练集:I.从视频及对应的分割标签中随机抽取三个图像对;II.将这三个图像对的短边缩小至w像素,长边则按等比例缩小,将得到的三个图像对随机裁剪为h
×
w像素大小,w、h的含义和取值与步骤(2

a)相同;III.对这三个图像对依次应用随机裁剪、颜色抖动和随机灰度转换,得到增强的三个图像对,这三个增强图像对组成一个真实视频训练样本;(3)构建分割模型,具体包括以下步骤:(3

a)构建查询编码器使用卷积神经网络作为查询编码器,待分割帧依次经过该编码器的前四层,其中第二层的输出为f
C2
,第三层的输出为f
C3
,第四层的输出为f
C
;(3

b)构建存储池将视频序列中的第1帧、第τ+1帧、第2τ+1帧、
……
、第Nτ+1帧及其对应的分割标签放入存储池中,其中τ为正整数,取值范围为[1,200],τ
C
为待分割帧的相对位置,符号表示向下取整;(3

c)构建存储编码器使用卷积神经网络作为存储编码器,存储池中的所有图像及其对应的分割标签经过该编码器后得到f
M
;(3

d)构建Transformer模块该模块由一个Transformer编码器和一个Transformer解码器组成;Transformer编码器包括一个时空整合模块、一个卷积层、一个多尺度层和一个自注意力模块;Transformer
解码器包括两个卷积层、一个多尺度层、一个自注意力模块和一个双分支交叉注意力模块,其中双分支交叉注意力模块由查询分支和存储分支组成,这两个分支的结构完全相同,都由一个多头注意力模块、两个残差与层归一化模块、一个全连接前馈网络组成,其中全连接前馈网络由两个线性层和一个ReLU激活层组成;Transformer编码器和Transformer解码器中的自注意力模块的结构完全相同,都是由一个多头注意力模块、一个残差与层归一化模块组成;所述的多头注意力模块结构相同;(3

e)构建分割解码器分割解码器由一个残差模块、两组上采样模块和一个预测卷积模块组成;其中残差模块由三个卷积层和两个Relu激活层组成,第一个上采样模块由四个卷积层、两个Relu激活层和一个双线性插值组成,第二个上采样模块由三个卷积层、两个Relu激活层和一个双线性插值组成,预测卷积模块由一个卷积层和一个双线性插值组成;(3

f)将步骤(3

a)得到的f
C
与步骤(3

c)得到的f
M
输入到步骤(3

d)构建的Transformer编码器的时空整合模块,得到f
M
',其具体计算过程为:f
M
'=f
M
·
softmax(c(ConvKey(f
M
),ConvKey(f
C
)))其中ConvKey(
·
)为键投影层,由一个卷积层组成,c(
·
)代表负平方欧几里得距离,softmax(
·
)表示激活函数;(3

g)将步骤(3

f)得到的f
M
'依次输入到Transformer编码器中的卷积层、多尺度层和自注意力模块,分别得到M1、M2和M3;将步骤(3

a)得到的f
C
依次输入到步骤(3

d)构建的Transformer解码器中的第一个卷积层、第二个卷积层、多尺度层和自注意力模块,分别得到C0、C1、C2和C3;将M3和C3输入到步骤(3

d)构建的Transformer解码器中的双分支交叉注意力模块中的查询分支,得到C4;将...

【专利技术属性】
技术研发人员:阳春华周玮赵于前张帆
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1