基于深度可分离卷积和金字塔池化的视频语义分割方法技术

技术编号:39653204 阅读:8 留言:0更新日期:2023-12-09 11:21
本发明专利技术公布了一种基于深度可分离卷积和金字塔池化的视频语义分割方法

【技术实现步骤摘要】
基于深度可分离卷积和金字塔池化的视频语义分割方法


[0001]本专利技术属于计算机视觉
,涉及图像处理技术,特别地涉及一种基于深度可分离卷积和金字塔池化模块的街景视频语义分割方法


技术介绍

[0002]视频语义分割算法某种意义上是对图像语义分割的更进一步研究,起初视频语义分割的研究者们对视频中的每一帧单独应用图像语义分割算法进行分割,显然这种方式并没有利用到视频帧之间的时序信息

由于视频语义分割标注数据稀缺等原因,目前尚未有有效的视频语义分割方法

[0003]现有的视频语义分割技术中,
Netwarp
利用相邻帧的光流结合
CNN
结构来提高分割精度

光流法是计算机视觉早期的常用方法,它是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法,总而言之光流能够在视频帧之间建立时间上的联系

在视频语义分割
中,还有诸多借助光流进行分割预测的算法

例如,
GRFP(Gated Recurrent Flow Propagation,
门控循环流传播
)
提出了一种深度的

端到端可训练的视频语义分割方法,该方法能够利用未标记数据中的信息来提高语义估计,结合了卷积架构和空间转换器循环层,能够通过光流的方式在时间上传播标记信息,根据其局部估计的不确定性自适应控制
。EFC(Every Frame Counts,
每帧计数
)
提出了一种联合视频语义分割和光流估计的新框架

这种框架能够同时保证光流估计的稳定性和分割的时间一致性,充分利用语义信息和邻近帧信息,一定程度上提高了分割的精度

但光流有难以避免的缺点,一是分割结果过于依赖光流预测的质量;二是光流的引入在增加模型复杂度的同时增加了计算负载,给原本就复杂的视频语义分割模型带来了沉重的负担
。TMANet(Temporal Memory Attention Network,
时序记忆注意力网络
)
通过时间注意力编码结构构建长期时间上下文信息,提升模型的精度

但这些模型较少考虑到模型效率和全局信息特征提取的问题

因此,现有的视频语义分割技术存在分割精度不足和模型运算量大的问题


技术实现思路

[0004]为了克服上述现有技术存在的不足,本专利技术提供一种基于深度可分离卷积和金字塔池化的视频语义分割方法,构建街景视频语义分割深层神经网络模型,使该网络模型在分割街景视频时在保证提取到时序信息的同时关注到每帧图像的上下文关系和全局特征,并减少一定的计算量,从而解决了街景视频语义分割时分割精度不足和模型运算量大的问题,使街景视频处理精度更高,提升视频语义分割效果

[0005]本专利技术为解决上述技术问题采用以下技术方案:
[0006]一种基于深度可分离卷积和金字塔池化模块的街景视频语义分割方法,通过对时序记忆注意力网络
TMANet
的结构进行改进,构建基于深度可分离卷积和金字塔池化模块的街景视频语义分割模型,采用深度可分离卷积网络结构,且在模型的分割头之前加入了金
字塔池化模块,即在
TMANet
的编码层加入深度可分离卷积和分割头之前添加金字塔池化模块,实现视频语义分割,包括训练阶段和测试阶段两个过程

包括如下步骤:
[0007]1)
数据集制作:
[0008]视频语义分割模型需要原始图片和带有标签的图像作为输入进行模型的训练

由于原始数据集不满足模型输入的要求,本方法要先进行数据集的制作

主要分为视频分帧和标注图片的制作两步:
[0009]1_1)
视频分帧
[0010]通过
AR

PE
等视频处理软件可以进行视频分帧,但其分帧速度过慢,本专利技术具体实施时,采用
ffmpeg
视频处理工具进行视频分帧

原始视频的帧率为
60
帧每秒
(fps

60)
,帧率越高,所提取的时间信息越细致,但同时也意味着数据量的成倍增大,权衡设备限制与效果后,本专利技术采取四种分帧帧率,分别为:1帧
/s、2

/s、3

/s、4

/s。
[0011]1_2)
标注图像的制作
[0012]视频语义分割模型会需要大量的图片,而对每一张图片都进行标注,会费时费力,目前视频语义分割的主流做法是采取固定间隔标注的方法

参考公共数据集
cityscapes
的视频数据制作标准,对自制数据集每隔三十帧标注一帧

[0013]在标注类别的选择上,本专利技术以城市街景为切入点,将建筑物

植被

道路

天空

车辆五类作为标注对象用来进行视频语义分割

详细标注过程为:首先用
labelme
生成
json
格式的标签数据,然后生成相应的
mask
掩码,再转换成灰度图用来训练

[0014]2)
基于
TMANet
网络构建街景视频语义分割模型;包括:共享主干网

编码层

时序记忆注意力模块

金字塔池化模块;模型还包括深度可分离卷积和分割头;其中,共享主干网用于提取街景视频语义特征;编码层用于对提取的街景视频语义特征进行通道缩减和特征提取;时序记忆注意力模块用于构建长时间上下文信息;金字塔池化模块用于进一步提取图像上下文特征和全局特征;
[0015]步骤
1、

N
个历史帧
(
待分割视频帧的前几帧,或称内存帧
)
与查询帧
(
待分割视频帧
)
输入到所构建街景视频语义分割模型的共享主干网中提取得到视频帧
(
历史帧和查询帧
)
特征;
[0016]步骤
2、
编码层编码

由于共享主干网的输出特征维度较高,会使模型参数量倍增对后续模型计算产生不利影响,所以接着将提取到的视频帧特征送入编码层
(Encoding Layers)
进行通道缩减和特征提取,可得到视频帧
(
历史帧和查询帧
)
的值特征和键特征
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于深度可分离卷积和金字塔池化的视频语义分割方法,其特征是,构建基于深度可分离卷积和金字塔池化模块的街景视频语义分割模型,通过对时序记忆注意力网络
TMANet
的结构进行改进,采用深度可分离卷积网络结构,且在模型的分割头之前加入金字塔池化模块,再通过模型训练和测试实现视频语义分割;包括如下步骤:
1)
制作数据集,包括:进行视频分帧和制作标注图像;通过视频分帧得到视频历史帧和查询帧;
2)
基于
TMANet
网络构建街景视频语义分割模型;采用深度可分离卷积网络结构,且在模型的分割头之前加入金字塔池化模块;模型包括:共享主干网

编码层

时序记忆注意力模块

金字塔池化模块;其中,共享主干网用于提取视频语义特征;编码层采用深度可分离卷积网络结构,用于对提取的视频语义特征进行通道缩减和特征提取;时序记忆注意力模块用于构建长时间上下文信息;金字塔池化模块用于对与长时间上下文信息相聚合后的特征进一步提取视频图像上下文特征和全局特征;并通过分割头输出当前帧的分割结果;
21)
通过共享主干网提取特征的过程包括:将一个包含
T
帧的历史帧序列和一个包含单个帧
X∈R3×
H
×
W
的查询帧沿着时间维度连接,得到一个新的历史帧特征
M∈R
T
×3×
H
×
W
;将新的历史帧特征输入到共享主干网络;在第一阶段
Stage1
,对输入数据进行预处理:先经过共享主干网的卷积操作;再通过共享主干网的
BN
批处理归一化层进行批处理归一化;最后,通过共享主干网的激活函数和最大池化操作得到第一阶段的输出;在第二阶段
Stage2
~第五阶段
Stage5
,分别通过叠加多个共享主干网的瓶颈层结构,对前一阶段的输出数据进行特征提取,包括对数据进行降维

卷积和升维,得到当前阶段的输出;
22)
通过编码层进行编码的过程包括:编码层的深度可分离卷积将标准卷积分解为深度卷积和点卷积即1×1卷积,将通道和空间区域分开,对不同的输入通道采取不同的卷积核进行卷积;首先通过深度卷积在每个通道上独立地进行空间卷积,产生与输入特征图数量相等的输出特征图;再通过点卷积将深度卷积的输出特征图按通道投影到一个新的特征图上;新的特征图包括历史帧和查询帧的键特征和值特征;
23)
通过时序记忆注意力模块构建长时间上下文信息的过程包括:时序记忆记忆力模块获得
T
个通过编码层编码的历史帧的键特征和值特征,将
T
个历史帧在时间维度上拼接生成一个四维的矩阵;并通过一个
softmax
层计算得到时序记忆注意力
S∈R
N
×
M
;其中,
N
为查询帧中的像素数;
M
为历史帧中的像素数;
24)
通过金字塔池化模块提取视频图像上下文特征和全局特征,即通过不同的感受野形成四个不同的金字塔层级特征,然后进行双线性插值上采样与特征拼接,形成全局特征;最后通过基于深度可分离卷积和金字塔池化模块的街景视频语义分割模型的分割头输出当前帧的最终分割结果;
3)
训练视频语义分割模型;包括:
31)
将训练集中的视频帧
{Q
n
(i,j)}
和对应的标注图像作为输入图像,输入到所构建的街景视频语义分割模型中进行训练,得到训练集中的每帧的街景视频图片对应的街景视频
语义分割的预测图,将
{Q
n
(i,j)}
对应的语义分割预测图构成的集合记为
32)
计算得到语义分割预测图构成的集合与对应的真实语义分割图像处理成的独热编码图像集合之间的损失函数值,记为
33)
重复执行步骤
31)
和步骤
32)L
次,训练模型共得到
L
×
N
个损失函数值;从
L
×
N
个损失函数值中找出值最小的损失函数值;将值最小的损失函数值对应的权值矢量和偏置项作为模型训练对应的最优权值矢量和最优偏置项,分别记为
W
best

b
best
;即完成模型训练,得到训练好的街景视频语义分割神经网络模型;
4)
对于待进行语义分割的视频,利用训练好的街景视频语义分割神经网络模型进行测试,输出视频语义分割结果;由此实现基于深度可分离卷积和金字塔池化模块的街景视频语义分割
。2.
如权利要求1所述基于深度可分离卷积和金字塔池化的视频语义分割方法,其特征是,步骤
1)
中,具体是采用
ffmpeg
视频处理工具进行进行视频分帧;采取四种分帧帧率,分别为:1帧
/s、2

/s、3

/s、4

/s
;制作标注图像时,具体是将街景图像中的建筑物

植被

道路

天空

车辆作为标注对象类别进行视频语义分割
。3.
如权利要求1所述基于深度可分离卷积和金字塔池化的视频语义分割方法,其特征是,共享主干网络具体是采用...

【专利技术属性】
技术研发人员:张珣张鑫张佳亮王福玲阿布都热依木
申请(专利权)人:和田师范专科学校
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1