基于深度可分离卷积和金字塔池化的视频语义分割方法技术

技术编号：39653204 阅读：8 留言：0更新日期：2023-12-09 11:21

本发明专利技术公布了一种基于深度可分离卷积和金字塔池化的视频语义分割方法

全部详细技术资料下载

【技术实现步骤摘要】
基于深度可分离卷积和金字塔池化的视频语义分割方法

[0001]本专利技术属于计算机视觉
，涉及图像处理技术，特别地涉及一种基于深度可分离卷积和金字塔池化模块的街景视频语义分割方法
。

技术介绍

[0002]视频语义分割算法某种意义上是对图像语义分割的更进一步研究，起初视频语义分割的研究者们对视频中的每一帧单独应用图像语义分割算法进行分割，显然这种方式并没有利用到视频帧之间的时序信息
。
由于视频语义分割标注数据稀缺等原因，目前尚未有有效的视频语义分割方法
。
[0003]现有的视频语义分割技术中，
Netwarp
利用相邻帧的光流结合
CNN
结构来提高分割精度
。
光流法是计算机视觉早期的常用方法，它是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法，总而言之光流能够在视频帧之间建立时间上的联系
。
在视频语义分割
中，还有诸多借助光流进行分割预测的算法
。
例如，
GRFP(Gated Recurrent Flow Propagation,
门控循环流传播
)
提出了一种深度的
、
端到端可训练的视频语义分割方法，该方法能够利用未标记数据中的信息来提高语义估计，结合了卷积架构和空间转换器循环层，能够通过光流的方式在时间上传播标记信息，根据其局部估...

【技术保护点】

【技术特征摘要】
1.
一种基于深度可分离卷积和金字塔池化的视频语义分割方法，其特征是，构建基于深度可分离卷积和金字塔池化模块的街景视频语义分割模型，通过对时序记忆注意力网络
TMANet
的结构进行改进，采用深度可分离卷积网络结构，且在模型的分割头之前加入金字塔池化模块，再通过模型训练和测试实现视频语义分割；包括如下步骤：
1)
制作数据集，包括：进行视频分帧和制作标注图像；通过视频分帧得到视频历史帧和查询帧；
2)
基于
TMANet
网络构建街景视频语义分割模型；采用深度可分离卷积网络结构，且在模型的分割头之前加入金字塔池化模块；模型包括：共享主干网
、
编码层
、
时序记忆注意力模块
、
金字塔池化模块；其中，共享主干网用于提取视频语义特征；编码层采用深度可分离卷积网络结构，用于对提取的视频语义特征进行通道缩减和特征提取；时序记忆注意力模块用于构建长时间上下文信息；金字塔池化模块用于对与长时间上下文信息相聚合后的特征进一步提取视频图像上下文特征和全局特征；并通过分割头输出当前帧的分割结果；
21)
通过共享主干网提取特征的过程包括：将一个包含
T
帧的历史帧序列和一个包含单个帧
X∈R3×
H
×
W
的查询帧沿着时间维度连接，得到一个新的历史帧特征
M∈R
T
×3×
H
×
W
；将新的历史帧特征输入到共享主干网络；在第一阶段
Stage1
，对输入数据进行预处理：先经过共享主干网的卷积操作；再通过共享主干网的
BN
批处理归一化层进行批处理归一化；最后，通过共享主干网的激活函数和最大池化操作得到第一阶段的输出；在第二阶段
Stage2
～第五阶段
Stage5
，分别通过叠加多个共享主干网的瓶颈层结构，对前一阶段的输出数据进行特征提取，包括对数据进行降维
、
卷积和升维，得到当前阶段的输出；
22)
通过编码层进行编码的过程包括：编码层的深度可分离卷积将标准卷积分解为深度卷积和点卷积即1×1卷积，将通道和空间区域分开，对不同的输入通道采取不同的卷积核进行卷积；首先通过深度卷积在每个通道上独立地进行空间卷积，产生与输入特征图数量相等的输出特征图；再通过点卷积将深度卷积的输出特征图按通道投影到一个新的特征图上；新的特征图包括历史帧和查询帧的键特征和值特征；
23)
通过时序记忆注意力模块构建长时间上下文信息的过程包括：时序记忆记忆力模块获得
T
个通过编码层编码的历史帧的键特征和值特征，将
T
个历史帧在时间维度上拼接生成一个四维的矩阵；并通过一个
softmax
层计算得到时序记忆注意力
S∈R
N
×
M
；其中，
N
为查询帧中的像素数；
M
为历史帧中的像素数；
24)
通过金字塔池化模块提取视频图像上下文特征和全局特征，即通过不同的感受野形成四个不同的金字塔层级特征，然后进行双线性插值上采样与特征拼接，形成全局特征；最后通过基于深度可分离卷积和金字塔池化模块的街景视频语义分割模型的分割头输出当前帧的最终分割结果；
3)
训练视频语义分割模型；包括：
31)
将训练集中的视频帧
{Q
n
(i,j)}
和对应的标注图像作为输入图像，输入到所构建的街景视频语义分割模型中进行训练，得到训练集中的每帧的街景视频图片对应的街景视频
语义分割的预测图，将
{Q
n
(i,j)}
对应的语义分割预测图构成的集合记为
32)
计算得到语义分割预测图构成的集合与对应的真实语义分割图像处理成的独热编码图像集合之间的损失函数值，记为
33)
重复执行步骤
31)
和步骤
32)L
次，训练模型共得到
L
×
N
个损失函数值；从
L
×
N
个损失函数值中找出值最小的损失函数值；将值最小的损失函数值对应的权值矢量和偏置项作为模型训练对应的最优权值矢量和最优偏置项，分别记为
W
best
和
b
best
；即完成模型训练，得到训练好的街景视频语义分割神经网络模型；
4)
对于待进行语义分割的视频，利用训练好的街景视频语义分割神经网络模型进行测试，输出视频语义分割结果；由此实现基于深度可分离卷积和金字塔池化模块的街景视频语义分割
。2.
如权利要求1所述基于深度可分离卷积和金字塔池化的视频语义分割方法，其特征是，步骤
1)
中，具体是采用
ffmpeg
视频处理工具进行进行视频分帧；采取四种分帧帧率，分别为：1帧
/s、2
帧
/s、3
帧
/s、4
帧
/s
；制作标注图像时，具体是将街景图像中的建筑物
、
植被
、
道路
、
天空
、
车辆作为标注对象类别进行视频语义分割
。3.
如权利要求1所述基于深度可分离卷积和金字塔池化的视频语义分割方法，其特征是，共享主干网络具体是采用...

【专利技术属性】
技术研发人员：张珣，张鑫，张佳亮，王福玲，阿布都热依木，
申请(专利权)人：和田师范专科学校，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人