利用多频动态空洞卷积的视频语义分割方法技术

技术编号：30431143 阅读：43 留言：0更新日期：2021-10-24 17:23

本发明专利技术公开了利用多频动态空洞卷积的视频语义分割方法。本发明专利技术方法首先对视频数据的采样帧图像进行增强处理，并通过编码器提取浅层视觉特征图；然后构建特征频率分离模块获得视频帧对应的多频特征图，并将其输入动态空洞卷积模块，得到对应的多频高层语义特征图，再通过上采样卷积编码器获得视频帧的分割掩膜；利用随机梯度下降算法迭代训练模型直至收敛，将新视频输入模型得到语义分割结果。本发明专利技术方法对视频帧的特征图按不同频率分离以刻画不同视觉区域变化，能够减少低频视觉空间冗余信息、降低计算复杂度，通过动态空洞卷积自适应地扩大多频特征图的感受野，提升对视频不同语义类的判别能力，从而获得更优视频语义分割结果。果。果。

全部详细技术资料下载

【技术实现步骤摘要】
利用多频动态空洞卷积的视频语义分割方法

[0001]本专利技术属于计算机视觉
，尤其是视频处理中的语义分割领域，涉及一种利用多频动态空洞卷积的视频语义分割方法。

技术介绍

[0002]随着各类车辆的与日俱增，驾驶安全成为政府和民众非常关心的方面。一般来说，连续驾驶较长时间会使人疲劳注意力分散，同时大型车辆的驾驶员容易存在视觉盲区，给驾驶安全带来极大隐患。近年来，自动驾驶技术引起业界对自动驾驶技术的浓厚兴趣，越来越多的研究力量被投入到这一领域。高效的视觉理解能为自动驾驶的安全提供保障，视频语义分割是其核心技术之一。视频语义分割旨在对存在时序关联的视频帧进行像素级别的类别标记，得到与原始视频帧同等尺寸的逐像素类别掩膜矩阵，可广泛应用在机器视觉、视频监控、无人机侦察、自动驾驶等领域。例如，在自动驾驶环境中，对车辆视觉场景中的道路、行人或其他车辆等物体进行像素级分割，能够获得比边界框更为精确的物体区域信息，从而为自动驾驶系统提供更为准确的视觉感知内容，有利于规避行人、车辆等障碍物并确保司乘安全。目前，视频语义分割领域的主要挑战包括模型的计算复杂度高、处理高分辨率视频帧耗时长、模型难以部署在实时环境中。
[0003]传统语义分割方法主要分为阈值、边缘、超像素聚类等几类。其中，阈值分割方法将图像每个像素点的灰度值与阈值比较，灰度值大于阈值的像素被判断成前景，其他为背景，但只适用灰度图像；边缘分割方法先对图像进行边缘检测，同一边缘内的像素代表同一物体，缺点是分割精度受限于边缘检测算法；超像素聚类方法将近似的超像素块聚...

【技术保护点】

【技术特征摘要】
1.利用多频动态空洞卷积的视频语义分割方法，其特征在于，该方法首先获取视频数据集合，然后进行如下操作：步骤(1)对视频采样获得视频帧，并进行增强操作，然后输入至编码器，即深度卷积神经网络，获得对应的浅层视觉特征图；步骤(2)构建特征频率分离模块，输入为浅层视觉特征图，输出多频特征图；步骤(3)构建动态空洞卷积模块，输入为多频特征图，输出多频高层语义特征图；步骤(4)将多频高层语义特征图输入解码器即上采样卷积模块，获得视频帧的分割掩膜；步骤(5)迭代训练由编码器、特征频率分离模块、动态空洞卷积模块、解码器组成的视频语义分割模型直至收敛，然后将新视频输入至该模型得到对应的语义分割结果。2.如权利要求1所述的利用多频动态空洞卷积的视频语义分割方法，其特征在于，步骤(1)具体是：(1
‑
1)对单个视频进行均匀采样获得视频帧，采样率为10～15帧/秒，并对其进行增强操作得到数量为N的视频帧序列I，记为其中I
i
表示第i个视频帧，表示实数域，3表示RGB通道数量，H表示视频帧高度，W表示视频帧宽度；(1
‑
2)利用大型图像库ImageNet上预训练的卷积神经网络ResNet对视频帧序列I依次提取浅层视觉特征图C
f
表示特征图的通道数，H
f
表示特征图高度，W
f
表示特征图宽度；ResNet具有多个由卷积层组成的模块，f
i
为第i个视频帧经过RestNet前三个由多个卷积层组成的模块得到的特征图。3.如权利要求2所述的利用多频动态空洞卷积的视频语义分割方法，其特征在于，步骤(2)具体是：(2
‑
1)构建特征频率分离模块，利用图像具有频率可分离的特点，对浅层视觉特征图进行三次高低频特征分离操作获得多频特征图；其中，高频特征刻画特征图的轮廓区域，低频特征刻画特征图的平面区域，中频特征刻画特征图的内容区域；(2
‑
2)高低频特征分离的具体操作如下：首先对浅层视觉特征图f
i
做快速傅里叶变换，将空域信号转换为频域信号得到f
i
的频谱图将中低频信号部分平移到中间得到平移频谱图确定的中心位置向量(P,Q)；其中，通道中心点的横坐标值组成的向量纵坐标值组成的向量下标r表示的通道索引；然后将中每个元素与低频转移函数H
l
(u
r,a
,,v
r,b
)作乘法运算得到低频平移频谱图高斯低通滤波器的转移函数l表示低频信号，a表示像素点横轴坐标值，b表示像素点纵轴坐标值，{0≤a≤H
f
,0≤b≤W
f
}，exp(
·
)表示指数函数，D0是设定的标准差；其中，表示中第r个通道
像素点(a,b)距离坐标点(P
r
,Q
r
)的欧式距离,u
r,a
是中第r个通道频谱位置(a,0)距离P
r
的欧式距离，v
r,b
是中第r个通道频谱位置(0,b)距离Q
r
的欧式距离；同理，将中每个元素与高频转移函数H
h
(u
r,a
,,v
r,b
)作乘法运算得到高频平移频谱图其中h表示高频信号，分别将频谱图与中的低频信号从中间平移回到原始位置，得到低频频谱图和高频频谱图最后将和分别做快速傅里叶逆变换将频域信号转换为空域信号，得到弱低频特征图和弱高频特征图(2
‑
3)按照(2
‑
2)，对弱高频特征图进行第二次高低频特征分离操作，得到强高频特征图和中高频特征图hh表示特征图经过两次高...

【专利技术属性】
技术研发人员：李平，陈俊杰，王然，徐向华，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人