利用多频动态空洞卷积的视频语义分割方法技术

技术编号:30431143 阅读:43 留言:0更新日期:2021-10-24 17:23
本发明专利技术公开了利用多频动态空洞卷积的视频语义分割方法。本发明专利技术方法首先对视频数据的采样帧图像进行增强处理,并通过编码器提取浅层视觉特征图;然后构建特征频率分离模块获得视频帧对应的多频特征图,并将其输入动态空洞卷积模块,得到对应的多频高层语义特征图,再通过上采样卷积编码器获得视频帧的分割掩膜;利用随机梯度下降算法迭代训练模型直至收敛,将新视频输入模型得到语义分割结果。本发明专利技术方法对视频帧的特征图按不同频率分离以刻画不同视觉区域变化,能够减少低频视觉空间冗余信息、降低计算复杂度,通过动态空洞卷积自适应地扩大多频特征图的感受野,提升对视频不同语义类的判别能力,从而获得更优视频语义分割结果。果。果。

【技术实现步骤摘要】
利用多频动态空洞卷积的视频语义分割方法


[0001]本专利技术属于计算机视觉
,尤其是视频处理中的语义分割领域,涉及一种利用多频动态空洞卷积的视频语义分割方法。

技术介绍

[0002]随着各类车辆的与日俱增,驾驶安全成为政府和民众非常关心的方面。一般来说,连续驾驶较长时间会使人疲劳注意力分散,同时大型车辆的驾驶员容易存在视觉盲区,给驾驶安全带来极大隐患。近年来,自动驾驶技术引起业界对自动驾驶技术的浓厚兴趣,越来越多的研究力量被投入到这一领域。高效的视觉理解能为自动驾驶的安全提供保障,视频语义分割是其核心技术之一。视频语义分割旨在对存在时序关联的视频帧进行像素级别的类别标记,得到与原始视频帧同等尺寸的逐像素类别掩膜矩阵,可广泛应用在机器视觉、视频监控、无人机侦察、自动驾驶等领域。例如,在自动驾驶环境中,对车辆视觉场景中的道路、行人或其他车辆等物体进行像素级分割,能够获得比边界框更为精确的物体区域信息,从而为自动驾驶系统提供更为准确的视觉感知内容,有利于规避行人、车辆等障碍物并确保司乘安全。目前,视频语义分割领域的主要挑战包括模型的计算复杂度高、处理高分辨率视频帧耗时长、模型难以部署在实时环境中。
[0003]传统语义分割方法主要分为阈值、边缘、超像素聚类等几类。其中,阈值分割方法将图像每个像素点的灰度值与阈值比较,灰度值大于阈值的像素被判断成前景,其他为背景,但只适用灰度图像;边缘分割方法先对图像进行边缘检测,同一边缘内的像素代表同一物体,缺点是分割精度受限于边缘检测算法;超像素聚类方法将近似的超像素块聚合以刻画相同物体,缺点是超像素的形成受限于像素的颜色和像素区域的纹理,且易将同一物体的不同部分分成多个超像素,导致分割错误。近年来,深层神经网络由于其强大的特征提取能力而广受欢迎,典型的方法均利用卷积神经网络作为编码器提取视频帧的抽象语义信息,通过解码器的逐层上采样操作获得语义分割掩膜。然而,卷积层仅能提取帧图像的局部语义信息,难以刻画全局场景特征。为此,空间金字塔池化技术被用于语义分割,其显著特点是:对从编码器获取的特征图做多次并行池化操作得到不同大小的压缩特征图,以捕获多个尺寸感受野的全局场景特征,再经过上采样恢复成与初始特征图大小相同的特征图并与其拼接得到总体特征图,最后经解码器得到语义分割掩膜,据此获得视频语义分割结果。
[0004]现有的语义分割方法仍然存在许多缺点:1)空间金字塔池化技术同时考虑了局部和全局的时空结构信息使得分割结果更加可靠,但是对高分辨率的特征图使用最大平均池化操作会造成容错性不佳、泛化能力差、计算复杂度高等不足;2)利用注意力机制虽然加强了特征图之间的长期语义依赖关系,但是模型臃肿、内存占用多,不利于模型的实时部署;3)Transformer编码器,作为特征抽取器被广泛用于自然语言处理,以二维图像的一维嵌入特征表示序列为输入,利用自注意力机制、多层感知机堆叠捕获视频帧之间的长期依赖关系,但是模型缺乏权值共享导致参数量巨大,且自注意力的计算复杂度高使得实时性难以保障。同时,大多数分割方法的精度和实时性无法做到有效平衡,导致不能有效地满足实际
分割任务的需求。因此,针对分割模型的计算复杂度高、泛化能力差等问题,迫切需要一种既能保障分割模型的实时性又能达到较高语义分割精度的方法。

技术实现思路

[0005]本专利技术的目的就是针对现有技术的不足,提供一种利用多频动态空洞卷积的视频语义分割方法,通过傅里叶变换对特征图进行多种频率分离,多频特征图能够刻画不同视觉区域的不同灰度值变化,以减少低频视觉空间冗余信息并降低计算复杂度;同时设计动态空洞卷积自适应扩大多频特征图的感受野,从全局和局部角度提升模型对视频不同语义类的判别能力,从而提高视频语义分割精度。
[0006]本专利技术方法首先获取视频数据集合,然后进行如下操作:
[0007]步骤(1)对视频采样获得视频帧,并进行增强操作,然后输入至编码器,即深度卷积神经网络,获得对应的浅层视觉特征图;
[0008]步骤(2)构建特征频率分离模块,输入为浅层视觉特征图,输出多频特征图;
[0009]步骤(3)构建动态空洞卷积模块,输入为多频特征图,输出多频高层语义特征图;
[0010]步骤(4)将多频高层语义特征图输入解码器即上采样卷积模块,获得视频帧的分割掩膜;
[0011]步骤(5)迭代训练由编码器、特征频率分离模块、动态空洞卷积模块、解码器组成的视频语义分割模型直至收敛,然后将新视频输入至该模型得到对应的语义分割结果。
[0012]进一步,步骤(1)具体是:
[0013](1

1)对单个视频进行均匀采样获得视频帧,采样率为10~15帧/秒,并对其进行增强操作得到数量为N的视频帧序列I,记为其中I
i
表示第i个视频帧,表示实数域,3表示RGB通道数量,H表示视频帧高度,W表示视频帧宽度;
[0014](1

2)利用大型图像库ImageNet上预训练的卷积神经网络ResNet对视频帧序列I依次提取浅层视觉特征图C
f
表示特征图的通道数,H
f
表示特征图高度,W
f
表示特征图宽度;ResNet具有多个由卷积层组成的模块,f
i
为第i个视频帧经过RestNet前三个由多个卷积层组成的模块得到的特征图。
[0015]更进一步,步骤(2)具体是:
[0016](2

1)构建特征频率分离模块,利用图像具有频率可分离的特点,对浅层视觉特征图进行三次高低频特征分离操作获得多频特征图;其中,高频特征刻画特征图的轮廓区域,低频特征刻画特征图的平面区域,中频特征刻画特征图的内容区域;
[0017](2

2)高低频特征分离的具体操作如下:
[0018]首先对浅层视觉特征图f
i
做快速傅里叶变换,将空域信号转换为频域信号得到f
i
的频谱图将中低频信号部分平移到中间得到平移频谱图确定的中心位置向量(P,Q);其中,通道中心点的横坐标值组成的向量纵坐标值组成的向量下标r表示的通道索引;
[0019]然后将中每个元素与低频转移函数H
l
(u
r,a,
,v
r,b
)作乘法运算得到低频平移频谱图高斯低通滤波器的转移函数l表示低频信号,a表示像素点横轴坐标值,b表示像素点纵轴坐标值,{0≤a≤H
f
,0≤b≤W
f
},exp(
·
)表示指数函数,D0是设定的标准差;其中,表示中第r个通道像素点(a,b)距离坐标点(P
r
,Q
r
)的欧式距离,u
r,a
是中第r个通道频谱位置(a,0)距离P
r
的欧式距离,v
r,b
是中第r个通道频谱位置(0,b)距离Q
r
的欧式距离本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.利用多频动态空洞卷积的视频语义分割方法,其特征在于,该方法首先获取视频数据集合,然后进行如下操作:步骤(1)对视频采样获得视频帧,并进行增强操作,然后输入至编码器,即深度卷积神经网络,获得对应的浅层视觉特征图;步骤(2)构建特征频率分离模块,输入为浅层视觉特征图,输出多频特征图;步骤(3)构建动态空洞卷积模块,输入为多频特征图,输出多频高层语义特征图;步骤(4)将多频高层语义特征图输入解码器即上采样卷积模块,获得视频帧的分割掩膜;步骤(5)迭代训练由编码器、特征频率分离模块、动态空洞卷积模块、解码器组成的视频语义分割模型直至收敛,然后将新视频输入至该模型得到对应的语义分割结果。2.如权利要求1所述的利用多频动态空洞卷积的视频语义分割方法,其特征在于,步骤(1)具体是:(1

1)对单个视频进行均匀采样获得视频帧,采样率为10~15帧/秒,并对其进行增强操作得到数量为N的视频帧序列I,记为其中I
i
表示第i个视频帧,表示实数域,3表示RGB通道数量,H表示视频帧高度,W表示视频帧宽度;(1

2)利用大型图像库ImageNet上预训练的卷积神经网络ResNet对视频帧序列I依次提取浅层视觉特征图C
f
表示特征图的通道数,H
f
表示特征图高度,W
f
表示特征图宽度;ResNet具有多个由卷积层组成的模块,f
i
为第i个视频帧经过RestNet前三个由多个卷积层组成的模块得到的特征图。3.如权利要求2所述的利用多频动态空洞卷积的视频语义分割方法,其特征在于,步骤(2)具体是:(2

1)构建特征频率分离模块,利用图像具有频率可分离的特点,对浅层视觉特征图进行三次高低频特征分离操作获得多频特征图;其中,高频特征刻画特征图的轮廓区域,低频特征刻画特征图的平面区域,中频特征刻画特征图的内容区域;(2

2)高低频特征分离的具体操作如下:首先对浅层视觉特征图f
i
做快速傅里叶变换,将空域信号转换为频域信号得到f
i
的频谱图将中低频信号部分平移到中间得到平移频谱图确定的中心位置向量(P,Q);其中,通道中心点的横坐标值组成的向量纵坐标值组成的向量下标r表示的通道索引;然后将中每个元素与低频转移函数H
l
(u
r,a
,,v
r,b
)作乘法运算得到低频平移频谱图高斯低通滤波器的转移函数l表示低频信号,a表示像素点横轴坐标值,b表示像素点纵轴坐标值,{0≤a≤H
f
,0≤b≤W
f
},exp(
·
)表示指数函数,D0是设定的标准差;其中,表示中第r个通道
像素点(a,b)距离坐标点(P
r
,Q
r
)的欧式距离,u
r,a
是中第r个通道频谱位置(a,0)距离P
r
的欧式距离,v
r,b
是中第r个通道频谱位置(0,b)距离Q
r
的欧式距离;同理,将中每个元素与高频转移函数H
h
(u
r,a
,,v
r,b
)作乘法运算得到高频平移频谱图其中h表示高频信号,分别将频谱图与中的低频信号从中间平移回到原始位置,得到低频频谱图和高频频谱图最后将和分别做快速傅里叶逆变换将频域信号转换为空域信号,得到弱低频特征图和弱高频特征图(2

3)按照(2

2),对弱高频特征图进行第二次高低频特征分离操作,得到强高频特征图和中高频特征图hh表示特征图经过两次高...

【专利技术属性】
技术研发人员:李平陈俊杰王然徐向华
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1