当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于残差纠正的视频语义分割方法技术

技术编号:24576960 阅读:70 留言:0更新日期:2020-06-21 00:31
本发明专利技术公开了一种基于残差纠正的视频语义分割方法,具体包括如下步骤:1)获取语义分割数据集,并定义算法目标;2)训练轻量级的图像语义分割的卷积神经网络模型;3)对待分割的视频进行解码,得到残差图、运动向量以及RGB图像;4)如果当前帧为关键帧,则用2)中得到的分割模型进行语义分割;5)如果当前帧为非关键帧,则利用运动向量将其前一帧的深层特征传递至当前,同时使用浅层卷积神经网络对当前帧提取空间特征,并对传递来的深层特征进行纠正;6)如此重复步骤4)、5)至完成所有视频帧的分割。本发明专利技术极大提升了基于帧间特征传递的视频分割方法的鲁棒性及准确性,同时保持基于特征传递方法的高效性。

A video semantic segmentation method based on residual correction

【技术实现步骤摘要】
一种基于残差纠正的视频语义分割方法
本专利技术属于计算机视觉领域,特别地涉及一种基于残差纠正的视频语义分割方法。
技术介绍
视频语义分割,是将视频的帧序列的每个像素指定一个语义类别的计算机视觉任务。由于视频的帧与帧之间存在信息的冗余,许多视频语义分割方法利用帧间运动信息以减少冗余计算。这些方法把上一帧的分割结果传播到当前帧,这就大大加速了当前帧的计算过程。然而,当前的这类方法在分割精度上会有很大的损失,其原因有两方面。一方面,这些方法不能很好的保留局部细节,因为运动信息往往粒度较粗。另一方面,随着传播的帧越来越多,传播带来的误差也会累积,以致数帧之后的传播结果几乎不可用。如何利用帧间信息加速,又保证分割准确,是本方法解决的关键。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种基于残差纠正的视频语义分割方法。该方法基于深度神经网络,以图像语义分割模型为基础,在利用帧间特征传递实现实时的语义视频分割效果的基础上,进一步引入基于残差学习的纠正模块,从而提升基于特征传递分割方法的准确度和鲁棒性。为实现上述目的,本专利技术的技术方案为:一种基于残差纠正的语义视频分割方法,其包括以下步骤:S1.获取用于训练语义视频分割的数据集,并定义算法目标;S2.训练轻量级的图像语义分割卷积神经网络,得到语义分割模型;S3.对视频进行解码,得到每一帧图像的残差图、运动向量、RGB图像;S4.对于视频中的当前帧,如果当前帧为关键帧,则直接使用S2中得到的卷积神经网络模型对其RGB图像进行完整的语义图像分割;S5.对于视频中的当前帧,如果当前帧为非关键帧,则利用其运动向量将其前一帧的深层特征传递至当前帧,同时使用浅层卷积神经网络对当前帧提取空间特征,并对传递来的深层特征进行纠正后完成其语义图像分割;S6.对视频中的所有帧重复步骤S4和S5,至完成所有视频帧的语义分割。在上述方案基础上,本专利技术的各步骤还可以进一步采用如下优选方式。优选的,步骤S1中所述的算法目标为对于数据集中的每个视频V,检测V中每一帧图像的所有像素的语义分类。优选的,步骤S2中所述的训练轻量级的图像语义分割卷积神经网络模型具体包括以下子步骤:S21.利用卷积神经网络对单张图片中的每一个像素进行分类提取,得到图像I的分类预测结果为φ(I);同时,得到卷积神经网络的中间层输出特征图F;S22.对分类预测结果和给定的分类标签计算交叉熵损失,不断优化卷积神经网络中的参数,训练得到最终的语义分割模型φ,φ包含编码器φhead和解码器φtail。优选的,步骤S3中所述的对视频进行解码时使用MPEG-4视频编解码标准,当前帧时刻为t,则解码过程如下:S31.若当前第t帧为关键帧,则直接解码得到其RGB图像I(t);S32.若当前第t帧为非关键帧,则首先部分解码得到其运动向量Mv(t)与残差向量Res(t),再依据像素域的平移及补偿变换进一步解码得到RGB图像I(t)。优选的,步骤S4中所述的图像语义分割具体步骤如下:S41.将当前RGB图像I(t)输入S2中训练的分割模型φ中进行预测;S42.预测得到其语义分割结果Y(t)=φ(I(t)),同时得到语义分割模型输出的中间层特征F(t)。优选的,步骤S5具体包含以下子步骤:S51.使用当前第t帧的运动向量Mv(t)对前一帧的中间层特征F(t-1)进行像素域的平移,得到当前帧的中间层特征的估计值:其中表示经过平移后得到当前帧的中间层特征中像素位置p处的估计值;p为像素坐标;Mv(t)[p]表示当前帧的运动向量图Mv(t)中像素位置p处的值;S52.将当前帧的RGB图像I(t)输入S2中训练的语义分割模型φ的编码器φhead提取浅层特征f(t):f(t)=φhead(I(t))S53.利用当前帧的残差图Res(t),通过一个单层神经网络φZ计算其注意力图Z(t):A(t)=φZ(Res(t))S54.引入一个新的单层残差学习网络φR,利用f(t)对传递来的特征通过残差学习的方式进行纠正,同时利用A(t)引入基于图像空间残差的注意力机制,计算得到特征空间的残差图ΔF(t):S55.利用ΔF(t)计算出当前帧的特征F(t):将特征F(t)输入S2中的分割模型φ的解码器φtail进行解码,最终输出语义分割结果:Y(t)=φtail(F(t))。基于S5步骤的非关键帧分割算法准确率比已有的基于帧间分割结果传递的算法准确率和鲁棒性高很多;同时,该方法的效率比逐帧通过卷积神经网络进行分割处理的方法高很多。本专利技术充分利用了视频中相邻帧的相关性,同时,基于残差学习的理念,使用轻量级网络学习特征空间中的残差量,对帧间传播的特征图进行纠正。基于残差纠正的处理能够明显提升帧间传播分割方法的鲁棒性和准确率、避免错误累积,同时保持较高的处理速度。附图说明图1为本专利技术的的流程示意图。图2为实施例中三种方法的可视化效果对比。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。相反,本专利技术涵盖任何由权利要求定义的在本专利技术的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本专利技术有更好的了解,在下文对本专利技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本专利技术。如图1所示,一种基于残差纠正的语义视频分割方法,该方法的步骤如下:S1.获取用于训练语义视频分割的数据集,并定义算法目标。本步骤中,算法目标为对于数据集中的每个视频V,检测V中每一帧图像的所有像素的语义分类。S2.训练轻量级的图像语义分割卷积神经网络,得到语义分割模型。本步骤中,训练轻量级的图像语义分割卷积神经网络模型具体包括以下子步骤:S21.利用卷积神经网络对单张图片中的每一个像素进行分类提取,得到图像I的分类预测结果为φ(I);同时,得到卷积神经网络的中间层输出特征图F;S22.对分类预测结果和给定的分类标签计算交叉熵损失,不断优化卷积神经网络中的参数,训练得到最终的语义分割模型φ,φ包含编码器φhead和解码器φtail。S3.对视频进行解码,得到每一帧图像的残差图、运动向量、RGB图像。本步骤中,对视频进行解码时使用MPEG-4视频编解码标准,设定图片组GOP参数g、非关键帧比率β;当前帧时刻为t,则解码过程如下:S31.若当前第t帧为关键帧,则直接解码得到其RGB图像I(t);S32.若当前第t帧为非关键帧,则首先部分解码得到其运动向量Mv(t)与残差向量Res(t),再依据像素域的平移及补偿变换进一步解码得到RGB图像I(t)。<本文档来自技高网...

【技术保护点】
1.一种基于残差纠正的语义视频分割方法,其特征在于,包括以下步骤:/nS1.获取用于训练语义视频分割的数据集,并定义算法目标;/nS2.训练轻量级的图像语义分割卷积神经网络,得到语义分割模型;/nS3.对视频进行解码,得到每一帧图像的残差图、运动向量、RGB图像;/nS4.对于视频中的当前帧,如果当前帧为关键帧,则直接使用S2中得到的卷积神经网络模型对其RGB图像进行完整的语义图像分割;/nS5.对于视频中的当前帧,如果当前帧为非关键帧,则利用其运动向量将其前一帧的深层特征传递至当前帧,同时使用浅层卷积神经网络对当前帧提取空间特征,并对传递来的深层特征进行纠正后完成其语义图像分割;/nS6.对视频中的所有帧重复步骤S4和S5,至完成所有视频帧的语义分割。/n

【技术特征摘要】
1.一种基于残差纠正的语义视频分割方法,其特征在于,包括以下步骤:
S1.获取用于训练语义视频分割的数据集,并定义算法目标;
S2.训练轻量级的图像语义分割卷积神经网络,得到语义分割模型;
S3.对视频进行解码,得到每一帧图像的残差图、运动向量、RGB图像;
S4.对于视频中的当前帧,如果当前帧为关键帧,则直接使用S2中得到的卷积神经网络模型对其RGB图像进行完整的语义图像分割;
S5.对于视频中的当前帧,如果当前帧为非关键帧,则利用其运动向量将其前一帧的深层特征传递至当前帧,同时使用浅层卷积神经网络对当前帧提取空间特征,并对传递来的深层特征进行纠正后完成其语义图像分割;
S6.对视频中的所有帧重复步骤S4和S5,至完成所有视频帧的语义分割。


2.根据权利要求1所述的语义视频分割方法,其特征在于步骤S1中所述的算法目标为对于数据集中的每个视频V,检测V中每一帧图像的所有像素的语义分类。


3.根据权利要求1所述的语义视频分割方法,其特征在于步骤S2中所述的训练轻量级的图像语义分割卷积神经网络模型具体包括以下子步骤:
S21.利用卷积神经网络对单张图片中的每一个像素进行分类提取,得到图像I的分类预测结果为φ(I);同时,得到卷积神经网络的中间层输出特征图F;
S22.对分类预测结果和给定的分类标签计算交叉熵损失,不断优化卷积神经网络中的参数,训练得到最终的语义分割模型φ,φ包含编码器φhead和解码器φtail。


4.根据权利要求1所述的语义视频分割方法,其特征在于步骤S3中所述的对视频进行解码时使用MPEG-4视频编解码标准,当前帧时刻为t,则解码过程如下:
S31.若当前第t帧为关键帧,则直接解码得到其RGB图像I(t);
S32.若...

【专利技术属性】
技术研发人员:李玺冯君逸李颂元
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1