基于自适应匹配的视频显著性检测方法、装置及存储介质制造方法及图纸

技术编号:35059299 阅读:22 留言:0更新日期:2022-09-28 11:10
本发明专利技术提供一种基于自适应匹配的视频显著性检测方法、装置及存储介质。方法包括:S1、将待检测视频的第一帧图像数据输入分割网络进行处理;S2、建立一个记忆模块存储参考特征,用第一帧前景特征进行初始化;S3、将下一帧图像数据输入特征提取网络,将当前帧特征与参考特征进行相关性匹配,基于相关性匹配图与前一帧的显著性预测图获取相关性匹配特征,将相关性特征、当前帧的8倍下采样特征以及前一帧的前景特征融合后送入所述预测网络,从而得到当前帧的显著性预测图;S4、根据当前帧前景特征与参考特征的相关性匹配结果更新记忆模块的参考特征;S5、持续输入视频帧,重复上述S3

【技术实现步骤摘要】
基于自适应匹配的视频显著性检测方法、装置及存储介质


[0001]本专利技术涉及本专利技术涉及图像处理
,具体而言,尤其涉及一种基于自适应匹配的视频显著性检测方法、装置及存储介质。

技术介绍

[0002]视频显著性目标检测技术主要用于自动检测出一段视频中视觉注意力最集中的物体,并分割出来,在自动驾驶、人机交互、安防等很多关键任务中都有着很大的作用。与图像的显著性检测相比而言,由于视频中含有丰富的时序信息,如何能处理好视频帧间的时序相关性是视频显著性检测中一个具有挑战性的问题。
[0003]传统的视频显著性检测方法往往依赖于人工设计的特征和先验,如色彩对比度、背景先验、中心点先验等,它们分别从时间和空间维度提取特征,再融合到一起,然而这些低层次的特征具有很大的局限性,一旦场景变得复杂,效果将会大大降低。
[0004]近年来,随着深度学习的飞速发展,基于卷积神经网络的视频显著性检测方法取得了巨大的进步,它们通常采用一个预训练过的深度骨干网络(如ResNet50,ResNet101)作为特征提取器,在多个分辨率尺度上提取特征,得到具有鲁棒性的图像特征表示,提升了分割精度。同时,这些方法也针对如何利用视频帧中丰富的时序信息进行了大量的探索。大部分方法选择使用光流来提供视频帧间的运动信息,与外观特征表示进行融合,充分挖掘两种模态信息间的互补关系,极大地提升了显著性检测精度,但由于光流的获取需要使用额外的网络、额外的数据进行专门针对提取光流的训练,而且当视频两帧之间几乎没有什么变化时,获取到的光流往往是空白图,需要人工筛选掉以降低这些空白图对整个网络的消极影响,这一系列过程费时费力,并且也显然无法应用到实际场景中。
[0005]范登平等人于2019年,将ConvLSTM应用到了视频显著性检测中,用两层ConvLSTM来捕捉视频时序信息以及人类的注意力转移机制,并首次提出了专门针对视频显著性检测任务的基准数据集,为该任务的发展做出了巨大贡献。顾宇超等人在“Pyramid Constrained Self

AttentionNetwork for Fast Video Salient Object Detection,AAAI,2020”中,首次采用轻量的MobileNet作为特征提取网络,并利用自注意力机制,使用Conv3D卷积,直接对每5帧视频建立时序关系,极大提升了速度,但该方法对于时序信息的利用仅局限于5帧视频以内,缺乏对视频整体的全局信息的考虑,限制了精度。

技术实现思路

[0006]根据上述提出视频显著性检测精度不高的技术问题,而提供一种基于自适应匹配的视频显著性检测方法、装置及存储介质。本专利技术提供一种轻量、快速、高精度的视频显著性检测方法,有效地利用视频整体的时序信息,并且不会随着视频帧数的增多而增加大量计算量。
[0007]本专利技术采用的技术手段如下:
[0008]一种基于自适应匹配的视频显著性检测方法,包括:
[0009]S1、获取待检测视频,将待检测视频的第一帧图像数据输入分割网络进行处理,所述分割网络包括特征提取网络和预测网络,所述特征提取网络用于基于输入图像数据输出4倍下采样特征和8倍下采样特征,所述预测网络用于基于所述4倍下采样特征和8倍下采样特征输出显著性预测图;
[0010]S2、建立一个记忆模块存储参考特征,所述参考特征通过第一帧前景特征进行初始化;
[0011]S3、将待检测视频的下一帧图像数据作为当前帧输入分割网络的特征提取网络进行特征提取,将当前帧特征与参考特征进行相关性匹配从而获取相关性匹配图,基于所述相关性匹配图与前一帧的显著性预测图获取相关性匹配特征,将相关性匹配特征、当前帧的8倍下采样特征以及前一帧的前景特征融合后送入所述预测网络,从而得到当前帧的显著性预测图,所述参考特征基于当前帧的前景特征进行更新,融入当前帧特征作为下一帧进行相关性匹配时的参考特征;
[0012]S4、当前帧前景特征为空时,记忆模块不进行更新;当前帧前景特征不为空时,根据当前帧前景特征与参考特征的相关性匹配结果更新记忆模块的参考特征;
[0013]S5、持续输入视频帧,重复上述S3

S4直到得到所有视频帧的显著性预测图。
[0014]进一步地,S1中,所述特征提取网络为通用的轻量级骨干神经网络MobileNetV3。
[0015]进一步地,S1中,所述预测网络用于基于所述4倍下采样特征和8倍下采样特征输出显著性预测图,包括:
[0016]对8倍下采样特征进行处理,并上采样2倍,与4倍下采样特征级联,生成级联特征;
[0017]通过残差模块以及卷积模块对级联特征进行处理,得到最终的显著性预测图。
[0018]进一步地,S3中,所述当前帧的前景特征根据以下步骤获取:
[0019]基于当前帧的显著性预测图对保存的当前帧特征进行筛选,过滤掉背景特征像素,从而得到当前帧前景特征。
[0020]进一步地,S3中,将当前帧特征与参考特征进行相关性匹配从而获取相关性匹配图,包括:
[0021]a.根据以下计算获取当前帧特征与记忆模块内的参考特征间的像素级相关性距离:
[0022][0023]其中f
p
表示当前帧特征中的像素点p的特征,f
q
表示记忆模块中的像素点q的参考特征,d(p,q)表示当前帧中点p的特征与记忆模块中点q的特征在特征空间内的距离;
[0024]b.根据计算获取的每个像素间的相关性距离,计算当前帧对应到记忆模块内的相关性匹配图:
[0025][0026]其中,D表示相关性匹配图矩阵,D(p)表示矩阵D中的元素,元素的值的是当前帧中的点p与记忆模块距离最小的像素点q之间的距离值。
[0027]进一步地,S4中,根据当前帧前景特征与参考特征的相关性匹配结果更新记忆模
块的参考特征,包括:
[0028]a.根据以下计算获取记忆模块参考特征匹配当前帧像素点的相关性匹配图;
[0029][0030]其中,D表示相关性匹配图矩阵,D(q)表示矩阵D中的元素,元素的值的是记忆模块中点q的特征匹配到当前帧特征中距离最小的像素点之间的距离值;
[0031]b.对相关性匹配图进行降序排序,取前10%的像素点进行保留,将保留下来的像素点与当前帧的前景特征合并后作为下一帧预测时的参考特征。
[0032]本专利技术还公开了一种基于自适应匹配的视频显著性检测装置,包括:
[0033]首帧显著性预测图输出模块,其用于获取待检测视频,将待检测视频的第一帧图像数据输入分割网络进行处理,所述分割网络包括特征提取网络和预测网络,所述特征提取网络用于基于输入图像数据输出4倍下采样特征和8倍下采样特征,所述预测网络用于基于所述4倍下采样特征和8倍下采样特征输出显著性预测图;
[0034]记忆模块,其用于存储参考特征,所述参考特征通过第一帧前景特征进行初始化;
[0035]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自适应匹配的视频显著性检测方法,其特征在于,包括:S1、获取待检测视频,将待检测视频的第一帧图像数据输入分割网络进行处理,所述分割网络包括特征提取网络和预测网络,所述特征提取网络用于基于输入图像数据输出4倍下采样特征和8倍下采样特征,所述预测网络用于基于所述4倍下采样特征和8倍下采样特征输出显著性预测图;S2、建立一个记忆模块存储参考特征,所述参考特征通过第一帧前景特征进行初始化;S3、将待检测视频的下一帧图像数据作为当前帧输入分割网络的特征提取网络进行特征提取,将当前帧特征与参考特征进行相关性匹配从而获取相关性匹配图,基于所述相关性匹配图与前一帧的显著性预测图获取相关性匹配特征,将相关性匹配特征、当前帧的8倍下采样特征以及前一帧的前景特征融合后送入所述预测网络,从而得到当前帧的显著性预测图,所述参考特征基于当前帧的前景特征进行更新,融入当前帧特征作为下一帧进行相关性匹配时的参考特征;S4、当前帧前景特征为空时,记忆模块不进行更新;当前帧前景特征不为空时,根据当前帧前景特征与参考特征的相关性匹配结果更新记忆模块的参考特征;S5、持续输入视频帧,重复上述S3

S4直到得到所有视频帧的显著性预测图。2.根据权利要求1所述的一种基于自适应匹配的视频显著性检测方法,其特征在于,S1中,所述特征提取网络为通用的轻量级骨干神经网络MobileNetV3。3.根据权利要求1所述的一种基于自适应匹配的视频显著性检测方法,其特征在于,S1中,所述预测网络用于基于所述4倍下采样特征和8倍下采样特征输出显著性预测图,包括:对8倍下采样特征进行处理,并上采样2倍,与4倍下采样特征级联,生成级联特征;通过残差模块以及卷积模块对级联特征进行处理,得到最终的显著性预测图。4.根据权利要求1所述的一种基于自适应匹配的视频显著性检测方法,其特征在于,S3中,所述当前帧的前景特征根据以下步骤获取:基于当前帧的显著性预测图对保存的当前帧特征进行筛选,过滤掉背景特征像素,从而得到当前帧前景特征。5.根据权利要求1所述的一种基于自适应匹配的视频显著性检测方法,其特征在于,S3中,将当前帧特征与参考特征进行相关性匹配从而获取相关性匹配图,包括:a.根据以下计算获取当前帧特征与记忆模块内的参考特征间的像素级相关性距离:其中f
p
表示当前帧特征中的像素点p的特征,f
q
表示记忆模...

【专利技术属性】
技术研发人员:李若琪卢湖川王一帆
申请(专利权)人:大连维视科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1