视频显著性区域检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36761759 阅读:42 留言:0更新日期:2023-03-04 10:57
本发明专利技术公开了一种视频显著性区域检测方法、装置、电子设备及存储介质。所述方法包括如下步骤:获取待传输视频序列,输入到训练好的视频显著性区域检测网络中;采用3D卷积主干网络的编码器,提取多尺度时空特征;通过帧间注意力模块,增强深度特征的时间特性;将多尺度时空特征传入双向时空金字塔中,采用注意力引导融合机制进行融合;将融合后的特征传入解码器中,进行求和与上采样,恢复原始视频帧尺寸,以获取最终的视频显著性图,为后期视频通信服务。所述方法探索多尺度时空特征高效融合方式,提高视频显著性区域检测精度,且计算复杂度低,在精度和计算时间上均有明显优势。在精度和计算时间上均有明显优势。在精度和计算时间上均有明显优势。

【技术实现步骤摘要】
视频显著性区域检测方法、装置、电子设备及存储介质


[0001]本专利技术涉及图像通信方法
,尤其涉及一种视频显著性区域检测方法、装置、电子设备及存储介质。

技术介绍

[0002]视频显著性区域检测是视频处理和计算机视觉中的基本任务之一,旨在模拟人类视觉注意系统,预测人类自由观看视频时对各个视频区域的关注程度,以显著性图的形式表达出来。后续处理中,可以把计算或存储资源分配至关注程度较高的区域,从而节省资源,可以作为视频通信的预处理任务。视频显著性区域检测不仅需要包含语义信息的深层特征,还需要包含位置和细节信息的浅层特征,这就要求所提出方法需要充分利用多尺度时空特征。视频显著性区域检测方法是在主干网络提取到多尺度时空特征的基础上,对其特征进行充分融合,获取显著性区域预测所需的上下文信息,然后进行解码得到预测的显著性图。
[0003]随着深度学习的发展和大规模视频显著性数据集的提出,现有的视频显著性区域检测方法取得了一些进展,但仍然存在以下几个方面的问题。首先,所采用的融合框架较为简单,大多是基本的2D卷积融合框架的迁移,缺乏浅层位置信本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视频显著性区域检测方法,其特征在于,包括如下步骤:步骤1:获取待传输的视频,选取32帧连续帧,输入到训练好的视频显著性区域检测网络中;步骤2:采用3D卷积主干网络的编码器,提取视频的多尺度时空特征;步骤3:通过帧间注意力模块,增强深度特征的时间特性;步骤4:将多尺度时空特征传入双向时空金字塔中,并采用注意力引导融合机制进行融合,以促进多尺度特征充分融合,生成显著性预测所需的上下文信息;步骤5:将融合后的特征传入解码器中,恢复原始视频帧尺寸,以获取输入序列最后一帧的视频显著性图,为后期视频通信服务。2.如权利要求1所述的视频显著性区域检测方法,其特征在于,所述帧间注意力模块放置在3D主干网络输出的深度特征之后,用以捕捉帧间关系,调整不同帧的权重,为后期融合提供精细的多尺度特征;该模块包含:平均池化,全连接层和Sigmoid层,经由此三层可以得到该特征的时间权重FA,将该权重与原特征点乘便可得到优化后的特征,其公式表达如下:。3.如权利要求1所述的视频显著性区域检测方法,其特征在于,所述双向时空金字塔用以融合多尺度时空特征;沿自上而下的路径,深层特征逐层上采样并与相应的浅层特征融合,然后沿自下而上的路径,浅层特征逐层下采样并与相应的深层特征融合,从而生成准确预测所需的上下文信息;1x1卷积用来调整相融合特征的通道数,上采样和下采样用来调整相融合特征的分辨率;其中上采样采取三线性插值法,下采样采取最大池化法。4.如权利要求1所述的视频显著性区域检测方法,其特征在于,所述注意力引导融合机制可以从训练数据中自动学习融合权重,并在不同场景中自适应地调整权重,从而实现更加精准高效的融合;该机制的应用可分为两类:空间注意力引导融合模块和通道注意力引导融合模块。5.如权利要求4所述的视频显著性区域检测方法,其特征在于,所述的空间注意力引导融合模块应用在双向时空金字塔的相邻特征融合中,用于加强浅层特征的细节,抑制无关噪声干扰;该模块由上采样层、最大池化层、平均池化层和Sigmoid层组成,以获得浅层特征的空间权重,,和分别代表深层特征,用于引导的深层特征和浅层特征,其具体公...

【专利技术属性】
技术研发人员:张云佐张天刘亚猛武存宇朱鹏飞康伟丽郑宇鑫霍磊郑丽娟
申请(专利权)人:石家庄铁道大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1