一种基于深度学习的视频显著目标检测方法及系统技术方案

技术编号:38853251 阅读:22 留言:0更新日期:2023-09-17 10:00
本发明专利技术提供一种基于深度学习的视频显著目标检测方法及系统,包括:特征提取网络、注意力机制模型、边缘先验模型、空间空洞金字塔池化模型和解码器;通过预训练好的特征提取网络初始化外观分支网络和运动分支网络;通过注意力机制将从光流图中提取的运动信息强调外观特征的重要位置或元素进行时空融合指导显著目标检测任务;通过低级特征融合产生的边缘特征对任务进行指导,弥补边缘缺失;所述解码器将低级特征与高级特征进行融合,再通过注意力机制模型进行指导,恢复特征图的大小,预测具有物体准确边界的高分辨率显著图。本发明专利技术解决了现有视频处理中难以快速准确定位显著目标的问题。的问题。的问题。

【技术实现步骤摘要】
一种基于深度学习的视频显著目标检测方法及系统


[0001]本专利技术涉及视频处理
,尤其涉及一种基于深度学习的视频显著目标检测方法及系统。

技术介绍

[0002]近年来,随着人工智能技术的快速发展以及相关应用的广泛普及,作为人工智能重要应用领域之一的计算机视觉技术迈进了新的发展阶段,其各个方向均不断取得新的突破。简单来说,计算机视觉就是利用摄像机和电脑等相关设备来模拟人类的视觉系统,建立与视觉机制相关的计算方法,试图从图像、视频或者更高维的数据中获取重要的信息,其最终目标就是使机器能够自动处理和理解视觉形式的信号,并具备部分自主适应能力,在复杂场景中能够代替人类去完成指定的视觉场景任务。如今,图像与视频数据日益增加,并且数量庞大、内容复杂,如何高效地从海量视频数据中挖掘出人类可以理解并且需要的信息,已成为计算机视觉领域的一大难题。各在类视觉任务中,基于人类视觉注意力机制的显著性检测可以有效地精炼这些图像与视频数据,因此这一领域越来越受到研究者的关注,并且成为一个研究热点。
[0003]如今显著目标检测技术已日渐成熟,广泛应用于图像/视频压缩、视频分割、显著目标检测等各个方面。在显著目标检测中,一般是输入一张图像或者视频,输出相应的显著图或序列,并且显著目标检测可以被认为是一个二分类问题,我们需要识别出图像或视频中的显著目标,根据分类形成边界,从而刻画出完整的目标,目标的轮廓更加完整以及细化说明该检测技术更好。与此同时,显著目标检测又可分为图像显著目标检测和视频显著目标检测,前者作为后者的基础研究,已经取得了较为丰厚的研究成果,但由于视频是由一帧帧的图像序列连接而成,仅仅从图像空间信息中难以完成完整的目标分割,不仅需要引入时间信息,还要将时间和空间信息进行融合才能更好的完成视频显著目标检测任务。一方面是由于标注详细的公开数据集还不是很多,并且数据标注并不完善;另一方面由于视频目标存在运动模式、光照变化以及背景杂乱等各种问题,比之图像更加复杂。因此,视频显著目标检测仍是一个具有挑战的任务,许多研究人员都在进行进一步研究。
[0004]视频目标检测任务中最大的困难就是如何保持视频中目标的时空一致性以及如何更准确地定位显著性目标,特别是其边界。视频是由多个有序列关系的图像组成的,该序列关系是一种时间的序列关系,因此其中的目标如果在运动,那么空间位置以及其自身的属性会发生变化,而且这种变化与时间存在紧密的关系,但即使发生了变化,每一帧的发生变化的目标还是属于同一个目标,这就叫做时空一致性,但现有方法对于时空信息的融合利用并不充分,以至于不能准确地识别视频中的显著性目标。与此同时,大多数现有的基于卷积神经网络的方法仍然存在对象边界粗糙的问题。所以将会导致无法准确定位视频中的显著目标。

技术实现思路

[0005]本专利技术提供一种基于深度学习的视频显著目标检测方法及系统,用以解决现有视频处理中难以快速准确定位显著目标的问题。
[0006]本专利技术提供一种基于深度学习的视频显著目标检测方法,包括:
[0007]特征提取网络、注意力机制模型、边缘先验模型、空间空洞金字塔池化模型和解码器;
[0008]通过预训练好的特征提取网络初始化外观分支网络和运动分支网络;
[0009]通过注意力机制将从光流图中提取的运动信息强调外观特征的重要位置或元素进行时空融合指导显著目标检测任务;
[0010]通过低级特征融合产生的边缘特征对任务进行指导,弥补边缘缺失;
[0011]所述解码器将低级特征与高级特征进行融合,再通过注意力机制模型进行指导,恢复特征图的大小,预测具有物体准确边界的高分辨率显著图。
[0012]根据本专利技术提供的一种基于深度学习的视频显著目标检测方法,所述注意力机制模型包括:
[0013]空间注意力机制、通道注意力机制和混合注意力机制;
[0014]通过光流图产生的运动信息对外观特征进行指导,利用所述混合注意力机制进行引导。
[0015]根据本专利技术提供的一种基于深度学习的视频显著目标检测方法,所述注意力机制模型需要对空间注意力和通道注意力进行合理分配,根据分配情况分为空间

通道注意力模块和通道

空间注意力模块;
[0016]将运动特征对外观特征进行空间注意力,从运动特征预测出运动显著图,将运动显著图与外观特征逐位相乘;
[0017]空间注意力后的外观特征再经过全局平均池化得到一个一维向量,再经过预测出的权重通过Softmax函数进行标准化,在最大程度上进行通道注意力的分配;
[0018]引入残差项以减少错误信息,生成新的外观特征。
[0019]根据本专利技术提供的一种基于深度学习的视频显著目标检测方法,所述边缘先验模型是通过第一层级和第二层级的低级信息进行融合形成的;
[0020]通过所述边缘先验模型相互加权抑制噪声,将两个特性进行融合从而产生最终的边缘信息。
[0021]根据本专利技术提供的一种基于深度学习的视频显著目标检测方法,所述空间空洞金字塔池化模型在不降采样的情况下,通过不同膨胀率的膨胀卷积增大网络的感受,增强网络获取长期上下文信息的能力。
[0022]根据本专利技术提供的一种基于深度学习的视频显著目标检测方法,所述具有物体准确边界的高分辨率显著图通过设定的评价标准进行定量分析;
[0023]根据定量分析结果判断视频显著目标检测结果的优良性。
[0024]本专利技术还提供一种基于深度学习的视频显著目标检测系统,所述系统包括:
[0025]初始化模块,用于通过预训练好的特征提取网络初始化外观分支网络和运动分支网络;
[0026]融合模块,用于通过注意力机制将从光流图中提取的运动信息强调外观特征的重
要位置或元素进行时空融合指导显著目标检测任务;
[0027]指导模块,用于通过低级特征融合产生的边缘特征对任务进行指导,弥补边缘缺失;
[0028]预测模块,用于所述解码器将低级特征与高级特征进行融合,再通过注意力机制模型进行指导,恢复特征图的大小,预测具有物体准确边界的高分辨率显著图。
[0029]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于深度学习的视频显著目标检测方法。
[0030]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于深度学习的视频显著目标检测方法。
[0031]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于深度学习的视频显著目标检测方法。
[0032]本专利技术提供的一种基于深度学习的视频显著目标检测方法及系统,通过将边缘特征与显著目标特征进行一定的融合,融合后的特征利用边缘特征中丰富的边缘信息和位置信息,可以更准确地定位显著性目标,特别是其边界,使得视频中的显著目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的视频显著目标检测方法,其特征在于,包括:特征提取网络、注意力机制模型、边缘先验模型、空间空洞金字塔池化模型和解码器;通过预训练好的特征提取网络初始化外观分支网络和运动分支网络;通过注意力机制将从光流图中提取的运动信息强调外观特征的重要位置或元素进行时空融合指导显著目标检测任务;通过低级特征融合产生的边缘特征对任务进行指导,弥补边缘缺失;所述解码器将低级特征与高级特征进行融合,再通过注意力机制模型进行指导,恢复特征图的大小,预测具有物体准确边界的高分辨率显著图。2.根据权利要求1所述的基于深度学习的视频显著目标检测方法,其特征在于,所述注意力机制模型包括:空间注意力机制、通道注意力机制和混合注意力机制;通过光流图产生的运动信息对外观特征进行指导,利用所述混合注意力机制进行引导。3.根据权利要求2所述的基于深度学习的视频显著目标检测方法,其特征在于,所述注意力机制模型需要对空间注意力和通道注意力进行合理分配,根据分配情况分为空间

通道注意力模块和通道

空间注意力模块;将运动特征对外观特征进行空间注意力,从运动特征预测出运动显著图,将运动显著图与外观特征逐位相乘;空间注意力后的外观特征再经过全局平均池化得到一个一维向量,再经过预测出的权重通过Softmax函数进行标准化,在最大程度上进行通道注意力的分配;引入残差项以减少错误信息,生成新的外观特征。4.根据权利要求1所述的基于深度学习的视频显著目标检测方法,其特征在于,所述边缘先验模型是通过第一层级和第二层级的低级信息进行融合形成的;通过所述边缘先验模型相互加权抑制噪声,将两个...

【专利技术属性】
技术研发人员:周祖煜刘雅萱张澎彬林波陈煜人杨肖
申请(专利权)人:杭州领见数字农业科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1