一种基于交叉注意力机制的视频显著性物体检测模型及系统技术方案

技术编号:26891415 阅读:22 留言:0更新日期:2020-12-29 16:09
本发明专利技术涉及一种基于交叉注意力机制的视频显著性物体检测方法及系统。所述方法包括:A、将输入相邻帧图像输入到共享参数的相似网络结构中,抽取高级和低级特征;B、利用自注意力模块对单帧图像内部的显著性特征进行特征的重新配准和对齐;C、利用帧间交叉注意力机制,获取帧间时空关系上显著性物体位置上的关系依赖,作为权重作用到高级特征上,捕获时空关系上的显著性物体检测的一致性;D、对抽取的相邻帧帧内高级特征、低级特征以及具有帧间依赖关系的时空特征进行融合;E、将输入的特征进行特征降维,利用分类器输出像素级分类结果;F、建立一个基于交叉注意力机制的深度视频显著性物体检测模型,并使用GPU并行计算来加速模型的训练。

【技术实现步骤摘要】
一种基于交叉注意力机制的视频显著性物体检测模型及系统
本专利技术属于视频显著性物体检测与视频分割领域,尤其涉及一种基于交叉注意力机制的视频显著性物体检测模型及系统,所述模型及系统使用交叉注意力机制的短时记忆功能,保持进内显著性检测准确性的同时,捕捉连续相邻帧间的显著相关性和一致性信息,从而完成视频显著性物体检测这一像素级分类任务。
技术介绍
人眼视觉系统可以快速精准地定位到视野中高区分度的物体或是场景区域(也称显著性物体)引发了视觉领域对人眼视觉感知能力的模拟、研究与探索。研究表明,人眼视觉注意力机制对视觉空间内的部分信息进行分析整合,进而建立对整个场景的理解。显著性物体检测也旨在高效过滤视觉场景中的非重要信息,抽取、模拟与预测人眼视觉感知中的高级信息,探索与模拟人类视觉感知系统的机制。目前,由于时空信息建模的复杂度以及视频显著性物体检测数据集的缺乏,基于视频数据的显著性物体检测模型的研究并没有大量展开。加之,处理视频数据通常要面临复杂场景、相机抖动、目标位置多变等问题,使得视频显著性检测问题相较于静态图像将更具有挑战性。从整体本文档来自技高网...

【技术保护点】
1.一种基于交叉注意力机制的视频显著性物体检测方法,其特征在于:所述方法包括以下步骤:/nA、多级特征抽取步骤:利用深度卷积神经网络对视频原始帧图像进行多级特征抽取,并生成高级、低级特征图;在卷积神经网络中,高级特征图通常包含高级语义信息,低级特征图通常包含更多的纹理、边缘等细节信息;直观上讲,高级特征通常从网络深层特征抽取获得,而低级特征图通常可由网络的浅层部分获得;/nB、自注意力生成步骤:采用自注意力机制,利用帧内高级特征图各像素位置上的特征关系,对帧内特征进行重新配准和对齐,使得特征包含帧内上下文的语义和位置信息,提升模型对帧内显著性物体检测的响应;/nC、交叉注意力生成步骤:利用帧间...

【技术特征摘要】
1.一种基于交叉注意力机制的视频显著性物体检测方法,其特征在于:所述方法包括以下步骤:
A、多级特征抽取步骤:利用深度卷积神经网络对视频原始帧图像进行多级特征抽取,并生成高级、低级特征图;在卷积神经网络中,高级特征图通常包含高级语义信息,低级特征图通常包含更多的纹理、边缘等细节信息;直观上讲,高级特征通常从网络深层特征抽取获得,而低级特征图通常可由网络的浅层部分获得;
B、自注意力生成步骤:采用自注意力机制,利用帧内高级特征图各像素位置上的特征关系,对帧内特征进行重新配准和对齐,使得特征包含帧内上下文的语义和位置信息,提升模型对帧内显著性物体检测的响应;
C、交叉注意力生成步骤:利用帧间交叉注意力机制,获取帧间时空关系上显著性物体语义及位置上的关系依赖,作为配准权重作用到高级特征上,保持时空关系上的显著性物体检测的一致性;
D、时空特征融合步骤:对抽取的相邻帧帧内高级特征、低级特征以及具有帧间依赖关系的时空特征进行融合;
E、输出步骤:将输入的融合特征进行特征降维,利用分类器输出相邻两帧图像的像素级分类结果;
F、联合检测步骤:建立一个基于交叉注意力机制的深度视频显著性物体检测模型(CASNet),并使用GPU并行计算来加速模型的训练。


2.根据权利要求1所述的方法,其特征在于:所述步骤A包括以下步骤:
A1、视频帧数据预处理:利用视频帧及与之对应的逐帧标定的像素级显著性掩模真值图,通过抽取相邻或具有一定时序间隔Δt的视频帧对儿(It,It+△t),建立模型训练数据;
A2、基于卷积神经网络编码译码结构的预训练:设计基于静态图像的深度卷积编码译码网络D(E(·)),利用已有的静态图像数据集进行模型预训练,使得深度卷积编码译码网络具备静态图像的显著性检测能力;
A3、多级特征抽取:在A2步骤中预训练的主干网络基础上,对输入的前后帧对儿分别抽取多尺度高级与低级特征表达。将t和t+Δt时刻的输入帧(It,It+△t)输入权值共享的预训练主干网络中D(E(·)),得到多级/多尺度特征表达这样就完成了在相似网络结构下的多级特征抽取。


3.根据权利要求1所述的方法,其特征在于:所述步骤B包括以下步骤:
B1、静态特征准备:利用抽取的高级特征数据,构建像素级键值关系(key-value)对儿以及输出(output)特征,分别通过投影变换得到低维嵌入空间的特征表达;
B2、帧内像素级自注意力权重生成:利用矩阵乘法获得像素级键值关系矩阵,并利用softmax函数得到像素i与其他相关像素间的关系权重并进行权重配分,输出注意力权重;
B3、帧内高级特征重配准:利用生成的注意力权重,作用到输出特征上,实现特征的配准,通过引入残差链接,保证深层网络的信息流通畅以及训练时的梯度回传。


4.根据权利要求1所述的方法,其特征在于:所述步骤C包括以下步骤:
C1、时空特征准备:利用生成的两帧各自的帧内配准特征,重新构建像素级键值源(source)关系对儿,利用目标帧特征(target)作为输出,分别通过投影变换矩阵得到低维嵌入空间的特征表达;
C2、帧间像素级注意力权重生成:利用矩阵乘法获得源帧特征的像素级键值关系矩阵,并利用softmax函数对像素i与其他相关像素间的关系权重进行权重配分,输出注意力权重;
C3、双向帧间交叉注意力特征重配准:将从源帧特征得到的注意力权重作用到目标帧的输出特征上,进行帧间特征重配准,并利用同时残差链接,保证深层网络的信息流通畅。之后,通过交换源帧和目标帧特征的输入,实现t到t+Δt帧和t+Δt到t帧的双向交叉注意力特征配准,输出配准特征Zt+△t→t,Zt→t+△t。


5.根据权利要求1所述的方法,其特征在于:所述步骤D包括以下步骤:
D1、帧内高级和低级特征融合:根据每帧内抽取的高级和低级特征利用特征图的上采样和特征图沿通道维度方向的级联操作进行特征融合,得到帧内多尺度空间特征;
D2、帧间时空特征融合:利用交叉注意力步骤中输出的时序特征,利用特征图的上采样和级联操作进行特征融合,得到帧间时空特征。


6.根据权利要求1所述的方法,其特征在于:所述步骤E包括以下步骤:
E1、特征降维:输出模块首先接收融合了时空信息的特征,利用卷积层进行降维;
E2、像素级分类:最后将降维后的特征输入分类器输出每个像素点上显著性的概率,实现像素级分类。


7.根据权利要求1所述的方法,其特征在于:所述步骤F包括以下步骤:
F1、形成基于相似(Siamese)网络的短时视频显著性物体检测模型;
F2、通过对编码译码结构,交叉注意力模块以及时空特征融合模块进行端到端训练,利用GPU并行计算技术加速模型的训练过程;
F3、利用训练好的模型,通过规定输入的待检测视频帧对儿,实现视频显著性物体检测。


8.一种基于交叉注意力机制的视频显著性物体检测系统,其特征在于:所述系统包括:
多级特征抽取模块:利用深度卷积神经网络对视频原始帧图像进行多级特征抽取,并生成高级、低级...

【专利技术属性】
技术研发人员:张海军姬玉柱
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1