一种基于双模态交叉融合与多图交互式学习的视频显著性物体检测方法与系统技术方案

技术编号:38105101 阅读:8 留言:0更新日期:2023-07-06 09:26
本发明专利技术提出一种基于双模态交叉融合与多图交互式学习的视频显著性物体检测方法与系统。所述方法可以通过对空间特征与运动特征进行相互约束,实现时空跨模态特征的有效融合,并利用图神经网络的优势有效学习、推理子区域之间存在的复杂逻辑关系,捕获丰富的时空上下文结构信息,最终实现提升视频显著性物体检测的整体性能。的整体性能。的整体性能。

【技术实现步骤摘要】
一种基于双模态交叉融合与多图交互式学习的视频显著性物体检测方法与系统


[0001]本专利技术属于计算机视觉
,特别是涉及一种基于双模态交叉融合与多图交互式学习的视频显著性物体检测方法与系统。

技术介绍

[0002]视频是记录信息、传递思想和表达感情的重要媒介,其通过对真实动态场景的记录为我们提供一个真实客观的世界表象。然而,视频数据包含的大量冗余信息使其具有价值密度低的特点,这给视频智能分析带来了巨大挑战,并对分析所依赖的计算资源产生巨大负担。
[0003]视频显著性物体检测作为应对上述挑战的一种有效方式,是目前智能视频分析领域中的基础前沿问题,其内涵是基于人类视觉注意机理利用算法分析动态视觉场景中物体之间的语义关系,区分不同物体的重要性,进而定位出最具辨别性、最引人注意的物体,并将其从背景中分离出来。作为一种有效的视频处理基础环节,视频显著性物体检测不仅可以提高后续高层视觉理解任务的性能,还能够引导计算资源的合理分配,将有限的计算资源分配给复杂的计算任务,进而高效地完成应用领域视频信息处理任务。例如,在视频目标跟踪任务中,目标的姿态变化、外观变化、位置突变等情况会对跟踪器性能造成巨大影响,而类别独立的视频显著性物体检测可以提供目标知识,帮助跟踪器快速准确地找回跟踪失败的目标。类似地,在视频理解任务中,场景中的不同物体对视频内容理解的贡献是不一样的,视频显著性物体检测能够区分不同物体的重要性,进而提高对视频内容的抽象理解能力。
[0004]因此,可以看到,视频显著性物体检测作为视频处理领域的共性基础研究问题之一,其研究成果可以广泛应用于视频监控、目标检测与跟踪、多媒体信息理解、社交媒体等多个国民经济发展的前沿领域,对社会的信息智能化进程具有重要促进作用。
[0005]视频显著性物体检测旨在动态视觉场景中识别并分割出最令人感兴趣且运动相关的物体区域。与图像显著性物体检测任务不同,视频显著性物体检测不仅需要捕获空间外观信息,还需要对时间运动线索进行充分挖掘获取。近年来,深度学习的浪潮推动了计算机视觉领域的深入研究,许多基于深度学习的视频显著性物体检测方法也应运而生。即便如此,对于目前的视频显著性物体检测方法来说,充分挖掘和整合来自空间线索和运动线索的信息仍然是非常具有挑战性的。因此,在视频显著性物体检测任务中,如何从空间模态与运动模态中挖掘显著性线索一直是备受关注的研究课题。然而,现有的视频显著性物体检测方法通常仅使用运动特征单向指导空间特征的学习过程,或者盲目地将空间特征与运动特征进行融合。由于学习策略考虑的不全面,这些方法在复杂场景下表现不佳。另外,大多数的视频显著性物体检模型是建立在卷积神经网络的基础上实现的,卷积神经网络通过堆叠多个池化层和卷积层来扩大其感受野,这种持续的下采样操作不可避免地丢失许多边缘及结构等高频信息,导致显著性检测结果中存在物体部分缺失等问题。
[0006]因此,针对上述提出的时空跨模态特征的有效融合问题与显著性结构信息的充分捕获问题,设计一种基于双模态交叉融合与多图交互式学习的视频显著性物体检测模型具有重要研究意义。

技术实现思路

[0007]本专利技术目的是为了解决现有技术中的问题,提出了一种基于双模态交叉融合与多图交互式学习的视频显著性物体检测方法与系统。
[0008]本专利技术是通过以下技术方案实现的,本专利技术提出一种基于双模态交叉融合与多图交互式学习的视频显著性物体检测方法,所述方法具体为:
[0009]步骤1、将第t帧的RGB图像及与之对应的光流图像作为输入,分别通过两个独立的ResNet50骨干网络初步提取空间特征和运动特征;
[0010]步骤2、利用交叉注意力模块对从骨干网络中K个特征提取层输出的空间特征与运动特征进行时空跨模态特征的有效融合;
[0011]步骤3、采用多尺度特征融合模块分别从空间特征提取分支、时间特征提取分支以及双模态交叉融合分支中捕获多尺度的特征线索,提升方法整体的鲁棒性;
[0012]步骤4、对多尺度空间特征、多尺度运动特征以及多尺度融合特征分别进行图投影操作,使他们变换到非欧氏空间,以获得相应地图结构数据,即空间图、运动图和融合图;
[0013]步骤5、将空间图、运动图和融合图同时输入到多图交互式学习网络中进行处理,通过多关系动态注意力图卷积算子捕获更加丰富的时空上下文结构信息,同时利用图交互模块使得时空信息交互最大化;
[0014]步骤6、最后,对融合图节点嵌入信息挖掘过程最终输出的融合图经过图重投影操作,使其恢复到原始的欧氏空间,紧接着经过全连接层处理之后,生成最终的显著性检测结果。
[0015]进一步地,在步骤2中,对于第k层,首先利用全局平均池化从每个空间特征和运动特征中提取通道级向量和之后通过两层1
×
1卷积操作,即和θ
t
(x;W
θ
),其中和W
θ
分别表示两个卷积层的可学习参数,生成两个判别性全局描述子,紧接着采用Sigmoid函数,即将这两个描述子的元素值转换到[0,1]区间,作为通道注意力权值;然后,对和通过外积操作生成候选特征
[0016][0017]同理,对和通过外积操作生成候选特征
[0018][0019]最后,为了提取深度融合特征,对两个候选特征和以及上一层交叉注意力模块的输出特征进行融合,在ResNet50的第k个特征提取层R
k
[x]中执行元素级加法操作获得包含时空相关性的融合特征
[0020][0021]其中,表示0张量,K设置为4。
[0022]进一步地,在步骤3中,首先以ResNet50骨干网络的最后四个特征提取层的输出特征作为输入,其由低到高分别表示为:然后将高层特征向低层逐级传播,渐进地与低层特征进行融合,融合过程可以表示为:
[0023][0024]其中,表示第i

1阶段的融合特征输出,Conv3×3(
·
)表示3
×
3卷积操作,Up(
·
)表示上采样操作;最后,将三个阶段的融合特征输出通过串接操作进行融合,得到最终的多尺度融合特征输出
[0025][0026]其中,Concat(
·
)表示串接操作。
[0027]进一步地,在步骤4中,首先使用1
×
1卷积操作对各个特征分别进行降维处理,转换成低维特征以及然后将这三种特征分别通过图投影操作f
proj
(
·
)转化为相应的空间图节点运动图节点以及融合图节点即:
[0028][0029]通过上述方式,空间图运动图以及融合图构建完成,其中,以及分别表示空间图节点集合、运动图节点集合以及融合图节点集合,以及分别表示空间图边集合、运动图边集合以及融合图边集合。
[0030]进一步地,在步骤5中,空间图和运动图分别在静态特征空间和运动特征空间通过多关系动态注意力图卷积算子挖掘成对图节点之间潜在的多种语义本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双模态交叉融合与多图交互式学习的视频显著性物体检测方法,其特征在于:所述方法具体为:步骤1、将第t帧的RGB图像及与之对应的光流图像作为输入,分别通过两个独立的ResNet50骨干网络初步提取空间特征和运动特征;步骤2、利用交叉注意力模块对从骨干网络中K个特征提取层输出的空间特征与运动特征进行时空跨模态特征的有效融合;步骤3、采用多尺度特征融合模块分别从空间特征提取分支、时间特征提取分支以及双模态交叉融合分支中捕获多尺度的特征线索,提升方法整体的鲁棒性;步骤4、对多尺度空间特征、多尺度运动特征以及多尺度融合特征分别进行图投影操作,使他们变换到非欧氏空间,以获得相应地图结构数据,即空间图、运动图和融合图;步骤5、将空间图、运动图和融合图同时输入到多图交互式学习网络中进行处理,通过多关系动态注意力图卷积算子捕获更加丰富的时空上下文结构信息,同时利用图交互模块使得时空信息交互最大化;步骤6、最后,对融合图节点嵌入信息挖掘过程最终输出的融合图经过图重投影操作,使其恢复到原始的欧氏空间,紧接着经过全连接层处理之后,生成最终的显著性检测结果。2.根据权利要求1所述的方法,其特征在于,在步骤2中,对于第k层,首先利用全局平均池化从每个空间特征和运动特征中提取通道级向量和之后通过两层1
×
1卷积操作,即和θ
t
(x;W
θ
),其中和W
θ
分别表示两个卷积层的可学习参数,生成两个判别性全局描述子,紧接着采用Sigmoid函数,即将这两个描述子的元素值转换到[0,1]区间,作为通道注意力权值;然后,对和通过外积操作生成候选特征生成候选特征同理,对和通过外积操作生成候选特征生成候选特征最后,为了提取深度融合特征,对两个候选特征和以及上一层交叉注意力模块的输出特征进行融合,在ResNet50的第k个特征提取层R
k
[x]中执行元素级加法操作获得包含时空相关性的融合特征获得包含时空相关性的融合特征其中,表示0张量,K设置为4。3.根据权利要求2所述的方法,其特征在于,在步骤3中,首先以ResNet50骨干网络的最后四个特征提取层的输出特征作为输入,其由低到高分别表示为:然后将高层特征向低层逐级传播,渐进地与低层特征进行融合,融合过程可以表示为:
其中,表示第i

1阶段的融合特征输出,Conv3×3(
·
)表示3
×
3卷积操作,Up(
·
)表示上采样操作;最后,将三个阶段的融合特征输出通过串接操作进行融合,得到最终的多尺度融合特征输出终的多尺度融合特征输出其中,Concat(
·
...

【专利技术属性】
技术研发人员:刘冰王甜甜付平高丽娜闫铮付杰周惊涛王树炎孙杉梁祖爽
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1