【技术实现步骤摘要】
一种基于双模态交叉融合与多图交互式学习的视频显著性物体检测方法与系统
[0001]本专利技术属于计算机视觉
,特别是涉及一种基于双模态交叉融合与多图交互式学习的视频显著性物体检测方法与系统。
技术介绍
[0002]视频是记录信息、传递思想和表达感情的重要媒介,其通过对真实动态场景的记录为我们提供一个真实客观的世界表象。然而,视频数据包含的大量冗余信息使其具有价值密度低的特点,这给视频智能分析带来了巨大挑战,并对分析所依赖的计算资源产生巨大负担。
[0003]视频显著性物体检测作为应对上述挑战的一种有效方式,是目前智能视频分析领域中的基础前沿问题,其内涵是基于人类视觉注意机理利用算法分析动态视觉场景中物体之间的语义关系,区分不同物体的重要性,进而定位出最具辨别性、最引人注意的物体,并将其从背景中分离出来。作为一种有效的视频处理基础环节,视频显著性物体检测不仅可以提高后续高层视觉理解任务的性能,还能够引导计算资源的合理分配,将有限的计算资源分配给复杂的计算任务,进而高效地完成应用领域视频信息处理任务。例如,在视频目标跟踪任务中,目标的姿态变化、外观变化、位置突变等情况会对跟踪器性能造成巨大影响,而类别独立的视频显著性物体检测可以提供目标知识,帮助跟踪器快速准确地找回跟踪失败的目标。类似地,在视频理解任务中,场景中的不同物体对视频内容理解的贡献是不一样的,视频显著性物体检测能够区分不同物体的重要性,进而提高对视频内容的抽象理解能力。
[0004]因此,可以看到,视频显著性物体检测作为视频处理领域的共性 ...
【技术保护点】
【技术特征摘要】
1.一种基于双模态交叉融合与多图交互式学习的视频显著性物体检测方法,其特征在于:所述方法具体为:步骤1、将第t帧的RGB图像及与之对应的光流图像作为输入,分别通过两个独立的ResNet50骨干网络初步提取空间特征和运动特征;步骤2、利用交叉注意力模块对从骨干网络中K个特征提取层输出的空间特征与运动特征进行时空跨模态特征的有效融合;步骤3、采用多尺度特征融合模块分别从空间特征提取分支、时间特征提取分支以及双模态交叉融合分支中捕获多尺度的特征线索,提升方法整体的鲁棒性;步骤4、对多尺度空间特征、多尺度运动特征以及多尺度融合特征分别进行图投影操作,使他们变换到非欧氏空间,以获得相应地图结构数据,即空间图、运动图和融合图;步骤5、将空间图、运动图和融合图同时输入到多图交互式学习网络中进行处理,通过多关系动态注意力图卷积算子捕获更加丰富的时空上下文结构信息,同时利用图交互模块使得时空信息交互最大化;步骤6、最后,对融合图节点嵌入信息挖掘过程最终输出的融合图经过图重投影操作,使其恢复到原始的欧氏空间,紧接着经过全连接层处理之后,生成最终的显著性检测结果。2.根据权利要求1所述的方法,其特征在于,在步骤2中,对于第k层,首先利用全局平均池化从每个空间特征和运动特征中提取通道级向量和之后通过两层1
×
1卷积操作,即和θ
t
(x;W
θ
),其中和W
θ
分别表示两个卷积层的可学习参数,生成两个判别性全局描述子,紧接着采用Sigmoid函数,即将这两个描述子的元素值转换到[0,1]区间,作为通道注意力权值;然后,对和通过外积操作生成候选特征生成候选特征同理,对和通过外积操作生成候选特征生成候选特征最后,为了提取深度融合特征,对两个候选特征和以及上一层交叉注意力模块的输出特征进行融合,在ResNet50的第k个特征提取层R
k
[x]中执行元素级加法操作获得包含时空相关性的融合特征获得包含时空相关性的融合特征其中,表示0张量,K设置为4。3.根据权利要求2所述的方法,其特征在于,在步骤3中,首先以ResNet50骨干网络的最后四个特征提取层的输出特征作为输入,其由低到高分别表示为:然后将高层特征向低层逐级传播,渐进地与低层特征进行融合,融合过程可以表示为:
其中,表示第i
‑
1阶段的融合特征输出,Conv3×3(
·
)表示3
×
3卷积操作,Up(
·
)表示上采样操作;最后,将三个阶段的融合特征输出通过串接操作进行融合,得到最终的多尺度融合特征输出终的多尺度融合特征输出其中,Concat(
·
...
【专利技术属性】
技术研发人员:刘冰,王甜甜,付平,高丽娜,闫铮,付杰,周惊涛,王树炎,孙杉,梁祖爽,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。