【技术实现步骤摘要】
视听事件定位方法和系统
[0001]本专利技术涉及视听事件定位领域,具体涉及一种视听事件定位方法和系统。
技术介绍
[0002]事件位置和动作识别在理解和分析视频内容方面变得越来越重要。大多数方法都是基于光流和RGB特征的处理。然而,音频也可以为理解整体视频内容提供有用的线索,人类自然会将音频信息与视觉模式结合起来,以在视频中定位事件。
[0003]为了研究如何将音频和视频模式结合起来,以全面了解视频内容,出现了视听事件(AVE)定位任务。其中,模型需要确定事件的类型,并基于音频和视觉的同时发生,在时间维度上定位事件边界。
[0004]然而,视听事件(AVE)定位方法面临以下三个挑战:
[0005](i)在保留模态特定信息的同时,很难将互补的音频和视频特征合并在一起。
[0006](ii)无约束视频中存在的突发噪声和复杂背景会阻碍事件类别的预测。
[0007](iii)AVE要求对事件进行可听和可见的识别,而不同步的音频和视频信息将误导对事件边界的预测。
技术实现思路
...
【技术保护点】
【技术特征摘要】
1.一种视听事件定位方法,其特征在于,包括:获取AVE数据集与LIP数据集作为训练样本;将样本通过跨模态背景抑制网络,得出事件预测;所述的跨模态背景抑制网络,包括跨模态门控注意模块、时间级背景抑制模块、事件级背景抑制模块、分类器;将训练样本中具有T个非重叠段的视频序列经过相应音频和视频特征的提取后,得到音频特征a
t
和视觉特征v
t
;其中,V
t
和A
t
分别为第t个视频序列的视频和音频;首先由跨模态门控注意模块提取全局视觉信息,并实行通道级注意和空间级注意,利用交叉注意机制计算每一个视频序列的重要视觉区域,形成重要视觉特征;接下来利用时间级背景抑制模块,分别在视频模式下和音频模式下区分和抑制彼此的模糊背景;再利用事件级背景抑制模块抑制噪声事件,得到视频模式下和音频模式下每个事件发生的概率;最后通过分类器融合视听信息,预测事件类别标签及事件相关分数,实现视听事件定位。2.根据权利要求1所述的视听事件定位方法,其特征在于,所述的跨模态门控注意模块具体为:1.1)通过自我注意机制允许视觉特征v
t
中的每个点感知来自所有其他点的权重和信息,并获得新的视觉特征1.2)为获得每个视频片段的整体表示,在上应用全局平均池化操作来压缩和提取全局视觉信息1.3)执行通道级注意:使用全局视觉信息和音频特征a
t
进行通道级注意,获得视觉通道级注意特征和音频通道级注意特征执行空间级注意:从通道级注意特征和中提取重要的视觉空间信息,计算全局视觉信息和音频特征a
t
的空间水平注意力得分:的空间水平注意力得分:的空间水平注意力得分:其中,W1是三个学习参数,
⊙
是Hadamard乘积,δ是Relu激活函数,分别是全局视觉信息和视觉通道级注意特征的激活结果,softmax(.)是softmax函数,是全局视觉信息的空间水平注意力得分;的空间水平注意力得分;的空间水平注意力得分;其中,分别是音频特征和音频通道级注意特征的激活结果;是音频特征a
t
的空间水平注意力得分;
1.4)将全局视觉信息的空间水平注意力得分与音频特征a
t
的空间水平注意力得分相乘,作为空间层次注意视觉特征将视觉通道级注意特征和音频通道级注意特征相乘,作为空间层次注意视觉特征1.5)利用交叉注意机制,计算第t个视频序列的重要视觉区域:其中β1、β2是超参数,σ
a
、σ
g
是选择参数,用于选择音频和视觉所考虑的事件相关区域;V
′
t
是第t个视频序列的重要视觉区域特征;1.6)将T个非重叠段的视频序列的重要视觉区域特征连接,形成重要视觉特征V。3.根据权利要求1所述的视听事件定位方法,其特征在于,所述的时间级背景抑制模块具体为:2.1)对音频和视频两模态应用自我注意机制,并对自我注意机制结果分别进行时间级音频门处理和时间级视频门处理,计算公式为:音频门处理和时间级视频门...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。