一种视频事件定位与识别方法、装置及存储介质制造方法及图纸

技术编号:36406925 阅读:16 留言:0更新日期:2023-01-18 10:15
本发明专利技术公开了一种视频事件定位与识别方法、装置及存储介质,其中方法包括:获取同步的视频数据和音频数据;提取视觉特征和音频特征;利用声音引导的视觉注意力机制模块和视觉引导的声音注意力机制模块进行特征增强;将增强的特征输入跨模态关系感知模块,进行建模以及利用音视频模态内和模态间的关系,实现模态间的信息互补,增强特征表达能力,输出事件定位和识别的结果。本发明专利技术有效地建模和利用了音视频模态内和模态间的关系,实现跨模态信息互相补充,具有更强的表征能力;同时,能够有效缓解复杂视频背景和音频无关声音带来的干扰,因而事件的定位和识别的准确度更高。本发明专利技术可广泛应用于智能识别技术领域。泛应用于智能识别技术领域。泛应用于智能识别技术领域。

【技术实现步骤摘要】
一种视频事件定位与识别方法、装置及存储介质


[0001]本专利技术涉及智能识别
,尤其涉及一种视频事件定位与识别方法、装置及存储介质。

技术介绍

[0002]视频事件定位与识别是视频理解领域的一个重要研究方向,其要求智能算法自动定位视频和音频中所发生事件的起始和结束时间并识别事件的类别。在现实生活中,事件定位与识别有着广泛的潜在应用场景,具备重要的应用价值,例如安防领域的智能监控预警及信息安全监测、医疗领域的视频影像辅助分析、娱乐领域的视频高光片段捕捉等。
[0003]然而,由于实际应用场景中视频时空内容变化大、视觉背景和音频内容复杂、音视频背景等冗余干扰信息多,事件难以准确定位和识别。例如,在轨道交通场景中,人员复杂,人流密集,视频内容多变,视觉背景复杂,声音来源多样且背景杂音大,准确定位和识别冲突盗窃等异常事件极具挑战性。实际上,人类在定位和识别事件时,视频和音频模态间的关系信息发挥着重要作用。这种关联关系往往起着相互引导和互相补充的作用。如何有效利用音视频模态内和模态间的关系,实现跨模态信息互补,提高特征表达能力,同时减少视觉和音频背景的干扰,是目前该领域仍未解决的问题。
[0004]综上所述,如何建模和利用音视频模态间和模态内关系,为模型提供事件定位和识别推理线索,同时减少复杂视频背景和音频背景无关声音带来的干扰,是当前该领域亟待解决的问题。

技术实现思路

[0005]为至少一定程度上解决现有技术中存在的技术问题之一,本专利技术的目的在于提供一种视频事件定位与识别方法、装置及存储介质。
[0006]本专利技术所采用的技术方案是:一种视频事件定位与识别方法,包括以下步骤:获取同步的视频数据和音频数据;根据视频数据提取视觉特征,根据音频数据提取音频特征;将视觉特征输入声音引导的视觉注意力机制模块进行增强处理,输出视觉增强特征;将音频特征输入视觉引导的声音注意力机制模块进行增强处理,输出音频增强特征;将视觉增强特征和音频增强特征输入跨模态关系感知模块,进行建模以及利用音视频模态内和模态间的关系,实现模态间的信息互补,增强特征表达能力,输出事件定位和识别的结果。
[0007]进一步地,所述获取同步的视频数据和音频数据,包括:获取音频数据,利用短时傅里叶变换将音频数据转化为对数梅尔频谱图;
获取视频数据,利用Decord视频解码包对视频数据进行分帧处理,利用稀疏采样策略对视频帧进行稀疏采样,得到视频帧和对应的音频的对数梅尔频谱图。
[0008]进一步地,所述根据视频数据提取视觉特征,根据音频数据提取音频特征,包括:采用ResNet网络作为视觉特征提取器,提取视觉特征;采用VGGish网络作为音频特征提取器,提取音频特征。
[0009]进一步地,所述将视觉特征输入声音引导的视觉注意力机制模块进行增强处理,输出视觉增强特征,包括:对于视觉特征和音频特征,利用声音信号对视觉信息建模的引导作用,分别在通道和空间维度指导视觉注意力,使模型着重关注重要特征和空间区域,缓解无关信息干扰,得到视觉增强特征,公式表达如下:公式表达如下:公式表达如下:公式表达如下:式中,和分别表示空间和通道维度视觉注意力权重,和表示可学习参数矩阵,表示空间维度的全局平均池化层,表示多层感知机,表示Sigmoid函数,表示矩阵乘法操作,表示逐元素的乘法运算,表示Soft

max函数;表示通道注意力,表示空间注意力,表示音视频片段的时序位置;表示作用于音频特征的空间注意力可学习参数,表示作用于视频特征的空间注意力可学习参数,表示作用于音频特征的通道注意力可学习参数,表示作用于视频特征的通道注意力可学习参数,表示通道注意的视频特征。
[0010]进一步地,所述将音频特征输入视觉引导的声音注意力机制模块进行增强处理,输出音频增强特征,包括:对于视觉特征和音频特征,利用视觉信号对声音信息的建模引导作用,在通道维度引导声音注意力,使模型关注更具信息量的声音通道特征,得到音频增强特征,公式表达如下:公式表达如下:其中,表示通道维度声音注意力权重,和表示可学习参数矩阵,表示空间维度的全局平均池化层,表示Sigmoid函数,表示逐元素的乘法运算;表示音频通道注意力中的用于可学习参数。
[0011]进一步地,所述跨模态关系感知模块包括跨模态注意力机制和基于门控机制的特征选择模块;所述跨模态注意力机制通过全连接层、层归一化函数、线性整流函数构建获
得,所述基于门控机制的特征选择模块通过全连接层、双曲正切函数、S型函数构建获得;利用跨模态注意力机制建模以及利用音视频模态内和模态间的关系,提高特征表达能力;利用基于门控机制的特征选择模块,自适应选择另一模态部分信息作为补充信息,实现跨模态信息互补。
[0012]进一步地,所述将视觉增强特征和音频增强特征输入跨模态关系感知模块,进行建模以及利用音视频模态内和模态间的关系,实现模态间的信息互补,增强特征表达能力,输出事件定位和识别的结果,包括:对于跨模态注意力机制,根据视觉增强特征和音频增强特征,通过建模以及利用模态内和模态间关系,聚合自身和其他模态的信息来提高当前模态的特征表达能力,得到关系感知的视频特征和关系感知的音频特征;对于基于门控机制的特征选择模块,根据视频特征和音频特征以及提取的视觉特征和音频特征,利用门控机制来自动选择另一模态的部分信息作为补充,得到跨模态互补的视频特征和跨模态互补的音频特;利用逐元素乘法运算将两个模态特征进行融合,得到音视频联合特征;基于联合特征,利用两个分类器分别进行事件类别相关性预测和事件类别预测,输出事件定位和识别的结果。
[0013]进一步地,所述关系感知的视频特征的表达式如下:的表达式如下:的表达式如下:其中,、中的下标1、2表示不同模态,表示时序维度特征拼接操作,、和表示可学习参数矩阵,为输入特征的维度;表示包含一种模态的查询特征,表示包含两种模态的键特征,表示包含两种模态的值特征;表示视觉增强特征和音频增强特征两者拼接后特征;跨模态互补的视频特征的表达式如下:的表达式如下:式中,和为待学习参数,表示逐元素的乘法运算,表示双曲正切函数,表示Sigmoid函数;表示互补特征的权重。
[0014]本专利技术所采用的另一技术方案是:一种视频事件定位与识别装置,包括:
至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
[0015]本专利技术所采用的另一技术方案是:一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
[0016]本专利技术的有益效果是:本专利技术有效地建模和利用了音视频模态内和模态间的关系,实现跨模态信息互相补充,为模型提供更全面的事件定位和识别推理线索,具有更强的表征能力。同时,能够有效缓解复杂视频背景和音频无关声音带来的干扰,因而事件的定位和识别的准确度更高。
附图说明
[0017]为了更清楚地说明本专利技术实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频事件定位与识别方法,其特征在于,包括以下步骤:获取同步的视频数据和音频数据;根据视频数据提取视觉特征,根据音频数据提取音频特征;将视觉特征输入声音引导的视觉注意力机制模块进行增强处理,输出视觉增强特征;将音频特征输入视觉引导的声音注意力机制模块进行增强处理,输出音频增强特征;将视觉增强特征和音频增强特征输入跨模态关系感知模块,进行建模以及利用音视频模态内和模态间的关系,实现模态间的信息互补,增强特征表达能力,输出事件定位和识别的结果。2.根据权利要求1所述的一种视频事件定位与识别方法,其特征在于,所述获取同步的视频数据和音频数据,包括:获取音频数据,利用短时傅里叶变换将音频数据转化为对数梅尔频谱图;获取视频数据,利用Decord视频解码包对视频数据进行分帧处理,利用稀疏采样策略对视频帧进行稀疏采样,得到视频帧和对应的音频的对数梅尔频谱图。3.根据权利要求1所述的一种视频事件定位与识别方法,其特征在于,所述根据视频数据提取视觉特征,根据音频数据提取音频特征,包括:采用ResNet网络作为视觉特征提取器,提取视觉特征;采用VGGish网络作为音频特征提取器,提取音频特征。4.根据权利要求1所述的一种视频事件定位与识别方法,其特征在于,所述将视觉特征输入声音引导的视觉注意力机制模块进行增强处理,输出视觉增强特征,包括:对于视觉特征和音频特征,利用声音信号对视觉信息建模的引导作用,分别在通道和空间维度指导视觉注意力,使模型着重关注重要特征和空间区域,缓解无关信息干扰,得到视觉增强特征,公式表达如下:公式表达如下:公式表达如下:公式表达如下:式中,和分别表示空间和通道维度视觉注意力权重,和表示可学习参数矩阵,表示空间维度的全局平均池化层,表示多层感知机,表示Sigmoid函数,表示矩阵乘法操作,表示逐元素的乘法运算,表示Soft

max函数;表示通道注意力,表示空间注意力,表示音视频片段的时序位置;表示作用于音频特征的空间注意力可学习参数,表示作用于视频特征的空间注意力可学习参数,表示作用于音频特征的通道注意力可学习参数,表示作用于视频特征的通道注意力可学习参数,表示通道注意的视频特征。5.根据权利要求1所述的一种视频事件定位与识别方法,其特征在于,所述将音频特征
输入视觉引导的声音注意力机制模块进行增强处理,输出音频增强特征,包括:对于视觉特征和音频特征,利用视觉信号对声音信息的建模引导作用,在通道维度引导声音注意力,使模型关注更具信息量的声音通道特征,得到音频增强特征,公式表达如下:达如下:其中,...

【专利技术属性】
技术研发人员:谭明奎徐浩明吉冬昱杜卿胡灏李利
申请(专利权)人:广东广物互联网科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1