一种视频事件定位与识别方法、装置及存储介质制造方法及图纸

技术编号：36406925 阅读：28 留言：0更新日期：2023-01-18 10:15

本发明专利技术公开了一种视频事件定位与识别方法、装置及存储介质，其中方法包括：获取同步的视频数据和音频数据；提取视觉特征和音频特征；利用声音引导的视觉注意力机制模块和视觉引导的声音注意力机制模块进行特征增强；将增强的特征输入跨模态关系感知模块，进行建模以及利用音视频模态内和模态间的关系，实现模态间的信息互补，增强特征表达能力，输出事件定位和识别的结果。本发明专利技术有效地建模和利用了音视频模态内和模态间的关系，实现跨模态信息互相补充，具有更强的表征能力；同时，能够有效缓解复杂视频背景和音频无关声音带来的干扰，因而事件的定位和识别的准确度更高。本发明专利技术可广泛应用于智能识别技术领域。泛应用于智能识别技术领域。泛应用于智能识别技术领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频事件定位与识别方法、装置及存储介质

[0001]本专利技术涉及智能识别
，尤其涉及一种视频事件定位与识别方法、装置及存储介质。

技术介绍

[0002]视频事件定位与识别是视频理解领域的一个重要研究方向，其要求智能算法自动定位视频和音频中所发生事件的起始和结束时间并识别事件的类别。在现实生活中，事件定位与识别有着广泛的潜在应用场景，具备重要的应用价值，例如安防领域的智能监控预警及信息安全监测、医疗领域的视频影像辅助分析、娱乐领域的视频高光片段捕捉等。
[0003]然而，由于实际应用场景中视频时空内容变化大、视觉背景和音频内容复杂、音视频背景等冗余干扰信息多，事件难以准确定位和识别。例如，在轨道交通场景中，人员复杂，人流密集，视频内容多变，视觉背景复杂，声音来源多样且背景杂音大，准确定位和识别冲突盗窃等异常事件极具挑战性。实际上，人类在定位和识别事件时，视频和音频模态间的关系信息发挥着重要作用。这种关联关系往往起着相互引导和互相补充的作用。如何有效利用音视频模态内和模态间的关系，实现跨模态信息互补，提高特征表达能力，同时减少视觉和音频背景的干扰，是目前该领域仍未解决的问题。
[0004]综上所述，如何建模和利用音视频模态间和模态内关系，为模型提供事件定位和识别推理线索，同时减少复杂视频背景和音频背景无关声音带来的干扰，是当前该领域亟待解决的问题。

技术实现思路

[0005]为至少一定程度上解决现有技术中存在的技术问题之一，本专利技术的目的在于提供一种视频事件定位与识别方法、装...

【技术保护点】

【技术特征摘要】
1.一种视频事件定位与识别方法，其特征在于，包括以下步骤：获取同步的视频数据和音频数据；根据视频数据提取视觉特征，根据音频数据提取音频特征；将视觉特征输入声音引导的视觉注意力机制模块进行增强处理，输出视觉增强特征；将音频特征输入视觉引导的声音注意力机制模块进行增强处理，输出音频增强特征；将视觉增强特征和音频增强特征输入跨模态关系感知模块，进行建模以及利用音视频模态内和模态间的关系，实现模态间的信息互补，增强特征表达能力，输出事件定位和识别的结果。2.根据权利要求1所述的一种视频事件定位与识别方法，其特征在于，所述获取同步的视频数据和音频数据，包括：获取音频数据，利用短时傅里叶变换将音频数据转化为对数梅尔频谱图；获取视频数据，利用Decord视频解码包对视频数据进行分帧处理，利用稀疏采样策略对视频帧进行稀疏采样，得到视频帧和对应的音频的对数梅尔频谱图。3.根据权利要求1所述的一种视频事件定位与识别方法，其特征在于，所述根据视频数据提取视觉特征，根据音频数据提取音频特征，包括：采用ResNet网络作为视觉特征提取器，提取视觉特征；采用VGGish网络作为音频特征提取器，提取音频特征。4.根据权利要求1所述的一种视频事件定位与识别方法，其特征在于，所述将视觉特征输入声音引导的视觉注意力机制模块进行增强处理，输出视觉增强特征，包括：对于视觉特征和音频特征，利用声音信号对视觉信息建模的引导作用，分别在通道和空间维度指导视觉注意力，使模型着重关注重要特征和空间区域，缓解无关信息干扰，得到视觉增强特征，公式表达如下：公式表达如下：公式表达如下：公式表达如下：式中，和分别表示空间和通道维度视觉注意力权重，和表示可学习参数矩阵，表示空间维度的全局平均池化层，表示多层感知机，表示Sigmoid函数，表示矩阵乘法操作，表示逐元素的乘法运算，表示Soft
‑
max函数；表示通道注意力，表示空间注意力，表示音视频片段的时序位置；表示作用于音频特征的空间注意力可学习参数，表示作用于视频特征的空间注意力可学习参数，表示作用于音频特征的通道注意力可学习参数，表示作用于视频特征的通道注意力可学习参数，表示通道注意的视频特征。5.根据权利要求1所述的一种视频事件定位与识别方法，其特征在于，所述将音频特征
输入视觉引导的声音注意力机制模块进行增强处理，输出音频增强特征，包括：对于视觉特征和音频特征，利用视觉信号对声音信息的建模引导作用，在通道维度引导声音注意力，使模型关注更具信息量的声音通道特征，得到音频增强特征，公式表达如下：达如下：其中，...

【专利技术属性】
技术研发人员：谭明奎，徐浩明，吉冬昱，杜卿，胡灏，李利，
申请(专利权)人：广东广物互联网科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人