一种视听事件检测方法、装置、存储介质及电子设备制造方法及图纸

技术编号：39418109 阅读：10 留言：0更新日期：2023-11-19 16:08

本说明书公开了一种视听事件检测方法、装置、存储介质及电子设备。在本说明书提供的视听事件检测方法中，获取目标音视频数据，并从所述目标音视频数据中提取目标视频与目标音频；采用同一方式对所述目标视频与所述目标音频进行分段，得到相同数量的分段视频与分段音频；将在所述目标音视频数据中位于同一时间段的分段视频与分段音频确定为音视频对；针对每个音视频对，提取该音视频对中的分段视频的视频特征与分段音频的音频特征；对所述视频特征与所述音频特征进行融合，得到该音视频对的融合特征，所述融合特征用于表征该音视频对的视听事件语义；根据该音视频对的融合特征确定该音视频对的视听事件检测结果。音视频对的视听事件检测结果。音视频对的视听事件检测结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种视听事件检测方法、装置、存储介质及电子设备

[0001]本说明书涉及计算机
，尤其涉及一种视听事件检测方法、装置、存储介质及电子设备。

技术介绍

[0002]人类在很大程度上依靠视觉和听觉线索来了解周围的环境。例如，可以联合声音和外观在交响演奏时将不同乐器的声音区分开来。这些视听信息在大脑中进行整合，对于全面感知世界至关重要。受人类这种认知能力的启发，通过整合多模态信号探索具有深度模型的视听学习成为广受业界关注的命题。
[0003]视听事件检测作为多模态信号整合感知的一类任务，受到越来越多的关注。然而，现有的方法只是对视听表示进行简单特征级别的融合，并未涉及到高级的语义特征，因而只是对视频中的声音事件进行区域响应，无法进行事件语义上的判别。
[0004]因此，如何更好地结合视觉与听觉信息进行更加全面的视听事件检测是一个亟待解决的问题。

技术实现思路

[0005]本说明书提供一种视听事件检测方法、装置、存储介质及电子设备，以至少部分地解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案：本说明书提供了一种视听事件检测方法，包括：获取目标音视频数据，并从所述目标音视频数据中提取目标视频与目标音频；采用同一方式对所述目标视频与所述目标音频进行分段，得到相同数量的分段视频与分段音频；将在所述目标音视频数据中位于同一时间段的分段视频与分段音频确定为音视频对；针对每个音视频对，提取该音视频对中的分段视频的视频特征与分段音频的音频特征；对所述视频特征与所述音频特征进行...

【技术保护点】

【技术特征摘要】
1.一种视听事件检测方法，其特征在于，包括：获取目标音视频数据，并从所述目标音视频数据中提取目标视频与目标音频；采用同一方式对所述目标视频与所述目标音频进行分段，得到相同数量的分段视频与分段音频；将在所述目标音视频数据中位于同一时间段的分段视频与分段音频确定为音视频对；针对每个音视频对，提取该音视频对中的分段视频的视频特征与分段音频的音频特征；对所述视频特征与所述音频特征进行融合，得到该音视频对的融合特征，所述融合特征用于表征该音视频对的视听事件语义；根据该音视频对的融合特征确定该音视频对的视听事件检测结果。2.如权利要求1所述的方法，其特征在于，采用同一方式对所述目标视频与所述目标音频进行分段，得到相同数量的分段视频与分段音频，具体包括：根据所述目标音频的频谱脉冲对所述目标音频进行分段，得到所述目标音频的分段音频；根据各分段音频在所述目标音视频数据中的时间段分布，对所述目标视频进行分段，得到在所述目标音视频数据中时间段分布与所述各分段音频相同的各分段视频。3.如权利要求2所述的方法，其特征在于，根据所述目标音频的频谱脉冲对所述目标音频进行分段，得到所述目标音频的分段音频，具体包括：确定所述目标音频中各音频帧的短时能量；对所述目标音频中，短时能量为指定阈值的音频帧进行标记，并对所述目标音频的起始音频帧与结尾音频帧进行标记；将所述目标音频中任意两个连续的标记，将该两个标记所在的音频帧之间的音频内容确定为分段音频。4.如权利要求1所述的方法，其特征在于，对所述视频特征与所述音频特征进行融合，得到该音视频对的融合特征，具体包括：根据所述视频特征，确定该音视频对中的分段视频的视频语义特征，并根据所述音频特征，确定该音视频对中的分段音频的音频语义特征；对所述视频语义特征与所述音频语义特征进行融合，得到该音视频对的融合特征。5.如权利要求4所述的方法，其特征在于，对所述视频语义特征与所述音频语义特征进行融合，得到该音视频对的融合特征，具体包括：对所述视频语义特征与所述音频语义特征进行融合，得到该音视频对的一致性语义特征；对所述一致性语义特征与该音视频对中的分段视频的视频特征进行融合，得到该音视频对的融合特征。6.如权利要求1所述的方法，其特征在于，针对每个音视频对，提取该音视频对中的分段视频的视频特征与分段音频的音频特征，具体包括：针对每个音视频对，将该音视频对输入预先训练的检测模型，通过所述检测模型中的提取子网提取该音视频对中的分段视频的视频特征与分段音频的音频特征；对所述视...

【专利技术属性】
技术研发人员：俞菲，尚苗，万志国，洪晓鹏，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人