当前位置: 首页 > 专利查询>之江实验室专利>正文

一种视听事件检测方法、装置、存储介质及电子设备制造方法及图纸

技术编号:39418109 阅读:10 留言:0更新日期:2023-11-19 16:08
本说明书公开了一种视听事件检测方法、装置、存储介质及电子设备。在本说明书提供的视听事件检测方法中,获取目标音视频数据,并从所述目标音视频数据中提取目标视频与目标音频;采用同一方式对所述目标视频与所述目标音频进行分段,得到相同数量的分段视频与分段音频;将在所述目标音视频数据中位于同一时间段的分段视频与分段音频确定为音视频对;针对每个音视频对,提取该音视频对中的分段视频的视频特征与分段音频的音频特征;对所述视频特征与所述音频特征进行融合,得到该音视频对的融合特征,所述融合特征用于表征该音视频对的视听事件语义;根据该音视频对的融合特征确定该音视频对的视听事件检测结果。音视频对的视听事件检测结果。音视频对的视听事件检测结果。

【技术实现步骤摘要】
一种视听事件检测方法、装置、存储介质及电子设备


[0001]本说明书涉及计算机
,尤其涉及一种视听事件检测方法、装置、存储介质及电子设备。

技术介绍

[0002]人类在很大程度上依靠视觉和听觉线索来了解周围的环境。例如,可以联合声音和外观在交响演奏时将不同乐器的声音区分开来。这些视听信息在大脑中进行整合,对于全面感知世界至关重要。受人类这种认知能力的启发,通过整合多模态信号探索具有深度模型的视听学习成为广受业界关注的命题。
[0003]视听事件检测作为多模态信号整合感知的一类任务,受到越来越多的关注。然而,现有的方法只是对视听表示进行简单特征级别的融合,并未涉及到高级的语义特征,因而只是对视频中的声音事件进行区域响应,无法进行事件语义上的判别。
[0004]因此,如何更好地结合视觉与听觉信息进行更加全面的视听事件检测是一个亟待解决的问题。

技术实现思路

[0005]本说明书提供一种视听事件检测方法、装置、存储介质及电子设备,以至少部分地解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案:本说明书提供了一种视听事件检测方法,包括:获取目标音视频数据,并从所述目标音视频数据中提取目标视频与目标音频;采用同一方式对所述目标视频与所述目标音频进行分段,得到相同数量的分段视频与分段音频;将在所述目标音视频数据中位于同一时间段的分段视频与分段音频确定为音视频对;针对每个音视频对,提取该音视频对中的分段视频的视频特征与分段音频的音频特征;对所述视频特征与所述音频特征进行融合,得到该音视频对的融合特征,所述融合特征用于表征该音视频对的视听事件语义;根据该音视频对的融合特征确定该音视频对的视听事件检测结果。
[0007]可选地,采用同一方式对所述目标视频与所述目标音频进行分段,得到相同数量的分段视频与分段音频,具体包括:根据所述目标音频的频谱脉冲对所述目标音频进行分段,得到所述目标音频的分段音频;根据各分段音频在所述目标音视频数据中的时间段分布,对所述目标视频进行分段,得到在所述目标音视频数据中时间段分布与所述各分段音频相同的各分段视频。
[0008]可选地,根据所述目标音频的频谱脉冲对所述目标音频进行分段,得到所述目标音频的分段音频,具体包括:确定所述目标音频中各音频帧的短时能量;对所述目标音频中,短时能量为指定阈值的音频帧进行标记,并对所述目标音频的起始音频帧与结尾音频帧进行标记;将所述目标音频中任意两个连续的标记,将该两个标记所在的音频帧之间的音频内容确定为分段音频。
[0009]可选地,对所述视频特征与所述音频特征进行融合,得到该音视频对的融合特征,具体包括:根据所述视频特征,确定该音视频对中的分段视频的视频语义特征,并根据所述音频特征,确定该音视频对中的分段音频的音频语义特征;对所述视频语义特征与所述音频语义特征进行融合,得到该音视频对的融合特征。
[0010]可选地,对所述视频语义特征与所述音频语义特征进行融合,得到该音视频对的融合特征,具体包括:对所述视频语义特征与所述音频语义特征进行融合,得到该音视频对的一致性语义特征;对所述一致性语义特征与该音视频对中的分段视频的视频特征进行融合,得到该音视频对的融合特征。
[0011]可选地,针对每个音视频对,提取该音视频对中的分段视频的视频特征与分段音频的音频特征,具体包括:针对每个音视频对,将该音视频对输入预先训练的检测模型,通过所述检测模型中的提取子网提取该音视频对中的分段视频的视频特征与分段音频的音频特征;对所述视频特征与所述音频特征进行融合,得到该音视频对的融合特征,具体包括:通过所述检测模型中的融合子网,对所述视频特征与所述音频特征进行融合,得到该音视频对的融合特征;根据该音视频对的融合特征确定该音视频对的视听事件检测结果,具体包括:将该音视频对的融合特征输入所述检测模型的输出子网,得到所述输出子网输出的该音视频对的视听事件检测结果。
[0012]可选地,预先训练检测模型,具体包括:获取样本音视频数据,并从所述样本音视频数据中提取样本视频与样本音频;采用同一方式对所述样本视频与所述样本音频进行分段,得到相同数量的样本分段视频与样本分段音频;将在所述样本音视频数据中位于同一时间段的样本分段视频与样本分段音频确定为样本音视频对,并确定各样本音视频对的标注事件;针对每个样本音视频对,将该样本音视频对输入待训练的检测模型,通过所述检测模型中的提取子网提取该样本音视频对中的样本分段视频的待优化视频特征与样本分段音频的待优化音频特征;
通过所述检测模型中的融合子网,对所述待优化视频特征与所述待优化音频特征进行融合,得到该样本音视频对的待优化融合特征;将该样本音视频对的待优化融合特征输入所述检测模型的输出子网,得到所述输出子网输出的该样本音视频对的待优化视听事件检测结果;以所述待优化视听视频检测结果与所述标注事件之间的差异最小为优化目标,对所述检测模型进行训练。
[0013]本说明书提供的一种视听事件检测装置,所述装置包括:获取模块,用于获取目标音视频数据,并从所述目标音视频数据中提取目标视频与目标音频;分段模块,用于采用同一方式对所述目标视频与所述目标音频进行分段,得到相同数量的分段视频与分段音频;组合模块,用于将在所述目标音视频数据中位于同一时间段的分段视频与分段音频确定为音视频对;提取模块,用于针对每个音视频对,提取该音视频对中的分段视频的视频特征与分段音频的音频特征;融合模块,用于对所述视频特征与所述音频特征进行融合,得到该音视频对的融合特征,所述融合特征用于表征该音视频对的视听事件语义;检测模块,用于根据该音视频对的融合特征确定该音视频对的视听事件检测结果。
[0014]本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述视听事件检测方法。
[0015]本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述视听事件检测方法。
[0016]本说明书采用的上述至少一个技术方案能够达到以下有益效果:在本说明书提供的视听事件检测方法中,获取目标音视频数据,并从所述目标音视频数据中提取目标视频与目标音频;采用同一方式对所述目标视频与所述目标音频进行分段,得到相同数量的分段视频与分段音频;将在所述目标音视频数据中位于同一时间段的分段视频与分段音频确定为音视频对;针对每个音视频对,提取该音视频对中的分段视频的视频特征与分段音频的音频特征;对所述视频特征与所述音频特征进行融合,得到该音视频对的融合特征,所述融合特征用于表征该音视频对的视听事件语义;根据该音视频对的融合特征确定该音视频对的视听事件检测结果。
[0017]在采用本说明书提供的视听事件检测方法对目标音视频数据进行视听事件检测时,可在提取出目标音视频数据的目标视频与目标音频后,对目标视频与目标音频进行分段,得到相同数量的分段视频与分段音频,并将对应的分段视频与分段音频确定为音视频对;通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视听事件检测方法,其特征在于,包括:获取目标音视频数据,并从所述目标音视频数据中提取目标视频与目标音频;采用同一方式对所述目标视频与所述目标音频进行分段,得到相同数量的分段视频与分段音频;将在所述目标音视频数据中位于同一时间段的分段视频与分段音频确定为音视频对;针对每个音视频对,提取该音视频对中的分段视频的视频特征与分段音频的音频特征;对所述视频特征与所述音频特征进行融合,得到该音视频对的融合特征,所述融合特征用于表征该音视频对的视听事件语义;根据该音视频对的融合特征确定该音视频对的视听事件检测结果。2.如权利要求1所述的方法,其特征在于,采用同一方式对所述目标视频与所述目标音频进行分段,得到相同数量的分段视频与分段音频,具体包括:根据所述目标音频的频谱脉冲对所述目标音频进行分段,得到所述目标音频的分段音频;根据各分段音频在所述目标音视频数据中的时间段分布,对所述目标视频进行分段,得到在所述目标音视频数据中时间段分布与所述各分段音频相同的各分段视频。3.如权利要求2所述的方法,其特征在于,根据所述目标音频的频谱脉冲对所述目标音频进行分段,得到所述目标音频的分段音频,具体包括:确定所述目标音频中各音频帧的短时能量;对所述目标音频中,短时能量为指定阈值的音频帧进行标记,并对所述目标音频的起始音频帧与结尾音频帧进行标记;将所述目标音频中任意两个连续的标记,将该两个标记所在的音频帧之间的音频内容确定为分段音频。4.如权利要求1所述的方法,其特征在于,对所述视频特征与所述音频特征进行融合,得到该音视频对的融合特征,具体包括:根据所述视频特征,确定该音视频对中的分段视频的视频语义特征,并根据所述音频特征,确定该音视频对中的分段音频的音频语义特征;对所述视频语义特征与所述音频语义特征进行融合,得到该音视频对的融合特征。5.如权利要求4所述的方法,其特征在于,对所述视频语义特征与所述音频语义特征进行融合,得到该音视频对的融合特征,具体包括:对所述视频语义特征与所述音频语义特征进行融合,得到该音视频对的一致性语义特征;对所述一致性语义特征与该音视频对中的分段视频的视频特征进行融合,得到该音视频对的融合特征。6.如权利要求1所述的方法,其特征在于,针对每个音视频对,提取该音视频对中的分段视频的视频特征与分段音频的音频特征,具体包括:针对每个音视频对,将该音视频对输入预先训练的检测模型,通过所述检测模型中的提取子网提取该音视频对中的分段视频的视频特征与分段音频的音频特征;对所述视...

【专利技术属性】
技术研发人员:俞菲尚苗万志国洪晓鹏
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1