音频事件的检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26261184 阅读:18 留言:0更新日期:2020-11-06 17:57
本公开关于一种音频事件的检测方法、装置、电子设备及存储介质,所述方法包括:获取待识别的音频数据对应的音频特征;根据音频特征的频域信息,对音频特征进行划分,生成多个子频带特征;对多个子频带特征分别进行特征提取,得到多个子频带目标特征;根据多个子频带目标特征,得到音频数据中每个音频事件的类别检测结果和时间检测结果。该方法通过采用深度学习网络学习具有频带级别差异的多个子频带特征,将频带级别的差异应用到基于深度学习的音频事件分类模型中,可以提升音频事件分类模型的分类性能,使得音频事件分类模型能够识别得到待识别的音频数据中所包含的多种音频事件,从而使音频事件检测更加全面且具有较高的准确度。

【技术实现步骤摘要】
音频事件的检测方法、装置、电子设备及存储介质
本公开涉及声音识别
,尤其涉及一种音频事件的检测方法、装置、电子设备及存储介质。
技术介绍
声音携带大量信息,并在我们的日常生活中发挥重要作用。我们可以通过接收到的声音判断声音发生在哪里(被称为音频场景,比如地铁,街道等)以及正在发生什么(被称为音频事件,比如警报器,狗叫等)。随着人工智能的飞速发展,计算机也可以对音频场景和音频事件作出判断,其准确性甚至超过了人类。对于音频事件,音频事件的检测在物联网、移动导航设备等领域以及视觉信息不明确的情况下可以用于感知计算并为用户提供更好的响应。一段音频中包含着各种各样的音频事件,这些音频事件往往是重叠的,即在同一个时间段内可能同时发生多个音频事件。例如,在公共汽车上,我们可能同时听到公共汽车引擎发出的声音、人群说话的声音和交通的声音。相关技术中,音频事件的检测越来越倾向于采用深度学习方法。例如,通过一个已训练的卷积神经网络识别音频数据对应的音频特征,得到音频事件类别。但是,相关技术中的深度学习方法在识别音频特征时,通常只对一种音频事件进行检测,导致音频事件检测不够全面和准确。
技术实现思路
本公开提供一种音频事件的检测方法、装置、电子设备及存储介质,以至少解决相关技术中音频事件的检测不够全面和准确的问题。本公开的技术方案如下:根据本公开实施例的第一方面,提供一种音频事件的检测方法,包括:获取待识别的音频数据对应的音频特征;根据音频特征的频域信息,对音频特征进行划分,生成多个子频带特征;对多个子频带特征分别进行特征提取,得到多个子频带目标特征;根据多个子频带目标特征,得到音频数据中每个音频事件的类别检测结果和时间检测结果。在其中一个实施例中,对多个子频带特征分别进行特征提取,得到多个子频带目标特征,包括:将多个子频带特征输入至第一神经网络,得到多个子频带目标特征,第一神经网络包括多个子频带网络,每个子频带网络与一个子频带特征对应。在其中一个实施例中,子频带网络包括多个依次连接的局部注意力块;将多个子频带特征输入至第一神经网络,得到多个子频带目标特征,包括:对每个子频带特征,将每个子频带特征输入至与每个子频带特征对应的子频带网络中的第一个局部注意力块,得到子频带中间特征;将子频带中间特征依次输入至下一个局部注意力块,直至输出每个子频带特征对应的子频带目标特征。在其中一个实施例中,根据多个子频带目标特征,得到音频数据中每个音频事件的类别检测结果和时间检测结果,包括:融合多个子频带目标特征,生成音频数据对应的音频融合特征;将音频融合特征输入至第二神经网络,得到音频数据对应的音频目标特征;根据音频目标特征,确定音频数据中每个音频事件的类别检测结果和时间检测结果。在其中一个实施例中,融合多个子频带目标特征,生成音频数据对应的音频融合特征,包括:根据频域信息,拼接多个子频带目标特征;对拼接后的子频带目标特征进行卷积和池化处理,得到音频融合特征。在其中一个实施例中,第二神经网络包括两个第二子神经网络,两个第二子神经网络包含不同的激活函数;将音频融合特征输入至第二神经网络,得到音频数据对应的音频目标特征,包括:将音频融合特征输入至每个第二子神经网络,得到每个第二子神经网络输出的音频中间特征;根据频域信息,拼接每个第二子神经网络分别输出的音频中间特征,得到音频目标特征。在其中一个实施例中,根据音频目标特征,确定音频数据中每个音频事件的类别检测结果和时间检测结果,包括:获取音频目标特征中的每帧音频目标特征;将每帧音频目标特征分别输入至包含不同激活函数的全连接层,输出每帧音频目标特征对应的检测结果;根据每帧音频目标特征对应的检测结果,确定音频数据中每个音频事件的类别检测结果和时间检测结果。在其中一个实施例中,根据音频特征的频域信息,对音频特征进行划分,生成多个子频带特征,包括:获取预先配置的多个频率范围;根据多个频率范围对音频特征进行划分,生成与每个频率范围对应的子频带特征。在其中一个实施例中,时间检测结果包括每个音频事件的起始帧数和结束帧数;获取音频数据中每个音频事件的类别检测结果和时间检测结果之后,还包括:获取每帧音频数据对应的时间长度;根据每帧音频数据对应的时间长度,以及每个音频事件的起始帧数和结束帧数,生成每个音频事件对应的起始时间和结束时间。根据本公开实施例的第二方面,提供一种音频事件的检测装置,包括:音频特征获取模块,被配置为执行获取待识别的音频数据对应的音频特征;子频带特征生成模块,被配置为执行根据音频特征的频域信息,对音频特征进行划分,生成多个子频带特征;第一特征生成模块,被配置为执行对多个子频带特征分别进行特征提取,得到多个子频带目标特征;检测结果生成模块,被配置为执行根据多个子频带目标特征,得到音频数据中每个音频事件的类别检测结果和时间检测结果。在其中一个实施例中,第一特征生成模块,被配置为执行将多个子频带特征输入至第一神经网络,得到多个子频带目标特征,第一神经网络包括多个子频带网络,每个子频带网络与一个子频带特征对应。在其中一个实施例中,子频带网络包括多个依次连接的局部注意力块;第一特征生成模块,被配置为执行:对每个子频带特征,将每个子频带特征输入至与每个子频带特征对应的子频带网络中的第一个局部注意力块,得到子频带中间特征;将子频带中间特征依次输入至下一个局部注意力块,直至输出每个子频带特征对应的子频带目标特征。在其中一个实施例中,检测结果生成模块,包括:特征融合模块,被配置为执行融合多个子频带目标特征,生成音频数据对应的音频融合特征;第二特征生成模块,被配置为执行将音频融合特征输入至第二神经网络,得到音频数据对应的音频目标特征;时间和类别确定模块,被配置为执行根据音频目标特征,确定音频数据中每个音频事件的类别检测结果和时间检测结果。在其中一个实施例中,特征融合模块,包括:第一拼接单元,被配置为执行根据频域信息,拼接多个子频带目标特征;融合单元,被配置为执行对拼接后的子频带目标特征进行卷积和池化处理,得到音频融合特征。在其中一个实施例中,第二神经网络包括两个第二子神经网络,两个第二子神经网络包含不同的激活函数;第二特征生成模块,包括:特征生成单元,被配置为执行将音频融合特征输入至每个第二子神经网络,得到每个第二子神经网络输出的音频中间特征;第二拼接单元,被配置为执行根据频域信息,拼接每个第二子神经网络分别输出的音频中间特征,得到音频目标特征。在其中一个实施例中,时间和类别确定模块,包括:获取单元,被配置为执行获取音频目标特征中的每帧音频目标特征;每帧音频检测结果生成单元,被配置为执行将每帧音频目标特征分别输入至包含不同激活本文档来自技高网...

【技术保护点】
1.一种音频事件的检测方法,其特征在于,包括:/n获取待识别的音频数据对应的音频特征;/n根据所述音频特征的频域信息,对所述音频特征进行划分,生成多个子频带特征;/n对所述多个子频带特征分别进行特征提取,得到多个子频带目标特征;/n根据所述多个子频带目标特征,得到所述音频数据中每个音频事件的类别检测结果和时间检测结果。/n

【技术特征摘要】
1.一种音频事件的检测方法,其特征在于,包括:
获取待识别的音频数据对应的音频特征;
根据所述音频特征的频域信息,对所述音频特征进行划分,生成多个子频带特征;
对所述多个子频带特征分别进行特征提取,得到多个子频带目标特征;
根据所述多个子频带目标特征,得到所述音频数据中每个音频事件的类别检测结果和时间检测结果。


2.根据权利要求1所述的音频事件的检测方法,其特征在于,所述对所述多个子频带特征分别进行特征提取,得到多个子频带目标特征,包括:
将所述多个子频带特征输入至第一神经网络,得到所述多个子频带目标特征,所述第一神经网络包括多个子频带网络,每个子频带网络与一个子频带特征对应。


3.根据权利要求2所述的音频事件的检测方法,其特征在于,所述子频带网络包括多个依次连接的局部注意力块;所述将所述多个子频带特征输入至第一神经网络,得到所述多个子频带目标特征,包括:
对每个子频带特征,将所述每个子频带特征输入至与所述每个子频带特征对应的子频带网络中的第一个局部注意力块,得到子频带中间特征;
将所述子频带中间特征依次输入至下一个局部注意力块,直至输出所述每个子频带特征对应的子频带目标特征。


4.根据权利要求1所述的音频事件的检测方法,其特征在于,所述根据所述多个子频带目标特征,得到所述音频数据中每个音频事件的类别检测结果和时间检测结果,包括:
融合所述多个子频带目标特征,生成所述音频数据对应的音频融合特征;
将所述音频融合特征输入至第二神经网络,得到所述音频数据对应的音频目标特征;
根据所述音频目标特征,确定所述音频数据中每个音频事件的类别检测结果和时间检测结果。


5.根据权利要求4所述的音频事件的检测方法,其特征在于,所述融合所述多个子频带目标特征,生成所述音频数据对应的音频融合特征,包括:
根据所述频域信息,拼接所述多个子频带目标特征;
对拼接后的子频带目标特征进行卷...

【专利技术属性】
技术研发人员:王俊王晓瑞李岩
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1