音频识别方法、音频识别模型训练方法、装置、电子设备制造方法及图纸

技术编号:31633377 阅读:20 留言:0更新日期:2021-12-29 19:12
本公开提供了一种音频数据识别方法、音频数据识别模型的训练方法、装置、电子设备和介质,涉及数据处理领域,尤其涉及音频处理与深度学习领域。一种音频数据识别方法,包括:获取待识别音频数据;使用N个参数集分别对待识别音频数据进行特征提取,以获得待识别音频数据的N个特征数据,其中,N个参数集中的每个参数集分别与不同的频率范围相关联,N为大于1的正整数;以及基于N个特征数据对待识别音频数据进行分类。进行分类。进行分类。

【技术实现步骤摘要】
音频识别方法、音频识别模型训练方法、装置、电子设备


[0001]本公开涉及数据处理
,尤其涉及音频处理与深度学习
,具体涉及一种音频数据识别方法、音频数据识别模型的训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]在很多场景中需要对音频进行识别与分类,例如对音频来源进行分类、对音频是否是攻击性音频进行检测、对音频特征是否与期望特征匹配进行比对等。在对音频进行分类的过程中,需要对音频的特征进行提取。期望一种能够有效地提取音频特征进而对音频进行准确识别的方法。
[0003]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0004]本公开提供了一种音频数据识别方法、音频数据识别模型的训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0005]根据本公开的一方面,提供了一种音频数据识别方法,包括:获取待识别音频数据;使用N个参数集分别对待识别音频数据进行特征提取,以获得待识别音频数据的N个特征数据,其中,N个参数集中的每个参数集分别与不同的频率范围相关联,N为大于1的正整数;以及基于N个特征数据对待识别音频数据进行分类。
[0006]根据本公开的另一方面,提供了一种音频数据识别模型的训练方法,音频数据识别模型包括M个特征提取子网络和与M个特征提取子网络的每个特征提取子网络的输出端连接的分类子网络,M为大于1的正整数,方法包括:获取样本音频数据和样本音频数据的真实标签;将样本音频数据输入M个特征提取子网络中的每个特征提取子网络,以获取针对样本音频数据的M个特征数据;将M个特征数据输入分类子网络以获取样本音频数据的预测标签;基于真实标签和预测标签,计算损失函数;以及基于损失函数,调整音频数据识别模型的参数。
[0007]根据本公开的另一方面,提供了一种音频数据识别装置,包括:音频数据获取单元,用于获取待识别音频数据;特征提取单元,用于使用N个参数集分别对待识别音频数据进行特征提取,以获得待识别音频数据的N个特征数据,其中,N个参数集中的每个参数集分别与不同的频率范围相关联,N为大于1的正整数;以及分类单元,用于基于N个特征数据对待识别音频数据进行分类。
[0008]根据本公开的另一方面,提供了一种音频数据识别模型的训练装置,音频数据识别模型包括M个特征提取子网络和与M个特征提取子网络的每个特征提取子网络的输出端连接的分类子网络,M为大于1的正整数,训练装置包括:样本获取单元,用于获取样本音频
数据和样本音频数据的真实标签;特征提取单元,用于将样本音频数据输入M个特征提取子网络中的每个特征提取子网络,以获取针对样本音频数据的M个特征数据;分类单元,用于将M个特征数据输入分类子网络以获取样本音频数据的预测标签;损失函数计算单元,用于基于真实标签和预测标签,计算损失函数;以及参数调整单元,用于基于损失函数,调整音频数据识别模型的参数。
[0009]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行根据本公开的一个或多个实施例的音频数据识别方法或音频数据识别模型的训练方法。
[0010]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开的一个或多个实施例的音频数据识别方法或音频数据识别模型的训练方法。
[0011]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现根据本公开的一个或多个实施例的音频数据识别方法或音频数据识别模型的训练方法。
[0012]根据本公开的一个或多个实施例,可以实现更好的音频特征提取,从而实现更好的音频识别效果。
[0013]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0014]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0015]图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;
[0016]图2示出了根据本公开的实施例的音频数据识别方法的流程图;
[0017]图3示出了根据本公开的实施例的音频数据识别模型的训练方法的流程图;
[0018]图4A示出了根据本公开的实施例的方法可以适用于的音频数据识别模型的示意图;
[0019]图4B示出了根据本公开的实施例的方法可以适用于的音频数据识别模型的另一个示意图;
[0020]图5示出了根据本公开的实施例的音频数据识别装置的结构框图;
[0021]图6示出了根据本公开的实施例的音频数据识别模型的训练装置的结构框图;
[0022]图7示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
[0023]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识
到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0024]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
[0025]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
[0026]下面将结合附图详细描述本公开的实施例。
[0027]图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性系统100的示意图。参考图1,该系统100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。客本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频数据识别方法,包括:获取待识别音频数据;使用N个参数集分别对所述待识别音频数据进行特征提取,以获得所述待识别音频数据的N个特征数据,其中,所述N个参数集中的每个参数集分别与不同的频率范围相关联,N为大于1的正整数;以及基于所述N个特征数据对所述待识别音频数据进行分类。2.根据权利要求1所述的方法,其中,获取待识别音频数据包括:获取原始音频数据;响应于确定所述原始音频数据的时间长度大于长度阈值,基于所述长度阈值对所述原始音频数据进行截取,以获得待识别音频数据,其中,所述待识别音频数据的时间长度等于所述长度阈值。3.根据权利要求1所述的方法,其中,获取待识别音频数据包括:获取原始音频数据;响应于确定所述原始音频数据的时间长度小于长度阈值,复制所述原始音频数据直至经复制的原始音频数据的时间长度不小于所述长度阈值;并且基于所述长度阈值对所述经复制的原始音频数据进行截取,以获得待识别音频数据,其中,所述待识别音频数据的时间长度等于所述长度阈值。4.一种音频数据识别模型的训练方法,所述音频数据识别模型包括M个特征提取子网络和与所述M个特征提取子网络的每个特征提取子网络的输出端连接的分类子网络,M为大于1的正整数,所述方法包括:获取样本音频数据和所述样本音频数据的真实标签;将所述样本音频数据输入所述M个特征提取子网络中的每个特征提取子网络,以获取针对所述样本音频数据的M个特征数据;将所述M个特征数据输入所述分类子网络以获取所述样本音频数据的预测标签;基于所述真实标签和所述预测标签,计算损失函数;以及基于所述损失函数,调整所述音频数据识别模型的参数。5.根据权利要求4所述的方法,其中,所述M个特征提取子网络中的每个特征提取子网络分别基于M个滤波参数集中的相应的滤波参数集被初始化,所述M个滤波参数集中的每个滤波参数集包括上限截止频率和下限截止频率。6.根据权利要求4所述的方法,其中,所述M个滤波参数集是通过以下步骤设置的:获取预定频率范围;将所述预定频率范围划分为M个连续的子频带;并且将所述M个连续的子频带中的每个子频带的下限频率和上限频率设置为对应的滤波参数集中的上限截止频率和下限截止频率。7.根据权利要求5或6所述的方法,其中,所述M个滤波参数集中的每个滤波参数集对应于频域上的矩形滤波器的参数集。8.根据权利要求7所述的方法,其中,所述将所述预定频率范围划分为M个连续的子频带包括:
对所述预定频率范围进行均分以获得M个相同宽度的子频带。9.根据权利要求5

8中任一项所述的方法,其中,所述M个滤波参数集中的每个滤波参数集对应于经加窗处理的滤波器的参数集。10.根据权利要求4

9中任一项所述的方法,其中,获取样本音频数据包括:获取原始音频数据;以及响应于确定所述原始音频数据...

【专利技术属性】
技术研发人员:熊新雷肖岩赵情恩陈蓉张银辉梁芸铭周羊
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1