一种音频分类方法和装置制造方法及图纸

技术编号:25806065 阅读:52 留言:0更新日期:2020-09-29 18:40
本申请提供一种音频分类方法和装置,该方法包括:将原始音频数据输入预先训练的音频分类网络模型的第一特征提取网络,以得到所述原始音频数据的类频谱特征;将所述类频谱特征转换为二维音频特征输入到所述预先训练的音频分类网络模型的第二特征提取网络,以得到所述原始音频数据的网络深度特征;将所述原始音频数据的网络深度特征输入到所述预先训练的音频分类网络模型的分类网络,以得到所述原始音频数据的分类结果。该方法可以简化音频分类的操作,提高音频分类的效率。

【技术实现步骤摘要】
一种音频分类方法和装置
本申请涉及深度学习领域技术,尤其涉及一种音频分类方法和装置。
技术介绍
音频分类(AudioClassification)是指识别音频数据中是否包含某类音频事件,如狗叫、鸣笛等。目前的音频分类方案中,需要手动提取音频数据的音频特征,如对数梅尔顿频谱图,并将该手动提取的音频特征作为输入进行音频分类。实践发现,上述音频分类方案中,无法实现端到端的音频分类,即无法直接以原始音频数据(原始波形信号(RawWaveform))作为输入实现音频分类,其音频分类操作较为繁琐,实现效率较低。
技术实现思路
有鉴于此,本申请提供一种音频分类方法和装置。具体地,本申请是通过如下技术方案实现的:根据本申请实施例的第一方面,提供一种音频分类方法,包括:将原始音频数据输入预先训练的音频分类网络模型的第一特征提取网络,以得到所述原始音频数据的类频谱特征;将所述类频谱特征转换为二维音频特征输入到所述预先训练的音频分类网络模型的第二特征提取网络,以得到所述原始音频数据的网络深度特征;将所述原始音频数据的网络深度特征输入到所述预先训练的音频分类网络模型的分类网络,以得到所述原始音频数据的分类结果。根据本申请实施例的第二方面,提供一种音频分类装置,包括:第一特征提取单元,用于将原始音频数据输入预先训练的音频分类网络模型的第一特征提取网络,以得到所述原始音频数据的类频谱特征;转换单元,用于将所述类频谱特征转换为二维音频特征;第二特征提取单元,用于将所述二维音频特征输入到所述预先训练的音频分类网络模型的第二特征提取网络,以得到所述原始音频数据的网络深度特征;分类单元,用于将所述原始音频数据的网络深度特征输入到所述预先训练的音频分类网络模型的分类网络,以得到所述原始音频数据的分类结果。附图说明图1是本申请一示例性实施例示出的一种音频分类方法的流程图;图2是本申请一示例性实施例示出的一种音频分类网络模型训练方法的流程图;图3是本申请一示例性实施例示出的一种音频分类网络模型的示意图;图4是本申请一示例性实施例示出的一种音频分类装置的结构示意图;图5是本申请又一示例性实施例示出的一种音频分类装置的结构示意图;图6是本申请一示例性实施例示出的一种电子设备的硬件结构示意图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。为了使本领域技术人员更好地理解本申请实施例提供的技术方案,并使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中技术方案作进一步详细的说明。请参见图1,为本申请实施例提供的一种音频分类方法的流程示意图,如图1所示,该方法可以包括以下步骤:步骤S100、将原始音频数据输入预先训练的音频分类网络模型的第一特征提取网络,以得到原始音频数据的类频谱特征。本申请实施例中,为了简化音频分类的操作,提高音频分类的效率,可以通过一个特征提取与分类一体化的音频分类网络模型,实现端到端的音频分类。其中,该音频分类网络模型可以包括级联的第一特征提取网络、第二特征提取网络以及分类网络构成的网络组合;其中:第一特征提取网络以原始音频数据为输入,输出原始音频数据的类似于频谱图的特征(frequency-like特征,本文中称为类频谱特征);第二特征提取网络以原始音频数据的类频谱特征转换得到的二维音频特征为输入,输出原始音频数据的网络深度特征;分类网络以原始音频数据的网络深度特征为输入,输出原始音频数据的分类结果。相应地,在本申请实施例中,当进行音频分类时,可以将待分类的音频数据(原始音频数据)输入到预先训练的音频分类网络模型,通过该预先训练的音频分类网络模型的第一特征提取网络提取原始音频数据的类频谱特征。可选地,第一特征提取网络可以为一维卷积神经网络。例如,第一特征提取网络可以为1DResNet(ResidualNetwork,残差网络),如1DResNet-18(18层的1DResNet)。步骤S110、将原始音频数据的类频谱特征转换为二维音频特征输入到预先训练的音频分类网络模型的第二特征提取网络,以得到原始音频数据的网络深度特征。本申请实施例中,得到原始音频数据的类频谱特征之后,可以将该原始音频数据的类频谱特征(一维音频特征)转换为二维音频特征,并输入预先训练的音频分类网络模型的第二特征提取网络,以得到原始音频数据的网络深度特征。在一个示例中,上述将原始音频数据的类频谱特征转换为二维音频特征可以包括:对原始音频数据的类频谱特征进行通道转换,以得到二维音频特征。举例来说,假设步骤S100中提取得到的原始视频数据的类频谱特征大小为C×1×T,其中,C为网络通道数,T为音频片段时间维度的信息,则可以对原始视频数据的类频谱特征进行通道转换,将其转换为1×C×T,即将多个一维特征转换为一个二维特征。可选地,第二特征提取网络可以为二维卷积神经网络。例如,第二特征提取网络可以为2DResNet,如2DResNet-50(50层的2DResNet)。步骤S120、将原始音频数据的网络深度特征输入到预先训练的音频分类网络模型的分类网络,以得到原始音频数据的分类结果。本申请实施例中,得到原始音频数据的网络深度特征之后,可以将该原始音频数据的网络深度特征输入到预先训练的音频分类网络模型的分类网络,以得到原始音频数据的分类结果。其中,原始音频数据的分类结果可以包括原始音频数据中是否存在各种不同类型的声音,如狗叫、鸣笛等。例如,对于各个类型的声音,可以通过对应的概率来指明原始音频数据中是否存在该类型的声音。其中,对于任一类型的声音,分类网络输出的分类结果为该类型的声音对应的概率,当该概率大于预设概率阈值(如0.5)时,确定该原始音频数据中存在该类型的声音;否则,确定该原始音频数据中不存在该类型的声音。可见,在图1所示方法流程中,通过构建并训练特征提取与分类一体化的音频分类网络模型,通过该音频分类网络直接得到原始音频数据的分类结果,简化了音频分类的操作,提高了音频分类的效率。在本申请其中一个实施例中,上述第二特征提取网络为包含多尺度预测模型的2DResNet-50,上述原始音频数据的网络深度特征包括多个时间尺度的网络深度特征;上述将原始音频本文档来自技高网...

【技术保护点】
1.一种音频分类方法,其特征在于,包括:/n将原始音频数据输入预先训练的音频分类网络模型的第一特征提取网络,以得到所述原始音频数据的类频谱特征;/n将所述类频谱特征转换为二维音频特征输入到所述预先训练的音频分类网络模型的第二特征提取网络,以得到所述原始音频数据的网络深度特征;/n将所述原始音频数据的网络深度特征输入到所述预先训练的音频分类网络模型的分类网络,以得到所述原始音频数据的分类结果。/n

【技术特征摘要】
1.一种音频分类方法,其特征在于,包括:
将原始音频数据输入预先训练的音频分类网络模型的第一特征提取网络,以得到所述原始音频数据的类频谱特征;
将所述类频谱特征转换为二维音频特征输入到所述预先训练的音频分类网络模型的第二特征提取网络,以得到所述原始音频数据的网络深度特征;
将所述原始音频数据的网络深度特征输入到所述预先训练的音频分类网络模型的分类网络,以得到所述原始音频数据的分类结果。


2.根据权利要求1所述的方法,其特征在于,级联的所述第一特征提取网络、所述第二特征提取网络以及所述分类网络通过以下方式训练得到:
对于训练集中的任一训练样本,将其输入所述第一特征提取网络,以得到该训练样本的类频谱特征;
将该训练样本的类频谱特征转换为二维音频特征输入到所述第二特征提取网络,以得到该训练样本的网络深度特征;
将该训练样本的网络深度特征输入所述分类网络,以得到该训练样本的分类结果。


3.根据权利要求2所述的方法,其特征在于,所述将该训练样本的网络深度特征输入所述分类网络之后,还包括:
根据所述音频分类网络模型的分类准确率,对级联的所述第一特征提取网络、所述第二特征提取网络以及所述分类网络的网络组合进行参数优化,直至所述音频分类网络模型的分类准确率满足预设条件。


4.根据权利要求3所述的方法,其特征在于,所述对级联的所述第一特征提取网络、所述第二特征提取网络以及所述分类网络的网络组合进行参数优化,包括:
对所述第一特征提取网络、所述第二特征提取网络和/或所述分类网络的模型参数进行优化。


5.根据权利要求3所述的方法,其特征在于,所述音频分类网络模型的分类准确率满足预设条件,包括:
所述音频分类网络模型的分类准确率大于预设准确率阈值。


6.根据权利要求1所述的方法,其特征在于,所述将所述类频谱特征转换为二维音频特征,包括:
对所述类频谱特征进行通道转换,以得到二维音频特征。


7.根据权利要求1所述的方法,其特征在于,所述第二特征提取网络为包含多尺度预测模型的2DResNet-50,所述原始音频数据的网络深度特征包括多个时间尺度的网络深度特征;
所述将原始音频数据的网络深度特征输入到预先训练的音频分类网络模型的分类网络,以得到原始音频数据的分类结果,包括:
将所述多个时间尺度的网络深度特征分别输入到所述分类网络中对应的全连接层,以分别得到各时间尺度的分类结果;
根据各时间尺度的分类结果确定...

【专利技术属性】
技术研发人员:郝婧陈家旭孙海鸣谢迪浦世亮
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1