音频分类方法、装置、终端设备及存储介质制造方法及图纸

技术编号:34608375 阅读:49 留言:0更新日期:2022-08-20 09:13
本申请适用于语音识别技术领域,提供了一种音频分类方法、装置、终端设备及存储介质,其中该方法包括:获取待分类音频数据的频谱图和梅尔频谱图;根据频谱图和梅尔频谱图,获取待分类音频数据的特征信息;根据特征信息对待分类音频数据进行分类,得到待分类音频数据的分类结果。本申请能提高音频数据分类的准确度。本申请能提高音频数据分类的准确度。本申请能提高音频数据分类的准确度。

【技术实现步骤摘要】
音频分类方法、装置、终端设备及存储介质


[0001]本申请属于语音识别
,尤其涉及一种音频分类方法、装置、终端设备及存储介质。

技术介绍

[0002]为了对特定类型的音频数据进行分类或检测,在过去几十年中一直在使用多种类型的特征对音频数据进行检测和分类。常用的特征包括倒谱域特征(如梅尔倒谱系数特征(MFCC,Mel

Frequency Cepstral Coefficients)、线性预测倒谱系数(LPCC)、巴克频率倒谱系数(BFCC))、声韵特征(如共振峰、强度)以及基于图像的特征(如频谱图、波形图和梅尔频谱图)。
[0003]目前主流方案主要是单独使用频谱图或者梅尔频谱图对音频数据进行分类,但这种分类方式的准确度不高。

技术实现思路

[0004]本申请实施例提供了一种音频分类方法、装置、终端设备及存储介质,可以解决音频数据分类的准确度不高的问题。
[0005]第一方面,本申请实施例提供了一种音频分类方法,包括:
[0006]获取待分类音频数据的频谱图和梅尔频谱图;
[0007]根据频谱图和梅尔频谱图,获取待分类音频数据的特征信息;
[0008]根据特征信息对待分类音频数据进行分类,得到待分类音频数据的分类结果。
[0009]可选的,根据频谱图和梅尔频谱图,获取待分类音频数据的特征信息,包括:
[0010]获取频谱图的频谱图特征,以及梅尔频谱图的梅尔频谱图特征;
[0011]对频谱图特征和梅尔频谱图特征进行叠加处理,得到特征信息。
[0012]可选的,获取频谱图的频谱图特征,包括:
[0013]将频谱图输入频谱图特征提取器中进行特征提取,得到频谱图特征;
[0014]频谱图特征提取器包括依次连接的ResNet模型、第一最大池化层和第一稠密层。
[0015]可选的,获取梅尔频谱图的梅尔频谱图特征,包括:
[0016]沿梅尔频谱图的频率轴方向,将梅尔频谱图分解为多个子梅尔频谱图;
[0017]将多个子梅尔频谱图输入梅尔频谱图特征提取器中进行特征提取,得到梅尔频谱图特征;
[0018]梅尔频谱图特征提取器包括多个CNN模型、叠加层和第二稠密层,多个CNN模型的输出端均与叠加层的输入端连接,叠加层的输出端与第二稠密层的输入端连接,多个子梅尔频谱图为多个CNN模型的输入,且多个子梅尔频谱图与多个CNN模型一一对应。
[0019]可选的,沿梅尔频谱图的频率轴方向,将梅尔频谱图分解为多个子梅尔频谱图,包括:
[0020]沿梅尔频谱图的频率轴方向,将梅尔频谱图平均分解为多个子梅尔频谱图。
[0021]可选的,CNN模型包括依次连接的卷积层、第二最大池化层、全连接层和第三稠密层。
[0022]可选的,根据特征信息对待分类音频数据进行分类,得到待分类音频数据的分类结果,包括:
[0023]将特征信息输入音频分类模型,得到待分类音频数据的分类结果。
[0024]第二方面,本申请实施例提供了一种音频分类装置,包括:
[0025]第一获取模块,用于获取待分类音频数据的频谱图和梅尔频谱图;
[0026]第二获取模块,用于根据频谱图和梅尔频谱图,获取待分类音频数据的特征信息;
[0027]分类模块,用于根据特征信息对待分类音频数据进行分类,得到待分类音频数据的分类结果。
[0028]可选的,第二获取模块包括:
[0029]获取单元,用于获取频谱图的频谱图特征,以及梅尔频谱图的梅尔频谱图特征;
[0030]叠加单元,用于对频谱图特征和梅尔频谱图特征进行叠加处理,得到特征信息。
[0031]可选的,获取单元,具体用于将频谱图输入频谱图特征提取器中进行特征提取,得到频谱图特征;
[0032]频谱图特征提取器包括依次连接的ResNet模型、第一最大池化层和第一稠密层。
[0033]可选的,获取单元包括:
[0034]分解子单元,用于沿梅尔频谱图的频率轴方向,将梅尔频谱图分解为多个子梅尔频谱图;
[0035]提取子单元,用于将多个子梅尔频谱图输入梅尔频谱图特征提取器中进行特征提取,得到梅尔频谱图特征;
[0036]梅尔频谱图特征提取器包括多个CNN模型、叠加层和第二稠密层,多个CNN模型的输出端均与叠加层的输入端连接,叠加层的输出端与第二稠密层的输入端连接,多个子梅尔频谱图为多个CNN模型的输入,且多个子梅尔频谱图与多个CNN模型一一对应。
[0037]可选的,分解子单元,具体用于沿梅尔频谱图的频率轴方向,将梅尔频谱图平均分解为多个子梅尔频谱图。
[0038]可选的,CNN模型包括依次连接的卷积层、第二最大池化层、全连接层和第三稠密层。
[0039]可选的,分类模块,具体用于将特征信息输入音频分类模型,得到待分类音频数据的分类结果。
[0040]第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的音频分类方法。
[0041]第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的音频分类方法。
[0042]第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项的音频分类方法。
[0043]本申请实施例与现有技术相比存在的有益效果是:
[0044]在本申请的实施例中,通过根据待分类音频数据的频谱图和梅尔频谱图,获取待
分类音频数据的特征信息,并根据该特征信息对待分类音频数据进行分类,得到待分类音频数据的分类结果。其中由于待分类音频数据的特征信息融合了频谱图和梅尔频谱图的特征,因此该特征信息的鉴别能力强,从而使得在基于该特征信息对音频数据分类时,能大大提高音频数据分类的准确度。
附图说明
[0045]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0046]图1是本申请一实施例提供的音频分类方法的流程图;
[0047]图2是本申请一实例提供的步骤12的具体实现方式的流程图;
[0048]图3是本申请一实施例提供的频谱图特征提取器的结构示意图;
[0049]图4是本申请一实施例提供的梅尔频谱图特征提取器的结构示意图;
[0050]图5是本申请一实施例中特征信息的获取示意图;
[0051]图6是本申请一实施例提供的音频分类装置的结构示意图;
[0052]图7是本申请一实施例提供的终端设备的结构示意图。
具体实施方式
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频分类方法,其特征在于,包括:获取待分类音频数据的频谱图和梅尔频谱图;根据所述频谱图和所述梅尔频谱图,获取所述待分类音频数据的特征信息;根据所述特征信息对所述待分类音频数据进行分类,得到所述待分类音频数据的分类结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述频谱图和所述梅尔频谱图,获取所述待分类音频数据的特征信息,包括:获取所述频谱图的频谱图特征,以及所述梅尔频谱图的梅尔频谱图特征;对所述频谱图特征和所述梅尔频谱图特征进行叠加处理,得到所述特征信息。3.根据权利要求2所述的方法,其特征在于,所述获取所述频谱图的频谱图特征,包括:将所述频谱图输入频谱图特征提取器中进行特征提取,得到频谱图特征;所述频谱图特征提取器包括依次连接的ResNet模型、第一最大池化层和第一稠密层。4.根据权利要求2所述的方法,其特征在于,获取所述梅尔频谱图的梅尔频谱图特征,包括:沿所述梅尔频谱图的频率轴方向,将所述梅尔频谱图分解为多个子梅尔频谱图;将多个所述子梅尔频谱图输入梅尔频谱图特征提取器中进行特征提取,得到梅尔频谱图特征;所述梅尔频谱图特征提取器包括多个CNN模型、叠加层和第二稠密层,多个所述CNN模型的输出端均与所述叠加层的输入端连接,所述叠加层的输出端与所述第二稠密层的输入端连接,多个所述子梅尔频谱图为多个所述CNN模型的输入,且多个所述子梅尔频谱图与多个所述...

【专利技术属性】
技术研发人员:季春艳潘毅焦阳
申请(专利权)人:中国科学院深圳理工大学筹
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1