音频分类方法、装置、终端设备及存储介质制造方法及图纸

技术编号：34608375 阅读：49 留言：0更新日期：2022-08-20 09:13

本申请适用于语音识别技术领域，提供了一种音频分类方法、装置、终端设备及存储介质，其中该方法包括：获取待分类音频数据的频谱图和梅尔频谱图；根据频谱图和梅尔频谱图，获取待分类音频数据的特征信息；根据特征信息对待分类音频数据进行分类，得到待分类音频数据的分类结果。本申请能提高音频数据分类的准确度。本申请能提高音频数据分类的准确度。本申请能提高音频数据分类的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
音频分类方法、装置、终端设备及存储介质

[0001]本申请属于语音识别
，尤其涉及一种音频分类方法、装置、终端设备及存储介质。

技术介绍

[0002]为了对特定类型的音频数据进行分类或检测，在过去几十年中一直在使用多种类型的特征对音频数据进行检测和分类。常用的特征包括倒谱域特征(如梅尔倒谱系数特征(MFCC，Mel
‑
Frequency Cepstral Coefficients)、线性预测倒谱系数(LPCC)、巴克频率倒谱系数(BFCC))、声韵特征(如共振峰、强度)以及基于图像的特征(如频谱图、波形图和梅尔频谱图)。
[0003]目前主流方案主要是单独使用频谱图或者梅尔频谱图对音频数据进行分类，但这种分类方式的准确度不高。

技术实现思路

[0004]本申请实施例提供了一种音频分类方法、装置、终端设备及存储介质，可以解决音频数据分类的准确度不高的问题。
[0005]第一方面，本申请实施例提供了一种音频分类方法，包括：
[0006]获取待分类音频数据的频谱图和梅尔频谱图；
[0007]根据频谱图和梅尔频谱图，获取待分类音频数据的特征信息；
[0008]根据特征信息对待分类音频数据进行分类，得到待分类音频数据的分类结果。
[0009]可选的，根据频谱图和梅尔频谱图，获取待分类音频数据的特征信息，包括：
[0010]获取频谱图的频谱图特征，以及梅尔频谱图的梅尔频谱图特征；
[0011]对频谱图特征和梅尔频谱图特征进行叠...

【技术保护点】

【技术特征摘要】
1.一种音频分类方法，其特征在于，包括：获取待分类音频数据的频谱图和梅尔频谱图；根据所述频谱图和所述梅尔频谱图，获取所述待分类音频数据的特征信息；根据所述特征信息对所述待分类音频数据进行分类，得到所述待分类音频数据的分类结果。2.根据权利要求1所述的方法，其特征在于，所述根据所述频谱图和所述梅尔频谱图，获取所述待分类音频数据的特征信息，包括：获取所述频谱图的频谱图特征，以及所述梅尔频谱图的梅尔频谱图特征；对所述频谱图特征和所述梅尔频谱图特征进行叠加处理，得到所述特征信息。3.根据权利要求2所述的方法，其特征在于，所述获取所述频谱图的频谱图特征，包括：将所述频谱图输入频谱图特征提取器中进行特征提取，得到频谱图特征；所述频谱图特征提取器包括依次连接的ResNet模型、第一最大池化层和第一稠密层。4.根据权利要求2所述的方法，其特征在于，获取所述梅尔频谱图的梅尔频谱图特征，包括：沿所述梅尔频谱图的频率轴方向，将所述梅尔频谱图分解为多个子梅尔频谱图；将多个所述子梅尔频谱图输入梅尔频谱图特征提取器中进行特征提取，得到梅尔频谱图特征；所述梅尔频谱图特征提取器包括多个CNN模型、叠加层和第二稠密层，多个所述CNN模型的输出端均与所述叠加层的输入端连接，所述叠加层的输出端与所述第二稠密层的输入端连接，多个所述子梅尔频谱图为多个所述CNN模型的输入，且多个所述子梅尔频谱图与多个所述...

【专利技术属性】
技术研发人员：季春艳，潘毅，焦阳，
申请(专利权)人：中国科学院深圳理工大学筹，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人