音频分类及模型的训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号：38824733 阅读：13 留言：0更新日期：2023-09-15 20:04

本发明专利技术实施例公开一种音频分类及模型的训练方法、装置、电子设备和存储介质，音频分类方法包括：获取待检测音频的梅尔频率倒谱图，将梅尔频率倒谱图输入训练好的音频分类模型，音频分类模型包括卷积网络、时序网络和分类网络；利用卷积网络对梅尔频率倒谱图进行卷积运算，得到特征图；利用时序网络对特征图进行时序学习，得到时序特征图；利用分类网络对时序特征图进行分类识别，得到待检测音频的类别识别信息。本发明专利技术利用模型对音频分类，分类标准统一，成本低，分类效率和准确率高；将音频转换成图像处理，利用模型学习图像的基础特征和时序特征以进行分类，能够保证分类结果的准确性，模型量级轻，网络参数少，训练调试速度快，易于部署。易于部署。易于部署。

全部详细技术资料下载

【技术实现步骤摘要】
音频分类及模型的训练方法、装置、电子设备和存储介质

[0001]本专利技术实施例涉及人工智能
，尤其涉及一种音频分类及模型的训练方法、装置、电子设备和存储介质。

技术介绍

[0002]在实际应用中，通常需要进行口音识别，比如区分口音是方言还是普通话，以便于开展相关工作。例如直播平台会对主播的口音进行识别分类，以根据用户偏好进行直播间推送等工作。目前，直播平台对主播口音进行识别分类，主要依赖审核人员标记或主播自行登记，即依赖人工识别分类。
[0003]在实现本专利技术的过程中，专利技术人发现，人工对口音识别分类，标准不一，存在效率低、成本高、准确率低等问题。

技术实现思路

[0004]本专利技术实施例提供一种音频分类及模型的训练方法、装置、电子设备和存储介质，能够统一分类标准，降低分类成本，提高分类效率和准确率。
[0005]第一方面，本专利技术实施例提供的音频分类方法，包括：
[0006]获取待检测音频的梅尔频率倒谱图；
[0007]将所述梅尔频率倒谱图输入训练好的音频分类模型，所述音频分类模型包括卷积网络、时序网络和分类网络；
[0008]利用所述卷积网络对所述梅尔频率倒谱图进行卷积运算，得到特征图；
[0009]利用所述时序网络对所述特征图进行时序学习，得到时序特征图；
[0010]利用所述分类网络对所述时序特征图进行分类识别，得到所述待检测音频的类别识别信息。
[0011]可选地，所述获取待检测音频的梅尔频率倒谱图，包括：r/>[0012]对所述待检测音频分帧得到多个音频帧；
[0013]提取所述多个音频帧中每个音频帧的梅尔频率倒谱特征；
[0014]根据所述每个音频帧的梅尔频率倒谱特征构建所述梅尔频率倒谱图。
[0015]可选地，所述根据所述每个音频帧的梅尔频率倒谱特征构建所述梅尔频率倒谱图，包括：
[0016]将所述待检测音频包括的音频帧的帧数作为长度维度数据、将所述待检测音频中每个音频帧的梅尔频率倒谱特征作为宽度维度数据，并添加通道维度数据；
[0017]根据所述长度维度数据、所述宽度维度数据和所述通道维度数据构建所述梅尔频率倒谱图。
[0018]将音频转换成图像，基于对图像的处理实现对音频的分类，提供了一种音频分类新思路，提高了分类效率和准确率。
[0019]可选地，所述利用所述卷积网络对所述梅尔频率倒谱图进行卷积运算，得到特征
图，包括：
[0020]利用所述卷积网络，按照保持所述长度维度数据的维度不变、降低所述宽度维度数据的维度并升高所述通道维度数据的维度的规则，对所述梅尔频率倒谱图进行卷积运算，得到所述特征图。
[0021]可选地，所述卷积网络包括多个卷积层，所述利用所述卷积网络，按照保持所述长度维度数据的维度不变、降低所述宽度维度数据的维度并升高所述通道维度数据的维度的规则，对所述梅尔频率倒谱图进行卷积运算，得到所述特征图，包括：
[0022]将所述长度维度数据的卷积步长设置为1、将所述宽度维度数据的卷积步长设置的大于1，并依次增加所述多个卷积层中每个卷积层的卷积核的数量，以实现利用所述卷积网络，按照保持所述长度维度数据的维度不变、降低所述宽度维度数据的维度并升高所述通道维度数据的维度的规则，对所述梅尔频率倒谱图进行卷积运算，得到所述特征图。
[0023]批次维度数据的维度保持不变，可以便于后续对每个待检测音频做音频分类。长度维度数据的维度保持不变，即经过卷积之后，时间步信息没有丢失，保留了每一帧的数据，可以便于后续对每个音频帧做帧分类。将每个音频帧的梅尔频率倒谱特征的维数降低，可以获得数据尺度的变化，减少冗余信息，扩大感受野。另外，随着卷积层数的增加，提取的特征越来越多，表示越来越复杂，需要更多维度的数据进行表示，因而将通道维度数据的维度升高。采用多个卷积层对特征进行非线性映射，可以提取更有效的特征，提高特征的表达能力。
[0024]可选地，所述特征图包括所述长度维度数据、所述宽度维度数据和所述通道维度数据，所述利用所述时序网络对所述特征图进行时序学习，得到时序特征图，包括：
[0025]将所述特征图的所述宽度维度数据和所述通道维度数据进行合并，得到合并特征图；
[0026]利用所述时序网络对所述合并特征图进行时序学习，得到所述时序特征图。
[0027]通过合并，可以减少数据维度，减少数据处理量，提高处理效率。
[0028]可选地，所述分类网络包括帧分类网络、池化网络和音频分类网络，所述利用所述分类网络对所述时序特征图进行分类识别，得到所述待检测音频的类别识别信息，包括：
[0029]利用所述帧分类网络对所述时序特征图做帧分类，得到所述待检测音频中每个音频帧的类别识别信息；
[0030]利用所述池化网络对所述每个音频帧的类别识别信息进行池化操作，得到池化特征图；
[0031]利用所述音频分类网络对所述池化特征图做音频分类，得到所述待检测音频的类别识别信息。
[0032]可选地，在获取所述待检测音频的梅尔频率倒谱图之前，还包括：
[0033]对所述待检测音频进行预处理，所述预处理包括音频重采样、声道转换和静音片段剔除中的至少一者；
[0034]所述获取所述待检测音频的梅尔频率倒谱图包括，获取预处理之后的待检测音频的梅尔频率倒谱图。
[0035]上述预处理，可以有效减少音频的数据量，从而减少音频分类模型的计算量。
[0036]第二方面，本专利技术实施例提供的音频分类模型的训练方法，包括：
[0037]获取样本音频的梅尔频率倒谱图；
[0038]将所述梅尔频率倒谱图输入待训练的音频分类模型，所述音频分类模型包括卷积网络、时序网络和分类网络；
[0039]利用所述卷积网络对所述梅尔频率倒谱图进行卷积运算，得到特征图；
[0040]利用所述时序网络对所述特征图进行时序学习，得到时序特征图；
[0041]利用所述分类网络对所述时序特征图进行分类识别，得到所述样本音频的类别识别信息；
[0042]根据所述样本音频的类别识别信息确定训练损失，并根据所述训练损失对所述音频分类模型中的网络参数进行调整。
[0043]可选地，所述分类网络包括帧分类网络、池化网络和音频分类网络，所述利用所述分类网络对所述时序特征图进行分类识别，得到所述样本音频的类别识别信息，包括：
[0044]利用所述帧分类网络对所述时序特征图做帧分类，得到所述样本音频中每个音频帧的类别识别信息；
[0045]利用所述池化网络对所述每个音频帧的类别识别信息进行池化操作，得到池化特征图；
[0046]利用所述音频分类网络对所述池化特征图做音频分类，得到所述样本音频的类别识别信息。
[0047]可选地，所述根据所述样本音频的类别识别信息确定训练损失，并根据所述训练损失对所述音频分类模型中的网络参数进行调整，包括：
[0048]获本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音频分类方法，其特征在于，包括：获取待检测音频的梅尔频率倒谱图；将所述梅尔频率倒谱图输入训练好的音频分类模型，所述音频分类模型包括卷积网络、时序网络和分类网络；利用所述卷积网络对所述梅尔频率倒谱图进行卷积运算，得到特征图；利用所述时序网络对所述特征图进行时序学习，得到时序特征图；利用所述分类网络对所述时序特征图进行分类识别，得到所述待检测音频的类别识别信息。2.根据权利要求1所述的方法，其特征在于，所述获取待检测音频的梅尔频率倒谱图，包括：对所述待检测音频分帧得到多个音频帧；提取所述多个音频帧中每个音频帧的梅尔频率倒谱特征；根据所述每个音频帧的梅尔频率倒谱特征构建所述梅尔频率倒谱图。3.根据权利要求2所述的方法，其特征在于，所述根据所述每个音频帧的梅尔频率倒谱特征构建所述梅尔频率倒谱图，包括：将所述待检测音频包括的音频帧的帧数作为长度维度数据、将所述待检测音频中每个音频帧的梅尔频率倒谱特征作为宽度维度数据，并添加通道维度数据；根据所述长度维度数据、所述宽度维度数据和所述通道维度数据构建所述梅尔频率倒谱图。4.根据权利要求3所述的方法，其特征在于，所述利用所述卷积网络对所述梅尔频率倒谱图进行卷积运算，得到特征图，包括：利用所述卷积网络，按照保持所述长度维度数据的维度不变、降低所述宽度维度数据的维度并升高所述通道维度数据的维度的规则，对所述梅尔频率倒谱图进行卷积运算，得到所述特征图。5.根据权利要求4所述的方法，其特征在于，所述卷积网络包括多个卷积层，所述利用所述卷积网络，按照保持所述长度维度数据的维度不变、降低所述宽度维度数据的维度并升高所述通道维度数据的维度的规则，对所述梅尔频率倒谱图进行卷积运算，得到所述特征图，包括：将所述长度维度数据的卷积步长设置为1、将所述宽度维度数据的卷积步长设置的大于1，并依次增加所述多个卷积层中每个卷积层的卷积核的数量，以实现利用所述卷积网络，按照保持所述长度维度数据的维度不变、降低所述宽度维度数据的维度并升高所述通道维度数据的维度的规则，对所述梅尔频率倒谱图进行卷积运算，得到所述特征图。6.根据权利要求3至5任一项所述的方法，其特征在于，所述特征图包括所述长度维度数据、所述宽度维度数据和所述通道维度数据，所述利用所述时序网络对所述特征图进行时序学习，得到时序特征图，包括：将所述特征图的所述宽度维度数据和所述通道维度数据进行合并，得到合并特征图；利用所述时序网络对所述合并特征图进行时序学习，得到所述时序特征图。7.根据权利要求1所述的方法，其特征在于，所述分类网络包括帧分类网络、池化网络和音频分类网络，所述利用所述分类网络对所述时序特征图进行分类识别，得到所述待检
测音频的类别识别信息，包括：利用所述帧分类网络对所述时序特征图做帧分类，得到所述待检测音频中每个音频帧的类别识别信息；利用所述池化网络对所述每个音频帧的类别识别信息进行池化操作，得到池化特征图；利用所述音频分类网络对所述池化特征图做音频分类，得到所述待检测音频的类别识别信息。8.根据权利要求1所述的方法，其特征在于，在获取所述待检测音频的梅尔频率倒谱图之前，还包括：对所述待检测音频进行预处理，所述预处理包括音频重采样、声道转换和静音片段剔除中的至少一者；所述获取所述待检测音频的梅尔频率倒谱图包括：获取预处理之后的待检测音频的梅尔频率倒谱图。9.一种音频分类模型的训练方法，其...

【专利技术属性】
技术研发人员：秦成帅，
申请(专利权)人：北京京东世纪贸易有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人