一种音频处理方法、装置、设备和介质制造方法及图纸

技术编号：26532847 阅读：29 留言：0更新日期：2020-12-01 14:17

本申请公开了一种音频处理方法、装置、设备和介质，所述方法包括：获取待处理的音频信息，对音频信息进行特征提取，得到发音特征信息。基于发音噪声分类模型，对发音特征信息进行分类，得到音频信息的等级信息。其中，发音噪声分类模型是基于具有等级标注信息的样本音频信息训练预设神经网络得到的模型，预设神经网络包括等级分类层和噪声分类层。该方法通过训练等级分类层和噪声分类层的方式，使得发音噪声分类模型本身具有抗噪性，从而减少了噪声对音频处理的干扰，提高了音频处理的质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种音频处理方法、装置、设备和介质
本申请涉及人工智能领域，尤其涉及一种音频处理方法、装置、设备和介质。
技术介绍
通过应用软件进行口语练习时，用户可能很难在安静的环境下录制音频，导致在音频中往往包含各种噪声，如人声，环境噪声等。这些噪声首先会对语音特征提取产生影响，随着音频噪声的增多，提取的语音特征包含的无效特征也会增多。同时，不同噪声环境下，人工打分会有不同的标准，如噪声较大时，部分、评分会考虑噪声因素。因此，噪声可能会使口语评测效果变差。在现有技术中，主要通过预处理去除噪声或者通过模拟噪声进行数据增强的方式，避免噪声对口语测评进行干扰。预处理去除噪声的方式受限于去噪声算法的准确性，当去噪声算法准确性差时，相应地会降低去噪声的效果，而模拟噪声进行数据增强则需要模拟各种环境下的噪声，依赖于数据的全面性，因此人工成本和模型训练成本都较高。
技术实现思路
本申请提供了一种音频处理方法、装置、设备和介质，使得发音噪声分类模型本身具有抗噪性，减少了噪声对音频处理的干扰，并提高了音频处理的质量。一方面，本...

【技术保护点】
1.一种音频处理方法，其特征在于，所述方法包括：/n获取待处理的音频信息；/n对所述音频信息进行特征提取，得到发音特征信息，所述发音特征信息表征所述音频信息中每个音素信息的发音置信度；/n基于预设的发音噪声分类模型，对所述发音特征信息进行分类，得到所述音频信息的等级信息，其中，所述发音噪声分类模型为基于具有等级标注信息的样本音频信息对预设神经网络进行训练得到的模型，所述预设神经网络用于对所述样本音频信息进行等级分类和噪声分类。/n

【技术特征摘要】
1.一种音频处理方法，其特征在于，所述方法包括：
获取待处理的音频信息；
对所述音频信息进行特征提取，得到发音特征信息，所述发音特征信息表征所述音频信息中每个音素信息的发音置信度；
基于预设的发音噪声分类模型，对所述发音特征信息进行分类，得到所述音频信息的等级信息，其中，所述发音噪声分类模型为基于具有等级标注信息的样本音频信息对预设神经网络进行训练得到的模型，所述预设神经网络用于对所述样本音频信息进行等级分类和噪声分类。

2.根据权利要求1所述的一种音频处理方法，其特征在于，所述对所述音频信息进行特征提取，得到发音特征信息包括：
获取所述音频信息的发音帧信息和所述发音帧信息对应的音素信息；
根据预设的参考音频信息对应的参考音素信息，确定所述发音帧信息对应的音素信息与所述参考音素信息匹配的概率；
根据所述发音帧信息对应的音素信息与所述参考音素信息匹配的概率，确定所述音素信息的发音置信度；
将所述音素信息的发音置信度作为所述发音特征信息。

3.根据权利要求2所述的一种音频处理方法，其特征在于，所述发音噪声分类模型包括特征编码层和等级分类层，所述基于预设的发音噪声分类模型，对所述发音特征信息进行分类，得到所述音频信息的等级信息包括：
在所述特征编码层中根据所述发音特征信息中每个音素信息的发音置信度，确定所述音频信息中每个单词的单词分数值；
在所述特征编码层中将所述每个单词的单词分数值和所述参考音频信息中每个单词的单词属性信息组合成单词特征信息；
在所述等级分类层中对所述单词特征信息进行等级分类，确定所述音频信息的等级信息。

4.根据权利要求3所述的一种音频处理方法，其特征在于，所述在所述等级分类层中对所述单词特征信息进行等级分类，确定所述音频信息的等级信息包括：
对所述单词特征信息进行分类，确定所述单词特征信息与预设的各个等级类型匹配的概率；
获取所述单词特征信息与预设的各个等级类型匹配的概率中的概率最大值；
将所述概率最大值对应的等级类型作为所述音频信息的等级信息。

5.根据权利要求1所述的一种音频处理方法，其特征在于，所述方法还包括：
获取第一数据集，所述第一数据集包括具有等级标注信息的样本音频信息；
对所述样本音频信息进行特征提取，得到样本音频特征信息和样本发音特征信息；
基于预设的发音噪声分类模型，对所述样本发音特征信息进行分类，得到所述样本音频信息的样本等级信息和所述样本等级信息对应的噪声标签；
基于预设的噪声分类模型，对所述样本音频特征信息进行分类，得到噪声类型信息；
根据所述噪声类型信息和所述第一数据集中发音特征信息的等级标注信息，确定所述等级标注信息对应的参考噪声标签；
根据所述噪声标签和参考噪声标签，确定噪声分类损失数据；
根据所述样本等级信息和所述第一数据集中发音特征信息的等级标注信息，确定发音分类损失数据；
根据所述噪声分类损失数据和所述发音分类损失数据，确定目标分类损失数据；

【专利技术属性】
技术研发人员：林炳怀，王丽园，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人