音频处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：26480640 阅读：41 留言：0更新日期：2020-11-25 19:26

本申请提供了一种音频处理方法、装置、计算机设备及存储介质，属于多媒体技术领域。该方法包括：获取待处理音频的频谱特征；根据该频谱特征，确定该待处理音频的分类概率信息和第一噪声抑制信息，该分类概率信息用于指示该待处理音频为非语音的概率，该第一噪声抑制信息用于指示以将所述待处理音频处理为纯语音为目标，对所述待处理音频中噪声的抑制程度；根据该分类概率信息，对该第一噪声抑制信息进行更新，得到第二噪声抑制信息；根据该第二噪声抑制信息，对该待处理音频进行噪声抑制处理。上述技术方案，能够对噪声进行大幅度抑制的同时，不对干净语音造成影响，并且通过调整对噪声的抑制程度，不会出现消除用户语音的风险。

全部详细技术资料下载

【技术实现步骤摘要】
音频处理方法、装置、计算机设备及存储介质
本申请涉及多媒体
，特别涉及一种音频处理方法、装置、计算机设备及存储介质。
技术介绍
随着智能硬件技术的发展，用户能够通过各种各样的智能硬件进行实时通信。在进行实时通信时，智能硬件能够对实时音频流信号进行处理，如噪声抑制、混响消除以及回声消除等。目前，在对噪声进行抑制时，通常是对当前的音频流进行语音活动的判断，如果判断是语音，则正常进行噪声抑制；如果判断是非语音，则将当前信号完全消除，从而能够将纯噪声段的噪声完全消除干净。上述方案存在的问题是，虽然能够将纯噪声片段消除的更加干净，但存在误消除用户的语音的风险，导致用户的语音信息丢失。
技术实现思路
本申请实施例提供了一种音频处理方法、装置、计算机设备及存储介质，能够对噪声进行大幅度抑制的同时，不对干净语音造成影响，并且通过调整对噪声的抑制程度，不会出现消除用户语音的风险。所述技术方案如下：一方面，提供了一种音频处理方法，所述方法包括：获取待处理音频的频谱特征；根据所述频...

【技术保护点】
1.一种音频处理方法，其特征在于，所述方法包括：/n获取待处理音频的频谱特征；/n根据所述频谱特征，确定所述待处理音频的分类概率信息和第一噪声抑制信息，所述分类概率信息用于指示所述待处理音频为非语音的概率，所述第一噪声抑制信息用于指示以将所述待处理音频处理为纯语音为目标，对所述待处理音频中噪声的抑制程度；/n根据所述分类概率信息，对所述第一噪声抑制信息进行更新，得到第二噪声抑制信息；/n根据所述第二噪声抑制信息，对所述待处理音频进行噪声抑制处理。/n

【技术特征摘要】
1.一种音频处理方法，其特征在于，所述方法包括：
获取待处理音频的频谱特征；
根据所述频谱特征，确定所述待处理音频的分类概率信息和第一噪声抑制信息，所述分类概率信息用于指示所述待处理音频为非语音的概率，所述第一噪声抑制信息用于指示以将所述待处理音频处理为纯语音为目标，对所述待处理音频中噪声的抑制程度；
根据所述分类概率信息，对所述第一噪声抑制信息进行更新，得到第二噪声抑制信息；
根据所述第二噪声抑制信息，对所述待处理音频进行噪声抑制处理。

2.根据权利要求1所述的方法，其特征在于，所述根据所述频谱特征，确定所述待处理音频的分类概率信息和第一噪声抑制信息，包括：
将所述频谱特征输入声音识别模型，得到所述声音识别模型输出的所述待处理音频的分类概率信息，所述声音识别模型用于对所述待处理音频进行分类；
将所述频谱特征输入噪声抑制模型，得到所述噪声抑制模型输出的所述待处理音频的第一噪声抑制信息，所述噪声抑制模型用于确定以将所述待处理音频处理为纯语音为目标，对所述待处理音频中噪声的抑制程度。

3.根据权利要求2所述的方法，其特征在于，所述将所述频谱特征输入噪声抑制模型，得到所述噪声抑制模型输出的所述待处理音频的第一噪声抑制信息，包括：
将所述频谱特征输入噪声抑制模型；
基于所述噪声抑制模型，根据所述频谱特征与纯语音的频谱特征之间的距离，输出噪声抑制系数，将所述噪声抑制系数作为所述待处理音频的第一噪声抑制信息。

4.根据权利要求2所述的方法，其特征在于，所述声音识别模型的训练步骤包括：
获取反类数据和正类数据，所述反类数据包括纯噪声数据，所述正类数据包括纯语音数据和叠加数据，所述叠加数据由所述纯噪声数据和所述纯语音数据叠加得到；
基于待训练的初始声音识别模型对所述反类数据和所述正类数据分别进行预测；
根据预测结果，调整所述初始声音识别模型的模型参数，得到所述声音识别模型。

5.根据权利要求2所述的方法，其特征在于，所述噪声抑制模型的训练步骤包括：
获取反类数据和正类数据，所述反类数据包括纯噪声数据，所述正类数据包括纯语音数据和叠加数据，所述叠加数据由所述纯噪声数据和所述纯语音数据叠加得到；
基于待训练的初始噪声抑制模型对所述反类数据和所述正类数据分别进行预测，得到预测噪声抑制系数；
根据所述预测噪声抑制系数和所述叠加数据的频谱特征，确定目标特征；
根据所述目标特征与所述纯语音数据的频谱特征之间的距离，调整所述初始噪声抑制模型的模型参数，得到所述噪声抑制模型。

6.根据权利要求5所述的方法，其特征在于，所述根据所述目标特征与所述纯语音数据的频谱特征之间的距离，调整所述初始噪声抑制模型的模型参数，得到所述噪声抑制模型，包括：
获取参考噪声抑制系数，所述参考噪声抑制系数基于纯语音数据的频谱特征和叠加数据的频谱特征得到；
根据所述预测噪声抑制系数和所述参考噪声抑制系数，调整所述初始噪声抑制模型的模型参数，以使得所述目标特征与所述纯语音数据的频谱特征之间的距离最小，得到所述噪声抑制模型。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述根据所述分类概率信息，对所述第一噪声抑制信息进行更新，得到第二噪声抑制信息，包括：
根据所述第一噪声信息，获取所述待处理音频的噪声抑制系数，所述噪声抑制系数与对噪声的抑制程度成正比；
获取所述分类概率信息所指示的非语音的概率与所述噪声抑制系数的乘积，将所述乘积作为所述第二噪声抑制信息。

【专利技术属性】
技术研发人员：夏咸军，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人