一种语音增强方法、装置、设备以及存储介质制造方法及图纸

技术编号：32828703 阅读：10 留言：0更新日期：2022-03-26 20:35

本公开提供了一种语音增强方法、装置、设备以及存储介质，涉及人工智能技术领域，尤其涉及深度学习技术和语音技术领域，可用于音频通讯场景。具体实现方案为：对至少两路目标语音进行子带分解处理，得到至少两路目标语音的幅度谱和相位谱；其中，至少两路目标语音包括：目标混合语音和目标干扰语音；根据至少两路目标语音的幅度谱，确定目标混合语音在特征域内存在目标纯净语音的预测概率；根据预测概率、至少两路目标语音的幅度谱和相位谱，进行子带合成处理，得到目标混合语音中的目标纯净语音。能够提高语音增强效果，为语音增强提供了新的解决思路。新的解决思路。新的解决思路。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音增强方法、装置、设备以及存储介质

[0001]本公开涉及人工智能
，尤其涉及深度学习技术和语音
，可用于音频通讯场景。

技术介绍

[0002]语音增强(SE：Speech Enhancement)技术是音频通讯领域中的一个经典技术，主要是指当纯净语音被真实环境中的噪声和/或回声干扰后，从噪声背景中提取纯净语音的抗干扰技术。
[0003]现有的语音增强技术对混合语音中的噪声和/或回声的抑制能力不足，导致无法从混合语音中提取到高质量的纯净语音，亟需改进。

技术实现思路

[0004]本公开提供了一种语音增强方法、装置、设备以及存储介质。
[0005]根据本公开的一方面，提供了一种语音增强方法，包括：
[0006]对至少两路目标语音进行子带分解处理，得到至少两路目标语音的幅度谱和相位谱；其中，至少两路目标语音包括：目标混合语音和目标干扰语音；
[0007]根据至少两路目标语音的幅度谱，确定目标混合语音在特征域内存在目标纯净语音的预测概率；
[0008]根据预测概率、至少两路目标语音的幅度谱和相位谱，进行子带合成处理，得到目标混合语音中的目标纯净语音。
[0009]根据本公开的另一方面，提供了一种电子设备，该电子设备包括：
[0010]至少一个处理器；以及
[0011]与至少一个处理器通信连接的存储器；其中，
[0012]存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开...

【技术保护点】

【技术特征摘要】
1.一种语音增强方法，包括：对至少两路目标语音进行子带分解处理，得到所述至少两路目标语音的幅度谱和相位谱；其中，所述至少两路目标语音包括：目标混合语音和目标干扰语音；根据所述至少两路目标语音的幅度谱，确定所述目标混合语音在特征域内存在目标纯净语音的预测概率；根据所述预测概率、所述至少两路目标语音的幅度谱和相位谱，进行子带合成处理，得到所述目标混合语音中的目标纯净语音。2.根据权利要求1所述的方法，其中，所述对至少两路目标语音进行子带分解处理，得到所述至少两路目标语音的幅度谱和相位谱，包括：对至少两路目标语音进行子带分解处理，得到所述至少两路目标语音的虚数信号；根据所述至少两路目标语音的虚数信号，确定所述至少两路目标语音的幅度谱和相位谱。3.根据权利要求1或2所述的方法，还包括：基于对数处理和/或归一化处理，更新所述至少两路目标语音的幅度谱。4.根据权利要求1所述的方法，其中，所述根据所述至少两路目标语音的幅度谱，确定所述目标混合语音在特征域内存在目标纯净语音的预测概率，包括：将所述至少两路目标语音的幅度谱输入到语音增强模型中，得到所述目标混合语音在特征域内存在目标纯净语音的预测概率；其中，所述语音增强模型包括：卷积神经网络、时间卷积网络、全连接网络和激活网络。5.根据权利要求4所述的方法，其中，所述语音增强模型是基于训练样本通过有监督训练得到，所述训练样本包括：基于麦克风指向性生成的样本纯净语音、样本干扰语音，以及对所述样本纯净语音混入不同类型噪声和/或回声的样本混合语音。6.根据权利要求1所述的方法，其中，所述根据所述预测概率、所述至少两路目标语音的幅度谱和相位谱，进行子带合成处理，得到所述目标混合语音中的目标纯净语音，包括：根据所述预测概率和所述目标混合语音的幅度谱，确定目标纯净语音的幅度谱；对所述目标纯净语音的幅度谱和所述目标混合语音的相位谱进行子带合成处理，得到目标纯净语音。7.根据权利要求1所述的方法，其中，所述至少两路目标语音还包括：初步对所述目标混合语音进行回声和/或噪声消除后的预处理语音；根据所述预测概率、所述至少两路目标语音的幅度谱和相位谱，进行子带合成处理，得到所述目标混合语音中的目标纯净语音，包括：根据所述预测概率、所述预处理语音的幅度谱和相位谱，进行子带合成处理，得到所述目标混合语音中的目标纯净语音。8.一种语音增强装置，包括：子带分解模块，用于对至少两路目标语音进行子带分解处理，得到所述至少两路目标语音的幅度谱和相位谱；其中，所述至少两路目标语音包括：目标混合语音和目标干扰语音；概率预测模块，用于根据所述...

【专利技术属性】
技术研发人员：李光正，张国昌，于利标，魏建强，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人