【技术实现步骤摘要】
语音增强模型的训练方法、语音增强方法、装置以及设备
[0001]本申请实施例涉及语音通信及网络直播
,尤其涉及一种语音增强模型的训练方法、语音增强方法、装置、计算机设备及存储介质。
技术介绍
[0002]在直播场景,由于环境中存在各种噪音,比如主播敲击键盘的声音、空调噪音、椅子“咔咔”响的噪音等,无法保证直播过程中输入的语音信号是纯净、无噪音的语音信号。为了使得直播间的观众不会听到烦人的噪音,提升观众的音频体验,需要对包含噪音的语音进行语音增强。语音增强技术是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。也即,语音增强技术的目的是通过对包含噪声的语音信号进行处理,输出处理后的纯净语音信号。
[0003]目前,随着深度学习技术的发展,基于深度学习的语音增强方法层出不穷,如基于循环神经网络、基于卷积神经网络、基于卷积
‑
循环神经网络以及基于UNET网络的语音增强方法等。然而,现有的语音增强方法对于语音降噪效果差。
技术实现思路
/>[0004]本申本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种语音增强模型的训练方法,其特征在于,包括如下步骤:获取语音增强模型的训练样本数据;所述训练样本数据包括带噪语音信号的幅度谱、纯净语音信号的幅度谱、纯净语音信号的对数梅尔功率谱、噪声语音信号的幅度谱以及噪声语音信号的对数梅尔功率谱;其中,所述带噪语音信号由所述纯净语音信号和所述噪声语音信号合成;根据所述带噪语音信号的幅度谱和待训练的语音增强模型,获得预测的纯净语音信号幅度谱、预测的噪声语音信号幅度谱、预测的纯净语音信号、预测的噪声语音信号、预测的纯净语音信号的对数梅尔功率谱以及预测的噪声语音信号的对数梅尔功率谱;根据所述纯净语音信号以及预测的所述纯净语音信号,获得第一纯净语音损失值,根据所述噪声语音信号以及预测的所述噪声语音信号,获得第一噪声语音损失值;根据所述纯净语音信号的幅度谱以及预测的所述纯净语音信号幅度谱,获得第二纯净语音损失值,根据所述噪声语音信号的幅度谱以及预测的所述噪声语音信号幅度谱,获得第二噪声语音损失值;根据所述纯净语音信号的对数梅尔功率谱以及预测的所述纯净语音信号的对数梅尔功率谱,获得第三纯净语音损失值,根据所述噪声语音信号的对数梅尔功率谱以及预测的所述噪声语音信号的对数梅尔功率谱,获得第三噪声语音损失值;根据所述第一纯净语音损失值、所述第一噪声语音损失值、所述第二纯净语音损失值、所述第二噪声语音损失值、所述第三纯净语音损失值以及所述第三噪声语音损失值,获得语音增强损失值;根据所述语音增强损失值对所述语音增强模型进行优化训练,获得训练好的语音增强模型。2.根据权利要求1所述的语音增强模型的训练方法,其特征在于:所述根据所述第一纯净语音损失值、所述第一噪声语音损失值、所述第二纯净语音损失值、所述第二噪声语音损失值、所述第三纯净语音损失值以及所述第三噪声语音损失值,获得语音增强损失值的步骤,包括:根据所述第一纯净语音损失值、所述第二纯净语音损失、所述第三纯净语音损失值以及对应预设的纯净语音信号权重,获得语音增强的纯净语音损失值;根据所述第一噪声语音损失值、所述第二噪声语音损失、所述第三噪声语音损失值以及对应预设的噪音语音信号权重,获得语音增强的噪音语音损失值;根据语音增强的所述纯净语音损失值和语音增强的所述噪音语音损失值,获得语音增强损失值。3.根据权利要求2所述的语音增强模型的训练方法,其特征在于:所述预设的纯净语音信号权重包括第一预设权重、第二预设权重以及第三预设权重;所述根据所述第一纯净语音损失值、所述第二纯净语音损失、所述第三纯净语音损失值以及对应预设的纯净语音信号权重,获得语音增强的纯净语音损失值的步骤,包括:将所述第一纯净语音损失值与所述第一预设权重相乘,获得加权后的第一纯净语音损失值;将所述第二纯净语音损失值与所述第二预设权重相乘,获得加权后的第二纯净语音损失值;
将所述第三纯净语音损失值与所述第三预设权重相乘,获得加权后的第三纯净语音损失值;将所述加权后的第一纯净语音损失值、所述加权后的第二纯净语音损失值以及所述加权后的第三纯净语音损失值之和与所述第一预设权重、所述第二预设权重以及所述第三预设权重之和相除,获得语音增强的纯净语音损失值。4.根据权利要求2所述的语音增强模型的训练方法,其特征在于:所述预设的噪声语音权重包括第四预设权重、第五预设权重以及第六预设权重;所述根据所述第一噪声语音损失值、所述第二噪声语音损失、所述第三噪声语音损失值以及对应预设的噪音语音信号权重,获得语音增强的噪音语音损失值的步骤,包括:将所述第一噪声语音损失值与所述第四预设权重相乘,获得加权后的第一噪声语音损失值;将所述第二噪声语音损失值与所述第五预设权重相乘,获得加权后的第二噪声语音损失值;将所述第三噪声语音损失值与所述第六预设权重相乘,获得加权后的第三噪声语音损失值;将所述加权后的第一噪声语音损失值、所述加权后的第二噪声语音损失值以及所述加权后的第三噪声语音损失值之和与所述第四预设权重、所述第五预设权重以及所述第六预设权重之和相除,获得语音增强的噪声语音损失值。5.根据权利要求1至4中任一项权利要求所述的语音增强模型的训练方法,其特征在于:所述根据所述带噪语音信号的幅度谱和待训练的语音增强模型,获得预测的纯净语音信号幅度谱、预测的噪声语音信号幅度谱、预测的纯净语音信号、预测的噪声语音信号、预测的纯净语音信号的对数梅尔功率谱以及预测的噪声语音信号的对数梅尔功率谱的步骤,包括:将所述带噪语音信号的幅度谱输入至待训练的语音增强模型,获得预测的增益系数;其中,预测的所述增益系数包括预测的纯净语音增益系数和预测的噪声语音增益系数;将预测的所述纯净语音增益系数与所述带噪语音信号的幅度谱相乘,获得预测的纯净语音信号幅度谱,将预测的所述噪声语音增益系数与所述带噪语音信号的幅度谱相乘,获得预测的噪声语音信号幅度谱;将预测的所述纯净语音信号幅度谱经过快速傅里叶逆变换,获得预测的纯净语音信号,将预测的所述噪声语音信号幅度谱经过快速傅里叶逆变换,获得预测的噪声语音信号;将预测的所述纯净语音信号幅度谱求平方,获得预测的纯净语音信号功率谱;采用梅尔滤波器组将预测的所述纯净语音信号功率谱转换为预测的纯净语音信号的对数梅尔功率谱,将预测的所述噪声语音信号幅度谱求平方,获得预测的噪声语音信号功率谱;采用梅尔滤波器组将预测的所述噪声语音信号功率谱转换为预测的噪声语音信号的对数梅尔功率谱。6.根据权利要求1至4中任一项权利要求所述的语音增强模型的训练方法,其特征在于:所述根据所述纯净语音信号以及预测的所述纯净语音信号,获得第一纯净语音损失
值,根据所述噪声语音信号...
【专利技术属性】
技术研发人员:王海平,
申请(专利权)人:广州方硅信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。