语音增强方法、模型训练方法以及相关设备技术

技术编号:31456307 阅读:10 留言:0更新日期:2021-12-18 11:22
本公开提供一种语音增强方法、模型训练方法以及相关设备。语音增强模型包括语音预测神经网络模块、噪声估计神经网络模块以及线性滤波模块,模型训练方法包括:获取训练集中各语音对的带噪语音幅度谱以及纯净语音幅度谱;根据带噪语音幅度谱获得第一特征集以及第二特征集;将第一特征集输入语音预测神经网络模块,以输出第一准估计纯净语音幅度谱以及预测误差;将第二特征集输入噪声估计神经网络模块,以输出估计噪声能量;将第一准估计纯净语音幅度谱、预测误差、估计噪声能量输入线性滤波模块,线性滤波模块用于输出估计纯净语音幅度谱;根据纯净语音幅度谱以及估计纯净语音幅度谱计算模型损失,以训练语音增强模型。本公开实现语音增强的优化。开实现语音增强的优化。开实现语音增强的优化。

【技术实现步骤摘要】
语音增强方法、模型训练方法以及相关设备


[0001]本公开涉及互联网
,具体地说,涉及一种语音增强方法、模型训练方法以及相关设备。

技术介绍

[0002]随着语音识别技术的高速发展,语音识别技术已被应用于智能硬件、智能电话客服等多种场景,因为其识别结果准确性与工作效率和用户交互体验息息相关,人们对语音识别的效果的要求也越来越高。目前,由于语音识别的应用场景基本都与用户日常生活需求和工作需求有关,无法保证输入语音信号是纯净、无噪音的语音,导致在识别一些背景环境有噪音的语音时,噪音干扰了语音信号的质量,导致识别结果不准确,影响了用户在人机交互、音频文字转写的过程中的效率。因此,针对解决复杂噪声环境中的音频噪音干扰的语音增强技术成为了语音识别技术中的关键部分。
[0003]语音增强技术目的是对包含噪音的语音进行处理,并输出处理后的纯净语音音频。其主要手段可分为两大类:基于信号处理的线性滤波方法,如维纳滤波、卡尔曼滤波、基于最小均方误差的滤波器等;和基于机器学习的方法,如基于递归神经网络、基于卷积神经网络,基于卷积

递归神经网络、基于UNET网络的方法等。
[0004]基于信号处理的线性滤波方法首先预设语音和噪声的统计模型,在一定的优化准则下,求解最优滤波器,并作用于带噪音频,达到增强语音的目的。基于机器学习的方法采用大量训练数据,采用一定的网络结构,在监督学习的框架下,训练从带噪语音到纯净语音的非线性函数,从而达到语音增强的目的。
[0005]虽然基于线性滤波器的方法不需要大规模的数据训练,但是由于其常基于专家知识设计最优化函数,然而在某些条件下,由于语音或噪声的模型假设过于理想化,如假设噪声服从平稳性等,导致在实际场景下,尤其是在非平稳噪声条件下,性能明显下降。基于机器学习的语音增强方法通过采用大量语料训练神经网络,得到带噪语音特征到纯净语音的映射,可以显著提升在复杂非平稳噪声下的性能。然而,其性能明显受到训练语料中噪声多变性的限制,当训练语料有限时,常产生过拟合问题,导致对于集外噪声的泛化性能较差。该问题的主要原因为,基于机器学习的方法过于依赖现有神经网络模型结构,并未引入传统的基于信号处理的专家知识,从而难以通过设计符合最优语音信号处理的正则化方法,提高网络的性能。
[0006]由此,如何优化语音增强方法,以在平稳噪声和复杂非平稳噪声下皆保持良好的增强性能,同时,提升语音增强的泛化性能,是本领域技术人员亟待解决的技术问题。
[0007]需要说明的是,上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0008]有鉴于此,本公开提供一种语音增强方法、模型训练方法以及相关设备,通过优化
语音增强方法,以在平稳噪声和复杂非平稳噪声下皆保持良好的增强性能,同时,提升语音增强的泛化性能。
[0009]本公开的一个方面提供一种语音增强模型训练方法,所述语音增强模型包括语音预测神经网络模块、噪声估计神经网络模块以及线性滤波模块,
[0010]所述语音增强模型训练方法,包括:
[0011]获取语音训练集中各语音对的带噪语音幅度谱以及纯净语音幅度谱,所述语音对包括关联的纯净语音信号以及带噪语音信号;
[0012]根据所述带噪语音幅度谱获得第一特征集以及第二特征集;
[0013]将所述第一特征集输入所述语音预测神经网络模块,所述语音预测神经网络模块用于输出第一准估计纯净语音幅度谱以及预测误差;
[0014]将所述第二特征集输入所述噪声估计神经网络模块,所述噪声估计神经网络模块用于输出估计噪声能量;
[0015]将所述语音预测神经网络模块输出的第一准估计纯净语音幅度谱以及预测误差、所述噪声估计神经网络模块输出的估计噪声能量输入所述线性滤波模块,所述线性滤波模块用于输出估计纯净语音幅度谱;
[0016]根据所述纯净语音幅度谱以及所述估计纯净语音幅度谱计算模型损失,并根据模型损失训练所述语音增强模型。
[0017]在本公开的一些实施例中,所述获取语音训练集中各语音对的带噪语音幅度谱以及纯净语音幅度谱包括:
[0018]对所述语音对的纯净语音信号执行时域到频域的变换步骤;
[0019]对所述语音对的带噪语音信号执行时域到频域的变换步骤,
[0020]所述时域到频域的变换步骤包括:
[0021]对待处理语音信号进行分帧;
[0022]对所述待处理语音信号的各帧进行傅里叶变换,获得各帧的帧傅里叶谱;
[0023]按时间轴拼接所述待处理语音信号的各帧的帧傅里叶谱,获得所述待处理语音信号的傅里叶谱;
[0024]基于所述待处理语音信号的傅里叶谱的各频点的幅度,生成所述待处理语音信号的幅度谱。
[0025]在本公开的一些实施例中,所述语音预测神经网络模块为时间序列神经网络模型,所述第一特征集为多个连续帧的噪声幅度谱序列,所述语音预测神经网络模块输出的所述第一准估计纯净语音幅度谱为与所述噪声幅度谱序列具有相同维度的第一准估计纯净语音幅度谱序列,所述语音预测神经网络模块输出的所述预测误差为与所述噪声幅度谱序列具有相同维度的预测误差序列。
[0026]在本公开的一些实施例中,所述噪声估计神经网络模块为多层全连接网络,所述第二特征集包括当前帧以及当前帧的领域窗口的带噪语音幅度谱。
[0027]在本公开的一些实施例中,所述线性滤波模块包括维纳滤波模块、卡尔曼增益计算模块以及线性组合模块,
[0028]所述维纳滤波模块用于根据所述噪声估计神经网络模块输出的估计噪声能量以及所述第二特征集,输出纯净语音幅度谱的维纳滤波解,作为第二准估计纯净语音幅度谱;
[0029]所述卡尔曼增益计算模块用于根据所述语音预测神经网络模块输出的预测误差以及所述噪声估计神经网络模块输出的估计噪声能量,输出最优卡尔曼增益G;
[0030]所述线性组合模块用于根据所述最优卡尔曼增益G,计算所述语音预测神经网络模块输出的第一准估计纯净语音幅度谱以及所述第二准估计纯净语音幅度谱的线性组合结果,作为所述估计纯净语音幅度谱。
[0031]在本公开的一些实施例中,根据所述最优卡尔曼增益G,计算所述语音预测神经网络模块输出的第一准估计纯净语音幅度谱以及所述第二准估计纯净语音幅度谱的线性组合结果,作为所述估计纯净语音幅度谱包括:
[0032]将(1

G)作为所述第一准估计纯净语音幅度谱的第一权重;
[0033]将最优卡尔曼增益G作为所述第二准估计纯净语音幅度谱的第二权重;
[0034]根据所述第一权重和第二权重计算所述第一准估计纯净语音幅度谱和所述第二准估计纯净语音幅度谱的加权合,作为所述估计纯净语音幅度谱。
[0035]在本公开的一些实施例中,所述根据所述纯净语音幅度谱以及所述估计纯净语音幅度谱计算模型损失,并根据模型损失训练所述语音增本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音增强模型训练方法,其特征在于,所述语音增强模型包括语音预测神经网络模块、噪声估计神经网络模块以及线性滤波模块,所述语音增强模型训练方法,包括:获取语音训练集中各语音对的带噪语音幅度谱以及纯净语音幅度谱,所述语音对包括关联的纯净语音信号以及带噪语音信号;根据所述带噪语音幅度谱获得第一特征集以及第二特征集;将所述第一特征集输入所述语音预测神经网络模块,所述语音预测神经网络模块用于输出第一准估计纯净语音幅度谱以及预测误差;将所述第二特征集输入所述噪声估计神经网络模块,所述噪声估计神经网络模块用于输出估计噪声能量;将所述语音预测神经网络模块输出的第一准估计纯净语音幅度谱以及预测误差、所述噪声估计神经网络模块输出的估计噪声能量输入所述线性滤波模块,所述线性滤波模块用于输出估计纯净语音幅度谱;根据所述纯净语音幅度谱以及所述估计纯净语音幅度谱计算模型损失,并根据模型损失训练所述语音增强模型。2.如权利要求1所述的语音增强模型训练方法,其特征在于,所述获取语音训练集中各语音对的带噪语音幅度谱以及纯净语音幅度谱包括:对所述语音对的纯净语音信号执行时域到频域的变换步骤;对所述语音对的带噪语音信号执行时域到频域的变换步骤,所述时域到频域的变换步骤包括:对待处理语音信号进行分帧;对所述待处理语音信号的各帧进行傅里叶变换,获得各帧的帧傅里叶谱;按时间轴拼接所述待处理语音信号的各帧的帧傅里叶谱,获得所述待处理语音信号的傅里叶谱;基于所述待处理语音信号的傅里叶谱的各频点的幅度,生成所述待处理语音信号的幅度谱。3.如权利要求1所述的语音增强模型训练方法,其特征在于,所述语音预测神经网络模块为时间序列神经网络模型,所述第一特征集为多个连续帧的噪声幅度谱序列,所述语音预测神经网络模块输出的所述第一准估计纯净语音幅度谱为与所述噪声幅度谱序列具有相同维度的第一准估计纯净语音幅度谱序列,所述语音预测神经网络模块输出的所述预测误差为与所述噪声幅度谱序列具有相同维度的预测误差序列。4.如权利要求1所述的语音增强模型训练方法,其特征在于,所述噪声估计神经网络模块为多层全连接网络模型,所述第二特征集包括当前帧以及当前帧的领域窗口的带噪语音幅度谱。5.如权利要求1所述的语音增强模型训练方法,其特征在于,所述线性滤波模块包括维纳滤波模块、卡尔曼增益计算模块以及线性组合模块,所述维纳滤波模块用于根据所述噪声估计神经网络模块输出的估计噪声能量以及所述第二特征集,输出纯净语音幅度谱的维纳滤波解,作为第二准估计纯净语音幅度谱;所述卡尔曼增益计算模块用于根据所述语音预测神经网络模块输出的预测误差以及
所述噪声估计神经网络模块输出的估计噪声能量,输出最优卡尔曼增益G;所述线性组合模块用于根据所述最优卡尔曼增益G,计算所述语音预测神经网络模块输出的第一准估计纯净语音幅度谱以及所述第二准估计纯净语音幅度谱的线性组合结果,作为所述估计纯净语音幅度谱。6.如权利要求5所述的语音增强模型训练方法,其特征在于,根据所述最优卡尔曼增益G,计算所述语音预测神经网络模块输出的第一准估计纯净语音幅度谱以及所述第二准估计纯净语音幅度谱的线性组合结果,作为所述估计纯净语音幅度谱包括:将(1

【专利技术属性】
技术研发人员:雪巍蔡玉玉吴俊仪全刚张超杨帆丁国宏何晓冬
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1