【技术实现步骤摘要】
一种语音增强方法、装置、设备及存储介质
[0001]本申请涉及语音增强
,具体涉及一种语音增强方法、装置、设备及存储介质。
技术介绍
[0002]语音增强是指干净语音在现实生活中受到来自各种噪声干扰时,需要通过一定的方法将噪声滤除,以提升语音的质量和可懂度的技术。
[0003]对于说话人语音来说,其主要能量集中于低频范围(0Hz
‑
1500Hz),高频部分(大于1500Hz)包含的能量相对较少。尽管说话人语音中的高频部分能量较低,但是却包含了说话人音色、音调等重要的声纹信息。相对能量较高的低频部分,能量较低的高频内容更容易被噪声淹没。
[0004]常规的语音增强方案,通常是基于信号处理的语音增强方法和基于深度学习的语音增强算法,这些方法对高信噪比的语音信号进行增强的效果较好,但是对于低信噪比的语音信号,这些方法在对噪声进行去除时,会将语音信号的高频部分连同噪声一起去除,从而使语音信号丢失重要的声纹信息,造成听感上的语音失真。
技术实现思路
[0005]基于上述技术现状, ...
【技术保护点】
【技术特征摘要】
1.一种语音增强方法,其特征在于,包括:将带噪语音输入预先训练的复合式对抗增强网络模型,得到所述复合式对抗增强网络模型输出的语音增强结果,所述语音增强结果中至少包括增强语音;其中,所述复合式对抗增强网络模型对带噪语音进行语音增强处理得到的增强语音的声纹特征,接近于与带噪语音对应的干净语音的声纹特征。2.根据权利要求1所述的方法,其特征在于,所述语音增强结果中还包括音频增益,所述音频增益基于对带噪语音进行语音增强处理得到的增强语音与带噪语音在各采样点的幅度比值而确定;所述复合式对抗增强网络模型对带噪语音进行语音增强处理得到的音频增益,接近于带噪语音对应的干净语音相对于该带噪语音的音频增益;所述方法还包括:根据所述语音增强结果,获取与输入的所述带噪语音对应的增强语音。3.根据权利要求2所述的方法,其特征在于,所述根据所述语音增强结果,获取与输入的所述带噪语音对应的增强语音,包括:根据所述语音增强结果中的增强语音以及音频增益,计算得到与输入的所述带噪语音对应的增强语音。4.根据权利要求2所述的方法,其特征在于,所述复合式对抗增强网络模型,包括至少两个深度对抗增强模块,各个深度对抗增强模块依次串联连接,每个深度对抗增强模块分别用于进行语音增强处理,并且输出语音增强处理得到的增强语音。5.根据权利要求4所述的方法,其特征在于,所述复合式对抗增强网络包括依次串联的第一深度对抗增强模块、第二深度对抗增强模块和第三深度对抗增强模块;其中,输入所述复合式对抗增强网络模型的带噪语音输入所述第一深度对抗增强模块,所述第三深度对抗增强模块的输出作为所述复合式对抗增强网络模型输出的语音增强结果;并且,所述第一深度对抗增强模块的输出语音的信噪比和输入语音的信噪比之间的差值,与所述第二深度对抗增强模块的输出语音的信噪比和输入语音的信噪比之间的差值相同。6.根据权利要求5所述的方法,其特征在于,所述第一深度对抗增强模块、所述第二深度对抗增强模块和所述第三深度对抗增强模块分别包括设定数量的多尺度残差单元。7.根据权利要求4所述的方法,其特征在于,所述根据所述语音增强结果,获取与输入的所述带噪语音对应的增强语音,包括:对各个深度对抗增强模块输出的增强语音进行加权求和,得到第一增强结果;根据所述带噪语音以及所述音频增益,计算得到第二增强结果;根据所述第一增强结果和所述第二增强结果,计算得到与输入的所述带噪语音对应的增强语音。8.根据权利要求2所述的方法,其特征在于,所述复合式对抗增强网络模型的训练过程,包括:获取带噪语音样本、该带噪语音样本对应的干净语音,以及基于该带噪语音样本和对应的干净语音确定的目标音频增益;将所述带噪语音样本输入所述复合式对抗增强网络模型,得到所述复合式对抗增强网
络模型输出的增强语音以及音频增益;获取所述复合式对抗增强网络模型输出的增强语音的声纹特征,以及获取与该带噪语音样本对应的干净语音的声纹特征;根据所述复合式对抗增强网络模型输出的增强语音以及该带噪语音样本对应的干净语音确定音频映射损失、根据所述复合式对抗增强网络模型输出的音频增益以及所述目标音频增益确定音频增益损失,以及,根据所述复合式对抗增强网络模型输出的增强语音的声纹特征以及与该带噪...
【专利技术属性】
技术研发人员:周振昆,方磊,方四安,柳林,徐承,
申请(专利权)人:合肥讯飞数码科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。