一种语音增强方法、装置、设备及存储介质制造方法及图纸

技术编号:31764206 阅读:20 留言:0更新日期:2022-01-05 16:49
本发明专利技术实施例公开了一种语音增强方法、装置、设备及存储介质。该方法包括:将待处理的带噪语音信号输入到目标语音增强模型中;其中,所述目标语音增强模型包含编码网络、降噪网络和解码网络;通过所述编码网络,对所述带噪语音信号执行编码操作,得到输出的编码语音特征;将所述编码语音特征输入到所述降噪网络中,得到输出的降噪语音特征;基于所述编码语音特征、降噪语音特征和所述解码网络,确定与所述带噪语音信号对应的增强语音信号。本发明专利技术实施例通过直接将带噪语音信号输入到目标语音增强模型中,解决了频域语音增强方法需要时域变换的问题,既缩短了语音增强的计算时间,又提高了语音增强的效果。又提高了语音增强的效果。又提高了语音增强的效果。

【技术实现步骤摘要】
一种语音增强方法、装置、设备及存储介质


[0001]本专利技术实施例涉及语音处理
,尤其涉及一种语音增强方法、装置、设备及存储介质。

技术介绍

[0002]语音增强本质上是语音去噪,即从带噪声的语音信号中提取尽可能纯净的原始语音。传统的语音增强方法是对纯净语音和噪声语音各自的特性和彼此之间的关系提出一定的假设,这种假设前提限制了语音增强的去噪效果,适用性较差。基于深度学习的语音增强方法无需前提假设,借助神经网络结构,直接学习纯净语音和噪声语音之前的非线性映射关系,噪声抑制效果显著。
[0003]大多数基于深度学习的语音增强方法是利用短时傅里叶变换将带噪语音变换到频域上进行语音增强,最后再利用逆短时傅里叶变换转到时域进行波形合成增强语音。现有的语音增强模型更适用于对频域的带噪语音进行语音增强,一方面,频域的语音增强忽略了语音信号的相位信息,会降低语音增强效果。另一方面,现有方法涉及到时频变换过程,增加了语音增强过程的计算时间,以及时频变换过程中的分帧加窗等操作也会影响到最终的语音增强的效果。

技术实现思路

[0004]本专利技术实施例提供了一种语音增强方法、装置、设备及存储介质,以缩短语音增强过程的计算时间,提高语音增强效果。
[0005]第一方面,本专利技术实施例提供了一种语音增强方法,该方法包括:
[0006]将待处理的带噪语音信号输入到目标语音增强模型中;其中,所述目标语音增强模型包含编码网络、降噪网络和解码网络;
[0007]通过所述编码网络,对所述带噪语音信号执行编码操作,得到输出的编码语音特征;
[0008]将所述编码语音特征输入到所述降噪网络中,得到输出的降噪语音特征;
[0009]基于所述编码语音特征、降噪语音特征和所述解码网络,确定与所述带噪语音信号对应的增强语音信号。
[0010]第二方面,本专利技术实施例还提供了一种语音增强装置,该装置包括:
[0011]带噪语音信号输入模块,用于将待处理的带噪语音信号输入到目标语音增强模型中;其中,所述目标语音增强模型中包含编码网络、降噪网络和解码网络;
[0012]语音编码模块,用于通过所述编码网络,对所述带噪语音信号执行编码操作,得到输出的编码语音特征;
[0013]语音降噪模块,用于将所述编码语音特征输入到所述降噪网络中,得到输出的降噪语音特征;
[0014]语音增强模块,用于基于所述编码语音特征、降噪语音特征和所述解码网络,确定
与所述带噪语音信号对应的增强语音信号。
[0015]第三方面,本专利技术实施例还提供了一种电子设备,该电子设备包括:
[0016]一个或多个处理器;
[0017]存储器,用于存储一个或多个程序;
[0018]当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述所涉及的任一所述的语音增强方法。
[0019]第四方面,本专利技术实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行上述所涉及的任一所述的语音增强方法。
[0020]本专利技术实施例通过直接将带噪语音信号输入到目标语音增强模型中,目标语音增强模型通过编码网络、降噪网络和解码网络对时域的带噪语音信号进行增强处理,解决了频域语音增强方法需要进行时频转换的问题,既缩短了语音增强过程的计算时间,又尽可能的保留了语音信号的相位信息,从而提高了语音增强的效果。
附图说明
[0021]图1是本专利技术实施例一提供的一种语音增强方法的流程图;
[0022]图2A是本专利技术实施例一提供的一种编码网络的网络结构的示意图;
[0023]图2B是本专利技术实施例一提供的一种局部强化变压模块的网络结构的示意图;
[0024]图2C是本专利技术实施例一提供的一种密集块模块的网络结构的示意图;
[0025]图2D是本专利技术实施例一提供的一种降噪网络的网络结构的示意图;
[0026]图2E是本专利技术实施例一提供的一种解码网络的网络结构的示意图;
[0027]图3是本专利技术实施例二提供的一种语音增强方法的流程图;
[0028]图4是本专利技术实施例三提供的一种语音增强装置的示意图;
[0029]图5是本专利技术实施例四提供的一种电子设备的结构示意图。
具体实施方式
[0030]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0031]实施例一
[0032]图1是本专利技术实施例一提供的一种语音增强方法的流程图,本实施例可适用于对语音信号进行增强处理的情况,该方法可以由语音增强装置来执行,该装置可采用软件和/或硬件的方式实现,该装置可以配置于终端设备中,示例性的,终端设备可以是移动终端、笔记本电脑、台式机、服务器和平板电脑等智能终端。具体包括如下步骤:
[0033]S110、将待处理的带噪语音信号输入到目标语音增强模型中。
[0034]其中,语音信号是一种机械波信号,是机械波的波长和强度变化的信息载体。在本实施例中,带噪语音信号中包含纯净语音信号和噪声信号,其中,噪声信号是对纯净语音信号起干扰作用的随机信号。示例性的,噪声信号的类型包括但不限于白噪声、加性噪声、高斯噪声和锐利噪声等。在本实施例中,带噪语音信号可以包含一种类型的噪声信号,也可以
包含多种类型的噪声信号。此处对带噪语音信号中噪声信号的类型不作限定。
[0035]在本实施例中,目标语音增强模型包含编码网络、降噪网络和解码网络。
[0036]S120、通过编码网络,对带噪语音信号执行编码操作,得到输出的编码语音特征。
[0037]在一个实施例中,可选的,编码网络包括维度扩充模块、一维卷积模块和激活函数;维度扩充模块,用于对带噪语音信号执行维度扩充处理,输出扩充语音信号;一维卷积模块,用于对维度扩充模块输出的扩充语音信号执行卷积操作,输出编码卷积语音特征。
[0038]图2A是本专利技术实施例一提供的一种编码网络的网络结构的示意图。具体的,带噪语音信号用X
B
×
L
表示,其中,B表示一次输入到目标语音增强模型中样本数量,L表示样本信号长度,带噪语音信号的信号长度满足B
×
L。具体的,带噪语音信号的张量用[B,L]表示。图2A中的unsqueeze表示维度扩充模块,具体的,维度扩充模块对带噪语音信号进行维度扩充,输出的扩充语音信号X'的张量大小为[B,1,L]。其中,维度扩充模块的公式可表示为:
[0039]X'=unsqueeze(X)
[0040]其中,一维卷积模块对维度扩充模块输出的扩充语音信号X'执行一维卷积操作,输出编码卷积语音信号特征X”,示例性的,一维卷积模块的输入通道数为1,输出通道数为256,卷积核本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音增强方法,其特征在于,包括:将待处理的带噪语音信号输入到目标语音增强模型中;其中,所述目标语音增强模型包含编码网络、降噪网络和解码网络;通过所述编码网络,对所述带噪语音信号执行编码操作,得到输出的编码语音特征;将所述编码语音特征输入到所述降噪网络中,得到输出的降噪语音特征;基于所述编码语音特征、降噪语音特征和所述解码网络,确定与所述带噪语音信号对应的增强语音信号。2.根据权利要求1所述的方法,其特征在于,所述降噪网络包括卷积模块、双阶变压模块、密集块模块和反卷积模块;所述卷积模块用于基于所述编码网络输出的编码语音特征,输出卷积语音特征;所述双阶变压模块用于基于注意力机制对所述卷积模块输出的卷积语音特征进行特征提取,输出变压语音特征;所述密集块模块用于基于所述双阶变压模块输出的变压语音特征,输出密集语音特征;所述反卷积模块用于基于所述卷积模块输出的卷积语音特征和所述密集块输出的密集语音特征,输出降噪语音特征。3.根据权利要求2所述的方法,其特征在于,所述双阶变压模块包括局部变压模块和全局变压模块;所述局部变压模块用于基于所述卷积模块输出的卷积语音特征,输出局部语音特征;所述全局变压模块用于基于所述局部变压模块输出的局部语音特征,输出变压语音特征。4.根据权利要求2所述的方法,其特征在于,所述密集块模块包括至少两个二维卷积模块,第一个二维卷积模块基于所述双阶变压模块输出的变压语音特征,输出第一子密集语音特征;第N个二维卷积模块基于所述双阶变压模块输出的变压语音特征以及前N

1个二维卷积模块分别输出的子密集语音特征,输出密集语音特征;其中,所述N表示所述密集块模块包含的二维卷积模块的数量。5.根据权利要求2所述的方法,其特征在于,所述卷积模块包括预处理模块、第一卷积模块和第二卷积模块;所述预处理模块用于基于所述编码网络输出的编码语音特征,输出预处理语音特征;所述第一卷积模块用于对所述预处理模块输出的预处理语音特征进行卷积处理,输出第一卷积语音特征;所述第二卷积模块用于对所述第一...

【专利技术属性】
技术研发人员:姜彦吉田桂源刘海涛彭博郑四发
申请(专利权)人:清华大学苏州汽车研究院相城
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1