一种语音处理方法、装置、介质机计算机设备制造方法及图纸

技术编号:37155615 阅读:63 留言:0更新日期:2023-04-06 22:16
本发明专利技术提供一种语音处理方法、装置、介质机计算机设备,方法包括:对初始带噪语音信号进行卷积并激活,获得第一带噪语音信号;对第一带噪语音信号进行归一化、卷积处理,获得第二带噪语音信号;利用多尺度卷积神经网络对第二带噪语音信号进行多尺度特征融合,获得第三带噪语音信号;对第一带噪语音信号及第三带噪语音信号进行叠加,获得第四带噪语音信号;对第四带噪语音信号进行处理,获得噪声高维嵌入向量及降噪高维嵌入向量;对噪声高维嵌入向量及降噪高维嵌入向量进行处理,获得分离噪声及分离语音;如此,对第二带噪语音信号进行多尺度特征融合,因此可增大卷积神经网络的感受野,进而提高卷积神经网络的语音增强性能,确保语音降噪性能。保语音降噪性能。保语音降噪性能。

【技术实现步骤摘要】
一种语音处理方法、装置、介质机计算机设备


[0001]本专利技术涉及语音增强
,尤其涉及一种语音处理方法、装置、介质机计算机设备。

技术介绍

[0002]随着计算机和互联网技术的发展,语音识别技术取得了显著的进步,开始从科研机构研究逐步走向市场,广泛应用于工业、直播、通信、家庭服务、医疗等各个领域。
[0003]因在实际环境中,存在很多噪声环境,为解决噪声污染问题,提高语音可懂度和语音识别率,现有技术一般利用双通道麦克风阵列,采集目标声源信号并提高语音识别能力。但是该方式降噪性能受声源方向限制,对动态噪声降噪效果有限;并且硬件成本较高。

技术实现思路

[0004]针对现有技术存在的问题,本专利技术实施例提供了一种语音处理方法、装置、介质及计算机设备,用于解决现有技术中对语音进行降噪时,硬件成本较高且降噪效果有限的技术问题。
[0005]第一方面,本专利技术提供一种语音处理方法,所述方法包括:
[0006]获取初始带噪语音信号,对所述初始带噪语音信号进行卷积并激活,获得第一带噪语音信号;
[0007]对所述第一带噪语音信号进行归一化、卷积处理,获得第二带噪语音信号;
[0008]利用多尺度卷积神经网络对所述第二带噪语音信号进行多尺度特征融合,获得第三带噪语音信号;每个尺度特征融合对应的扩张因子不同;
[0009]对所述第一带噪语音信号及所述第三带噪语音信号进行叠加,获得第四带噪语音信号;
[0010]对所述第四带噪语音信号进行处理,获得噪声高维嵌入向量及降噪高维嵌入向量;
[0011]对所述噪声高维嵌入向量及降噪高维嵌入向量进行处理,获得分离噪声及分离语音。
[0012]上述方案中,所述对所述第一带噪语音信号进行归一化、卷积处理,获得第二带噪语音信号,包括:
[0013]利用公式对所述第一带噪语音信号进行归一化处理,获得归一化带噪语音信号output
k1

[0014]对所述归一化带噪语音信号进行1
×
1卷积,获得所述第二带噪语音信号;其中,
[0015]所述input
k1
为所述第一带噪语音信号的第k1帧信号;所述E(input
k1
)为第k1帧信号输入时,各帧信号的期望值;所述Var(input
k1
)为第k1帧信号输入时,各帧信号的方差;所述ε为常量,所述ε取值范围为10
‑8~10
‑5;所述γ为第一训练参数,所述β为第二训练参数。
[0016]上述方案中,所述利用多尺度卷积神经网络对所述第二带噪语音信号进行多尺度特征融合,获得第三带噪语音信号,包括:
[0017]利用预设数量的卷积模块分别对所述第二带噪语音信号进行1
×
1卷积,获得相应数量的第一卷积信号:
[0018]分别对各所述第一卷积信号进行激活及归一化处理,获得相应数量的归一化信号;
[0019]基于深度分离扩张因果卷积模块对应的扩张因子,对各所述归一化信号进行一次深度分离扩张因果卷积,获得对应的第二卷积信号;
[0020]将每个所述第二卷积信号进行连接,获得连接带噪语音信号;
[0021]对所述连接带噪语音信号依次进行激活、通道归一化处理及1
×
1卷积后,获得所述第三带噪语音信号。
[0022]上述方案中,所述对所述第四带噪语音信号进行处理,获得噪声高维嵌入向量及降噪高维嵌入向量,包括:
[0023]对所述第四带噪语音信号进行n

1次深度分离扩张因果卷积,获得第三卷积信号;
[0024]对所述第三卷积信号进行1
×
1卷积,获得第四卷积信号;
[0025]利用Relu激活函数对所述第四卷积信号进行处理,获得噪声比值膜及语音比值膜;
[0026]将所述噪声比值膜与所述第一带噪语音信号相乘,获得所述噪声高维嵌入向量;
[0027]将所述语音比值膜与所述第一带噪语音信号相乘,获得所述降噪高维嵌入向量;其中,所述n为深度分离扩张因果卷积模块的总数量。
[0028]上述方案中,所述对所述噪声高维嵌入向量及降噪高维嵌入向量进行处理,获得分离噪声及分离语音,包括:
[0029]利用公式output
k2
=input
k2
·
V对所述噪声高维嵌入向量进行全连接处理,获得第一全连接噪声信号output
k2

[0030]利用公式output
k3
=input
k3
·
V对所述降噪高维嵌入向量进行全连接处理,获得第二全连接噪声信号output
k3

[0031]对所述第一全连接噪声信号及所述第二全连接噪声信号进行重构,获得所述分离噪声及所述分离语音;其中,所述V为全连接矩阵,所述input
k2
为所述噪声高维嵌入向量,所述input
k3
为所述降噪高维嵌入向量。
[0032]上述方案中,所述获得分离噪声及分离语音后,还包括:
[0033]确定损失函数;
[0034]利用所述分离噪声、所述分离语音、所述初始带噪信号中的初始语音及初始噪声信号、所述损失函数对所述多尺度卷积神经网络进行训练;其中,所述损失函数为:
[0035]其中,所述s为所述初始语音,所述为分离语音,s
target
为语音训练目标,e
noise
为噪声训练目标,SI

SNR为训练损失尺度不变信噪比,为所述初始语音和所述分离语音的内积,||s||2为所述初始语音的2

范数,||s
target
||2为所述语音训练目标的2

范数,||e
noise
||2为所述噪声训练目标的2

范数。
[0036]第二方面,本专利技术提供一种语音处理装置,所述装置包括:
[0037]获取单元,用于获取初始带噪语音信号,对所述初始带噪语音信号进行卷积并激活后,获得第一带噪语音信号;
[0038]卷积单元,用于对所述第一带噪语音信号进行归一化、卷积处理,获得第二带噪语音信号;
[0039]融合单元,用于利用多尺度卷积神经网络对所述第二带噪语音信号进行多尺度特征融合,获得第三带噪语音信号;每个尺度特征融合对应的扩张因子不同;
[0040]叠加单元,用于对所述第一带噪语音信号及所述第三带噪语音信号进行叠加,获得第四带噪语音信号;
[0041]处理单元,用于对所述第四带噪语音信号进行处理,获得噪声高维嵌入向量及降噪高维嵌入向量;对所述噪声高维嵌入向量及降噪高维嵌入向量进行处理,获得分离噪声及分离语音。
[0042]上述方案中,所述卷积单元具体用于:
[0043]利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,所述方法包括:获取初始带噪语音信号,对所述初始带噪语音信号进行卷积并激活,获得第一带噪语音信号;对所述第一带噪语音信号进行归一化、卷积处理,获得第二带噪语音信号;利用多尺度卷积神经网络对所述第二带噪语音信号进行多尺度特征融合,获得第三带噪语音信号;每个尺度特征融合对应的扩张因子不同;对所述第一带噪语音信号及所述第三带噪语音信号进行叠加,获得第四带噪语音信号;对所述第四带噪语音信号进行处理,获得噪声高维嵌入向量及降噪高维嵌入向量;对所述噪声高维嵌入向量及降噪高维嵌入向量进行处理,获得分离噪声及分离语音。2.如权利要求1所述的方法,其特征在于,所述对所述第一带噪语音信号进行归一化、卷积处理,获得第二带噪语音信号,包括:利用公式对所述第一带噪语音信号进行归一化处理,获得归一化带噪语音信号output
k1
;对所述归一化带噪语音信号进行1
×
1卷积,获得所述第二带噪语音信号;其中,所述input
k1
为所述第一带噪语音信号的第k1帧信号;所述E(input
k1
)为第k1帧信号输入时,各帧信号的期望值;所述Var(input
k1
)为第k1帧信号输入时,各帧信号的方差;所述ε为常量,所述ε取值范围为10
‑8~10
‑5;所述γ为第一训练参数,所述β为第二训练参数。3.如权利要求1所述的方法,其特征在于,所述利用多尺度卷积神经网络对所述第二带噪语音信号进行多尺度特征融合,获得第三带噪语音信号,包括:利用预设数量的卷积模块分别对所述第二带噪语音信号进行1
×
1卷积,获得相应数量的第一卷积信号:分别对各所述第一卷积信号进行激活及归一化处理,获得相应数量的归一化信号;基于深度分离扩张因果卷积模块对应的扩张因子,对各所述归一化信号进行一次深度分离扩张因果卷积,获得对应的第二卷积信号;将每个所述第二卷积信号进行连接,获得连接带噪语音信号;对所述连接带噪语音信号依次进行激活、通道归一化处理及1
×
1卷积后,获得所述第三带噪语音信号。4.如权利要求1所述的方法,其特征在于,所述对所述第四带噪语音信号进行处理,获得噪声高维嵌入向量及降噪高维嵌入向量,包括:对所述第四带噪语音信号进行n

1次深度分离扩张因果卷积,获得第三卷积信号;对所述第三卷积信号进行1
×
1卷积,获得第四卷积信号;利用Relu激活函数对所述第四卷积信号进行处理,获得噪声比值膜及语音比值膜;将所述噪声比值膜与所述第一带噪语音信号相乘,获得所述噪声高维嵌入向量;将所述语音比值膜与所述第一带噪语音信号相乘,获得所述降噪高维嵌入向量;其中,所述n为深度分离扩张因果卷积模块的总数量。5.如权利要求1所述的方法,其特征在于,所述对所述噪声高维嵌入向量及降噪高维嵌
入向量进行处理,获得分离噪声及分离语音,包括:利用公式output
k2
=input
k2
·
V对所述噪声高维嵌入向量进行全连接处理,获得第一全连接噪声信号output
k2
;利用公式outpu...

【专利技术属性】
技术研发人员:毛鑫
申请(专利权)人:武汉斗鱼网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1