基于麦克风阵列的多目标神经网络语音处理方法及装置制造方法及图纸

技术编号:34049780 阅读:17 留言:0更新日期:2022-07-06 15:31
本发明专利技术公开了一种基于麦克风阵列的多目标神经网络语音处理方法及装置,该方法将多通道录音数据和多通道回采数据输入RLS滤波器进行多通道线性回声消除,再采用滤波器的误差信号和估计回声信号的频域相关度来计算每个频点的残余回声能量;将误差信号和估计的残余回声信号声学特征输入残差神经网络,且多目标递进,使残差神经网络能够在较小的网络结构中快速的收敛;后置的降噪、去回声、去混响算法使用多通道维纳滤波器配合mask统一计算,这样复杂度低,且避免了单个算法依次处理过程中的语音损失。从而实现了让语音降噪、去回声、去混响的目标融合在一起,具有计算复杂度低,延时低实时性好,且语音质量高的特点,符合实际的使用需求。需求。需求。

Multi target neural network speech processing method and device based on microphone array

【技术实现步骤摘要】
基于麦克风阵列的多目标神经网络语音处理方法及装置


[0001]本专利技术涉及语音信号处理技术,尤其涉及一种基于麦克风阵列的多目标神经网络语音处理方法及装置。

技术介绍

[0002]基于麦克风阵列的语音降噪、去回声、去混响,也就是对声音的加工修饰,被广泛应用于会议,教育,娱乐等各种领域,目前怎样获取到清晰易懂的语音信号已经成为会议通信场景中重中之重。
[0003]目前语音降噪、去回声、去混响的技术大体分三类:一是利用麦克风阵列获取的多通道语音相关性、延时等信息,基于语音信号的理论建模,配合统计优化相关理论,计算信号最优解。实际使用中语音信号随着场景的变化而变化,语音呈现较为复杂的变化情况,用假设的理论模型很难得到一个好的处理效果;二是通过神经网络进行端到端训练,直接计算语音的最佳波形,这种方法网络结构较为复杂,实际使用中计算量过大,且需要大量语音训练数据。此外,该方法受语音数据的质量和场景匹配度的限制较大,处理效果不够稳定,且延时较大,不能满足实时通信的要求;三是通过神经网络和信号模型相配合,把部分需要调试的参数交给神经网络去训练,然而这种方法没有将降噪、去回声、去混响融合到一起,往往需要分开优化,而降噪、去回声、去混响的目标存在一定的冲突,所以很难在实际应用场景中获得很好的效果,同时网络结构也较复杂,实际使用中计算量大,且延时也较大,不能满足实时通信的要求。

技术实现思路

[0004]本专利技术的目的在于提供一种能够获得最佳语音音质效果、计算复杂度低并能够满足实时通信要求的基于麦克风阵列的多目标神经网络语音处理方法及装置。
[0005]以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
[0006]根据本专利技术的一方面,提供了一种基于麦克风阵列的多目标神经网络语音处理方法,包括:
[0007]步骤100、使用短时傅立叶变换获取多通道录音的频域数据和多路立体声回采的频域数据;
[0008]步骤200、将多通道录音的频域数据与多路立体声回采的频域数据送入RLS滤波器中得到误差信号和估计信号,计算二者的频域相关度,通过特定学习率平滑历史帧的频域相关度,再乘以误差信号得到估计的各频点的残余回声信号能量;
[0009]步骤300、将误差信号和残余回声信号的BFCC特征输入多目标神经网络,获取融合的降噪、去回声、去混响的语音能量掩码;
[0010]步骤400、通过波束形成器滤波后反变换到时域,得到干净的处理后的时域音频。
[0011]在一实施例中,所述步骤200中,对RLS线性滤波的输出为;
[0012]Lsty(n,f)=W
H
(n

1,f)X(n,f);
[0013]E(n,f)=Y(n,f)

Lsty(n,f);
[0014]W(n,f)=W(n

1,f)+k(n,f)E
H
(n,f);
[0015]k(n,f)=P(n

1,f)X(n,f)/(1+X
H
(n,f)P(n

1,f)X(n,f));
[0016][0017]其中,X为多通道回采数据的频域组成的向量;W是RLS滤波器向量;E是误差信号;Lsty是回声估计信号;Y是近端语音信号;R是回采各频点上的协方差矩阵;P是R的逆矩阵;k是滤波器W的更新系数;n是帧数;f是频率点。
[0018]在一实施例中,所述步骤200中,残余回声信号能量的计算过程为:
[0019]Res(n,f)=η(n,f)*Yf(n,f);
[0020]Yf(n,f)=Lsty(n,f)*Lsty
*
(n,f);
[0021]Ef(n,f)=E(n,f)*E
*
(n,f);
[0022]EYf(n,f)=Lsty(n,f)*E
*
(n,f);
[0023]η(n,f)=abs(EYf(n,f))2/(max(Yf(n,f),Ef(n,f))*Yf(n,f)+1e

9);
[0024]其中,Res是估计的回声泄漏的能量;η是估计的回声泄漏的系数;Yf是估计的回声信号的能量;Ef是误差信号的能量;EYf是误差信号和泄漏回声互相关能量;E是误差信号;Lsty是回声估计信号;n是帧数;f是频率点。
[0025]在一实施例中,所述多目标神经网络使用GRU或LSTM网络配合全连接层,组成有三个不同目标的残差网络,各目标在不同层输出,又同时作为下一层的输入。
[0026]在一实施例中,所述多目标神经网络的各目标递进,第一层残差网络目标是噪声掩码,第二层的目标是回声和噪声的融合掩码,第三层的目标是回声、噪声以及混响的融合掩码,这三层掩码数值上相关。
[0027]在一实施例中,步骤500中的所述波束形成滤波器进行如下计算:
[0028]H(f)=(R
ss
(f)+u*R
nn
(f))
‑1R
ss
(f)e1;
[0029]R
ss
(n,f)=λ*R
ss
(n

1,f)+(1

λ)*mask(n,f)X(n,f)X
H
(n,f)mask
H
(n,f);
[0030]其中,H是波束形成滤波器的系数;R
ss
是估计目标语音的协方差矩阵;R
nn
是估计非目标信号的协方差矩阵;u是语音保真度系数,范围是(0

1);e1是向量(1;0;...;0);λ是协方差矩阵更新系数,范围是(0

1);mask是神经网络估计的目标语音的掩蔽系数;X是原始的录音数据信号;n是帧数;f是频率点。
[0031]在一实施例中,各个频点的协方差矩阵的计算采用学习率不断迭代的方式。
[0032]在一实施例中,所述波束形成滤波器为多通道维纳滤波。
[0033]根据本专利技术的另一方面,提供了一种装置,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如第一方面所述的基于麦克风阵列的多目标神经网络语音处理方法。
[0034]本专利技术实施例的有益效果是:
[0035]1.本专利技术实施例采用频域线性RLS滤波器来进行多通道语音去回声的预处理工
作,较常用的LMS滤波器可以获得更好的线性滤波处理效果;同时可以满足立体声的回声消除,较常用的单声道回声消除扩大了使用的场景,优化了效果。
[0036]2.本专利技术实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于麦克风阵列的多目标神经网络语音处理方法,其特征在于,包括:步骤100、使用短时傅立叶变换获取多通道录音的频域数据和多路立体声回采的频域数据;步骤200、将多通道录音的频域数据与多路立体声回采的频域数据送入RLS滤波器中得到误差信号和回声估计信号,计算二者的频域相关度作为回声信号的泄漏系数,再乘以误差信号得到估计的各频点的残余回声信号;步骤300、提取误差信号和残余回声信号的BFCC特征输入多目标神经网络,获取融合的降噪、去回声、去混响的语音能量掩码;步骤400、将语音能量掩码通过波束形成滤波器滤波后,反变换到时域,得到干净的时域音频。2.根据权利要求1所述基于麦克风阵列的多目标神经网络语音处理方法,其特征在于,所述步骤200中,RLS线性滤波器的输出为;Lsty(n,f)=W
H
(n

1,f)X(n,f);E(n,f)=Y(n,f)

Lsty(n,f);W(n,f)=W(n

1,f)+k(n,f)E
H
(n,f);k(n,f)=P(n

1,f)X(n,f)/(1+X
H
(n,f)P(n

1,f)X(n,f));其中,X为多通道回采数据的频域组成的向量;W是RLS滤波器向量;E是误差信号;Lsty是回声估计信号;Y是近端语音信号;R是回采各频点上的协方差矩阵;P是R的逆矩阵;k是滤波器W的更新系数;n是帧数;f是频率点。3.根据权利要求2所述基于麦克风阵列的多目标神经网络语音处理方法,其特征在于,所述步骤200中,残余回声信号Res的计算过程为:Res(n,f)=η(n,f)*Yf(n,f);Yf(n,f)=Lsty(n,f)*Lsty
*
(n,f);Ef(n,f)=E(n,f)*E
*
(n,f);EYf(n,f)=Lsty(n,f)*E
*
(n,f);η(n,f)=abs(EYf(n,f))2/(max(Yf(n,f),Ef(n,f))*Yf(n,f)+le

9);其中,Res是估计的回声泄漏的能量;η是估计的回声泄漏的系数;Yf是估计的回声信号的能量;Ef是误差信号的能量;EYf是...

【专利技术属性】
技术研发人员:李志李霄丘四海王欢良张李
申请(专利权)人:苏州奇梦者科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1