基于麦克风阵列的多目标神经网络语音处理方法及装置制造方法及图纸

技术编号：34049780 阅读：17 留言：0更新日期：2022-07-06 15:31

本发明专利技术公开了一种基于麦克风阵列的多目标神经网络语音处理方法及装置，该方法将多通道录音数据和多通道回采数据输入RLS滤波器进行多通道线性回声消除，再采用滤波器的误差信号和估计回声信号的频域相关度来计算每个频点的残余回声能量；将误差信号和估计的残余回声信号声学特征输入残差神经网络，且多目标递进，使残差神经网络能够在较小的网络结构中快速的收敛；后置的降噪、去回声、去混响算法使用多通道维纳滤波器配合mask统一计算，这样复杂度低，且避免了单个算法依次处理过程中的语音损失。从而实现了让语音降噪、去回声、去混响的目标融合在一起，具有计算复杂度低，延时低实时性好，且语音质量高的特点，符合实际的使用需求。需求。需求。

Multi target neural network speech processing method and device based on microphone array

全部详细技术资料下载

【技术实现步骤摘要】
基于麦克风阵列的多目标神经网络语音处理方法及装置

[0001]本专利技术涉及语音信号处理技术，尤其涉及一种基于麦克风阵列的多目标神经网络语音处理方法及装置。

技术介绍

[0002]基于麦克风阵列的语音降噪、去回声、去混响，也就是对声音的加工修饰，被广泛应用于会议，教育，娱乐等各种领域，目前怎样获取到清晰易懂的语音信号已经成为会议通信场景中重中之重。
[0003]目前语音降噪、去回声、去混响的技术大体分三类：一是利用麦克风阵列获取的多通道语音相关性、延时等信息，基于语音信号的理论建模，配合统计优化相关理论，计算信号最优解。实际使用中语音信号随着场景的变化而变化，语音呈现较为复杂的变化情况，用假设的理论模型很难得到一个好的处理效果；二是通过神经网络进行端到端训练，直接计算语音的最佳波形，这种方法网络结构较为复杂，实际使用中计算量过大，且需要大量语音训练数据。此外，该方法受语音数据的质量和场景匹配度的限制较大，处理效果不够稳定，且延时较大，不能满足实时通信的要求；三是通过神经网络和信号模型相配合，把部分需要调试的参数交给神经网络去训练，然而这种方法没有将降噪、去回声、去混响融合到一起，往往需要分开优化，而降噪、去回声、去混响的目标存在一定的冲突，所以很难在实际应用场景中获得很好的效果，同时网络结构也较复杂，实际使用中计算量大，且延时也较大，不能满足实时通信的要求。

技术实现思路

[0004]本专利技术的目的在于提供一种能够获得最佳语音音质效果、计算复杂度低并能够满足实时通信要求的基于麦克风阵列的多目...

【技术保护点】

【技术特征摘要】
1.一种基于麦克风阵列的多目标神经网络语音处理方法，其特征在于，包括：步骤100、使用短时傅立叶变换获取多通道录音的频域数据和多路立体声回采的频域数据；步骤200、将多通道录音的频域数据与多路立体声回采的频域数据送入RLS滤波器中得到误差信号和回声估计信号，计算二者的频域相关度作为回声信号的泄漏系数，再乘以误差信号得到估计的各频点的残余回声信号；步骤300、提取误差信号和残余回声信号的BFCC特征输入多目标神经网络，获取融合的降噪、去回声、去混响的语音能量掩码；步骤400、将语音能量掩码通过波束形成滤波器滤波后，反变换到时域，得到干净的时域音频。2.根据权利要求1所述基于麦克风阵列的多目标神经网络语音处理方法，其特征在于，所述步骤200中，RLS线性滤波器的输出为；Lsty(n，f)＝W
H
(n
‑
1，f)X(n，f)；E(n，f)＝Y(n，f)
‑
Lsty(n，f)；W(n，f)＝W(n
‑
1，f)+k(n，f)E
H
(n，f)；k(n，f)＝P(n
‑
1，f)X(n，f)/(1+X
H
(n，f)P(n
‑
1，f)X(n，f))；其中，X为多通道回采数据的频域组成的向量；W是RLS滤波器向量；E是误差信号；Lsty是回声估计信号；Y是近端语音信号；R是回采各频点上的协方差矩阵；P是R的逆矩阵；k是滤波器W的更新系数；n是帧数；f是频率点。3.根据权利要求2所述基于麦克风阵列的多目标神经网络语音处理方法，其特征在于，所述步骤200中，残余回声信号Res的计算过程为：Res(n，f)＝η(n，f)*Yf(n，f)；Yf(n，f)＝Lsty(n，f)*Lsty
*
(n，f)；Ef(n，f)＝E(n，f)*E
*
(n，f)；EYf(n，f)＝Lsty(n，f)*E
*
(n，f)；η(n，f)＝abs(EYf(n，f))2/(max(Yf(n，f)，Ef(n，f))*Yf(n，f)+le
‑
9)；其中，Res是估计的回声泄漏的能量；η是估计的回声泄漏的系数；Yf是估计的回声信号的能量；Ef是误差信号的能量；EYf是...

【专利技术属性】
技术研发人员：李志，李霄，丘四海，王欢良，张李，
申请(专利权)人：苏州奇梦者科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人