【技术实现步骤摘要】
基于深度神经网络的残余回声消除方法及系统
[0001]本专利技术涉及语音处理
,尤其是指一种基于深度神经网络的残余回声消除方法及系统。
技术介绍
[0002]声学回声消除(AEC)或抑制(AES)是一种减少源自扬声器和麦克风之间声学耦合的回声的技术。尽管已经有许多技术被证明可以成功地抑制回声,但在这些方法的输出中仍然存在一定量的残余回声。AEC或AES受到影响的原因之一是即使回声路径是完美的线性,回声信号也不是远端数字信号的线性函数。功率放大器和扬声器,特别是便宜的和小型的功率放大器和扬声器,可能是这种非线性的来源。为了克服这个问题,目前已经有残余回声抑制(RES)滤波器应用于AEC或AES的输出以抑制剩余回声。方案[1]和方案[2]中的作者提出了RES方法来估计信号回波比(SER),然后在频域中应用维纳滤波器或频谱减法。在方案[3]中将基于谱减法的子带滤波与声学回声路径的截断泰勒级数展开相结合,用于估计回声的功率谱密度。方案[4]提出了基于远端和回波信号的频率间相关性建模的残余回波幅度回归模型。然而,上述方案没有考虑 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度神经网络的残余回声消除方法,其特征在于,包括以下步骤:S1:获取近端麦克风混合信号和远端信号,对近端麦克风混合信号进行线性滤波处理得到近端残差信号;S2:提取能够表征滤波处理后的残差信号和远端信号的高维特征;S3:将所述残差信号的高维特征和远端信号的高维特征输入至神经网络模块,学习残差信号和远端信号的高维特征分布和信号相关性,预测得到残差信号每个子带上的增益,其中所述神经网络模块包括基于U
‑
NET的编码器和解码器,以及基于长短时时间记忆神经网络层lstm的时间序列建模单元;S4:对残差信号的各个子带进行后处理,最终得到无残余回声的干净近端语音信号。2.根据权利要求1所述的基于深度神经网络的残余回声消除方法,其特征在于:在S2中,提取能够表征滤波处理后的残差信号和远端信号的高维特征的方法包括:利用高通滤波器对残差信号和远端信号的高频部分进行增强,得到增强后的残差信号和远端信号;对增强后的残差信号和远端信号进行加窗处理;对加窗后的残差信号和远端信号进行短时快速傅里叶变换,将时域信息转换为频域信息,得到残差信号和远端信号的频域表示;对残差信号和远端信号的频域表示进行短时归一化处理。3.根据权利要求2所述的基于深度神经网络的残余回声消除方法,其特征在于:在S2中,短时归一化处理的计算公式包括:中,短时归一化处理的计算公式包括:中,短时归一化处理的计算公式包括:中,短时归一化处理的计算公式包括:其中,x表示每帧语音,m表示每帧语音的长度,表示每帧语音的均值,表示每帧语音的方差,表示标准化后的每帧数据,y
i
代表最终短时归一化的输出,α和β表示在深度神经网络中可学习的参数。4.根据权利要求1所述的基于深度神经网络的残余回声消除方法,其特征在于:在S3中,所述基于U
‑
NET的编码器通过多层二维卷积Conv2d级联实现,卷积核大小是1*1,卷积核数由512,256,128实现编码降维,每个卷积层后添加relu作为激活函数。5.根据权利要求1或4所述的基于深度神经网络的残余回声消除方法,其特征在于:在S3中,所述基于长短时时间记忆神经网络层lstm对长时间序列进行建模,解码器通过多层二维卷积Conv2d级联实现,卷积核大小是1*1,卷积核数由128,256,512实现解码升维,每个卷积层后添加relu作为激活函数。6.根据权利要求1所述的基于深度神经网络的残余回声消除方法,其特征在于:在S4中,对残差信号的各个子带进行后处理的方法包括:
对帧内子带间进行平滑处理,将子带增益应用到残差信号幅度上,得到估计的幅度谱;将估计的幅度谱结合残差信号的相位谱进行傅里叶逆变换,...
【专利技术属性】
技术研发人员:李平平,辛鑫,
申请(专利权)人:苏州蛙声科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。