【技术实现步骤摘要】
一种残余回声及噪声消除方法及装置
本专利技术涉及回声及噪声消除领域。尤其涉及一种残余回声及噪声消除方法及装置。
技术介绍
目前,回声消除技术主要是去除语音信号中由远端参考声信号形成的回声信号,而语音降噪技术主要是去除语音信号中背景噪声以及指向性噪声干扰。回声消除技术和语音降噪技术都旨在提高语音的质量和可懂度。在回声消除技术中,结合基于传统信号处理的自适应滤波方法和基于深度学习的残余回声消除方法,可以有效提升系统的泛化性能。然而,在传统方法中残余回声及噪声消除往往是独立分开进行的,没有考虑这两个任务的相关性。在残余回声消除任务中有多个信号特征可以利用,这些特征有着不同的物理意义与重要性,而传统方法都没有考虑这些特征不同的重要性。在训练残余回声及噪声消除模型时,现有技术大多采用目标幅度谱和估计幅度谱的均方误差作为损失函数,但上述损失函数依赖于信号的能量大小,对不同大小能量的信号的尺度也会不同。
技术实现思路
由于现有方法存在上述问题,本申请实施例提出一种残余回声及噪声消除方法及装置。第一方面, ...
【技术保护点】
1.一种残余回声及噪声消除方法,其特征在于,包括:/n接收含有回声及噪声的语音时域信号和远端参考声时域信号;/n对所述含有回声及噪声的语音时域信号和所述远端参考声时域信号分别进行分帧、加窗和傅里叶变换,得到含有回声及噪声的语音频域信号和远端参考声频域信号;/n根据所述含有回声及噪声的语音频域信号和所述远端参考声频域信号,确定回声频域信号;/n根据所述含有回声及噪声的语音频域信号和所述回声频域信号,确定含有残余回声及噪声的语音频域信号;/n将所述含有残余回声及噪声的语音频域信号的幅度谱、所述回声频域信号的幅度谱和所述远端参考声频域信号的幅度谱进行能量归一化处理,得到含有残余回 ...
【技术特征摘要】
1.一种残余回声及噪声消除方法,其特征在于,包括:
接收含有回声及噪声的语音时域信号和远端参考声时域信号;
对所述含有回声及噪声的语音时域信号和所述远端参考声时域信号分别进行分帧、加窗和傅里叶变换,得到含有回声及噪声的语音频域信号和远端参考声频域信号;
根据所述含有回声及噪声的语音频域信号和所述远端参考声频域信号,确定回声频域信号;
根据所述含有回声及噪声的语音频域信号和所述回声频域信号,确定含有残余回声及噪声的语音频域信号;
将所述含有残余回声及噪声的语音频域信号的幅度谱、所述回声频域信号的幅度谱和所述远端参考声频域信号的幅度谱进行能量归一化处理,得到含有残余回声及噪声的语音频域信号特征、回声频域信号特征和远端参考声频域信号特征;
将所述含有残余回声及噪声的语音频域信号特征与所述远端参考声频域信号特征进行拼接,得到第一拼接结果,并且将所述含有残余回声及噪声的语音频域信号特征与所述回声频域信号特征进行拼接,得到第二拼接结果;
将所述第一拼接结果和所述第二拼接结果输入所述训练后级联网络中的训练后特征注意力模型,获得与所述远端参考声频域信号特征对应的第一注意力权重和与所述回声频域信号特征对应的第二注意力权重;
将所述远端参考声频域信号特征与第一注意力权重相乘,得到第一融合注意力机制特征,并且将所述回声频域信号特征与第二注意力权重相乘,得到第二融合注意力机制特征;
将所述第一融合注意力机制特征、所述第二融合注意力机制特征和所述含有残余回声及噪声的语音频域信号特征进行拼接,得到第一融合拼接结果;
将所述第一融合拼接结果输入所述训练后级联网络中的训练后残余回声及噪声消除模型,得到目标语音频域信号的掩蔽估计值;
根据所述目标语音频域信号的掩蔽估计值和所述含有残余回声及噪声的语音频域信号,得到所述目标语音频域信号;
对所述目标语音频域信号进行逆傅里叶变换,得到目标语音时域信号。
2.根据权利要求1所述的方法,其特征在于,所述对所述含有回声及噪声的语音时域信号和所述远端参考声时域信号分别进行分帧、加窗和傅里叶变换,包括:
对所述含有回声及噪声的语音时域信号和所述远端参考声时域信号分别取预设个数采样点作为一帧信号;若长度不足则先补零到预设个数;
对每一帧信号进行加窗;其中,加窗函数采用汉明窗;
对加窗后的每一帧信号进行傅里叶变换。
3.根据权利要求1所述的方法,其特征在于,所述根据所述含有回声及噪声的语音频域信号和所述远端参考声频域信号,确定回声频域信号,包括:
将所述含有回声及噪声的语音频域信号和所述远端参考声频域信号输入卡尔曼滤波器,得到滤波器系数和所述回声频域信号;
所述回声频域信号为所述滤波器系数和所述远端参考声频域信号相乘的结果。
4.根据权利要求1所述的方法,其特征在于,所述根据所述含有回声及噪声的语音频域信号和所述回声频域信号,确定含有残余回声及噪声的语音频域信号,包括:
所述含有回声及噪声的语音频域信号减去所述回声频域信号,得到所述含有残余回声及噪声的语音频域信号。
5.根据权利要求1所述的方法,其特征在于,所述将所述含有残余回声及噪声的语音频域信号的幅度谱、所述回声频域信号的幅度谱和所述远端参考声频域信号的幅度谱进行能量归一化处理,得到含有残余回声及噪声的语音频域信号特征、回声频域信号特征和远端参考声频域信号特征,包括:
根据所述含有残余回声及噪声的语音频域信号的幅度谱、所述回声频域信号的幅度谱和所述远端参考声频域信号的幅度谱,分别确定与其对应的第一函数、第二函数和第三函数;
根据与所述含有残余回声及噪声的语音频域信号的幅度谱对应的第一函数、所述含有残余回声及噪声的语音频域信号特征的均值及方差,确定所述含有残余回声及噪声的语音频域信号特征;
根据所述回声频域信号的幅度谱对应的第二函数、所述回声频域信号特征的均值及方差,确定所述回声频域信号特征;
根据所述远端参考声频域信号的幅度谱对应的第三函数、所述远端参考声频域信号特征的均值及方差,确定所述远端参考声频域信号特征。
6.根据权利要求1所述的方法,其特征在于,所述训练后级联网络通过以下步骤训练得到:
接收第一含有回声及噪声的语音时域信号、第一远端参考声时域信号和第一目标语音时域信号;
对所述第一含有回声及噪声的语音时域信号、所述第一远端参考声时域信号和所述第一目标语音时域信号分别进行分帧、加窗和傅里叶变换,得到第一含有回声及噪声的语音频域信号、第一远端参考声频域信号和第一目标语音频域信号;
根据所述第一含有回声及噪声的语音频域信号和所述第...
【专利技术属性】
技术研发人员:李军锋,顾建军,颜永红,
申请(专利权)人:中国科学院声学研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。