一种消除残余回声的方法、装置、介质及设备制造方法及图纸

技术编号:37156195 阅读:13 留言:0更新日期:2023-04-06 22:17
本发明专利技术提供一种消除残余回声的方法,包括:基于人耳听声特性提取目标特征;利用神经网络对目标特征进行处理,获得初始语音能量增益;根据初始语音能量增益确定目标语音能量增益;基于目标语音能量增益以及初始语音能量增益确定全局增益补偿值;根据目标语音能量增益、全局增益补偿值及目标语音信号的语音能量确定语音增强信号;如此,神经网络中第二GRU层的输入信号为卷积层的输出信号与第一GRU层的输出信号形成的拼接信号,可避免神经网络层数加深过程中出现的梯度消失的问题,在最大程度上保证语音质量;为避免语音信号过度衰减,利用全局增益补偿值确保语音增强信号在人为感知更加干净,回声残留更小,提高语音增强信号的质量。的质量。的质量。

【技术实现步骤摘要】
一种消除残余回声的方法、装置、介质及设备


[0001]本申请涉及语音增强
,尤其涉及一种消除残余回声的方法、装置、介质及设备。

技术介绍

[0002]回声主要分为线性回声与非线性回声,其中,线性回声主要是由于功率放大器和扬声器的非线性引入,目前经过传统方法已经可以得到较好的去除。非线性回声主要是由于空间声场特性的影响,导致非线性残余回声抵消仍是回声消除的一大难点。
[0003]现有技术在消除残余回声时,一般利用智能算法或滤波方法对残余回声进行处理。但是智能算法提取的特征维度较大且冗余,增大后续的计算复杂度,影响计算效率;滤波方法,当环境发生改变,滤波器收敛需要一定的时间,会造成收敛时间的累积,这段时间容易出现漏回声现象,导致回声抵消性能不佳。
[0004]基于此,目前亟需一种新的消除残余回声的方法,以解决上述问题。

技术实现思路

[0005]针对现有技术存在的问题,本专利技术实施例提供了一种消除残余回声的方法、装置、介质及设备,以解决或者部分解决现有技术中非线性残余回声消除效果不佳且处理效率无法确保的技术问题。
[0006]本专利技术的第一方面,提供一种消除残余回声的方法,所述方法包括:
[0007]基于人耳听声特性、目标语音信号、远端语音信号提取目标特征;所述目标语音信号为带有非线性残余回声的语音信号;
[0008]利用DNN神经网络对所述目标特征进行处理,获得初始语音能量增益;所述DNN神经网络包括:卷积层、第一GRU层和第二GRU层;所述第二GRU层的输入信号为所述卷积层的输出信号与所述第一GRU层的输出信号形成的拼接信号;
[0009]根据所述初始语音能量增益确定目标语音能量增益;
[0010]基于所述目标语音能量增益以及所述初始语音能量增益确定全局增益补偿值;
[0011]根据所述目标语音能量增益、所述全局增益补偿值及所述目标语音信号的语音能量确定抵消回声后的语音增强信号。
[0012]上述方案中,所述基于人耳听声特性、基于目标语音信号、远端语音信号提取目标特征,包括:
[0013]分别对所述目标语音信号以及所述远端语音信号进行短时傅里叶变换,获得对应的第一频域信号;
[0014]分别将所述频域信号转换为对应的等效矩形带宽ERB信号;
[0015]根据人耳可听范围将所述ERB信号均分为32个信号区间,并获得各个信号区间内的端点值;
[0016]将各所述端点值转换为第二频域信号;所述目标特征包括所述第二频域信号。
[0017]上述方案中,所述基于人耳听声特性、目标语音信号、远端语音信号提取目标特征,包括:
[0018]提取所述目标语音信号中的基音周期;
[0019]确定所述目标语音信号与所述基音周期之间的基音相关系数;所述目标特征包括所述基音周期及所述基音相关系数。
[0020]上述方案中,所述基于人耳听声特性、目标语音信号、远端语音信号提取目标特征,包括:
[0021]确定所述目标语音信号的一阶范数和二阶范数;
[0022]确定所述一阶范数与所述二阶范数的比值;所述目标特征包括所述比值。
[0023]上述方案中,所述利用DNN神经网络对所述目标特征进行处理,获得初始语音能量增益,包括:
[0024]利用所述DNN神经网络的第一FC全连接层和所述卷积层对所述目标特征进行编码,以将所述目标特征升维至128维;
[0025]利用所述DNN神经网络的第一GRU层提取各维目标特征的时序信息;
[0026]将升维后的目标特征及所述时序信息进行拼接,形成拼接信号;
[0027]利用所述第二GRU层对所述拼接信号进行处理,获得输出信号;
[0028]利用第二全连接层对所述输出信号进行解码,获得初始语音能量增益。
[0029]上述方案中,所述根据所述初始语音能量增益确定目标语音能量增益,包括:
[0030]利用公式确定所述目标语音能量增益其中,所述为所述初始语音能量增益。
[0031]上述方案中,所述基于所述目标语音能量增益以及所述初始语音能量增益确定全局增益补偿值,包括:
[0032]根据公式确定所述全部增益补偿值G;其中,
[0033]所述β为语音能量偏离系数,所述E0为所述初始语音能量增益的总能量,所述E1为所述目标语音能量增益的总能量。
[0034]上述方案中,所述根据所述目标语音能量增益、所述全局增益补偿值及所述目标语音信号的语音能量确定抵消回声后的语音增强信号,包括:
[0035]根据公式确定抵消回声后的语音增强信号的能量
[0036]利用傅里叶逆变换将所述语音增强信号的能量谱反变换至时域,得到所述语音增强信号;其中,
[0037]所述G为所述全局增益补偿值,所述为所述目标语音能量增益,所述Y(b)为所述目标语音信号的语音能量。
[0038]本专利技术的第二方面,提供一种残余回声的消除装置,所述装置包括:
[0039]提取单元,用于基于人耳听声特性、目标语音信号、远端语音信号提取目标特征;
[0040]处理单元,用于利用DNN神经网络对所述目标特征进行处理,获得初始语音能量增益;所述DNN神经网络包括:卷积层、第一GRU层和第二GRU层;所述第二GRU层的输入信号为所述卷积层的输出信号与所述第一GRU层的输出信号形成的拼接信号;
[0041]第一确定单元,用于根据所述初始语音能量增益确定目标语音能量增益;基于所述目标语音能量增益以及所述初始语音能量增益确定全局增益补偿值;
[0042]第二确定单元,用于根据所述目标语音能量增益、所述全局增益补偿值及所述目标语音信号的语音能量确定抵消回声后的语音增强信号。
[0043]本专利技术的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述方法的步骤。
[0044]本专利技术提供了一种消除残余回声的方法、装置、介质及设备,方法包括:基于人耳听声特性、目标语音信号、远端语音信号提取目标特征;利用DNN神经网络对所述目标特征进行处理,获得初始语音能量增益;所述DNN神经网络包括:卷积层、第一GRU层和第二GRU层;所述第二GRU层的输入信号为所述卷积层的输出信号与所述第一GRU层的输出信号形成的拼接信号;根据所述初始语音能量增益确定目标语音能量增益;基于所述目标语音能量增益以及所述初始语音能量增益确定全局增益补偿值;根据所述目标语音能量增益、所述全局增益补偿值及所述目标语音信号的语音能量确定抵消回声后的语音增强信号;如此,本实施例的DNN神经网络中第二GRU层的输入信号为卷积层的输出信号与第一GRU层的输出信号形成的拼接信号,可有效防止神经网络层数加深过程中出现的梯度消失的问题,进而可在最大程度上保证语音质量;另外,为避免语音信号在整体上过度衰减,利用全局增益补偿值来确保语音增强信号在人为感知更加干净,回声残留更小,提高语音增强信号的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种消除残余回声的方法,其特征在于,所述方法包括:基于人耳听声特性、目标语音信号、远端语音信号提取目标特征;所述目标语音信号为带有非线性残余回声的语音信号;利用DNN神经网络对所述目标特征进行处理,获得初始语音能量增益;所述DNN神经网络包括:卷积层、第一GRU层和第二GRU层;所述第二GRU层的输入信号为所述卷积层的输出信号与所述第一GRU层的输出信号形成的拼接信号;根据所述初始语音能量增益确定目标语音能量增益;基于所述目标语音能量增益以及所述初始语音能量增益确定全局增益补偿值;根据所述目标语音能量增益、所述全局增益补偿值及所述目标语音信号的语音能量确定抵消回声后的语音增强信号。2.如权利要求1所述的方法,其特征在于,所述基于人耳听声特性、基于目标语音信号、远端语音信号提取目标特征,包括:分别对所述目标语音信号以及所述远端语音信号进行短时傅里叶变换,获得对应的第一频域信号;分别将所述频域信号转换为对应的等效矩形带宽ERB信号;根据人耳可听范围将所述ERB信号均分为32个信号区间,并获得各个信号区间内的端点值;将各所述端点值转换为第二频域信号;所述目标特征包括所述第二频域信号。3.如权利要求1所述的方法,其特征在于,所述基于人耳听声特性、目标语音信号、远端语音信号提取目标特征,包括:提取所述目标语音信号中的基音周期;确定所述目标语音信号与所述基音周期之间的基音相关系数;所述目标特征包括所述基音周期及所述基音相关系数。4.如权利要求1所述的方法,其特征在于,所述基于人耳听声特性、目标语音信号、远端语音信号提取目标特征,包括:确定所述目标语音信号的一阶范数和二阶范数;确定所述一阶范数与所述二阶范数的比值;所述目标特征包括所述比值。5.如权利要求1所述的方法,其特征在于,所述利用DNN神经网络对所述目标特征进行处理,获得初始语音能量增益,包括:利用所述DNN神经网络的第一FC全连接层和所述卷积层对所述目标特征进行编码,以将所述目标特征升维至128维;利用所述DNN神经网络的第一GRU层提取各维目标特征的时序信息;将升维后的目...

【专利技术属性】
技术研发人员:蔡巧巧
申请(专利权)人:武汉斗鱼鱼乐网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1