声音处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:30141689 阅读:13 留言:0更新日期:2021-09-23 15:06
本公开是关于一种声音处理方法、装置、电子设备和存储介质,所述方法包括:根据当前帧的第一信号向量和前一帧的分离向量,确定第一残差信号的向量以及第一回声估计信号的向量,其中,所述第一信号向量由回声信号和麦克风的输入信号组成,所述输入信号包括近端信号和回声信号;根据所述第一残差信号的向量和所述第一回声估计信号的向量,利用预先训练的神经网络确定当前帧的增益函数;根据所述第一残差信号的向量和所述当前帧的增益函数,确定当前帧的近端信号。的近端信号。的近端信号。

【技术实现步骤摘要】
声音处理方法、装置、电子设备和存储介质


[0001]本公开涉及回声消除
,具体涉及一种声音处理方法、装置、电子设备和存储介质。

技术介绍

[0002]手机等终端设备进行语音通信和人机语音交互时,当扬声器播放语音和用户对麦克风输入语音同时进行时,便会形成全双工现象,即扬声器播放的语音会随用户语音输入至麦克风中,从而形成回声。相关技术中使用自适应滤波器来消除上述回声,但是自适应滤波器对回声中的非线性回声消除效果较差,因此无法达到消除回声的目的。

技术实现思路

[0003]为克服相关技术中存在的问题,本公开实施例提供一种声音处理方法、装置、电子设备和存储介质,用以解决相关技术中的缺陷。
[0004]根据本公开实施例的第一方面,提供一种声音处理方法,应用于终端设备,包括:
[0005]根据当前帧的第一信号向量和前一帧的分离向量,确定第一残差信号的向量以及第一回声估计信号的向量,其中,所述第一信号向量由回声信号和麦克风的输入信号组成,所述输入信号包括近端信号和回声信号;
[0006]根据所述第一残差信号的向量和所述第一回声估计信号的向量,利用预先训练的神经网络确定当前帧的增益函数;
[0007]根据所述第一残差信号的向量和所述当前帧的增益函数,确定当前帧的近端信号。
[0008]在一个实施例中,所述根据当前帧的第一信号向量和前一帧的分离向量,确定第一残差信号的向量以及第一回声估计信号的向量,包括:
[0009]获取回声信号和麦克风的输入信号组成的第一信号向量
[0010]根据当前帧的第一信号向量和前一帧的分离向量确定第二残差信号的向量,其中,所述第二残差信号包括近端信号和第二残留回声信号;
[0011]根据所述第二残差信号的向量、所述第一信号向量和平滑参数,确定当前帧的分离向量;
[0012]根据所述第一信号向量和所述当前帧的分离向量确定第一残差信号的向量以及第一回声估计信号的向量。
[0013]在一个实施例中,所述获取回声信号和麦克风的输入信号组成的第一信号向量,包括:
[0014]分别将所述输入信号的向量、所述线性回声信号的向量和所述非线性回声信号的向量由时域形式转换为频域形式;
[0015]将频域形式的所述输入信号的向量、频域形式的所述线性回声信号的向量和频域形式的所述非线性回声信号的向量按照预设方向排列,形成所述第一信号向量。
[0016]在一个实施例中,所述线性回声信号的向量为所述参考回声信号。
[0017]在一个实施例中,所述非线性回声信号包括多项回声子信号;所述回声子信号根据所述参考回声信号和非线性变换函数确定。
[0018]在一个实施例中,所述根据所述第二残差信号的向量、所述第一信号向量和平滑参数,确定当前帧的分离向量,包括:
[0019]根据每个频率点的所述第二残差信号的向量确定评价函数;
[0020]根据所述评价函数确定对比度函数;
[0021]根据所述第一信号向量确定第一协方差矩阵;
[0022]根据前一帧的辅助变量、所述第一协方差矩阵、所述对比度函数和所述平滑函数,确定当前帧的辅助变量;
[0023]根据所述当前帧的辅助变量确定所述当前帧的分离变量。
[0024]在一个实施例中,所述根据所述第一残差信号的向量和所述第一回声估计信号的向量,利用预先训练的神经网络确定当前帧的增益函数,包括:
[0025]根据所述第一残差信号的向量确定所述第一残差信号的特征,并根据所述第一回声估计信号的向量确定所述第一回声估计信号的特征;
[0026]将所述第一残差信号的特征和所述第一回声估计信号的特征输入所述预先训练的神经网络,以使所述神经网络输出当前帧的增益函数。
[0027]在一个实施例中,所述将所述第一残差信号的特征和所述第一回声估计信号的特征输入所述预先训练的神经网络,以使所述神经网络输出当前帧的增益函数,包括:
[0028]所述神经网络分别对所述第一残差信号的特征和所述第一回声估计信号的特征依次进行至少一级降维处理和时域整合;
[0029]将所述第一残差信号的特征、所述第一残差信号的特征的降维结果和时域整合结果,以及所述第一回声估计信号的特征、所述第一回声估计信号的特征的降维结果和时域整合结果输入所述神经网络的估计模块,以使所述估计模块输出所述残留回声估计信号;
[0030]将所述残留回声估计信号、所述第一残差信号的特征、所述第一残差信号的特征的时域整合结果和所述第一回声估计信号的特征的时域整合结果输入所述神经网络的抑制模块,以使所述抑制模块输出所述当前帧的增益函数。
[0031]在一个实施例中,还包括:
[0032]根据训练集中的回声参考训练信号对所述训练集中的近端语音训练信号、近端噪声训练信号和近端回声训练信号组成的混合信号进行回声消除,得到第三残差信号和第二回声估计信号,并根据所述训练集中的所述近端语音训练信号和所述第三残差信号确定增益函数的标签值;
[0033]根据所述第三残差信号的向量确定所述第三残差信号的特征,并根据所述第二回声估计信号的向量确定所述第二回声估计信号的特征;
[0034]将所述第三残差信号的特征和所述第二回声估计信号的特征输入所述神经网络,以使所述神经网络输出当前帧的增益函数的预测值;
[0035]根据所述增益函数的标签值和所述增益函数的预测值确定网络损失值,并根据所述网络损失值调节所述神经网络的网络参数。
[0036]在一个实施例中,还包括:
[0037]按照随机的信噪比,从所述数据集中随机抽取和拼接语音信号和噪声信号,形成回声参考训练信号,并根据所述回声参考训练信号生成所述近端回声训练信号;
[0038]从所述数据集中随机抽取和拼接语音信号,形成所述近端语音训练信号;
[0039]从所述数据集中随机抽取和拼接噪音信号,形成所述近端噪音训练信号;
[0040]根据所述回声参考训练信号、所述近端回声训练信号、所述近端语音训练信号和所述近端噪音训练信号,确定所述训练集。
[0041]在一个实施例中,所述根据所述第一残差信号的向量和所述当前帧的增益函数,确定当前帧的近端信号,包括:
[0042]将所述第一残差信号的向量和所述当前帧的增益函数的乘积,由频域形式转换为时域形式,形成时域形式的当前帧的近端信号。
[0043]根据本公开实施例的第二方面,提供一种声音处理装置,应用于终端设备,包括:
[0044]残差回声模块,用于根据当前帧的第一信号向量和前一帧的分离向量,确定第一残差信号的向量以及第一回声估计信号的向量,其中,所述第一信号向量由回声信号和麦克风的输入信号组成,所述输入信号包括近端信号和回声信号,所述回声信号包括线性回声信号和非线性回声信号,所述回声信号根据回声参考信号确定;
[0045]增益模块,用于根据所述第一残差信号的向量和所述第一回声估计信号的向量,利用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声音处理方法,其特征在于,应用于终端设备,包括:根据当前帧的第一信号向量和前一帧的分离向量,确定第一残差信号的向量以及第一回声估计信号的向量,其中,所述第一信号向量由回声信号和麦克风的输入信号组成,所述输入信号包括近端信号和回声信号,所述第一残差信号包括近端信号和第一残留回声信号,所述回声估计信号包括线性回声信号和非线性回声信号;根据所述第一残差信号的向量和所述第一回声估计信号的向量,利用预先训练的神经网络确定当前帧的增益函数;根据所述第一残差信号的向量和所述当前帧的增益函数,确定当前帧的近端信号。2.根据权利要求1所述的声音处理方法,其特征在于,所述根据当前帧的第一信号向量和前一帧的分离向量,确定第一残差信号的向量以及第一回声估计信号的向量,包括:获取回声信号和麦克风的输入信号组成的第一信号向量;根据当前帧的第一信号向量和前一帧的分离向量确定第二残差信号的向量,其中,所述第二残差信号包括近端信号和第二残留回声信号;根据所述第二残差信号的向量、所述第一信号向量和平滑参数,确定当前帧的分离向量;根据所述第一信号向量和所述当前帧的分离向量确定第一残差信号的向量以及第一回声估计信号的向量。3.根据权利要求2所述的声音处理方法,其特征在于,所述获取回声信号和麦克风的输入信号组成的第一信号向量,包括:分别将所述输入信号的向量、所述线性回声信号的向量和所述非线性回声信号的向量由时域形式转换为频域形式;将频域形式的所述输入信号的向量、频域形式的所述线性回声信号的向量和频域形式的所述非线性回声信号的向量按照预设方向排列,形成所述第一信号向量。4.根据权利要求3所述的声音处理方法,其特征在于,所述线性回声信号的向量为参考回声信号。5.根据权利要求3所述的声音处理方法,其特征在于,所述非线性回声信号包括多项回声子信号;所述回声子信号根据参考回声信号和非线性变换函数确定。6.根据权利要求2所述的声音处理方法,其特征在于,所述根据所述第二残差信号的向量、所述第一信号向量和平滑参数,确定当前帧的分离向量,包括:根据每个频率点的所述第二残差信号的向量确定评价函数;根据所述评价函数确定对比度函数;根据所述第一信号向量确定第一协方差矩阵;根据前一帧的辅助变量、所述第一协方差矩阵、所述对比度函数和所述平滑函数,确定当前帧的辅助变量;根据所述当前帧的辅助变量确定所述当前帧的分离变量。7.根据权利要求1所述的声音处理方法,其特征在于,所述根据所述第一残差信号的向量和所述第一回声估计信号的向量,利用预先训练的神经网络确定当前帧的增益函数,包括:根据所述第一残差信号的向量确定所述第一残差信号的特征,并根据所述第一回声估
计信号的向量确定所述第一回声估计信号的特征;将所述第一残差信号的特征和所述第一回声估计信号的特征输入所述预先训练的神经网络,以使所述神经网络输出当前帧的增益函数。8.根据权利要求7所述的声音处理方法,其特征在于,所述将所述第一残差信号的特征和所述第一回声估计信号的特征输入所述预先训练的神经网络,以使所述神经网络输出当前帧的增益函数,包括:所述神经网络分别对所述第一残差信号的特征和所述第一回声估计信号的特征依次进行至少一级降维处理和时域整合;将所述第一残差信号的特征、所述第一残差信号的特征的降维结果和时域整合结果,以及所述第一回声估计信号的特征、所述第一回声估计信号的特征的降维结果和时域整合结果输入所述神经网络的估计模块,以使所述估计模块输出残留回声估计信号;将所述残留回声估计信号、所述第一残差信号的特征、所述第一残差信号的特征的时域整合结果和所述第一回声估计信号的特征的时域整合结果输入所述神经网络的抑制模块,以使所述抑制模块输出所述当前帧的增益函数。9.根据权利要求7所述的声音处理方法,其特征在于,还包括:根据训练集中的回声参考训练信号对所述训练集中的近端语音训练信号、近端噪声训练信号和近端回声训练信号组成的混合信号进行回声消除,得到第三残差信号和第二回声估计信号,并根据所述训练集中的所述近端语音训练信号和所述第三残差信号确定增益函数的标签值;根据所述第三残差信号的向量确定所述第三残差信号的特征,并根据所述第二回声估计信号的向量确定所述第二回声估计信号的特征;将所述第三残差信号的特征和所述第二回声估计信号的特征输入所述神经网络,以使所述神经网络输出当前帧的增益函数的预测值;根据所述增益函数的标签值和所述增益函数的预测值确定网络损失值,并根据所述网络损失值调节所述神经网络的网络参数。10.根据权利要求9所述的声音处理方法,其特征在于,还包括:按照随机的信噪比,从数据集中随机抽取和拼接语音信号和噪声信号,形成回声参考训练信号,并根据所述回声参考训练信号生成所述近端回声训练信号;从所述数据集中随机抽取和拼接语音信号,形成所述近端语音训练信号;从所述数据集中随机抽取和拼接噪音信号,形成所述近端噪音训练信号;根据所述回声参考训练信号、所述近端回声训练信号、所述近端语音训练信号和所述近端噪音训练信号,确定所述训练集。11.根据权利要求1所述的声音处理方法,其特征在于,所述根据所述第一残差信号的向量和所述当前帧的增益函数,确定当前帧的近端信号,包括:将所述第一残差信号的向量和所述当前帧的增益函数的乘积,由频域形式转换为时域形式,形成时域形式的当前帧的近端信号。12.一种声音处理装置,其特征在于,应用于终端设备,包括:残差回声模块,用于根据当前帧的第一信号向量和前一帧的分离向量,确定第一残差信号的向量以及第一...

【专利技术属性】
技术研发人员:操陈斌何梦楠
申请(专利权)人:北京小米松果电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1