回声消除方法和装置制造方法及图纸

技术编号:24173675 阅读:23 留言:0更新日期:2020-05-16 03:49
本发明专利技术公开了回声消除方法、语音激活方法、回声消除装置、音频装置以及计算机可读存储介质。方法包括:获取第一音频信号和第二音频信号,第一音频信号为输入至扬声器的信号,第二音频信号为麦克风拾取的信号;通过线性自适应滤波算法对第一音频信号导致的回声信号进行估计,得到回声估计信号;提取回声估计信号的特征参数作为第一特征;提取误差信号的特征参数作为第二特征;将第一特征和第二特征输入至预先训练好的神经网络模型中,由神经网络输出用户语音信号的增益;计算误差信号和增益的乘积,以得到用户语音信号。

Echo cancellation method and device

【技术实现步骤摘要】
回声消除方法和装置
本说明书涉及声学技术,尤其涉及回声消除方法、语音激活方法、回声消除装置、音频装置以及计算机可读存储介质。
技术介绍
音频设备的扬声器与麦克风的距离通常比较近,如果扬声器播放音频信号并且用户离开音频设备比较远,在麦克风采集到的声音信号中,由扬声器播放的声音信号导致的回声信号可能比用户的语音命令大得多,导致无法准确获取到用户的语音命令。对于智能音箱来说,这种情况会导致智能音箱的麦克风无法检测到唤醒词,也就无法被用户唤醒,给用户造成了不好的体验。扬声器播放音频信号时会存在非线性畸变,引入非线性信号。传统的回声消除方法只能拟合回声信号中的线性部分,无法准确消除回声信号。因此,有必要提出一种新的回声消除方案。
技术实现思路
本说明书公开的实施例提供一种新的回声消除方案。根据本专利技术说明书公开的第一方面,提供了回声消除方法,包括以下步骤:获取第一音频信号和第二音频信号,所述第一音频信号为输入至扬声器的信号,所述第二音频信号为麦克风拾取的信号;根据第一音频信号和误差信号,采用线性自适应滤波算法对第一音频信号导致的回声信号进行估计,得到回声估计信号;所述误差信号为第二音频信号和回声估计信号之间的差值信号;提取回声估计信号的特征参数作为第一特征;提取误差信号的特征参数作为第二特征;将所述第一特征和所述第二特征输入至预先训练好的神经网络模型中,由所述神经网络输出用户语音信号的增益;计算误差信号和增益的乘积,以得到用户语音信号。>可选地,所述用户语音信号的增益为子带增益;所述计算误差信号和增益的乘积,以得到用户语音信号,包括:对误差信号进行频域变换;对经过频域变换的误差信号和子带增益进行频域相乘,对相乘的结果进行频域到时域的反变换得到用户声音信号。可选地,所述神经网络模型的训练过程包括:获取样本数据,所述样本数据包括回声估计样本信号、用户语音样本信号、麦克风混合样本信号,其中,所述回声估计样本信号为在第一场景下,通过所述线性自适应滤波算法估计出的回声估计信号;所述用户语音样本信号为第二场景下,通过所述麦克风拾取的信号;所述麦克风混合样本信号为第三场景下,通过所述麦克风拾取的信号;所述第一场景是测试环境中没有用户语音,只有所述扬声器播放第一测试音频信号的场景,所述第二场景是所述扬声器停止工作,测试环境中只存在第一测试用户语音的场景,所述第三场景是测试环境中存在所述第一测试用户语音,并且所述扬声器播放所述第一测试音频信号的场景;对用户语音样本信号和麦克风混合样本信号进行频域变换,得到用户语音样本频域信号和麦克风混合样本频域信号;对用户语音样本频域信号和麦克风混合样本频域信号按照多个预设子带进行划分;计算各个子带上的用户语音样本频域信号的能量;计算各个子带上的麦克风混合样本频域信号的能量;根据子带上的用户语音样本频域信号的能量和该子带上的麦克风混合样本频域信号的能量的比值,确定该子带的子带增益;提取回声估计样本信号的特征参数;提取用户语音样本信号的特征参数;将回声估计样本信号的特征参数和用户语音样本信号的特征参数输入到神经网络模型中,用已经确定的子带增益作监督,对神经网络模型进行训练。可选地,所述神经网络模型包括第一至第五网络;所述将所述第一特征和所述第二特征输入至预先训练好的神经网络模型中,由所述神经网络输出用户语音信号的增益,包括:将所述第一特征和第二特征拼接出的组合特征输入至第一网络中;将第一网络提取的特征输入至第二网络中,得到语音激活检测数据;将所述组合特征、第一网络提取的特征、所述语音激活检测数据输入至第三网络中,得到噪声频谱估计数据;将所述组合特征,语音激活检测数据、噪声频谱估计数据输入至第四网络中,得到增强语音数据;将增强语音数据输入到第五网络中,得到用户语音信号的增益。可选地,所述第一网络和所述第五网络分别采用全连接神经网络;所述全连接神经网络采用Tanh激活函数或者Relu激活函数;所述第二至第四网络分别采用长短记忆网络或者门控循环单元神经网络。可选地,所述线性自适应滤波算法为下列任一算法:最小均方算滤波算法;递归最小均方滤波算法;归一化最小均方滤波算法。可选地,所述回声估计信号(y_est)的特征参数,至少包括下列任一特征参数美尔频域倒谱参数;bark频域倒谱参数;LPC倒谱参数。可选地,所述误差信号(e)的特征参数,至少包括下列任一特征参数:倒谱参数;基音参数;感知线性预测参数;幅度调制谱参数。根据本专利技术说明书公开的第二方面,提供了语音激活方法,包括前述任一项所述的回声消除方法;还包括:检测所述用户语音信号是否为预设的唤醒词,如果是,则唤醒音频装置。根据本专利技术说明书公开的第三方面,提供了回声消除装置,包括处理器和存储器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现前述任一项所述的回声消除方法。根据本专利技术说明书公开的第四方面,提供了音频装置,包括处理器和存储器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现前述任一项所述的回声消除方法。根据本专利技术说明书公开的第五方面,提供了音频装置,包括处理器和存储器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现前述任一项所述的语音激活方法。根据本专利技术说明书公开的第六方面,提供了计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现前述任一项所述的回声消除方法。根据本专利技术说明书公开的第七方面,提供了计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现前述任一项所述的语音激活方法。本专利技术实施例公开的回声消除方法,先采用自适应滤波算法对回声信号进行估计,再利用预先训练好神经网络模型根据回声估计信号和误差信号估算信号增益,利用信号增益得到用户语音信号,这一过程能够消除回声信号的线性部分和非线性部分的影响,准确提取出用户语音信号。以下参照附图对本说明书的示例性实施例的详细描述,本说明书的实施例的特征及其优点将会变得清楚。附图说明被结合在说明书中并构成说明书的一部分的附图示出了本说明书的实施例,并且连同其说明一起用于解释本说明书实施例的原理。图1是本说明书一个实施例提供的回声消除方法的示意图;图2是本说明书另一个实施例提供的神经网络模型的示意图。图3是本说明书另一个实施例提供的神经网络模型的训练过程的示意图。具体实施方式现在将参照附图来详细描述本说明书的各种示例性实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本说明书实施例及其应用或使用的任何本文档来自技高网...

【技术保护点】
1.一种回声消除方法,其特征在于,包括以下步骤:/n获取第一音频信号(x)和第二音频信号(d),所述第一音频信号(x)为输入至扬声器的信号,所述第二音频信号(d)为麦克风拾取的信号;/n根据第一音频信号(x)和误差信号(e),采用线性自适应滤波算法对第一音频信号(x)导致的回声信号进行估计,得到回声估计信号(y_est);所述误差信号(e)为第二音频信号(d)和回声估计信号(y_est)之间的差值信号;/n提取回声估计信号(y_est)的特征参数作为第一特征;/n提取误差信号(e)的特征参数作为第二特征;/n将所述第一特征和所述第二特征输入至预先训练好的神经网络模型中,由所述神经网络输出用户语音信号的增益(g);/n计算误差信号(e)和增益(g)的乘积,以得到用户语音信号。/n

【技术特征摘要】
1.一种回声消除方法,其特征在于,包括以下步骤:
获取第一音频信号(x)和第二音频信号(d),所述第一音频信号(x)为输入至扬声器的信号,所述第二音频信号(d)为麦克风拾取的信号;
根据第一音频信号(x)和误差信号(e),采用线性自适应滤波算法对第一音频信号(x)导致的回声信号进行估计,得到回声估计信号(y_est);所述误差信号(e)为第二音频信号(d)和回声估计信号(y_est)之间的差值信号;
提取回声估计信号(y_est)的特征参数作为第一特征;
提取误差信号(e)的特征参数作为第二特征;
将所述第一特征和所述第二特征输入至预先训练好的神经网络模型中,由所述神经网络输出用户语音信号的增益(g);
计算误差信号(e)和增益(g)的乘积,以得到用户语音信号。


2.根据权利要求1所述的方法,所述用户语音信号的增益(g)为子带增益;所述计算误差信号(e)和增益(g)的乘积,以得到用户语音信号,包括:
对误差信号(e)进行频域变换;
对经过频域变换的误差信号(e)和子带增益进行频域相乘,对相乘的结果进行频域到时域的反变换得到用户声音信号。


3.根据权利要求2所述的方法,所述神经网络模型的训练过程包括:
获取样本数据,所述样本数据包括回声估计样本信号(y_est_sample)、用户语音样本信号(s__sample)、麦克风混合样本信号(d__sample),其中,所述回声估计样本信号(y_est_sample)为在第一场景下,通过所述线性自适应滤波算法估计出的回声估计信号;所述用户语音样本信号(s__sample)为第二场景下,通过所述麦克风拾取的信号;所述麦克风混合样本信号为第三场景下,通过所述麦克风拾取的信号;所述第一场景是测试环境中没有用户语音,只有所述扬声器播放第一测试音频信号的场景,所述第二场景是所述扬声器停止工作,测试环境中只存在第一测试用户语音的场景,所述第三场景是测试环境中存在所述第一测试用户语音,并且所述扬声器播放所述第一测试音频信号的场景;
对用户语音样本信号(s__sample)和麦克风混合样本信号(d__sample)进行频域变换,得到用户语音样本频域信号和麦克风混合样本频域信号;
对用户语音样本频域信号和麦克风混合样本频域信号按照多个预设子带进行划分;
计算各个子带上的用户语音样本频域信号的能量;
计算各个子带上的麦克风混合样本频域信号的能量;
根据子带上的用户语音样本频域信号的能量和该子带上的麦克风混合样本频域信号的能量的比值,确定该子带的子带增益;
提取回声估计样本信号(y_est_sample)的特征参数;
提取用户语...

【专利技术属性】
技术研发人员:陈国明
申请(专利权)人:歌尔股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1