回声抑制方法、回声抑制模型训练方法及相关设备技术

技术编号：40821020 阅读：2 留言：0更新日期：2024-04-01 14:40

本申请公开了一种回声抑制方法、回声抑制模型训练方法及相关设备，本申请基于麦克风接收到的第一语音信号来估计目标语音信号的幅度谱，在此基础上，本申请进一步基于短时傅里叶STFT变换的冗余性，对目标信号的相位进行不断优化，也即将估计出的目标语音信号的幅度谱作为初始幅度谱，对该初始幅度谱进行多轮短时傅里叶STFT正反变换，通过多轮STFT正反变换，可以迭代得到相位更加干净的时域语音信号，从而提升了回声抑制后的语音信号的质量。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音信号处理，更具体的说，是涉及一种回声抑制方法、回声抑制模型训练方法及相关设备。

技术介绍

1、在扬声器与麦克风耦合的系统中，由扬声器到麦克风之间的回声如果不及时消除，会对系统产生较大的影响。例如，在通信领域，如果近端说话人和远端说话人的声音同时传向远端，经过网络传输产生时延，则远端说话人会听到自己的回声，造成沟通困难。在智能硬件领域，例如对智能电视、音响等能够播放声音的智能交互系统进行语音控制，若播放的声音和说话人一同传入识别系统，造成识别系统的错误识别。

2、在一些场景下，回声信号可能同时包含线性部分和非线性部分。现有回声消除技术一般通过更新自适应线性滤波器，将其与扬声器播放的参考信号卷积，得到估计的线性回声，并从麦克风接收到的信号中减去，得到输出信号。输出信号中还包含残留回声(主要包括非线性回声，以及部分线性回声)。进一步通过神经网络模型来估计非线性部分的回声，将非线性部分回声从上述输出信号中减去，从而抑制残留回声。

3、现有方案使用神经网络估计非线性回声的过程，一般是估计目标信号与去除线性回声后的输出信号在频域的幅度谱的比值(可以称之为实数掩码mask)，进而基于估计出的比值从输出信号中还原出目标信号，达到抑制残留回声的目的。但是，现有神经网络估计实数掩码的过程仅考虑了幅度的影响，在一些恶略场景下(示例如信回比较低的信号)，麦克风接收的信号的相位也包含了噪声，仅估计幅度谱的mask而不考虑相位包含的噪声，导致还原后的语音信号仍包含带噪相位，听感会收到极大的影响，甚至会出现“机械声”等抑

技术实现思路

1、鉴于上述问题，提出了本申请以便提供一种回声抑制方法、回声抑制模型训练方法及相关设备，以在回声抑制过程中同时对语音信号的幅度和相位进行优化，提升回声抑制后的语音信号的质量。具体方案如下：

2、第一方面，提供了一种回声抑制方法，包括：

3、获取麦克风接收到的第一语音信号，所述第一语音信号包括回声信号及目标语音信号；

4、基于所述第一语音信号，预测所述目标语音信号的幅度谱；

5、将所述目标语音信号的幅度谱作为初始幅度谱，对所述初始幅度谱进行多轮短时傅里叶stft正反变换，并将最后一轮stft反变换后得到的干净相位的时域语音信号作为最终输出的语音信号。

6、优选地，基于所述第一语音信号，预测所述目标语音信号的幅度谱的过程，包括：

7、获取对所述第一语音信号进行线性回声消除后的第二语音信号；

8、基于所述第一语音信号和所述第二语音信号，预测实数掩码mask，所述mask表示所述目标语音信号和所述第二语音信号在频域的幅度谱的比值；

9、将所述mask乘以所述第二语音信号在频域的幅度谱，得到所述目标语音信号的幅度谱。

10、优选地，基于所述第一语音信号和所述第二语音信号，预测实数掩码mask的过程，包括：

11、将所述第一语音信号和所述第二语音信号输入预训练的回声抑制模型，得到所述实数掩码mask，其中，所述回声抑制模型被配置为参考输入的所述第一语音信号和所述第二语音信号预测所述实数掩码mask的内部状态表示。

12、优选地，所述回声抑制模型的训练过程，包括：

13、获取训练样本及样本标签，所述训练样本包括：包含回声信号和目标语音信号的第一语音训练信号，以及对所述第一语音训练信号进行线性回声消除后的第二语音信号，所述样本标签包括：所述目标语音信号和所述第二语音训练信号在频域的幅度谱的比值；

14、将所述训练样本送入所述回声抑制模型，得到模型预测的实数掩码mask；

15、基于所述预测的实数掩码mask和所述样本标签计算损失函数的值，并按照所述损失函数的值更新回声抑制模型的参数。

16、优选地，基于所述预测的实数掩码mask和所述样本标签计算损失函数的值的过程，包括：

17、以所述预测的实数掩码mask作为目标预测值，按照设定类型的损失函数计算所述目标预测值和所述样本标签之间的损失值。

18、优选地，基于所述预测的实数掩码mask和所述样本标签计算损失函数的值的过程，包括：

19、基于所述预测的实数掩码mask计算所述目标语音信号的幅度谱，并作为初始幅度谱，对所述初始幅度谱进行多轮stft正反变换，基于最后一轮stft反变换得到的干净相位的时域语音信号计算更新后的实数掩码maskk；

20、按照设定类型的损失函数计算所述更新后的实数掩码maskk和所述样本标签之间的损失值。

21、优选地，所述基于最后一轮stft反变换得到的干净相位的时域语音信号计算更新后的实数掩码maskk的过程，包括：

22、将所述第二语音训练信号在频域的幅度谱减去所述目标语音信号的幅度谱和所述噪声信号的幅度谱，结果作为残留回声信号的幅度谱re；

23、按照下述公式计算更新后的实数掩码maskk：

24、

25、其中，xk表示最后一轮stft反变换得到的干净相位的时域语音信号在频域的幅度谱，n表示所述噪声信号的幅度谱。

26、优选地，所述第一语音训练信号还包括噪声信号；

27、获取训练样本及样本标签的过程，包括：

28、将近端扬声器播放的参考信号与房间冲激响应进行卷积，得到线性部分的回声信号，获取由所述近端扬声器和所述麦克风组成的耦合系统的非线性部分的回声信号，由所述非线性部分的回声信号和所述线性部分的回声信号组成完整的回声信号；

29、将目标声源和所述房间冲激响应进行卷积，得到目标语音信号，将噪声声源和所述房间冲激响应进行卷积，得到噪声信号；

30、由所述目标语音信号、所述完整的回声信号和所述噪声信号组合得到所述第一语音训练信号；

31、对所述第一语音训练信号进行线性回声消除，得到所述第二语音训练信号，由所述第一语音训练信号和所述第二语音训练信号作为训练样本；

32、对所述目标语音信号和所述第二语音训练信号分别进行短时傅里叶stft变换，并取频域的幅度谱，计算所述目标语音信号和所述第二语音训练信号在频域的幅度谱的比值，作为样本标签。

33、第二方面，提供了一种回声抑制模型的训练方法，包括：

34、获取训练样本及样本标签，所述训练样本包括：包含回声信号和目标语音信号的第一语音训练信号，以及对所述第一语音训练信号进行线性回声消除后的第二语音信号，所述样本标签包括：所述目标语音信号和所述第二语音训练信号在频域的幅度谱的比值；

35、将所述训练样本送入所述回声抑制模型，得到模型预测的实数掩码mask0；

36、基于所述预测的实数掩码mask0计算所述目标语音信号的幅度谱，并作为初始幅度谱，对所述初始幅度谱进行多轮stft正反变换，基于最后一轮stft反变换得到的干净相位的本文档来自技高网...

【技术保护点】

1.一种回声抑制方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于所述第一语音信号，预测所述目标语音信号的幅度谱的过程，包括：

3.根据权利要求2所述的方法，其特征在于，基于所述第一语音信号和所述第二语音信号，预测实数掩码mask的过程，包括：

4.根据权利要求3所述的方法，其特征在于，所述回声抑制模型的训练过程，包括：

5.根据权利要求4所述的方法，其特征在于，基于所述预测的实数掩码mask和所述样本标签计算损失函数的值的过程，包括：

6.根据权利要求4所述的方法，其特征在于，基于所述预测的实数掩码mask和所述样本标签计算损失函数的值的过程，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于最后一轮STFT反变换得到的干净相位的时域语音信号计算更新后的实数掩码maskK的过程，包括：

8.根据权利要求4所述的方法，其特征在于，所述第一语音训练信号还包括噪声信号；

9.一种回声抑制模型的训练方法，其特征在于，包括：

10.一种回声抑制方法，其特征在于，包括：

11.一种回声抑制装置，其特征在于，包括：

12.一种回声抑制模型的训练装置，其特征在于，包括：

13.一种回声抑制装置，其特征在于，包括：

14.一种回声抑制设备，其特征在于，包括：存储器和处理器；

15.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～8中任一项所述的回声抑制方法的各个步骤。

...

【技术特征摘要】

1.一种回声抑制方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于所述第一语音信号，预测所述目标语音信号的幅度谱的过程，包括：

3.根据权利要求2所述的方法，其特征在于，基于所述第一语音信号和所述第二语音信号，预测实数掩码mask的过程，包括：

4.根据权利要求3所述的方法，其特征在于，所述回声抑制模型的训练过程，包括：

5.根据权利要求4所述的方法，其特征在于，基于所述预测的实数掩码mask和所述样本标签计算损失函数的值的过程，包括：

6.根据权利要求4所述的方法，其特征在于，基于所述预测的实数掩码mask和所述样本标签计算损失函数的值的过程，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于最后...

【专利技术属性】
技术研发人员：马峰，李明子，高建清，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人