用于语音信号去混响的方法和系统技术方案

技术编号：40709723 阅读：5 留言：0更新日期：2024-03-22 11:10

公开了一种用于混响减少的系统和方法。第一深度神经网络(DNN)根据声学信号混合体来生成目标直接路径信号的第一估计，该声学信号混合体包括目标直接路径信号以及该目标直接路径信号的混响。估计对第一估计的房间脉冲响应(RIR)进行建模的滤波器。滤波器在被应用于目标直接路径信号的第一估计时生成根据距离函数最接近于声学信号混合体与目标直接路径信号的第一估计之间的残差。通过从所接收到的混合体中去除将滤波器应用于目标直接路径信号的第一估计的结果，来获得目标直接路径信号的具有减少的混响的混合体。第二DNN根据具有减少的混响的混合体来生成目标直接路径信号的第二估计。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本公开总体上涉及音频信号处理，并且更特别地，涉及用于语音信号去混响(dereverberation)的方法和系统。

技术介绍

1、通常，在封闭的房间中，音频信号(例如，语音)的混响发生在诸如电话会议以及与智能装置(诸如智能音箱中的麦克风)的交互之类的现代免提语音通信中。在这种封闭的房间中，语音信号在空气中传播并且可以在被麦克风捕获之前被房间中的墙壁、地板、天花板、以及任何其它物体反射。混响是语音信号从源或说话者(speaker)到诸如麦克风之类的接收端的多路径传播。这种语音混响发生在声音从环境中的表面反射的时候。所述声音中的一些可能被表面吸收，由于该吸收，因此发生语音信号的多次衰减。表面对声音的反射和吸收可以生成语音信号的多个经衰减副本和经延迟副本。多个经衰减副本和经延迟副本使语音的质量降级，这可能妨碍自动语音识别(asr)系统或任何语音/音频处理系统的性能。例如，asr可能因语音质量降级的音频输入而生成不准确的输出。

2、可以通过从声音中去除混响效果来减轻语音混响。这种混响效果的去除被称为去混响。去混响可以包括从经衰减副本和经延迟副本中标识和区分直接路径信号。直接路径信号对应于当源和麦克风处于视线中时声音行进的信号。然而，从副本中标识和区分直接路径信号可能是困难的，尤其是当混响很高且存在非平稳(non-stationary)源的噪声时。例如，诸如具有非平稳源(诸如空调系统)的封闭房间的环境可能具有高的房间混响。减少因来自空调系统的噪声或任何多源环境噪声而造成的混响可能是具有挑战性的。多源环境噪声还可以对应于环境中多个人说话时的场景。

技术实现思路

1、技术问题

2、因此，需要克服上面所提及的问题。更具体地，需要开发一种用于在克服有混响环境中的混响状况和非平稳噪声的同时进行语音信号去混响的方法和系统。

3、技术方案

4、一些实施方式的目的是，开发一种用于语音信号去混响的方法和系统。一些实施方式的另一目的是，使用深度学习技术来执行语音信号去混响。可以将语音信号去混响扩展用于诸如混响减少、语音增强、说话者分离等任务。

5、一些实施方式基于这样的理解，即，干净的语音呈现频谱-时间模式。这种频谱-时间模式是在时频(time-frequency)域中呈现的独特模式，并且可以提供用于减少混响的信息提示。虽然所述模式中一些模式源自语音信号本身的结构，但是一些模式也可以对应于混响(即，声波的反射)的线性滤波器结构，该线性滤波器结构的特征是其中进行记录的物理空间，包括该空间中存在的所有物体、结构、或实体，以及源语音信号和诸如记录该信号的麦克风的接收器的位置。在麦克风位置处由源信号及其在空间中的墙壁以及物体或人的表面上的反射所产生的信号可以使用该线性滤波器结构来描述，从而将混响对输入信号的影响表达为输入信号和房间脉冲响应(room impulse response，rir)的线性卷积。输入信号是也被称为干源信号的原始源信号。房间脉冲响应是空间及其内部一切事物对输入信号的影响的表示。可以在诸如房间的物理空间中记录对源位置与接收器位置之间的rir的估计，例如，通过在房间中的源位置处播放作为短持续时间时域信号(例如，空手枪或气球爆炸)的冲击声并且在接收器位置处记录后续信号。该脉冲激励房间并产生可以被用于估计rir的经混响的脉冲信号。然后可以通过卷积干源信号和所估计的rir，来模拟将在同一源位置播放并且在同一接收器位置记录的干源声信号的混响。为此，一些实施方式的目的还在于估计用于近似或建模rir的底层滤波器。在一些示例实施方式中，可以基于在时频域中每频率求解的线性回归问题来估计rir。可以将对rir进行建模的滤波器估计用于标识输入信号的经延迟副本和经衰减副本以用于语音信号去混响。

6、此外，可以将这种线性滤波器用作用于改善去混响过程的正则化。例如，作为正则化的线性滤波器防止将用于去混响过程的模型过度拟合至训练数据。一些实施方式基于这样的实现，即，可以将线性滤波器结构用于针对单通道以及多通道混响说话者分离和去混响任务的线性预测和深度学习的组合。为此，可以将以卷积预测来支持的深度学习技术用于具有噪声信号、音频信号混响等的环境中的去混响。卷积预测是一种用于混响状况下的语音去混响的线性预测方法，其依赖于通过深度神经网络(deep neural network，dnn)获得的源估计，并且利用源估计与所观测到的输入信号内的源信号的混响版本之间的线性滤波器结构。

7、为了获得源估计，在时频域或时间域中训练dnn，以根据混响语音来预测目标语音。目标语音对应于源与接收器(诸如麦克风)之间的目标直接路径信号。该方法可以利用语音模式的先验知识。

8、之前的工作还试图利用某种形式的线性滤波器结构来执行去混响。例如，可以将经加权的预测误差(weighted prediction error，wpe)用于语音信号去混响。wpe方法基于方差归一化延迟线性预测来计算逆线性滤波器。将所计算的线性滤波器应用于混响和潜在有噪声的混合输入信号的过去观测，以根据用于去混响的过去混响观测，来估计混合输入信号内的目标源信号的后期混响。从不同源所接收的声学信号混合体(mixture)中减去所估计的后期混响，以估计声学信号混合体中的目标语音信号。在一些实施方式中，还可以利用目标语音信号的时变功率谱密度(psd)来估计滤波器。psd是信号的功率在信号的频率范围上的分布。这种线性滤波器可以以无监督的方式使用wpe来迭代地估计。然而，用于滤波器估计的wpe的迭代过程可能导致次优结果并且在计算上是昂贵的。

9、为了克服wpe的前述缺陷，可以如在基于dnn的wpe(dnn-wpe)方法中那样替换用于滤波器估计的迭代过程。dnn-wpe使用经dnn估计的幅度来作为用于滤波器估计的目标语音信号的psd。然而，dnn-wpe可能不会减少早期反射，这是因为它需要严格的非零帧延迟来避免平凡解(trivial solution)，并且可能不具有将经dnn估计的相位用于滤波器估计的机制。dnn-wpe也可能因噪声信号而缺乏对干扰的鲁棒性。例如，dnn-wpe可以估计将过去的有噪声观测与当前的有噪声的观测相关的滤波器，由此限制了滤波器估计准确度。另外，dnn-wpe可以直接使用线性预测结果来作为其输出，从而导致混响的部分或最小减少。

10、为此，一些实施方式的另一目的是，去除用于去混响的早期反射和后期混响。可以使用卷积预测方法来去除早期反射和后期混响。卷积预测方法利用由dnn估计的幅度和相位来进行滤波器估计。卷积预测方法还为线性滤波器提供了闭合形式解(正如先前所提及的dnn-wpe方法)，该卷积预测方法可以适用于在线实时处理应用并且能够与诸如声学模型的其它dnn模块联合训练。

11、在一些实施方式中，基于卷积预测方法来为语音信号去混响训练两个dnn。最初，这两个dnn中的第一dnn根据输入(即，包括说话者的话语的声学信号混合体)来输出目标源(诸如在下文中被称为说话者的人员)的直接路本文档来自技高网...

【技术保护点】

1.一种由计算机执行的用于语音信号去混响的方法，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其中，估计所述滤波器的步骤包括基于卷积预测来估计线性滤波器。

3.根据权利要求1所述的方法，所述方法还包括以下步骤：

4.根据权利要求1所述的方法，其中，所接收到的声学信号混合体包括来自多个说话者的语音信号，并且其中，所述第一DNN生成多个输出，所述多个输出中的各个输出包括针对所述多个说话者中的说话者的所述目标直接路径信号的所述第一估计。

5.根据权利要求4所述的方法，所述方法还包括以下步骤：

6.根据权利要求4所述的方法，所述方法还包括以下步骤：

7.根据权利要求4所述的方法，所述方法还包括以下步骤：

8.根据权利要求1所述的方法，所述方法还包括以下步骤：

9.根据权利要求4所述的方法，所述方法还包括以下步骤：

10.根据权利要求1所述的方法，其中，接收所述声学信号混合体的步骤包括以下项中的至少一个：

11.根据权利要求10所述的方法，其中，从所述麦克风阵列接

12.根据权利要求1所述的方法，其中，所述滤波器在时频域中应用于所述目标直接路径信号的所述第一估计，并且其中，所述距离函数是在所述时频域中的各个时频点具有权重的经加权的距离，所述权重是根据所接收到的声学信号混合体和所述目标直接路径信号的所述第一估计中的一个或组合来确定的，并且其中，所述距离函数是基于最小二乘距离的。

13.根据权利要求1所述的方法，其中，对所述第一DNN进行预训练，以根据所观测到的声学信号混合体来获得所述目标直接路径信号的所述第一估计。

14.根据权利要求13所述的方法，其中，使用声学信号混合体的训练数据集以及所述训练数据集中的对应参考目标直接路径信号，通过使包括以下项中的一个或组合的损失函数最小化来执行对所述第一DNN的预训练：

15.一种用于语音信号去混响的系统，所述系统包括：

16.根据权利要求15所述的系统，其中，对于所述滤波器的估计，所述处理器被配置成估计线性滤波器。

17.根据权利要求15所述的系统，其中，所述处理器还被配置成将所接收到的声学信号混合体与所述目标直接路径信号的所述第一估计中的一个或组合提交给所述第二DNN，以生成所述目标直接路径信号的所述第二估计。

18.根据权利要求15所述的系统，其中，所接收到的声学信号混合体包括来自多个说话者的语音信号，并且其中，所述第一DNN生成多个输出，所述多个输出中的各个输出包括针对所述多个说话者中的说话者的所述目标直接路径信号的所述第一估计。

19.根据权利要求18所述的系统，其中，所述处理器还被配置成：

20.根据权利要求18所述的系统，其中，所述处理器还被配置成：

...

【技术特征摘要】
【国外来华专利技术】

1.一种由计算机执行的用于语音信号去混响的方法，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其中，估计所述滤波器的步骤包括基于卷积预测来估计线性滤波器。

3.根据权利要求1所述的方法，所述方法还包括以下步骤：

4.根据权利要求1所述的方法，其中，所接收到的声学信号混合体包括来自多个说话者的语音信号，并且其中，所述第一dnn生成多个输出，所述多个输出中的各个输出包括针对所述多个说话者中的说话者的所述目标直接路径信号的所述第一估计。

5.根据权利要求4所述的方法，所述方法还包括以下步骤：

6.根据权利要求4所述的方法，所述方法还包括以下步骤：

7.根据权利要求4所述的方法，所述方法还包括以下步骤：

8.根据权利要求1所述的方法，所述方法还包括以下步骤：

9.根据权利要求4所述的方法，所述方法还包括以下步骤：

10.根据权利要求1所述的方法，其中，接收所述声学信号混合体的步骤包括以下项中的至少一个：

11.根据权利要求10所述的方法，其中，从所述麦克风阵列接收多通道信号的步骤还包括以下步骤：

12.根据权利要求1所述的方法，其中，所述滤波器在时频域中应用于所述目标直接路径信号的所述第一估计，并且其中，所述距离函数是在所述时频域中的各个时频点具有权重的经加权的距离，所述权重是根据所接收到的声学信号混...

【专利技术属性】
技术研发人员：王中秋，G·维切恩，J·勒鲁克斯，
申请(专利权)人：三菱电机株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人