用于语音分离和增强的全深度学习最小方差无失真响应波束形成器制造技术

技术编号:36070966 阅读:26 留言:0更新日期:2022-12-24 10:40
提供了一种用于自动语音识别的方法、计算机程序和计算机系统。接收对应于一个或多个说话者的音频数据;基于门控循环单元的网络来估计与所接收到的音频数据相关联的目标语音和噪声的协方差矩阵;基于所估计到的协方差矩阵,通过最小方差无失真响应函数来生成与所述一个或多个说话者中的目标说话者相对应的预测目标波形。测目标波形。

【技术实现步骤摘要】
【国外来华专利技术】用于语音分离和增强的全深度学习最小方差无失真响应波束形成器
[0001]相关申请的交叉引用
[0002]本申请要求申请号为17/038,498(申请日为2020年9月30日)的美国专利申请的优先权,该美国专利申请的全部内容通过引用并入本文中。


[0003]本专利技术涉及数据处理领域,并且尤其涉及语音识别。

技术介绍

[0004]基于深度学习的语音增强和语音分离方法受到了广泛的研究关注。基于掩码的最小方差无失真响应(MVDR)波束形成器可以用来降低语音失真,有利于自动语音识别。基于复值掩码的多抽头MVDR可以进一步提高基于掩码的波束形成架构中的自动语音识别性能。

技术实现思路

[0005]实施例涉及用于语音识别的方法、系统和计算机可读介质。根据一个方面,提供了一种用于语音识别的方法。该方法可以包括接收对应于一个或多个说话者的音频数据。基于门控循环单元的网络来估计与所接收到的音频数据相关联的目标语音和噪声的协方差矩阵;基于所估计的协方差矩阵,通过最小方差无失真响应函数来生成与所述一个或多个说话者中的目标说话者相对应的预测目标波形。
[0006]根据另外一个方面,提供了一种用于语音识别的计算机系统。所述计算机系统可以包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储设备、以及程序指令。所述程序指令存储在所述一个或多个存储设备中的至少一个存储设备上由所述一个或多个处理器中的至少一个处理器经由所述一个或多个存储器中的至少一个存储器来执。由此所述计算机系统能够执行一种方法。该方法可以包括接收对应于一个或多个说话者的音频数据。基于门控循环单元的网络来估计与所接收到的音频数据相关联的目标语音和噪声的协方差矩阵。基于所估计的协方差矩阵,通过最小方差无失真响应函数来生成与所述一个或多个说话者中的目标说话者相对应的预测目标波形。
[0007]根据另一个方面,提供了一种用于语音识别的计算机可读介质。所述计算机可读介质可以包括一个或多个计算机可读存储设备和存储在所述一个或多个有形存储设备中的至少一个存储设备上的程序指令。所述程序指令可由处理器执行。程序指令可由处理器执行以实现方法,该方法相应地包括接收对应于一个或多个说话者的音频数据。基于门控循环单元的网络来估计与所接收到的音频数据相关联的目标语音和噪声的协方差矩阵。基于所估计的协方差矩阵,通过最小方差无失真响应函数来生成与所述一个或多个说话者中的目标说话者相对应的预测目标波形。
附图说明
[0008]从下面结合附图阅读的说明性实施例的详细描述中,这些和其他目的、特征和优点将变得显而易见。附图的各种特征不是按比例的,因为图示是为了便于本领域技术人员结合详细描述进行清晰的理解。在附图中:
[0009]图1示出了根据至少一个实施例的联网计算机环境;
[0010]图2是根据至少一个实施例的示例性语音识别系统;
[0011]图3是根据至少一个实施例的由分离目标说话者的语音的程序所执行的步骤的操作流程图;
[0012]图4是根据至少一个实施例的图1所示出的计算机和服务器的内部和外部组件的框图;
[0013]图5是根据至少一个实施例的包括图1所示的计算机系统的说明性云计算环境的框图;以及
[0014]图6是根据至少一个实施例的图5的说明性云计算环境的功能层的框图。
具体实施方式
[0015]本文公开了所要求保护的结构和方法的详细实施例。然而,可以理解,所公开的实施例仅仅是说明可以以各种形式实施的所要求保护的结构和方法。然而,这些结构和方法可以以许多不同的形式体现,并且不应被解释为限于本文所述的示例性实施例。相反,提供这些示例性实施例使得本公开将是彻底和完整的,并将向本领域技术人员充分传达范围。在描述中,可以省略众所周知的特征和技术的细节,以避免不必要地模糊所呈现的实施例。
[0016]实施例一般涉及数据处理领域,并且更具体地涉及语音识别。此外,以下描述的示例性实施例提供了一种系统、方法和计算机程序,用于使用全神经网络方法分离目标说话者的语音。因此,一些实施例具有通过允许由计算机进行改进的语音增强、语音分离和去混响任务来改进计算领域的能力。此外,所公开的方法、系统和计算机可读介质可用于改进诸如助听器和通信等领域中的自动语音识别的性能。
[0017]如前所述,基于深度学习的语音增强和语音分离方法受到了广泛的研究关注。基于掩码的最小方差无失真响应(MVDR)波束形成器可以用来降低语音失真,有利于自动语音识别。基于复值掩码的多抽头MVDR可以进一步提高基于掩码的波束形成架构中的自动语音识别性能。然而,残余噪声水平仍然很高,尤其是在低信噪比或重叠语音情况下。此外,联合训练的MVDR和神经网络所涉及的噪声协方差矩阵的逆矩阵和目标语音协方差矩阵的主成分分析(PCA)不稳定,导致最优结果较少。此外,环境噪声和有害的室内声会极大地影响语音信号的质量,从而降低许多语音通信系统(例如,数字助听器和自动语音识别(ASR)系统)的有效性。
[0018]为了缓解这一问题,提出了语音增强和语音分离算法。随着神经网络的复兴,使用深度学习方法可以获得更好的客观性能。然而,分离后的目标语音上往往会产生较大的非线性失真,从而损害ASR系统的性能。最小方差无失真响应(MVDR)滤波器旨在保持目标语音不失真的情况下降低噪声。近年来,基于神经网络(NN)的时频(T

F)掩码预测器的MVDR系统可以在较小的失真量下大大降低ASR系统的词错误率(WER),但由于块级或话语级波束形成权重不是降噪的最佳值,因此仍然存在残余噪声问题。目前已经提出了一些帧级MVDR权重
估计方法,作者以递归方式估计协方差矩阵。然而,当与NN联合训练时,计算出的逐帧权重并不稳定。已有的研究表明,递归神经网络(RNN)能够有效地学习矩阵求逆,并且在RRN与NN联合训练时,RRN可以更好地稳定矩阵求逆和主成分分析(PCA)的过程。
[0019]因此,对于基于掩码的MVDR波束形成架构,使用RNN而不是传统的数学方式来预测噪声协方差的矩阵求逆和目标语音协方差矩阵的导向矢量PCA可能是有利的。这可以使整个架构在一个全部联合训练的深度学习模块中。与其中只能计算块级或话语级的权重的传统的基于掩码的波束形成算法不同,所提出的ADL

MVDR可以自适应地获得逐帧的权重,这有利于降低残余噪声。由于RNN是一个递归模型,因此可以以递归的方式自动更新噪声和目标语音的协方差矩阵,而不需要人工设定参数。另外,可以使用复值滤波器而不是通常使用的每T

F点掩码来计算噪声和目标语音的协方差矩阵。这可能使得更精确地估计协方差矩阵,并稳定基于RNN的矩阵求逆和PCA的训练。联合优化的复值滤波器和ADL

MVDR可以以端到端的方式使用。
[0020]本文参考根据各种实施例的方法、装置(系统)和计算机可读介质的流程图和/或框图来描述各方面。可以理解的是,流程图和/或框图的每本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由处理器执行的语音识别方法,包括:接收对应于一个或多个说话者的音频数据;基于门控循环单元的网络(GRU

Net)来估计与所接收的音频数据相关联的目标语音和噪声的协方差矩阵;以及基于所估计的协方差矩阵,通过最小方差无失真响应函数(MVDR)来生成与所述一个或多个说话者中的目标说话者相对应的预测目标波形。2.根据权利要求1所述的方法,其特征在于,所述协方差矩阵对应于噪声功率密度谱和语音功率密度谱。3.根据权利要求1所述的方法,其特征在于,使用对应于所述协方差矩阵的MVDR系数来生成所述预测目标波形。4.根据权利要求3所述的方法,其特征在于,所述MVDR系数是由GRU

Net基于由所述GRU

Net连接的所述协方差矩阵的实部和虚部来计算的。5.根据权利要求1所述的方法,其特征在于,还包括:由所述GRU

Net递归地累积和更新一个或多个帧的所述协方差矩阵。6.根据权利要求5所述的方法,其特征在于,还包括:使用线性层来获得所述协方差矩阵的最终的实部和虚部。7.根据权利要求1所述的方法,其特征在于,基于与所接收到的音频数据相对应的到达方向来识别所述目标说话者。8.一种用于语音识别的计算机系统,所述计算机系统包括:一个或多个计算机可读非易失性存储介质,被配置为存储计算机程序代码;和一个或多个计算机处理器,被配置为访问所述计算机程序代码并按照所述计算机程序代码的指示来操作,所述计算机程序代码包括:接收代码,被配置为使所述一个或多个计算机处理器接收对应于一个或多个说话者的音频数据;估计代码,被配置为使所述一个或多个计算机处理器基于门控循环单元的网络(GRU

Net)来估计与所接收到的音频数据相关联的目标语音和噪声的协方差矩阵;以及生成代码,被配置为使所述一个或多个计算机处理器基于所估计的协方差矩阵通过最小方差无失真响应函数(MVDR)来生成与所述一个或多个说话者中的目标说话者相对应的预测目标波形。9.根据权利要求8所述的计算机系统,其特征在于,所述协方差矩阵对应于噪声功率密度谱和语音功率密度谱。10.根据权利要求8所述的计算机系统,其特征在于,使用对应于所述协方差矩阵的MVDR系数来生成所述预测目...

【专利技术属性】
技术研发人员:徐勇于蒙张世雄俞栋
申请(专利权)人:腾讯美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1