用于语音分离和增强的全深度学习最小方差无失真响应波束形成器制造技术

技术编号：36070966 阅读：26 留言：0更新日期：2022-12-24 10:40

提供了一种用于自动语音识别的方法、计算机程序和计算机系统。接收对应于一个或多个说话者的音频数据；基于门控循环单元的网络来估计与所接收到的音频数据相关联的目标语音和噪声的协方差矩阵；基于所估计到的协方差矩阵，通过最小方差无失真响应函数来生成与所述一个或多个说话者中的目标说话者相对应的预测目标波形。测目标波形。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于语音分离和增强的全深度学习最小方差无失真响应波束形成器
[0001]相关申请的交叉引用
[0002]本申请要求申请号为17/038,498(申请日为2020年9月30日)的美国专利申请的优先权，该美国专利申请的全部内容通过引用并入本文中。

[0003]本专利技术涉及数据处理领域，并且尤其涉及语音识别。

技术介绍

[0004]基于深度学习的语音增强和语音分离方法受到了广泛的研究关注。基于掩码的最小方差无失真响应(MVDR)波束形成器可以用来降低语音失真，有利于自动语音识别。基于复值掩码的多抽头MVDR可以进一步提高基于掩码的波束形成架构中的自动语音识别性能。

技术实现思路

[0005]实施例涉及用于语音识别的方法、系统和计算机可读介质。根据一个方面，提供了一种用于语音识别的方法。该方法可以包括接收对应于一个或多个说话者的音频数据。基于门控循环单元的网络来估计与所接收到的音频数据相关联的目标语音和噪声的协方差矩阵；基于所估计的协方差矩阵，通过最小方差无失真响应函数来生成与所述一个或多个说话者中的目标说话者相对应的预测目标波形。
[0006]根据另外一个方面，提供了一种用于语音识别的计算机系统。所述计算机系统可以包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储设备、以及程序指令。所述程序指令存储在所述一个或多个存储设备中的至少一个存储设备上由所述一个或多个处理器中的至少一个处理器经由所述一个或多个存储器中的至少一个存储器来执。由此所述计算机系统能够执...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由处理器执行的语音识别方法，包括：接收对应于一个或多个说话者的音频数据；基于门控循环单元的网络(GRU
‑
Net)来估计与所接收的音频数据相关联的目标语音和噪声的协方差矩阵；以及基于所估计的协方差矩阵，通过最小方差无失真响应函数(MVDR)来生成与所述一个或多个说话者中的目标说话者相对应的预测目标波形。2.根据权利要求1所述的方法，其特征在于，所述协方差矩阵对应于噪声功率密度谱和语音功率密度谱。3.根据权利要求1所述的方法，其特征在于，使用对应于所述协方差矩阵的MVDR系数来生成所述预测目标波形。4.根据权利要求3所述的方法，其特征在于，所述MVDR系数是由GRU
‑
Net基于由所述GRU
‑
Net连接的所述协方差矩阵的实部和虚部来计算的。5.根据权利要求1所述的方法，其特征在于，还包括：由所述GRU
‑
Net递归地累积和更新一个或多个帧的所述协方差矩阵。6.根据权利要求5所述的方法，其特征在于，还包括：使用线性层来获得所述协方差矩阵的最终的实部和虚部。7.根据权利要求1所述的方法，其特征在于，基于与所接收到的音频数据相对应的到达方向来识别所述目标说话者。8.一种用于语音识别的计算机系统，所述计算机系统包括：一个或多个计算机可读非易失性存储介质，被配置为存储计算机程序代码；和一个或多个计算机处理器，被配置为访问所述计算机程序代码并按照所述计算机程序代码的指示来操作，所述计算机程序代码包括：接收代码，被配置为使所述一个或多个计算机处理器接收对应于一个或多个说话者的音频数据；估计代码，被配置为使所述一个或多个计算机处理器基于门控循环单元的网络(GRU
‑
Net)来估计与所接收到的音频数据相关联的目标语音和噪声的协方差矩阵；以及生成代码，被配置为使所述一个或多个计算机处理器基于所估计的协方差矩阵通过最小方差无失真响应函数(MVDR)来生成与所述一个或多个说话者中的目标说话者相对应的预测目标波形。9.根据权利要求8所述的计算机系统，其特征在于，所述协方差矩阵对应于噪声功率密度谱和语音功率密度谱。10.根据权利要求8所述的计算机系统，其特征在于，使用对应于所述协方差矩阵的MVDR系数来生成所述预测目...

【专利技术属性】
技术研发人员：徐勇，于蒙，张世雄，俞栋，
申请(专利权)人：腾讯美国有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人