针对伪影和失真的基于深度学习的语音增强的稳健性制造技术

技术编号:39506533 阅读:35 留言:0更新日期:2023-11-24 11:38
描述了一种处理音频信号的方法

【技术实现步骤摘要】
【国外来华专利技术】针对伪影和失真的基于深度学习的语音增强的稳健性/性能改善
[0001]相关申请的交叉引用
[0002]本申请要求在2021年3月22日提交的国际PCT申请号PCT/CN2021/082199、在2021年6月8日提交的欧洲专利申请号21178178.6和在2021年4月28日提交的美国临时申请63/180,705的优先权,其中每个申请均通过引用以其全文并入本文。


[0003]本公开涉及音频处理领域。特别地,本公开涉及用于使用深度学习模型或系统进行音频增强(例如,语音增强)的技术,并且涉及用于训练用于音频增强的深度学习模型或系统的框架。

技术介绍

[0004]语音增强旨在增强语音信号(语音分量)或将其从噪声混合信号中分离出来。在过去的几十年中,已经开发了许多语音增强方法。近年来,语音增强已经被表述为监督式学习任务,其中从训练数据中学习干净语音和背景噪声的区分模式。然而,当处理不同的声学环境时,这些算法都会出现不同的处理失真。典型的处理失真包括目标丢失、干扰和算法伪影(artifact)。
[0005]因此,需要可以减少伪影本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种处理音频信号的方法,所述方法包括:第一步骤,用于对所述音频信号的第一分量应用增强和/或对所述音频信号的第二分量相对于所述第一分量应用抑制;以及第二步骤,即通过将基于深度学习的模型应用于所述第一步骤的输出来修改所述第一步骤的所述输出,以去除由所述第一步骤在所述音频信号中引入的伪影和/或失真并在感知上改善所述音频信号的所述第一分量。2.根据权利要求1所述的方法,其中,所述第一步骤是用于对所述音频信号应用语音增强的步骤。3.根据权利要求1或2所述的方法,其中所述第一步骤的所述输出是波形域音频信号,其中所述第一分量被增强和/或所述第二分量相对于所述第一分量被抑制。4.根据权利要求1或2所述的方法,其中所述第一步骤的所述输出是变换域掩码,所述变换域掩码指示各个仓或频带的加权系数,并且其中将所述掩码应用于所述音频信号导致所述第一分量的增强和/或所述第二分量相对于所述第一分量的抑制。5.根据权利要求1至4中任一项所述的方法,其中所述第二步骤接收所述第一步骤的多个输出实例,所述实例中的每一个与所述音频信号的多个帧中的相应一个相对应,并且其中所述第二步骤将基于机器学习的所述模型联合应用于所述多个输出实例,以在所述音频信号的所述多个帧中的一个或多个帧中在感知上改善所述音频信号的所述第一分量。6.根据权利要求1至5中任一项所述的方法,其中对于所述音频信号的给定帧,所述第二步骤接收所述第一步骤的输出实例序列,所述实例中的每一个与所述音频信号的帧序列中的相应的一个帧相对应,所述帧序列包括所述给定帧,并且其中所述第二步骤将基于机器学习的所述模型联合应用于所述输出实例序列,以在所述给定帧中在感知上改善所述音频信号的所述第一分量。7.根据权利要求1至6中任一项所述的方法,其中,所述第二步骤的基于深度学习的所述模型实施具有编码器级和解码器级的自动编码器架构,每个级包括相应的多个连续滤波器层,并且其中,所述编码器级将所述编码器级的输入映射到潜在空间表示,并且所述解码器级将由所述编码器级输出的所述潜在空间表示映射到所述解码器级的输出,所述输出具有与所述编码器级的所述输入相同的格式。8.根据权利要求1至6中任一项所述的方法,其中,所述第二步骤的基于深度学习的所述模型实施具有多个连续层的递归神经网络架构,其中,所述多个层是长短期记忆类型或门控循环单元类型的层。9.根据权利要求1至6中任一项所述的方法,其中,基于深度学...

【专利技术属性】
技术研发人员:孙俊岱芦烈双志伟
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1