使用卷积神经网络架构进行音频处理的方法和装置制造方法及图纸

技术编号:37967557 阅读:19 留言:0更新日期:2023-06-30 09:42
描述了基于卷积神经网络(CNN)进行音频处理的系统、方法和计算机程序产品。第一CNN架构可以包括U

【技术实现步骤摘要】
【国外来华专利技术】使用卷积神经网络架构进行音频处理的方法和装置
[0001]相关申请的交叉引用
[0002]本申请要求以下优先申请的优先权:于2020年10月19日提交的PCT国际申请PCT/CN2020/121829、于2020年11月11日提交的美国临时申请63/112,220以及于2020年12月3日提交的EP申请20211501.0。


[0003]本公开总体上涉及使用卷积神经网络(CNN)进行音频处理的方法和装置。更具体地,本公开涉及使用基于U

net的CNN架构从原始有噪语音信号中提取语音。
[0004]尽管本文将特别参考该公开内容来描述一些实施例,但是应当理解,本公开不限于这种使用领域,并且可应用于更广泛的背景。

技术介绍

[0005]在整个公开内容中对
技术介绍
的任何讨论绝不应视为承认这种技术是本领域众所周知的或形成本领域公知常识的一部分。
[0006]深度神经网络(DNN)已经成为解决各种音频处理问题的可行选择。DNN的类型包括前馈多层感知器(MLP)、卷积神经网络(CNN)、循环神经网络(RNN本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于音频处理的卷积神经网络(CNN)架构,所述CNN架构包括:
·
具有第一编码层的U

net的收缩路径,其中,所述收缩路径被配置为基于作为所述收缩路径的输入而提供的第一音频信号来生成所述收缩路径的输出表示,
·
多尺度CNN,被配置为基于所述收缩路径的输出表示生成中间表示,其中,所述多尺度CNN包括至少两条并行卷积路径,
·
具有第一解码层的U

net的扩张路径,其中,所述扩张路径被配置为基于由所述多尺度CNN生成的所述中间表示生成最终表示,并且输出第二音频信号。2.根据权利要求1所述的CNN架构,其中,所述第一编码层被配置为执行卷积和下采样操作。3.根据权利要求1或2所述的CNN架构,其中,所述第一解码层被配置为通过以下操作生成输出:
·
接收由所述多尺度CNN生成的所述中间表示,
·
接收所述第一编码层的输出,
·
将所述中间表示与所述第一编码层的输出级联,
·
执行卷积操作,以及
·
执行上采样操作。4.根据前述权利要求中任一项所述的CNN架构,进一步包括第二编码层,其中,所述第二编码层被配置为:
·
执行卷积,
·
执行下采样操作,以及
·
将结果转发到所述第一编码层。5.根据权利要求4所述的CNN架构,进一步包括第二解码层,其中,所述第二解码层被配置为:
·
接收所述第一解码层的输出,
·
接收所述第二编码层的输出,
·
将所述第一解码层的输出与所述第二编码层的输出级联,
·
执行卷积操作,以及
·
执行上采样操作。6.根据前述权利要求中任一项所述的CNN架构,其中,所述多尺度CNN被配置为基于所述至少两条并行卷积路径的输出生成聚合输出。7.根据权利要求6所述的CNN架构,其中,所述多尺度CNN被配置为通过将所述至少两条并行卷积路径的输出级联或相加来生成所述聚合输出。8.根据权利要求6或7所述的CNN架构,其中,所述多尺度CNN被配置为使用不同的权重对所述至少两条并行卷积路径的输出进行加权。9.根据前述权利要求中任一项所述的CNN架构,其中,所述多尺度CNN的每条并行卷积路径包括L个卷积层,其中,L是大于等于1的自然数,并且其中,所述L层中的第l层具有N
l
个滤波器,其中l=1

L。10.根据权利要求9所述的CNN架构,其中,对于每条并行卷积路径,所述第l层中滤波器的数量N
l
随着层数l的增加而增加。
11.根据权利要求9所述的CNN架构,其中,所述滤波器的滤波器大小在每条并行卷积路径中是相同的。12.根据权利要求9所述的CNN架构,其中,所述滤波器的滤波器大小在不同的并行卷积路径之间是不同的。13.根据权利要求9所述的CNN架构,其中,对于给定的并行卷积路径,所述并行卷积路径的至少一层的滤波器是膨胀2D卷积滤波器。14.根据权利要求13所述的CNN架构,其中,所述并行卷积路径的至少一层的滤波器的膨胀操作仅在频率轴上执行。15.根据权利要求13所述的CNN架构,其中,对于给定的并行卷积路径,所述并行卷积路径的两层或更多层的滤波器是膨胀2D卷积滤波器,并且其中,所述膨胀2D卷积滤波器的膨胀因子随着层数l的增加而指数增加。16.一种用于音频处理的卷积神经网络(CNN)架构,所述CNN架构包括:
·
具有第一编码层的U

net的收缩路径,其中,所述收缩路径被配置为基于作为所述收缩路径的输入而提供的第一音频信号来生成所述收缩路径的输出表示,其中,所述第一编码层包括具有至少两条并行卷积路径的第一多尺度CNN,以及
·
具有第一解码层的U

net的扩张路径,其中,所述扩张路径被配置为基于所述收缩路径的输出表示生成最终表示,并且输出第二音频信号,其中,所述第一解码层包括具有至少两条并行卷积路径的第二多尺度CNN。17.根据权利要求16所述的CNN架构,进一步包括耦接在所述收缩路径与所述扩张路径之间的另一个多尺度CNN,并且其中,所述另一个多尺度CNN
·

【专利技术属性】
技术研发人员:孙俊岱芦烈双志伟
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1