【技术实现步骤摘要】
【国外来华专利技术】用于确定生成神经网络的参数的方法和装置
[0001]相关申请的交叉引用
[0002]本申请要求以下优先权申请的优先权:2020年6月1日提交的美国临时申请63/032,903(编号:D20038USP1)、2020年6月23日提交的欧洲申请20181683.2(编号:D20038EP)、和2021年4月21日提交的美国临时申请63/177,511(编号:D20038USP2),,这些优先权申请通过引用而并入此。
[0003]本公开总体上涉及配置例如用于音频处理的生成神经网络的方法,并且具体地涉及确定生成神经网络的参数(例如,滤波器参数)。
[0004]虽然文中将特别参考公开内容描述一些实施例,但应当理解,本公开不限于这样的使用领域,而是适用于更广泛的情境。
技术介绍
[0005]在整个公开中对
技术介绍
的任何讨论都不应被视为承认此类技术广为人知或构成本领域公知常识的一部分。
[0006]音频记录系统用于将音频信号编码成适合传输或存储的编码信号,随后接收或检索并解码编码信号,以获得原始音频信号的版本以供播放。低比特率音频编码是一种感知音频压缩技术,其允许降低带宽和存储要求。感知音频编码系统的示例包括AC3、高级音频编码(AAC)、和最近标准化的AC
‑
4音频编码系统,其由ETSI标准化并包含在ATSC 3.0中。
[0007]然而,低比特率音频编码引入了不可避免的编码伪像。因此,由于量化和编码引入的噪声,以低比特率编码的音频可能会质量劣化。这方面的一个特殊问题是所 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种确定用于音频信号后处理的生成对抗网络GAN的生成器的方法,其中生成器包括编码器级和解码器级,其中编码器级和解码器级均包括多个层,每个层中具有一个或多个滤波器,其中每个滤波器包括一个或多个权重,并且其中所述生成器的编码器级的瓶颈层映射到编码器级和解码器级之间的编码音频特征空间,其中该方法包括以下步骤:(a)基于指示修剪阈值的灵敏度参数集,修剪编码器级和/或解码器级;和(b)基于所述灵敏度参数集,修剪编码器级的瓶颈层。2.根据权利要求1所述的方法,其中,所述修剪包括基于所述灵敏度参数集将一个或多个权重归零。3.根据权利要求1或2所述的方法,其中,所述方法还包括:基于所述灵敏度参数集,对与所述瓶颈层相邻的编码级和/或解码级的一个或多个层进行修剪;并且其中,所述灵敏度参数集被选择为使得瓶颈层的稀疏性增加小于编码器级和/或解码器级的一个或多个被修剪层中的任一个的稀疏性增加。4.根据权利要求3所述的方法,其中,所述编码器级的被修剪层的数量小于解码器级的被修剪层的数量。5.根据前述任一权利要求所述的方法,还包括以下步骤:对编码器级的瓶颈层以及编码器级和解码器级的多个层进行灵敏度分析,获得所述灵敏度参数集。6.根据权利要求5所述的方法,其中,对所述GAN的第二生成器的编码器级的瓶颈层以及编码器级和解码器级的多个层进行灵敏度分析,其中所述第二生成器是被训练的未修剪的生成器。7.根据前述任一权利要求所述的方法,其中执行步骤(a)和步骤(b)对应于修剪进程,并且其中所述方法还包括与GAN设置的一个或多个训练进程交替执行修剪进程的一个或多个周期。8.根据权利要求7所述的方法,其中在GAN设置中的动态范围缩小域中执行所述一个或多个训练进程,其中所述GAN设置包括生成器和鉴别器。9.根据权利要求8所述的方法,其中,所述一个或多个训练进程包括以下步骤:(a)将动态范围缩小原始音频训练信号输入生成器;(b)通过生成器基于动态范围缩小原始音频训练信号生成增强的动态范围缩小音频训练信号;(c)将增强的动态范围缩小音频训练信号和由其得出动态范围缩小原始音频训练信号的相应的初始动态范围缩小音频信号每次一个地输入到鉴别器;(d)通过鉴别器判断输入的动态范围缩小音频信号是增强的动态范围缩小音频训练信号还是初始动态范围缩小音频信号;(e)调整生成器的参数,直到鉴别器无法再将增强的动态范围缩小音频训练信号与初始动态范围缩小音频信号区分开。10.根据权利要求7至9中任一项所述的方法,还包括在与训练进程交替的修剪进程的多个周期之后执行听力测试。11.根据权利要求10所述的方法,其中,执行听力测试包括将被训练和修剪的生成器的输出与第二生成器的输出进行比较。
12.根据权利要求7到11中任一项所述的方法,其中,执行修剪进程涉及对生成器进行修剪,但不涉及对鉴别器进行修剪。13.一种在动态范围缩小域中从低比特率音频比特流生成增强音频数据的方法,其中该方法包括以下步骤:(a)接收低比特率音频比特流;(b)对低比特率音频比特流进行核心解码,并基于低比特率音频比特流获得动态范围缩小的原始音频数据;(c)将动态范围缩小的原始音频数据输入用于处理动态范围缩小的原始音频数据的生成对抗网络GAN的生成器,其中生成器包括编码器级和解码器级,其中编码器级和解码器级均包括多个层,每层中有一个或多个滤波器,其中每个滤波器包括一个或多个权重,其中生成器的编码器级的瓶颈层映射到编码器级和解码器级之间的编码音频特征空间,其中与瓶颈层相邻的编码器级和/或解码器级的一个或多个层比瓶颈层更稀疏,其中稀疏性由零值权重的百分比确定,并且其中与瓶颈层相邻的编码器级和/或解码器级的一个或多个层具有比瓶颈层更高的零值权重百分比;(d)通过生成器在动态范围缩小域中增强动态范围缩小的原始音频数据;(e)作为生成器的输出,获得增强的动态范围缩小音频数据,用于动态范围的后续扩展;以及(f)通过执行扩展操作将增强的动态范围缩小音频数据扩展到扩展的动态范围域。14.根据权利要求13所述的方法,其中所述瓶颈层比编码器级和/或解码器级的一个或多个外层更稀疏。15.根据权利要求13或14所述的方法,其中,与所述瓶颈层相邻且比所述瓶颈层更稀疏的所述编码器级和/或解码器级中的一个或多个层具有阈值数量的权重。16.根据权利要求13
‑
15任一项所述的方法,其中,所述生成器已通过修剪获得,所述修剪包括以下步骤:(i)基于指示修剪阈值的灵敏度参数集,修剪编码器级和/或解码器级;和(ii)基于所述灵敏度参数集,修剪编码器级的瓶颈层。17.根据权利要求16所述的方法,其中,所述修剪包括基于所述灵敏度参数集将一个或多个权重归零。18.根据权利要求17所述的方法,其中,通过修剪获得所述生成器还包括:基于所述灵敏度参数集,对与所述瓶颈层相邻的编码级和/或解码级的一个或多个层进行修剪;并且其中,所述灵敏度参数集被选择为使得瓶颈层的稀疏性增加小于编码器级和/或解码器级的一个或多个被修剪层中的任一个的稀疏性增加。19.根据权利要求16
‑
18中任一项所述的方法,其中,所述编码器级的被修剪层的数量小于解码器级的被修剪层的数量。20.根据权利要求16
‑
19中任一项所述的方法,其中,通过修剪获得生成器还包括以下步骤:对编码器级的瓶颈层以及编码器级和解码器级的多个层进行灵敏度分析,获得所述灵敏度参数集。21.根据权利要求20所述的方法,其中,
对所述GAN的第二生成器的编码器级的瓶颈层以及编码器级和解码器级的多个层进行灵敏度分析,其中所述第二生成器是被训练的未修剪的生成器。22.根据权利要求16
‑
21中任一项所述的方法,其中,执行修剪的步骤(i)和步骤(ii)对应修剪进程,其中通过修剪获得生成器还包括与GAN设置的一个或多个训练进程交替执行修剪进程的一个或多个周期。23.根据权利要求22所述的方法,其中在GAN设置中的动态范围缩小域中执行所述一个或多个训练进程,其中所述GAN设置包括生成器和鉴别器。24.根据权利要求13
‑
23中任一项所述的方法,其中,低比特率音频比特流为AC
‑
4格式。25.根据权利要求13
‑
24中任一项所述的方法,其中,扩展操作为基于用于计算相应增益值的频谱幅值的p范数的压缩扩展操作。26.根据权利要求13
‑
25中任一项所述的方法,其中,所接收到的低比特率音频比特流包括元数据,步骤(a)还包括对所接收到的低比特率音频比特流进行解复用,其中,在步骤(d)中,通过生成器来增强动态范围缩小的原始音频数据是基于元数据的。27.根据权利要求26所述的方法,其中,所述元数据包括压缩扩展控制数据的一个或多个项。28.根据权利要求27所述的方法,其中,压缩扩展控制数据包括关于已经用于编码音频数据的一种或多种压缩扩展模式中的压缩扩展模式的信息。29.根据权利要求28所述的方法,其中,所述压缩扩展模式包括:开启压缩扩展的压缩扩展模式、关闭压缩扩展的压缩扩展模式、以及平均压缩扩展的压缩扩展模式。30.根据权利要求28或29所述的方法,其中,在步骤(d)中,通过所述生成器对所述动态范围缩小原始音频数据进行增强取决于压缩扩展控制数据指示的压缩扩展模式,其中可选地,如果压缩扩展模式为压缩扩展关闭,则不执行通过生成器进行的增强。31.一种对于用于处理音频信号的计算机实现的生成神经网络确定参数的方法,其中生成神经网络包括编码器级和解码器级,其中编码器级映射到编码特征空间,其中编码器级和解码器级中的每一个包括多个卷积层,其中每个卷积层包括一个或多个权重系数,该方法包括多个周期,每个周期具有以下顺序过程:基于修剪控制信息对编码器级和/或解码器级的权重系数进行修剪,获得被修剪的生成神经网络,其中修剪控制信息确定对于各卷积层被修剪的权重系数的数量;基于训练数据集针对一个...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。