用于使用预先配置的生成器处理音频数据的方法和装置制造方法及图纸

技术编号:38560853 阅读:12 留言:0更新日期:2023-08-22 21:01
本文描述了一种用于建立用于从音频比特流生成经处理的音频数据的解码器的方法,该解码器包括用于处理音频数据的生成式对抗网络GAN的生成器,其中,该方法包括以下步骤:(a)将生成器预先配置成利用生成器的一组参数来处理音频数据,该参数是通过在训练时间使用完整的级联分布训练生成器来确定的;以及(b)将解码器预先配置成在解码时间确定用于修改级联分布的截断模式并且将所确定的截断模式应用于级联分布。进一步描述了一种使用用于处理音频数据的生成式对抗网络GAN的生成器从音频比特流生成经处理的音频数据的方法、以及相应的装置。此外,还描述了相应的系统和计算机程序产品。产品。产品。

【技术实现步骤摘要】
【国外来华专利技术】用于使用预先配置的生成器处理音频数据的方法和装置
[0001]相关申请的交叉引用
[0002]本申请要求以下优先申请的优先权:于2020年12月17日提交的美国临时申请63/126,594(参考号:D19141USP1)和于2020年12月17日提交的欧洲申请20214888.8(参考号:D19141EP),所述申请通过引用并入本文。


[0003]本公开总体上涉及一种用于建立用于从音频比特流生成经处理的音频数据的解码器的方法,该解码器包括用于处理音频数据的生成式对抗网络GAN的生成器,并且本公开具体地涉及预先配置该生成器和该解码器。本公开进一步涉及一种使用用于处理音频数据的生成式对抗网络GAN的生成器来从音频比特流生成经处理的音频数据的方法。此外,本公开还涉及相应的装置、相应的系统和计算机程序产品。
[0004]尽管本文将特别参考该公开内容来描述一些实施例,但是将理解的是,本公开不限于这种使用领域,并且可应用于更广泛的背景。

技术介绍

[0005]在整个公开内容中对
技术介绍
的任何讨论绝不应视为承认这种技术是本领域众所周知的或形成本领域公知常识的一部分。
[0006]在过去几年期间,深度学习方法在包括语音增强的各种应用领域中变得越来越有吸引力。一般而言,最近的研究主要基于深度卷积GAN(通称为DCGAN)。迄今为止大多数深度学习方法都涉及语音去噪。要注意的是,从编码噪声中恢复音频是具有挑战性的问题。直观地说,人们可以认为编码伪像减少与去噪高度相关。然而,去除与期望声音高度相关的编码伪像/噪声似乎比去除通常不太相关的(去噪应用中的)其他噪声类型更复杂。编码伪像的特性取决于编解码器和所采用的编码工具以及所选比特率。
[0007]鉴于上述内容,仍然需要改进基于深度学习的方法。特别需要改进在质量与多样化之间的折衷方面的灵活性。

技术实现思路

[0008]根据本公开的第一方面,提供了一种用于建立用于从音频比特流生成经处理的音频数据的解码器的方法,该解码器包括用于处理音频数据的生成式对抗网络GAN的生成器,其中,该生成器包括编码器级和解码器级,其中,编码器级和解码器级各自包括多个层,每一层中具有一个或多个滤波器,其中,编码器级的最后一层是映射到经编码音频特征空间的瓶颈层,其中,生成器被适配成将经编码音频特征空间中的特征与随机噪声向量z级联以基于级联的结果获得级联分布。该方法可以包括步骤(a)将生成器预先配置成利用该生成器的一组参数来处理音频数据,该参数是通过在训练时间使用完整的级联分布训练生成器来确定的。并且该方法可以包括步骤(b)将解码器预先配置成在解码时间确定用于修改级联分布的截断模式并且将所确定的截断模式应用于级联分布。
[0009]在一些实施例中,解码器可以被预先配置成在解码时间从两种或更多种截断模式中确定用于修改级联分布的截断模式。
[0010]在一些实施例中,该两种或更多种截断模式可以包括截断关闭截断模式、弱截断截断模式、中等截断截断模式和强截断截断模式。
[0011]在一些实施例中,在步骤(b)中,解码器可以被预先配置成在解码时间基于音频内容和/或音频比特流的比特流参数来确定截断模式。
[0012]在一些实施例中,音频内容可以包括掌声、语音、音乐和效果中的一者或多者。
[0013]在一些实施例中,比特流参数可以包括对比特率的指示和对音频编解码器类型的指示中的一者或多者。
[0014]在一些实施例中,在步骤(b)中,解码器可以被预先配置成当音频内容包括掌声时在解码时间确定截断关闭截断模式。
[0015]在一些实施例中,在步骤(b)中,解码器可以被预先配置成当音频内容包括语音、音乐和/或效果时在解码时间确定弱截断截断模式、中等截断截断模式或强截断截断模式之一。
[0016]在一些实施例中,在步骤(b)中,解码器可以被预先配置成当对比特率的指示表明低比特率时在解码时间确定截断关闭截断模式。
[0017]在一些实施例中,在步骤(b)中,解码器可以被预先配置成当对比特率的指示表明高比特率时在解码时间确定弱截断截断模式、中等截断截断模式或强截断截断模式之一。
[0018]在一些实施例中,在步骤(b)中,解码器可以被预先配置成基于对应当使用的截断模式的指示来确定截断模式,该指示被包括在音频比特流的元数据中。
[0019]在一些实施例中,将所确定的截断模式应用于级联分布可以包括:根据截断范围向级联分布应用切断,以获得截断区域;以及对截断区域外的所有值进行重新采样,以使其位于截断区域内。
[0020]在一些实施例中,弱截断截断模式可以被设置成应用从

0.8延伸到+0.8的截断范围。
[0021]在一些实施例中,中等截断截断模式可以被设置成应用从

0.5延伸到+0.5的截断范围。
[0022]在一些实施例中,强截断截断模式可以被设置成应用从

0.4延伸到+0.4的截断范围。
[0023]在一些实施例中,完整的级联分布可以是高斯分布或拉普拉斯分布。
[0024]在一些实施例中,步骤(a)可以包括使用完整的级联分布来训练生成器。
[0025]在一些实施例中,在步骤(a)中,生成器的一组参数可以通过在包括该生成器和判别器的GAN设置中训练该生成器来确定,其中,该训练可以包括以下步骤:
[0026](a)将音频训练信号输入到生成器中;
[0027](b)由生成器基于音频训练信号使用完整的级联分布来生成经处理的音频训练信号;
[0028](c)一次一个地将经处理的音频训练信号和已从中得到音频训练信号的对应原始音频信号输入到判别器中;
[0029](d)由判别器判断输入音频信号是经处理的音频训练信号还是原始音频信号;以

[0030](e)迭代地调整生成器的参数直到判别器不在能将经处理的音频训练信号与原始音频信号区分开为止。
[0031]在一些实施例中,在训练生成器期间,可以应用截断关闭截断模式。
[0032]根据本公开的第二方面,提供了一种使用用于处理音频数据的生成式对抗网络GAN的生成器从音频比特流生成经处理的音频数据的方法,其中,该生成器包括编码器级和解码器级,其中,编码器级和解码器级各自包括多个层,每一层中具有一个或多个滤波器,其中,编码器级的最后一层是映射到经编码音频特征空间的瓶颈层,其中,生成器被适配成将经编码音频特征空间中的特征与随机噪声向量z级联以基于级联的结果获得级联分布。该方法可以包括步骤(a)接收音频比特流。该方法可以进一步包括步骤(b)由解码器确定截断模式。该方法可以进一步包括步骤(c)将音频数据输入到用于处理音频数据的生成器中。该方法可以进一步包括步骤(d)将所确定的截断模式应用于级联分布以生成经截断的级联分布。该方法可以进一步包括步骤(e)由生成器基于经截断的级联分布来处理音频数据。并且该方法可以包括步骤(f)获得经处理的音频数据作为生成器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于建立用于从音频比特流生成经处理的音频数据的解码器的方法,所述解码器包括用于处理所述音频数据的生成式对抗网络GAN的生成器,其中,所述生成器包括编码器级和解码器级,其中,所述编码器级和所述解码器级各自包括多个层,每一层中具有一个或多个滤波器,其中,所述编码器级的最后一层是映射到经编码音频特征空间的瓶颈层,其中,所述生成器被适配成将所述经编码音频特征空间中的特征与随机噪声向量z级联,以基于级联的结果获得级联分布,其中,所述方法包括以下步骤:(a)将所述生成器预先配置成利用所述生成器的一组参数来处理音频数据,所述参数是通过在训练时间使用完整的级联分布训练所述生成器来确定的;以及(b)将所述解码器预先配置成在解码时间确定用于修改所述级联分布的截断模式并且将所确定的截断模式应用于所述级联分布。2.如权利要求1所述的方法,其中,所述解码器被预先配置成在解码时间从两种或更多种截断模式中确定用于修改所述级联分布的所述截断模式。3.如权利要求2所述的方法,其中,所述两种或更多种截断模式包括截断关闭截断模式、弱截断截断模式、中等截断截断模式和强截断截断模式。4.如权利要求1至3中任一项所述的方法,其中,在步骤(b)中,所述解码器被预先配置成在解码时间基于音频内容和/或所述音频比特流的比特流参数来确定所述截断模式。5.如权利要求4所述的方法,其中,所述音频内容包括掌声、语音、音乐和效果中的一者或多者。6.如权利要求4或5所述的方法,其中,所述比特流参数包括对比特率的指示和对音频编解码器类型的指示中的一者或多者。7.如当引用权利要求3时的权利要求5所述的方法,其中,在步骤(b)中,所述解码器被预先配置成当所述音频内容包括掌声时在解码时间确定所述截断关闭截断模式。8.如当引用权利要求3时的权利要求5所述的方法,其中,在步骤(b)中,所述解码器被预先配置成当所述音频内容包括语音、音乐和/或效果时在解码时间确定所述弱截断截断模式、所述中等截断截断模式或所述强截断截断模式之一。9.如当引用权利要求3时的权利要求6所述的方法,其中,在步骤(b)中,所述解码器被预先配置成当对所述比特率的所述指示表明低比特率时在解码时间确定所述截断关闭截断模式。10.如当引用权利要求3时的权利要求6所述的方法,其中,在步骤(b)中,所述解码器被预先配置成当对所述比特率的所述指示表明高比特率时在解码时间确定所述弱截断截断模式、所述中等截断截断模式或所述强截断截断模式之一。11.如权利要求1至10中任一项所述的方法,其中,在步骤(b)中,所述解码器被预先配置成基于对应当使用的截断模式的指示来确定所述截断模式,所述指示被包括在所述音频比特流的元数据中。12.如权利要求1至11中任一项所述的方法,其中,将所确定的截断模式应用于所述级联分布包括:根据截断范围向所述级联分布应用切断,以获得截断区域;以及对所述截断区域外的所有值进行重新采样,以使其位于所述截断区域内。13.如当引用权利要求3时的权利要求12所述的方法,其中,所述弱截断截断模式被设
置成应用从

0.8延伸到+0.8的截断范围。14.如当引用权利要求3时的权利要求12或13所述的方法,其中,所述中等截断截断模式被设置成应用从

0.5延伸到+0.5的截断范围。15.如当引用权利要求3时的权利要求12至14中任一项所述的方法,其中,所述强截断截断模式被设置成应用从

0.4延伸到+0.4的截断范围。16.如权利要求1至15中任一项所述的方法,其中,所述完整的级联分布是高斯分布或拉普拉斯分布。17.如权利要求1至16中任一项所述的方法,其中,步骤(a)包括使用所述完整的级联分布来训练所述生成器。18.如权利要求1至17中任一项所述的方法,其中,在步骤(a)中,所述生成器的所述一组参数是通过在包括所述生成器和判别器的GAN设置中训练所述生成器来确定的,其中,所述训练包括以下步骤:(a)将音频训练信号输入到所述生成器中;(b)由所述生成器基于所述音频训练信号使用所述完整的级联分布来生成经处理的音频训练信号;(c)一次一个地将所述经处理的音频训练信号和已从中得到所述音频训练信号的对应原始音频信号输入到所述判别器中;(d)由所述判别器判断所述输入音频信号是所述经处理的音频训练信号还是所述原始音频信号;以及(e)迭代地调整所述生成器的参数直到所述判别器不再能将所述经处理的音频训练信号与所述原始音频信号区分开为止。19.如权利要求18所述的方法,其中,在训练所述生成器期间应用所述截断关闭截断模式。20.一种使用生成式对抗网络GAN的生成器从音频比特流生成经处理的音频数据的方法,所述生成器用于处理所述音频数据,其中,所述生成器包括编码器级和解码器级,其中,所述编码器级和所述解码器级各自包括多个层,每一层中具有一个或多个滤波器,其中,所述编码器级的最后一层是映射到经编码音频特征空间的瓶颈层,其中,所述生成器被适配成将所述经编码音频特征空间中的特征与随机噪声向量z级联,以基于级联的结果获得级联分布,...

【专利技术属性】
技术研发人员:A
申请(专利权)人:杜比国际公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1