音频发生器及用于生成音频信号和训练音频发生器的方法技术

技术编号:38718922 阅读:18 留言:0更新日期:2023-09-08 15:01
公开了用于生成音频信号和训练音频发生器的技术。音频发生器(10)可以从表示音频信号(16)的目标数据(12)和输入信号(14)生成音频信号(16),包括:第一处理块(40,50,50a

【技术实现步骤摘要】
【国外来华专利技术】音频发生器及用于生成音频信号和训练音频发生器的方法
[0001]引言
[0002]在下文中,将描述不同的专利技术实施例和方面。另外,进一步的实施例将由所附权利要求书定义。应当注意,权利要求所定义的任何实施例都可以由本说明书中描述的任何细节(特征和功能)补充。
[0003]此外,本说明书中描述的实施例可以单独使用,也可以由本文的任何特征或权利要求中包括的任何特征补充。
[0004]另外,应当注意,本文所述的各个方面可以单独使用或组合使用。因此,可以向所述每个单独方面添加细节,而不向所述的另一个方面添加细节。
[0005]还应注意,本公开明确或隐含地描述了音频发生器和/或方法和/或计算机程序产品中可用的特征。因此,本文描述的任何特征可以在设备、方法和/或计算机程序产品的上下文中使用。
[0006]此外,本文公开的与方法相关的特征和功能也可用于设备(配置为执行此类功能)。此外,本文所公开的关于设备的任何特征和功能也可以在相应的方法中使用。换句话说,本文公开的方法可以由关于设备所描述的任何特征和功能补充。
[0007]此外,本文描述的任何特征和功能可以在硬件或软件中实现,或使用硬件和软件的组合实现,如“实现替代方案”一节所述。
[0008]实现替代方案
[0009]尽管在设备的上下文中描述了某些方面,但很明显,这些方面也代表了对相应方法的描述,其中特征对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对相应设备的相应特征的描述。一些或所有的方法步骤可以由(或使用)硬件装置来执行,例如,微处理器、可编程计算机或电子电路。在一些实施例中,最重要的方法步骤中的一个或多个可以通过这样的装置来执行。
[0010]根据某些实施要求,本专利技术的实施例可以在硬件或软件中实现。该实现可以使用数字存储介质来执行,例如软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存,这些介质具有存储在其上的电子可读控制信号,其与可编程计算机系统协作(或能够协作),从而执行相应的方法。因此,数字存储介质可以是计算机可读的。
[0011]根据本专利技术的一些实施例包括具有电子可读控制信号的数据载体,电子可读控制信号能够与可编程计算机系统协作,从而执行本文所述的方法之一。
[0012]通常,本专利技术的实施例可以实现为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,该程序代码可操作用于执行所述方法之一。程序代码可以例如存储在机器可读载体上。
[0013]其他实施例包括存储在机器可读载体上的用于执行本文所述方法之一的计算机程序。
[0014]换句话说,因此,本专利技术方法的实施例是,具有用于当计算机程序在计算机上运行时,执行本文所述方法之一的程序代码的计算机程序。
[0015]因此,本专利技术方法的进一步实施例是数据载体(或数字存储介质,或计算机可读介
质),包括记录在其上的用于执行本文所述方法之一的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非暂时性的。
[0016]因此,本专利技术方法的进一步实施例是表示用于执行本文所述方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接传送,例如经由互联网。
[0017]进一步实施例包括处理装置,例如计算机或可编程逻辑器件,其被配置为或适于执行本文所述方法之一。
[0018]进一步实施例包括在其上安装有用于执行本文所述方法之一的计算机程序的计算机。
[0019]根据本专利技术的进一步实施例包括被配置为将用于执行本文所述方法之一的计算机程序(例如,电子地或光学地)传送到接收器的装置或系统。例如,接收器可以是计算机、移动设备、存储设备等。装置或系统可例如包括用于将计算机程序传送到接收器的文件服务器。
[0020]在一些实施例中,可编程逻辑器件(例如现场可编程门阵列)可用于执行本文所述方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,优选由任何硬件装置执行方法。
[0021]本文描述的设备可以使用硬件装置来实现,或者使用计算机来实现,或者使用硬件装置和计算机的组合来实现。
[0022]本文描述的设备,或本文描述的设备的任何组件,可以至少部分地在硬件和/或软件中实现。
[0023]本文描述的方法可以使用硬件装置,或使用计算机,或使用硬件装置和计算机的组合来执行。
[0024]本文描述的方法,或本文描述的方法的任何部分,可以至少部分地通过硬件和/或软件来执行。
[0025]上述所描述的实施例仅是对本专利技术的原理进行说明。应当理解,本文所述的布置和细节的修改和变化对于本领域技术人员将是显而易见的。因此,其意图仅受即将到来的专利权利要求的范围的限制,而不受通过本文的实施例的描述和解释方式所提供的具体细节的限制。


[0026]本专利技术属于音频生成的

[0027]本专利技术的实施例涉及音频发生器,其被配置为从输入信号和目标数据生成音频信号,目标数据表示音频信号。进一步的实施例涉及用于生成音频信号的方法,以及用于训练音频发生器的方法。进一步的实施例涉及计算机程序产品。

技术介绍

[0028]近年来,神经声码器在合成语音信号的自然度和感知质量方面已经超越了经典的语音合成方法。使用如WaveNet和WaveGlow这样计算量大的神经声码器可以获得最好的结果,而基于生成式对抗网络的轻量级架构,例如MelGAN和Parallel WaveGAN,在感知质量方
面仍然较差。
[0029]使用深度学习生成音频波形的生成模型,诸如WaveNet、LPCNet和WaveGlow,在自然声音语音合成方面取得了重大进展。这些生成模型在文本到语音(TTS)应用中被称为神经声码器,优于参数和拼接合成方法。它们可以使用目标语音的压缩表示(例如梅尔谱图)来调节,以再现给定的说话者和给定的话语。
[0030]先前的研究表明,在解码器侧使用这种生成模型可以实现非常低比特率的干净语音的语音编码。这可以通过使用经典低比特率语音编码器的参数来调节神经声码器来实现。
[0031]神经声码器也被用于语音增强任务,如语音降噪或去噪。
[0032]这些深度生成模型的主要问题通常是需要大量的参数,以及在训练和合成(推理)期间产生的复杂性。例如,WaveNet被认为是合成语音质量方面的最先进技术,它一个接一个地顺序生成音频样本。此过程非常缓慢,计算要求很高,并且不能实时执行。
[0033]近年来,基于生成对抗网络(GAN)的轻量级对抗声码器(诸如MelGAN和ParallelWaveGAN)被提出用于快速波形生成。然而,使用这些模型生成的语音的报告的感知质量明显低于如WaveNet和WaveGlow的神经声码器的基线。已经提出了一种用于文本到语音的GAN(GAN

TTS)来弥补此质量差距,但仍然需要很高本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种音频发生器(10),被配置为从输入信号(14)和目标数据(12)生成音频信号(16),目标数据(12)表示音频信号(16),音频发生器(10)包括:第一处理块(40,50,50a

50h),被配置为接收从输入信号(14)得出的第一数据(15,59a)并输出第一输出数据(69),其中第一输出数据(69)包括多个通道(47),以及第二处理块(45),被配置为作为第二数据接收第一输出数据(69)或从第一输出数据(69)得到的数据;其中,第一处理块(50)对于第一输出数据的每个通道包括:可学习层(71,72,73)的条件集,被配置为处理目标数据(12)以获得条件特征参数(74,75);以及样式元件(77),被配置为将条件特征参数(74,75)应用于第一数据(15,59a)或归一化的第一数据(59,76

);以及其中,第二处理块(45)被配置为将第二数据(69)的多个通道(47)组合以获得音频信号(16)。2.根据权利要求1所述的音频发生器,其中可学习层的条件集由一个或至少两个卷积层(71

73)组成。3.根据权利要求2所述的音频发生器,其中第一卷积层(71

73)被配置为使用第一激活函数对目标数据(12)或上采样的目标数据进行卷积以获得第一卷积数据(71

)。4.根据权利要求1至3中任一项所述的音频发生器,其中可学习层(71

73)的条件集和样式元件(77)是包括一个或多个残差块(50,50a

50h)的神经网络的残差块(50,50a

50h)中的权重层的一部分。5.根据权利要求1至4中任一项所述的音频发生器,其中音频发生器(10)进一步包括被配置为归一化第一数据(59a,15)的归一化元件(76)。6.根据权利要求1至5中任一项所述的音频发生器,其中音频信号(16)为语音音频信号。7.根据权利要求1至6中任一项所述的音频发生器,其中目标数据(12)以至少2的因子被上采样。8.根据权利要求7所述的音频发生器,其中所述目标数据(12)通过非线性插值被上采样(70)。9.根据权利要求1至8中任一项所述的音频发生器,其中第一处理块(40,50,50a

50k)进一步包括:可学习层(61a,62a,61b,62b)的另一集,被配置为使用第二激活函数(63a,64a,63b,64b)处理从第一数据(15,59,59a,59b)得到的数据,其中,第二激活函数(63a,64a,63b,64b)为门控激活函数。10.根据权利要求9所述的音频发生器,其中可学习层(61a,62a,61b,62b)的另一集由一个或两个或更多个卷积层组成。11.根据权利要求9至10中任一项所述的音频发生器,其中第二激活函数(63a,63b)是softmax门控双曲正切TanH函数。12.根据权利要求3或引用权利要求3时的权利要求4至11中任一项所述的音频发生器,其中第一激活函数是渗漏整流线性单元,渗漏ReLu,函数。
13.根据权利要求1至12中任一项所述的音频发生器,其中卷积操作(61a,61b,62a,62b)以最大膨胀因子2运行。14.根据权利要求1至13中任一项所述的音频发生器,包括八个第一处理块(50a

50h)和一个第二处理块(45)。15.根据权利要求1至14中任一项所述的音频发生器,其中第一数据(15,59,59a,59b)具有比音频信号更低的维数。16.根据权利要求1至15中任一项所述的音频发生器,其中目标数据(12)是谱图。17.根据权利要求1至16中任一项所述的音频发生器,其中目标数据(12)是梅尔谱图。18.根据权利要求1至15中任一项所述的音频发生器,其中目标数据(12)为比特流。19.根据权利要求1至18中任一项所述的音频发生器,其中目标数据(12)是降级的音频信号。20.根据权利要求1至18中任一项所述的音频发生器,其中目标数据(12)从文本得到。21.根据权利要求1至20中任一项所述的音频发生器,其中目标数据(12)是音频数据的压缩表示。22.一种用于通过音频发生器(10)从输入信号(14)和目标数据(12)生成音频信号(16)的方法,目标数据(12)表示音频信号(16),方法包括:通过第一处理块(50,50a

50h)接收从输入信号(14)得到的第一数据(16559,59a,59b);对于第一输出数据(59b,69)的每个通道:通过第一处理块(50)的可学习层(71,72,73)的条件集处理目标数据(12),以获得条件特征参数(74、75);以及通过第一处理块(50)的样式元件(77)将条件特征参数(74,75)应用于第一数据(15,59)或归一化的第一数据(76

);通过第一处理块(50)输出包括多个通道(47)的第一输出数据(69);通过第二处理块(45)作为第二数据接收第一输出数据(69)或从第一输出数据(69)得出的数据;以及通过第二处理块(45)将第二数据的多个通道(47)组合以获得音频信号(16)。23.根据权利要求22所述的用于生成音频信号的方法,其中可学习层(71

73)的条件集由一个或两个卷积层组成。24.根据权利要求23所述的用于生成音频信号的方法,其中通过可学习层(71

73)的条件集的处理包括通过第一卷积层(71)使用第一激活函数对目标数据(12)或上采样的目标数据进行卷积以获得第一卷积数据(71

)。25.根据权利要求22至24中任一项所述的用于生成音频信号的方法,其中可学习层(71

73)的条件集和样式元件(77)是包括一个或多个残差块(50,50a

50h)的神经网络的残差块(50,50a

50h)中的权重层的一部分。26.根据权利要求22至25中任一项所述的用于生成音频信号的方法,其中所述方法进一步包括通过归一化元件(76)对第一数据(15,59)进行归一化。27.根据权利要求22至26中任一项所述的用于生成音频信号的方法,其中所述音频信号(16)为语音音频信号。
28.根据权利要求22至27中任一项所述的用于生成音频信号的方法,其中所述目标数据(12)以2的因子被上采样(70)。29.根据权利要求22至28中任一项所述的用于生成音频信号的方法,其中所述目标数据(12)通过非线性插值被上采样(70)。30.根据权利要求22至29中任一项所述的用于生成音频信号的方法,进一步包括:通过第一处理块(50)的可学习层(61a,62a,61b,62b)的另一集合,使用第二激活函数(63a,64a,63b,64b)处理从第一数据(15,59a)得到的数据;其中,第二激活函数(63a,64a,63b,64b)为门控激活函数。31.根据权利要求30所述的用于生成音频信号的方法,其中可学习层(61a,62a,61b,62b)的另一集合由一个或两个卷积层组成。32.根据权利要求30至31中任一项所述的用于生成音频信号的方法,其中第二激活函数(63a,64a,63b,64b)是softmx门控双曲正切TanH函数。33.根据权利要求22至32中任一项所述的用于生成音频信号的方法,其中第一激活函数是渗漏整流线性单元,渗漏ReLu,函数。34.根据权利要求22至33中任一项所述的用于生成音频信号的方法,其中卷积操作(61a,62a,61b,62b)以最大膨胀因子2运行。35.根据权利要求22至34中任一项所述的用于生成音频信号的方法,包括执行第一处理块(50,50a

50h)的步骤八次,以及执行第二处理块(45)的步骤一次。36.根据权利要求22至35中任一项所述的用于生成音频信号的方法,其中第一数据(15,59)具有比音频信号更低的维数。37.根据权利要求22至36中任一项所述的用于生成音频信号的方法,其中目标数据(12)是谱图或比特流。38.权利要求37所述的方法,其中谱图是梅尔谱图。39.根据权利要求...

【专利技术属性】
技术研发人员:艾哈迈德
申请(专利权)人:弗劳恩霍夫应用研究促进协会
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1