【技术实现步骤摘要】
【国外来华专利技术】音频发生器及用于生成音频信号和训练音频发生器的方法
[0001]引言
[0002]在下文中,将描述不同的专利技术实施例和方面。另外,进一步的实施例将由所附权利要求书定义。应当注意,权利要求所定义的任何实施例都可以由本说明书中描述的任何细节(特征和功能)补充。
[0003]此外,本说明书中描述的实施例可以单独使用,也可以由本文的任何特征或权利要求中包括的任何特征补充。
[0004]另外,应当注意,本文所述的各个方面可以单独使用或组合使用。因此,可以向所述每个单独方面添加细节,而不向所述的另一个方面添加细节。
[0005]还应注意,本公开明确或隐含地描述了音频发生器和/或方法和/或计算机程序产品中可用的特征。因此,本文描述的任何特征可以在设备、方法和/或计算机程序产品的上下文中使用。
[0006]此外,本文公开的与方法相关的特征和功能也可用于设备(配置为执行此类功能)。此外,本文所公开的关于设备的任何特征和功能也可以在相应的方法中使用。换句话说,本文公开的方法可以由关于设备所描述的任何特征和功能补充。
[0007]此外,本文描述的任何特征和功能可以在硬件或软件中实现,或使用硬件和软件的组合实现,如“实现替代方案”一节所述。
[0008]实现替代方案
[0009]尽管在设备的上下文中描述了某些方面,但很明显,这些方面也代表了对相应方法的描述,其中特征对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对相应设备的相应特征的描述。一些或所有的方法步骤可以由(或使用)硬件装 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种音频发生器(10),被配置为从输入信号(14)和目标数据(12)生成音频信号(16),目标数据(12)表示音频信号(16),音频发生器(10)包括:第一处理块(40,50,50a
‑
50h),被配置为接收从输入信号(14)得出的第一数据(15,59a)并输出第一输出数据(69),其中第一输出数据(69)包括多个通道(47),以及第二处理块(45),被配置为作为第二数据接收第一输出数据(69)或从第一输出数据(69)得到的数据;其中,第一处理块(50)对于第一输出数据的每个通道包括:可学习层(71,72,73)的条件集,被配置为处理目标数据(12)以获得条件特征参数(74,75);以及样式元件(77),被配置为将条件特征参数(74,75)应用于第一数据(15,59a)或归一化的第一数据(59,76
’
);以及其中,第二处理块(45)被配置为将第二数据(69)的多个通道(47)组合以获得音频信号(16)。2.根据权利要求1所述的音频发生器,其中可学习层的条件集由一个或至少两个卷积层(71
‑
73)组成。3.根据权利要求2所述的音频发生器,其中第一卷积层(71
‑
73)被配置为使用第一激活函数对目标数据(12)或上采样的目标数据进行卷积以获得第一卷积数据(71
’
)。4.根据权利要求1至3中任一项所述的音频发生器,其中可学习层(71
‑
73)的条件集和样式元件(77)是包括一个或多个残差块(50,50a
‑
50h)的神经网络的残差块(50,50a
‑
50h)中的权重层的一部分。5.根据权利要求1至4中任一项所述的音频发生器,其中音频发生器(10)进一步包括被配置为归一化第一数据(59a,15)的归一化元件(76)。6.根据权利要求1至5中任一项所述的音频发生器,其中音频信号(16)为语音音频信号。7.根据权利要求1至6中任一项所述的音频发生器,其中目标数据(12)以至少2的因子被上采样。8.根据权利要求7所述的音频发生器,其中所述目标数据(12)通过非线性插值被上采样(70)。9.根据权利要求1至8中任一项所述的音频发生器,其中第一处理块(40,50,50a
‑
50k)进一步包括:可学习层(61a,62a,61b,62b)的另一集,被配置为使用第二激活函数(63a,64a,63b,64b)处理从第一数据(15,59,59a,59b)得到的数据,其中,第二激活函数(63a,64a,63b,64b)为门控激活函数。10.根据权利要求9所述的音频发生器,其中可学习层(61a,62a,61b,62b)的另一集由一个或两个或更多个卷积层组成。11.根据权利要求9至10中任一项所述的音频发生器,其中第二激活函数(63a,63b)是softmax门控双曲正切TanH函数。12.根据权利要求3或引用权利要求3时的权利要求4至11中任一项所述的音频发生器,其中第一激活函数是渗漏整流线性单元,渗漏ReLu,函数。
13.根据权利要求1至12中任一项所述的音频发生器,其中卷积操作(61a,61b,62a,62b)以最大膨胀因子2运行。14.根据权利要求1至13中任一项所述的音频发生器,包括八个第一处理块(50a
‑
50h)和一个第二处理块(45)。15.根据权利要求1至14中任一项所述的音频发生器,其中第一数据(15,59,59a,59b)具有比音频信号更低的维数。16.根据权利要求1至15中任一项所述的音频发生器,其中目标数据(12)是谱图。17.根据权利要求1至16中任一项所述的音频发生器,其中目标数据(12)是梅尔谱图。18.根据权利要求1至15中任一项所述的音频发生器,其中目标数据(12)为比特流。19.根据权利要求1至18中任一项所述的音频发生器,其中目标数据(12)是降级的音频信号。20.根据权利要求1至18中任一项所述的音频发生器,其中目标数据(12)从文本得到。21.根据权利要求1至20中任一项所述的音频发生器,其中目标数据(12)是音频数据的压缩表示。22.一种用于通过音频发生器(10)从输入信号(14)和目标数据(12)生成音频信号(16)的方法,目标数据(12)表示音频信号(16),方法包括:通过第一处理块(50,50a
‑
50h)接收从输入信号(14)得到的第一数据(16559,59a,59b);对于第一输出数据(59b,69)的每个通道:通过第一处理块(50)的可学习层(71,72,73)的条件集处理目标数据(12),以获得条件特征参数(74、75);以及通过第一处理块(50)的样式元件(77)将条件特征参数(74,75)应用于第一数据(15,59)或归一化的第一数据(76
’
);通过第一处理块(50)输出包括多个通道(47)的第一输出数据(69);通过第二处理块(45)作为第二数据接收第一输出数据(69)或从第一输出数据(69)得出的数据;以及通过第二处理块(45)将第二数据的多个通道(47)组合以获得音频信号(16)。23.根据权利要求22所述的用于生成音频信号的方法,其中可学习层(71
‑
73)的条件集由一个或两个卷积层组成。24.根据权利要求23所述的用于生成音频信号的方法,其中通过可学习层(71
‑
73)的条件集的处理包括通过第一卷积层(71)使用第一激活函数对目标数据(12)或上采样的目标数据进行卷积以获得第一卷积数据(71
’
)。25.根据权利要求22至24中任一项所述的用于生成音频信号的方法,其中可学习层(71
‑
73)的条件集和样式元件(77)是包括一个或多个残差块(50,50a
‑
50h)的神经网络的残差块(50,50a
‑
50h)中的权重层的一部分。26.根据权利要求22至25中任一项所述的用于生成音频信号的方法,其中所述方法进一步包括通过归一化元件(76)对第一数据(15,59)进行归一化。27.根据权利要求22至26中任一项所述的用于生成音频信号的方法,其中所述音频信号(16)为语音音频信号。
28.根据权利要求22至27中任一项所述的用于生成音频信号的方法,其中所述目标数据(12)以2的因子被上采样(70)。29.根据权利要求22至28中任一项所述的用于生成音频信号的方法,其中所述目标数据(12)通过非线性插值被上采样(70)。30.根据权利要求22至29中任一项所述的用于生成音频信号的方法,进一步包括:通过第一处理块(50)的可学习层(61a,62a,61b,62b)的另一集合,使用第二激活函数(63a,64a,63b,64b)处理从第一数据(15,59a)得到的数据;其中,第二激活函数(63a,64a,63b,64b)为门控激活函数。31.根据权利要求30所述的用于生成音频信号的方法,其中可学习层(61a,62a,61b,62b)的另一集合由一个或两个卷积层组成。32.根据权利要求30至31中任一项所述的用于生成音频信号的方法,其中第二激活函数(63a,64a,63b,64b)是softmx门控双曲正切TanH函数。33.根据权利要求22至32中任一项所述的用于生成音频信号的方法,其中第一激活函数是渗漏整流线性单元,渗漏ReLu,函数。34.根据权利要求22至33中任一项所述的用于生成音频信号的方法,其中卷积操作(61a,62a,61b,62b)以最大膨胀因子2运行。35.根据权利要求22至34中任一项所述的用于生成音频信号的方法,包括执行第一处理块(50,50a
‑
50h)的步骤八次,以及执行第二处理块(45)的步骤一次。36.根据权利要求22至35中任一项所述的用于生成音频信号的方法,其中第一数据(15,59)具有比音频信号更低的维数。37.根据权利要求22至36中任一项所述的用于生成音频信号的方法,其中目标数据(12)是谱图或比特流。38.权利要求37所述的方法,其中谱图是梅尔谱图。39.根据权利要求...
【专利技术属性】
技术研发人员:艾哈迈德,
申请(专利权)人:弗劳恩霍夫应用研究促进协会,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。