使用神经网络生成音频制造技术

技术编号:27199406 阅读:28 留言:0更新日期:2021-01-31 12:04
方法、系统和装置,包括编码在计算机存储介质上的计算机程序,用于生成包括多个时间步中的每一个处的相应音频样本的音频数据的输出序列。方法之一包括,对于时间步中的每一个:提供音频数据的当前序列作为卷积子网络的输入,其中当前序列包括输出序列中该时间步之前的每个时间步处的相应音频样本,并且其中卷积子网络被配置为处理音频数据的当前序列以生成时间步的替代表示;以及提供时间步的替代表示作为输出层的输入,其中输出层被配置为:处理替代表示以生成定义时间步的多个可能的音频样本上的分数分布的输出。频样本上的分数分布的输出。频样本上的分数分布的输出。

【技术实现步骤摘要】
使用神经网络生成音频
[0001]本申请是申请日为2017年09月06日、申请号为201780065523.6、专利技术名称为“使用神经网络生成音频”的PCT专利技术专利申请的分案申请。


[0002]本专利技术通常涉及提供一种神经网络,并且更具体地涉及使用神经网络处理和生成音频。

技术介绍

[0003]本说明书涉及使用神经网络处理和生成音频。
[0004]神经网络是机器学习模型,它采用一层或多层非线性单元来对于接收的输入预测输出。一些神经网络除了输出层之外还包括一个或多个隐藏层。在网络中,每个隐藏层的输出被用作下一层(即,下一隐藏层或输出层)的输入。网络的每一层根据相应参数集的当前值从接收的输入生成输出。

技术实现思路

[0005]本说明书描述了在一个或多个位置的一个或多个计算机上实施为计算机程序的系统可以如何生成包括多个时间步中的每一个处的相应音频样本的音频数据序列。例如,音频数据序列可以用特定的自然语言或一段音乐来表示语音。
[0006]在一个创新方面,由一个或多个计算机实施的神经网络系统被配置为生成包括多个时间步中的每一个处的相应音频样本的音频数据的输出序列。神经网络系统可以包括卷积子网络,该卷积子网络包括一个或多个音频处理卷积神经网络层;和输出层。卷积子网络可以被配置为,对于多个时间步中的每一个:接收包括输出序列中该(当前)时间步之前的每个时间步处的相应音频样本的音频数据的当前序列。卷积子网络还可以被配置为处理音频数据的当前序列,以生成时间(当前)步的替代表示。替代表示因此可以包括数字表示,即数字值的有序集合,其中音频数据的当前序列已经由卷积子网络编码,例如编码当前序列的特征。输出层可以被配置为对于多个时间步中的每一个:接收该时间步的替代表示,并且处理该时间步的替代表示以生成定义该时间步的多个可能的音频样本上的分数分布的输出。
[0007]这种系统的许多优点中的一些将在后面描述。系统可以通过从分布中采样来使用分数分布选择当前时间步的样本。输出可以但不是必须对每个可能的音频样本值包括一个分数,例如256个可能值的256个分数。因此,压缩(compress)或缩扩(compand)音频样本值(可以是幅度值),以减少模型输出的数量是有用的。
[0008]在一些实施方式中,卷积神经网络层是因果卷积神经网络层,如后面更详细描述的。具体地,音频处理卷积神经网络层可以包括一个或多个扩张因果卷积神经网络层。再次如后面更详细描述的,扩张卷积神经网络层将卷积应用于序列(即,如由来自前一层的输出定义的)中的非相邻值。这可以按数量级增加卷积子网络的接受域(receptive field),同
时保持输入(时间)分辨率并维持计算效率。
[0009]在一些实施方式中,卷积神经网络层包括多个堆叠的扩张卷积神经网络层的块。每个块可以包括具有增加的扩张因子(dilation)的多个扩张卷积神经网络层。例如,对于每个连续层,扩张因子可以增加因子n,直到每个块内的极限。这可以进一步增加接受域的大小。
[0010]在一些实施方式中,卷积神经网络层中的一个或多个可以具有门控激活单元(gated activation unit)。例如,由层实施的卷积之后的修正线性(rectified linear)或其他单元可以被门控激活单元代替。在门控激活单元中,输出可以是两个(因果)卷积的组合,即主卷积和门卷积。卷积可以各自被应用于来自前一层的一些或全部相同的输出。该组合可以包含应用于门卷积的非线性激活函数,例如,诸如sigmoid的具有(0,1)范围的激活。然后,这可以乘以来自主卷积的值;非线性激活函数可以但不需要应用于主卷积。这种方法可以帮助捕捉数据中更复杂的结构。
[0011]在每个时间步处来自卷积子网络的替代表示基于神经网络输入被调节(conditioned),例如调节输入的潜在表示。调节输入可以是全局的(实质上时间无关的)和/或局部的(时间相关的)。调节输入可以包括例如文本、图像或视频数据、或者音频数据,例如特定说话者或语言或音乐的示例。神经网络输入可以包括调节输入的嵌入。例如,在文本到语音(text-to-speech)系统中,全局调节输入可以包括说话者嵌入,并且局部调节输入可以包括语言特征。该系统可以被配置成将神经网络输入或调节输入从较低采样频率映射到音频样本生成频率,例如通过重复输入或使用神经网络对输入进行上采样。因此,神经网络输入可以包括文本段的特征,并且输出序列可以表示文本段的言语表达;和/或神经网络输入可以包括说话者或语调模式值;和/或神经网络输入可以包括以下中的一个或多个:说话者标识信息、语言标识信息和说话风格信息。可替代地,输出序列表示一段音乐。
[0012]卷积子网络可以包括残差连接(residual connection),例如从卷积层的输入到将卷积层的输入与该层的中间输出相加的加法器的连接。这有效地允许网络被训练来跳过或部分地跳过层,从而加速收敛并促进更深模型的训练。卷积子网络可以附加地或替代地包括跳跃连接(skip connection),例如直接从卷积子网络的一个或多个中间层中的每一个到直接生成提供给输出层的替代表示的一个或多个操作。
[0013]在一些实施方式中,使用卷积子网络处理音频数据的当前序列以生成时间步的替代表示重复使用为先前时间步计算的值。重复使用的值可以包括从卷积滤波器应用于音频样本数据或从其导出的数据导出的值。当相同的滤波器被应用于相同的(或相同中的一些)音频样本数据或从其导出的数据时,重复使用的值可以在一个时间步处被存储,并在稍后的时间步处被检索。这可以使系统在计算上更有效并因此更快,因为不需要重新计算存储的值。
[0014]可以实施本说明书中描述的主题的特定实施例,以便实现一个或多个以下优点。该神经网络系统每秒可以生成数万个音频样本,提供了比基于其他神经网络的音频生成系统更大的粒度级别。该神经网络系统可以实现在音频生成任务上明显优于现有技术的结果,例如,通过从具有比现有技术更高质量的文本生成语音。单个训练的神经网络系统可以基于说话者标识通过调节来生成不同的声音。通过使用卷积神经网络层(例如,因果卷积层)代替递归神经网络层(例如,代替长短期记忆(long short-term memory,LSTM)层),神
经网络系统可以实现这些有利的结果,同时不需要与包括递归神经网络层的其他系统那样多的计算资源来训练,从而导致训练时间减少。通过采用卷积层而不是递归层,神经网络系统的计算可以更容易地批量化和更容易地并行化,例如,因为网络层不必为每个时间步展开,允许更有效地执行系统的计算。此外,通过采用扩张因果卷积层,卷积子网络的接受域以及因此由系统生成的音频质量可以被改善,而不会大大增加生成音频的计算成本。
[0015]本说明书中描述的主题的一个或多个实施例的细节在附图和以下描述中阐述。从说明书、附图和权利要求书中,主题的其他特征、方面和优点将变得显而易见。
附图说明
[0016]图1示出了示例神经网络系统。
[001本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于训练具有多个参数的神经网络系统的方法,所述方法包括:获得音频数据的训练序列,所述音频数据的训练序列包括在多个时间步中的每一个处的相应音频样本,使用所述神经网络系统的卷积子网络处理所述音频数据的训练序列,所述卷积子网络包括一个或多个音频处理卷积神经网络层,其中所述卷积子网络被配置为对于多个时间步中的每一个:接收包括所述音频数据的训练序列中所述时间步之前的每个时间步处的相应音频样本的音频数据的当前序列,以及处理音频数据的当前序列以生成所述时间步的替代表示;使用所述神经网络系统的输出层处理所述多个时间步的替代表示,其中所述输出层被配置为对于多个时间步中的每一个:接收所述时间步的替代表示,以及处理所述时间步的替代表示以生成定义所述时间步的多个可能的音频样本上的分数分布的输出;和对于所述多个时间步中的每一个,基于(i)所述时间步的多个可能的音频样本上的分数分布和(ii)所述音频数据的训练序列中所述时间步处的所述音频样本训练所述神经网络系统的所述多个参数。2.根据权利要求1所述的方法,其中,所述神经网络系统的卷积子网络与处理每个其它时间步的音频数据的当前序列实质并行地处理每个时间步的音频数据的当前序列。3.根据权利要求1所述的方法,其中训练所述神经网络系统的多个参数包括使用基于反向传播技术训练所述神经网络系统的多个参数。4.根据权利要求1所述的方法,其中所述多个时间步中的每一个与音频波形中的相应时间对应,在所述多个时间步中的每一个处的相应音频样本是在对应时间处的音频波形的幅度值,以及所述多个时间步中的每一个的相应分数分布包括多个可能的幅度值上的分数分布。5.根据权利要求1所述的方法,其中所述多个时间步中的每一个与音频波形中的相应时间对应,在所述多个时间步中的每一个处的相应音频样本是在对应时间处的音频波形的压缩表示,并且所述多个时间步中的每一个的相应分数分布包括在多个可能的压缩值上的分数分布。6.根据权利要求1所述的方法,其中所述多个时间步中的每一个对应于音频波形中的相应时间,在所述多个时间步中的每一个处的相应音频样本是在对应时间处的音频波形的缩扩表示,并且所述多个时间步中的每一个的相应分数分布包括在多个可能的缩扩值上的分数分布。7.根据权利要求1所述的方法,其中所述音频处理卷积神经网络层是因果卷积神经网络层。8.根据权利要求1所述的方法,其中所述音频处理卷积神经网络层包括一个或多个扩张卷积神经网络层。9.根据权利要求1所述的方法,其中所述音频处理卷积神经网络层包括扩张卷积神经网络层的多个块,其中每个块包括具有增大的扩张因子的多个扩张卷积神经网络层。
10.根据权利要求1所述的方法,其中所述音频处理卷积神经网络层中的一个或多个具有门控激活单元。11.根据权利要求1所述的方法,其中,在所述多个时间步中的每一个处,基于提供给所述神经网络系统的附加输入调节所述替代表示。12.根据权利要求11所述的方法,其中所述附加输入包括文本段的特征,并且其中所述音频数据的训练序列表示所述文本段的言语表达。13.根据权利要求12所述的方法,其中,所述附加输入还包括语调模式值。14.根据权利要求11所述的方法,其中,所述附加输入包括以下中的一个或多个:说话者标识信息、语言标识信息和说话风格信息。15.根据权利要求1所述的方法,其中所述音频数据的训练序列表示一段音乐。16.根据权利要求1所述的方法,其中所述卷积子网络包括残差连接。17.根据权利要求1所述的方法,其中所述卷积子网络包括跳跃连接。18.根据权利要求1所述的方法,其中处理音频数据的当前序列以生成时间步的替代表示包括重复使用为其它时间步计算的值。19.存储指令的一个或多个非暂态计算机存储介质,所述指令在由一个或多个计算机执行时使得所述一个或多个计算机执行用于训练具有多个参数的神经网络系统的操作,所述操作包括:获得音频数据的训练序列,所述音频数据的训练序列包括在多个时间步中的每一个处的相应音频样本,使用所述神经网络系统的卷积子网络处理所述音频数据的训练序列,所述卷积子网络,包括一个或多个音频处理卷积神经网络层,其中所述卷积子网络被配置为对于多个时间步中的每一个:接收包括所述音频数据的训练序列中所述时间步之前的每个时间步处的相应音频样本的音频数据的当前序列,以及处理音频数据的当前序列以生成所述时间步的替代表示;使用所述神经网络系统的输出层处理所述多个时间步的替代表示,其中所述输出层被配置为对于多个时间步中的每一个:接收所述时间步的替代表示,以及处理所述时间步的替代表示以生成定义所述时间步的多个可能的音频样本上的分数分布的输出;和对于所述多个时间步中的每一个,基于(i)所述时间步的多个可能的音频样本上的分数分布和(ii)所述音频数据的训练序列中所述时间步处的所述音频样本训练所述神经网络系统的所述多个参数。20.一种系统,包括:一个或多个计算机;以及一个或多个通信地耦合到所述一个或多个计算机的存储设备;其中,所述一个或多个存储设备存储指令,所述指令在由所述一个或多个计算机执行时使得所述一个或多个计算机执行用于训练具有多个参数的神经网络系统的操作,所述操作包括:
获得音频数据的训练序列,所述音频数据的训练序列包括在多个时间步中的每一个处的相应音频样本,使用所述神经网络系统的卷积子网络处理所述音频数据的训练序列,所述卷积子网络,包括一个或多个音频处理卷积神经网络层,其中所述卷积子网络被配置为对于多个时间步中的每一个:接收包括所述音频数据的训练序列中所述时间步之前的每个时间步处的相应音频样本的音频数据的当前序列,以及处理音频数据的当前序列以生成所述时间步的替代表示;使用所述神经网络系统的输出层处理所述多个时间步的替代表示,其中所述输出层被配置为对于多个时间步中的每一个:接收所述时间步的替代表示,以及处理所述时间步的替代表示以生成定义所述时间步的多个可能的音频样本上的分数分布的输出;和对于所述多个时间步中的每一个,基于(i)所述时间步的多个可能的音频样本上的分数分布和(ii)所述音频数据的训练序列中所述时间步处的所述音频样本训练所述神经网络系统的所述多个参数。21.一种由一个或多个计算机实施的神经网络系统,其中所述神经网络系统被配置为自回归地生成音频数据的输出序列,所述音频数据的输出序列包括在多个时间步中的每一个处的相应音频样本,其中,所述音频数据的输出序列是文本段的言语表达,并且其中所述神经网络系统包括:卷积子网络,包括一个或多个音频处理卷积神经网络层,其中所述卷积子网络...

【专利技术属性】
技术研发人员:AGA范登奥德SEL迪尔曼NE卡尔赫布伦纳K西蒙延O文雅尔斯
申请(专利权)人:渊慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利