使用神经网络生成音频制造技术

技术编号：27199406 阅读：28 留言：0更新日期：2021-01-31 12:04

方法、系统和装置，包括编码在计算机存储介质上的计算机程序，用于生成包括多个时间步中的每一个处的相应音频样本的音频数据的输出序列。方法之一包括，对于时间步中的每一个：提供音频数据的当前序列作为卷积子网络的输入，其中当前序列包括输出序列中该时间步之前的每个时间步处的相应音频样本，并且其中卷积子网络被配置为处理音频数据的当前序列以生成时间步的替代表示；以及提供时间步的替代表示作为输出层的输入，其中输出层被配置为：处理替代表示以生成定义时间步的多个可能的音频样本上的分数分布的输出。频样本上的分数分布的输出。频样本上的分数分布的输出。

全部详细技术资料下载

【技术实现步骤摘要】
使用神经网络生成音频
[0001]本申请是申请日为2017年09月06日、申请号为201780065523.6、专利技术名称为“使用神经网络生成音频”的PCT专利技术专利申请的分案申请。

[0002]本专利技术通常涉及提供一种神经网络，并且更具体地涉及使用神经网络处理和生成音频。

技术介绍

[0003]本说明书涉及使用神经网络处理和生成音频。
[0004]神经网络是机器学习模型，它采用一层或多层非线性单元来对于接收的输入预测输出。一些神经网络除了输出层之外还包括一个或多个隐藏层。在网络中，每个隐藏层的输出被用作下一层(即，下一隐藏层或输出层)的输入。网络的每一层根据相应参数集的当前值从接收的输入生成输出。

技术实现思路

[0005]本说明书描述了在一个或多个位置的一个或多个计算机上实施为计算机程序的系统可以如何生成包括多个时间步中的每一个处的相应音频样本的音频数据序列。例如，音频数据序列可以用特定的自然语言或一段音乐来表示语音。
[0006]在一个创新方面，由一个或多个计算机实施的神经网络系统被配置为生成包括多个时间步中的每一个处的相应音频样本的音频数据的输出序列。神经网络系统可以包括卷积子网络，该卷积子网络包括一个或多个音频处理卷积神经网络层；和输出层。卷积子网络可以被配置为，对于多个时间步中的每一个：接收包括输出序列中该(当前)时间步之前的每个时间步处的相应音频样本的音频数据的当前序列。卷积子网络还可以被配置为处理音频数据的当前序列，以生成时间(当前)步的替代表示。替代表示...

【技术保护点】

【技术特征摘要】
1.一种用于训练具有多个参数的神经网络系统的方法，所述方法包括：获得音频数据的训练序列，所述音频数据的训练序列包括在多个时间步中的每一个处的相应音频样本，使用所述神经网络系统的卷积子网络处理所述音频数据的训练序列，所述卷积子网络包括一个或多个音频处理卷积神经网络层，其中所述卷积子网络被配置为对于多个时间步中的每一个：接收包括所述音频数据的训练序列中所述时间步之前的每个时间步处的相应音频样本的音频数据的当前序列，以及处理音频数据的当前序列以生成所述时间步的替代表示；使用所述神经网络系统的输出层处理所述多个时间步的替代表示，其中所述输出层被配置为对于多个时间步中的每一个：接收所述时间步的替代表示，以及处理所述时间步的替代表示以生成定义所述时间步的多个可能的音频样本上的分数分布的输出；和对于所述多个时间步中的每一个，基于(i)所述时间步的多个可能的音频样本上的分数分布和(ii)所述音频数据的训练序列中所述时间步处的所述音频样本训练所述神经网络系统的所述多个参数。2.根据权利要求1所述的方法，其中，所述神经网络系统的卷积子网络与处理每个其它时间步的音频数据的当前序列实质并行地处理每个时间步的音频数据的当前序列。3.根据权利要求1所述的方法，其中训练所述神经网络系统的多个参数包括使用基于反向传播技术训练所述神经网络系统的多个参数。4.根据权利要求1所述的方法，其中所述多个时间步中的每一个与音频波形中的相应时间对应，在所述多个时间步中的每一个处的相应音频样本是在对应时间处的音频波形的幅度值，以及所述多个时间步中的每一个的相应分数分布包括多个可能的幅度值上的分数分布。5.根据权利要求1所述的方法，其中所述多个时间步中的每一个与音频波形中的相应时间对应，在所述多个时间步中的每一个处的相应音频样本是在对应时间处的音频波形的压缩表示，并且所述多个时间步中的每一个的相应分数分布包括在多个可能的压缩值上的分数分布。6.根据权利要求1所述的方法，其中所述多个时间步中的每一个对应于音频波形中的相应时间，在所述多个时间步中的每一个处的相应音频样本是在对应时间处的音频波形的缩扩表示，并且所述多个时间步中的每一个的相应分数分布包括在多个可能的缩扩值上的分数分布。7.根据权利要求1所述的方法，其中所述音频处理卷积神经网络层是因果卷积神经网络层。8.根据权利要求1所述的方法，其中所述音频处理卷积神经网络层包括一个或多个扩张卷积神经网络层。9.根据权利要求1所述的方法，其中所述音频处理卷积神经网络层包括扩张卷积神经网络层的多个块，其中每个块包括具有增大的扩张因子的多个扩张卷积神经网络层。
10.根据权利要求1所述的方法，其中所述音频处理卷积神经网络层中的一个或多个具有门控激活单元。11.根据权利要求1所述的方法，其中，在所述多个时间步中的每一个处，基于提供给所述神经网络系统的附加输入调节所述替代表示。12.根据权利要求11所述的方法，其中所述附加输入包括文本段的特征，并且其中所述音频数据的训练序列表示所述文本段的言语表达。13.根据权利要求12所述的方法，其中，所述附加输入还包括语调模式值。14.根据权利要求11所述的方法，其中，所述附加输入包括以下中的一个或多个：说话者标识信息、语言标识信息和说话风格信息。15.根据权利要求1所述的方法，其中所述音频数据的训练序列表示一段音乐。16.根据权利要求1所述的方法，其中所述卷积子网络包括残差连接。17.根据权利要求1所述的方法，其中所述卷积子网络包括跳跃连接。18.根据权利要求1所述的方法，其中处理音频数据的当前序列以生成时间步的替代表示包括重复使用为其它时间步计算的值。19.存储指令的一个或多个非暂态计算机存储介质，所述指令在由一个或多个计算机执行时使得所述一个或多个计算机执行用于训练具有多个参数的神经网络系统的操作，所述操作包括：获得音频数据的训练序列，所述音频数据的训练序列包括在多个时间步中的每一个处的相应音频样本，使用所述神经网络系统的卷积子网络处理所述音频数据的训练序列，所述卷积子网络，包括一个或多个音频处理卷积神经网络层，其中所述卷积子网络被配置为对于多个时间步中的每一个：接收包括所述音频数据的训练序列中所述时间步之前的每个时间步处的相应音频样本的音频数据的当前序列，以及处理音频数据的当前序列以生成所述时间步的替代表示；使用所述神经网络系统的输出层处理所述多个时间步的替代表示，其中所述输出层被配置为对于多个时间步中的每一个：接收所述时间步的替代表示，以及处理所述时间步的替代表示以生成定义所述时间步的多个可能的音频样本上的分数分布的输出；和对于所述多个时间步中的每一个，基于(i)所述时间步的多个可能的音频样本上的分数分布和(ii)所述音频数据的训练序列中所述时间步处的所述音频样本训练所述神经网络系统的所述多个参数。20.一种系统，包括：一个或多个计算机；以及一个或多个通信地耦合到所述一个或多个计算机的存储设备；其中，所述一个或多个存储设备存储指令，所述指令在由所述一个或多个计算机执行时使得所述一个或多个计算机执行用于训练具有多个参数的神经网络系统的操作，所述操作包括：
获得音频数据的训练序列，所述音频数据的训练序列包括在多个时间步中的每一个处的相应音频样本，使用所述神经网络系统的卷积子网络处理所述音频数据的训练序列，所述卷积子网络，包括一个或多个音频处理卷积神经网络层，其中所述卷积子网络被配置为对于多个时间步中的每一个：接收包括所述音频数据的训练序列中所述时间步之前的每个时间步处的相应音频样本的音频数据的当前序列，以及处理音频数据的当前序列以生成所述时间步的替代表示；使用所述神经网络系统的输出层处理所述多个时间步的替代表示，其中所述输出层被配置为对于多个时间步中的每一个：接收所述时间步的替代表示，以及处理所述时间步的替代表示以生成定义所述时间步的多个可能的音频样本上的分数分布的输出；和对于所述多个时间步中的每一个，基于(i)所述时间步的多个可能的音频样本上的分数分布和(ii)所述音频数据的训练序列中所述时间步处的所述音频样本训练所述神经网络系统的所述多个参数。21.一种由一个或多个计算机实施的神经网络系统，其中所述神经网络系统被配置为自回归地生成音频数据的输出序列，所述音频数据的输出序列包括在多个时间步中的每一个处的相应音频样本，其中，所述音频数据的输出序列是文本段的言语表达，并且其中所述神经网络系统包括：卷积子网络，包括一个或多个音频处理卷积神经网络层，其中所述卷积子网络...

【专利技术属性】
技术研发人员：AGA范登奥德，SEL迪尔曼，NE卡尔赫布伦纳，K西蒙延，O文雅尔斯，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人