基于音调对抗网络的无监督歌声语音转换制造技术

技术编号:35092755 阅读:20 留言:0更新日期:2022-10-01 16:52
提供了一种用于歌声语音转换的方法、计算机可读介质及计算机系统。接收与歌声语音相对应的数据。使用一个或多个对抗神经网络从接收的所述数据中提取一个或多个特征和音调数据。基于提取的所述音调数据和一个或多个特征生成一个或多个音频样本。成一个或多个音频样本。成一个或多个音频样本。

【技术实现步骤摘要】
【国外来华专利技术】基于音调对抗网络的无监督歌声语音转换
相关申请的交叉引用
[0001]本申请要求于2020年3月3日提交的美国申请16/807,851的优先权,该申请的全部内容通过引用明确地并入本申请中。


[0002]本公开总体上涉及计算领域,并且更具体地涉及数据处理。

技术介绍

[0003]歌唱是人类表达的重要手段,并且多年来计算机的语音合成一直受到关注。歌声语音转换是合成歌声语音的一种方式,通过该方式,可以提取存在于现有歌声中的音乐表达,并使用另一歌唱者的语音来再现该音乐表达。

技术实现思路

[0004]实施例涉及用于歌声语音转换的方法、系统和计算机可读介质。根据一个方面,提供了一种用于歌声语音转换的方法。该方法可以包括接收与歌声语音相对应的数据。使用一个或多个对抗神经网络从接收的数据中提取一个或多个特征和音调数据。基于提取的音调数据和一个或多个特征,生成一个或多个音频样本。
[0005]根据另一方面,提供了一种用于将第一歌声语音转换成第二歌声语音的计算机系统。计算机系统可以包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储设备,以及存储在一个或多个存储设备中的至少一个上存储设备的程序指令,程序指令用于经由一个或多个存储器中的至少一个存储器由一个或多个处理器中的至少一个处理器来执行,由此计算机系统能够执行方法。该方法可以包括接收与歌声语音相对应的数据。使用一个或多个对抗神经网络从接收的数据中提取一个或多个特征和音调数据。基于提取的音调数据和一个或多个特征,生成一个或多个音频样本。
[0006]根据又一方面,提供了一种用于将第一歌声语音转换成第二歌声语音的计算机可读介质。计算机可读介质可以包括一个或多个计算机可读存储设备和存储在一个或多个有形存储设备中的至少一个有形存储设备上的程序指令,程序指令可由处理器执行。程序指令可由处理器执行,以用于执行方法。方法相应地包括接收与歌声语音相对应的数据。使用一个或多个对抗神经网络从接收的数据中提取一个或多个特征和音调数据。基于提取的音调数据和一个或多个特征,生成一个或多个音频样本。
附图说明
[0007]从下面结合附图阅读的说明性实施例的详细描述中,这些和其它目的、特征和优点将变得显而易见。附图的各种特征不是按比例绘制的,因为为了清楚起见,这些图示结合详细描述有助于本领域技术人员的理解。在附图中:图1图示了根据至少一个实施例的联网计算机环境;
图2是根据至少一个实施例的转换歌声语音的程序的框图;图3是图示根据至少一个实施例的由转换歌声语音的程序执行的步骤的操作流程图;图4是根据至少一个实施例的图1中描绘的计算机和服务器的内部组件和外部组件的框图;图5是根据至少一个实施例的包括图1中描绘的计算机系统的说明性云计算环境的框图;以及图6是根据至少一个实施例的图5的说明性云计算环境的功能层的框图。
具体实施方式
[0008]本文公开了所要求保护的结构和方法的详细实施例;然而,可以理解,所公开的实施例仅仅是可以以各种形式实施的所要求保护的结构和方法的说明。然而,这些结构和方法可以以许多不同的形式来实施,并且不应当被解释为限于本文中所阐述的示例性实施例。相反,提供这些示例性实施例是为了使本公开彻底和完整,并且将向本领域技术人员充分传达范围。在描述中,可以省略公知特征和技术的细节,以避免不必要地模糊所呈现的实施例。
[0009]实施例总体上涉及计算领域,并且更具体地涉及数据处理。以下描述的示例性实施例提供了一种系统、方法和程序产品,使用对抗神经网络来转换歌声语音以生成具有不走调的、自然发声音调的歌声语音。因此,一些实施例,通过允许使用深度神经网络在没有并行数据的情况下转换歌声语音,具有改进数据处理领域的能力,以在实现灵活的音调操纵的同时大大提高转换的语音的质量。
[0010]如先前所描述的,歌唱是人类表达的重要手段,并且多年来计算机的语音合成一直受到关注。歌声语音转换是合成歌声语音的一种方式,通过该方式,可以提取存在于现有歌声中的音乐表达,并使用另一歌唱者的语音来再现该音乐表达。然而,尽管歌声语音转换可以类似于言语转换,但是歌声语音转换可能需要比言语转换处理更宽范围的频率变化,以及歌声语音中存在的音量和音调的更急剧的变化。歌声转换的性能可能高度取决于转换的歌声的音乐表达,以及转换的语音音色与目标歌手的语音相比的相似性。传统的歌声合成系统可以使用基于串接式模型或隐式马尔可夫模型的方法,或者可能需要并行数据,诸如由源歌手和目标歌手歌唱的相同歌曲。因此,使用机器学习和神经网络来进行歌声语音转换可能是有利的,而不需要用于训练的并行数据。本文中描述的歌声语音转换可以通过在多说话人训练期间学习说话人嵌入(speaker embedding)来实现,并且能够通过简单地在嵌入之间切换说话人来转换歌唱的音色而不改变其内容。与现有的无监督歌声语音转换方法相比,使用经对抗训练的音调回归网络可以允许编码器网络不仅学习歌手不变的表示而且学习音调不变的表示,以及从源音频提取音调以用作解码器的附加输入。
[0011]本文中参考根据各个实施例的方法、装置(系统)和计算机可读介质的流程图和/或框图来描述各方面。应当理解,流程图图示和/或框图中的每个框以及流程图图示和/或框图中的框的组合可以由计算机可读程序指令实现。
[0012]以下描述的示例性实施例提供了一种将第一歌声语音转换成第二歌声语音的系统、方法和程序产品。根据本实施例,这种不需要任何并行数据的无监督歌声语音转换方法
可以通过在多说话人训练期间学习与一个或多个说话人相关联的嵌入数据来实现。因此,该系统能够通过简单地在嵌入之间切换说话人来转换歌声的音色而不改变其内容。
[0013]现在参考图1,示出了联网计算机环境的功能框图,其图示了改进地用于将第一歌声语音转换成第二歌声语音的歌声语音转换系统100(以下称为“系统”)。应当理解,图1仅提供了一种实现方式的图示,并不意味着对可以实现不同实施例的环境的任何限制。可以基于设计和实现方式要求对描绘的环境进行许多修改。
[0014]系统100可以包括计算机102和服务器计算机114。计算机102可以与经由通信网络110(下文称为“网络”)与服务器计算机114通信。计算机102可以包括处理器104和软件程序108,软件程序108存储在数据存储设备106上并且能够与用户接口并与服务器计算机114通信。如下面将参考图4讨论的,计算机102可以分别包括内部组件800A和外部组件900A,并且服务器计算机114可以分别包括内部组件800B和外部组件900B。计算机102可以是例如移动设备、电话、个人数字助理、网络手册、膝上型计算机、平板计算机、台式计算机或任何类型的能够运行程序、访问网络和访问数据库的计算设备。
[0015]服务器计算机114还可以在云计算服务模型中操作,云计算服务模型诸如如以下关于图5和图6所讨论的软件即服务(SaaS)、平台即服务(PaaS)或基础设施即服务(IaaS)。服务器计算机114本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于歌声语音转换的方法,由一个或多个计算机处理器执行,其特征在于,所述方法包括:接收与歌声语音相对应的数据;从接收的所述数据中提取一个或多个特征;从接收的所述数据中提取音调数据;以及基于提取的所述音调数据和所述一个或多个特征生成一个或多个音频样本。2.根据权利要求1所述的方法,其特征在于,所述音调数据是使用音调回归对抗神经网络来提取的。3.根据权利要求2所述的方法,其特征在于,所述对抗神经网络包括漏失层、两个卷积神经网络和全连接层。4.根据权利要求1所述的方法,其特征在于,所述特征是基于对与所述歌声语音相关联的歌手的识别来提取的。5.根据权利要求4所述的方法,其特征在于,所述识别是由歌手分类对抗神经网络执行的。6.根据权利要求5所述的方法,其特征在于,所述歌手分类对抗神经网络包括漏失层、两个卷积神经网络和全连接层。7.根据权利要求1所述的方法,其特征在于,进一步包括计算歌手分类损失值和音调回归损失值。8.根据权利要求7所述的方法,其特征在于,基于使所述歌手分类损失值和所述音调回归损失值最小化,将所述歌手分类损失值和所述音调回归损失值用作训练值。9.根据权利要求1所述的方法,其特征在于,接收的歌声语音数据被使用平均池化函数进行压缩。10.根据权利要求1所述的方法,其特征在于,所述音频样本是在没有并行数据并且没有改变与所述歌声语音相关联的内容的情况下生成的。11.一种用于歌声语音转换的计算机系统,其特征在于,所述计算机系统包括:一个或多个计算机可读非易失性存储介质,被配置为存储计算机程序代码;以及一个或多个计算机处理器,被配置为访问所述计算机程序代码并且如所述计算机程序代码所指示地操作,所述计算机程序代码包括:接收代码,被配置为使所述一个或多个计算机处理器接收与歌声语音相对应的数据;第一提取代码,被配置为使所述一个或多个计算机处理器从接收的...

【专利技术属性】
技术研发人员:俞承柱卢恒翁超俞栋
申请(专利权)人:腾讯美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1