从语音中学习歌声制造技术

技术编号:34943967 阅读:16 留言:0更新日期:2022-09-17 12:18
提供了一种用于使用与第二说话者相关联的第二人的说话语音将与第一说话者相关联的第一人的歌声语音转换成第二人的歌声语音的方法、计算机程序和计算机系统。对与一个或多个音素相关联的、与第一人的歌声语音相对应的上下文进行编码,并且基于已编码的上下文将一个或多个音素与一个或多个目标声学帧对准。根据已对准的音素、目标声学帧和第二人的说话语音的样本,递归地生成一个或多个梅尔语谱图特征。使用已生成的梅尔语谱图特征,将与第一人的歌声语音相对应的样本转换成与第二歌声语音相对应的样本。音相对应的样本。

【技术实现步骤摘要】
【国外来华专利技术】从语音中学习歌声
相关申请的交叉引用
[0001]本申请要求于2020年2月6日提交的美国申请16/783,807的优先权,该申请的全部内容通过引用明确地并入本申请中。


[0002]本公开总体上涉及计算领域,并且更具体地涉及数据处理。

技术介绍

[0003]歌唱是人类表达的重要手段,并且多年来计算机的语音合成一直受到关注。歌声语音转换是合成歌声语音的一种方式,通过该方式,可以提取存在于现有歌声中的音乐表达,并使用另一歌唱者的语音来再现该音乐表达。

技术实现思路

[0004]实施例涉及一种用于使用第二人的说话语音将第一人的歌声转换成第二人的歌声语音的方法、系统和计算机可读介质。根据一个方面,提供了一种用于使用第二人的说话语音将第一人的歌声语音转换成第二人的歌声语音的方法。该方法可以包括由计算机对与一个或多个音素相关联的、与第一人的歌声语音相对应的上下文进行编码。计算机可以基于已编码的所述上下文将一个或多个音素与一个或多个目标声学帧对准,并且可以根据已对准的所述音素和目标声学帧递归地生成一个或多个梅尔语谱图特征。由计算机使用基于第二人的说话语音的生成的梅尔语谱图特征将与第一人的歌声语音相对应的样本转换成与第二歌声语音相对应的样本。
[0005]根据另一方面,提供了一种用于使用第二人的说话语音将第一人的歌声语音转换成第二人的歌声语音的计算机系统。计算机系统可以包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储设备,以及存储在一个或多个存储设备中的至少一个上存储设备的程序指令,程序指令用于经由一个或多个存储器中的至少一个存储器由一个或多个处理器中的至少一个处理器来执行,由此计算机系统能够执行方法。该方法可以包括由计算机对与一个或多个音素相关联的、与第一人的歌声语音相对应的上下文进行编码。计算机可以基于已编码的所述上下文将一个或多个音素与一个或多个目标声学帧对准,并且可以根据已对准的所述音素和目标声学帧递归地生成一个或多个梅尔语谱图特征。由计算机使用基于第二人的说话语音的生成的梅尔语谱图特征将与第一人的歌声语音相对应的样本转换成与第二歌声语音相对应的样本。
[0006]根据又一方面,提供了一种用于使用第二人的说话语音将第一人的歌声语音转换成第二人的歌声语音的计算机可读介质。计算机可读介质可以包括一个或多个计算机可读存储设备和存储在一个或多个有形存储设备中的至少一个有形存储设备上的程序指令,程序指令可由处理器执行。程序指令可由处理器执行以用于执行方法,该方法可以相应地包括由计算机对与一个或多个音素相关联的、与第一人的歌声语音相对应的上下文进行编
码。计算机可以基于已编码的所述上下文将一个或多个音素与一个或多个目标声学帧对准,并且可以根据已对准的所述音素和目标声学帧递归地生成一个或多个梅尔语谱图特征。由计算机使用基于第二人的说话语音的生成的梅尔语谱图特征将与第一人的歌声语音相对应的样本转换成与第二歌声语音相对应的样本。
附图说明
[0007]从下面结合附图阅读的说明性实施例的详细描述中,这些和其它目的、特征和优点将变得明显。附图的各种特征不是按比例绘制的,因为为了清楚起见,结合详细说明,这些图示有助于本领域技术人员的理解。在附图中:图1图示了根据至少一个实施例的联网计算机环境;图2是根据至少一个实施例的使用第二人的说话语音将第一人的歌声语音转换成第二人的歌声语音的程序的框图;图3是图示根据至少一个实施例的由程序执行的步骤的操作流程图,该程序使用第二人的说话语音将第一人的歌声语音转换成第二人的歌声语音;图4是根据至少一个实施例的图1中描绘的计算机和服务器的内部组件和外部组件的框图;图5是根据至少一个实施例的包括图1中描绘的计算机系统的说明性云计算环境的框图;以及图6是根据至少一个实施例的图5的说明性云计算环境的功能层的框图。
具体实施方式
[0008]本文公开了所要求保护的结构和方法的详细实施例;然而,可以理解,所公开的实施例仅仅是可以以各种形式实施的所要求保护的结构和方法的说明。实施例可以是许多不同的形式,并且不应该被解释为限于本文中所阐述的示例性实施例。相反,提供这些示例性实施例是为了使本公开彻底和完整,并且将向本领域技术人员充分传达范围。在描述中,可以省略公知特征和技术的细节,以避免不必要地模糊所呈现的实施例。
[0009]实施例总体上涉及计算领域,并且更具体地涉及数据处理。以下描述的示例性实施例提供了一种系统、方法和程序产品等,以在不改变第一人的歌声语音的内容的情况下,将第一说话者的语音的音质转换成第二说话者的语音的音质。因此,通过允许使用深度神经网络在没有并行数据的情况下转换歌声语音,一些实施例具有改进数据处理领域的能力。
[0010]如前所述,歌唱是人类表达的重要手段,并且多年来计算机的语音合成一直受到关注。歌声语音转换是合成歌声语音的一种方式,通过该方式,可以提取存在于现有歌声语音中的音乐表达,并使用另一歌唱者的语音来再现该音乐表达。虽然数据高效的歌声合成和无监督的歌声语音转换方法可以有效地生成具有新语音的歌声,但是这些方法可能仍然需要来自目标说话者的最少量的歌声语音样本,这可能将歌声语音合成的应用限制到相对受限的场景,该场景中目标说话者的歌声语音是可用的。另一方面,正常语音样本比歌声更容易收集。因此,使用机器学习和神经网络,通过从语音样本学习目标说话者的语音特性,来直接合成具有目标说话者的语音的自然歌声可能是有利的。
[0011]本文参考根据各个实施例的方法、装置(系统)和计算机可读介质的流程图图示和/或框图来描述各方面。应当理解,流程图图示和/或框图中的每个框以及流程图图示和/或框图中的框的组合可以由计算机可读程序指令实现。
[0012]以下描述的示例性实施例提供了一种将第一歌声语音转换成第二歌声语音的系统、方法和程序产品。根据本实施例,该方法可以允许程序学习与说话者对应的数据,使得针对语音合成任务学习的说话者数据可以用于歌声合成,反之亦然。为此目的,自回归生成模型、持续时间通知注意网络(DurIAN)可以用于将文本到语音和歌声合成统一为单个框架。最初为多模态合成任务提出的DurIAN本质上是自回归特征生成框架,该自回归特征生成框架可以逐帧地从任何音频源生成声学特征(例如,梅尔语谱图)。在本文中公开的系统、方法和计算机可读介质中,音素持续时间、基频(F0)和均方根能量(Root

Mean

Square Energy,RMSE)可以从包含歌声或正常语音的训练数据中提取,并且可以用作重建目标声学特征的输入。将可学习的说话者数据用作模型的条件输入,来联合训练模型。通过使用他或她的说话者嵌入作为条件输入,经训练的模型和说话者数据可以用于将任何歌声转换成目标说话者的语音。
[0013]现在参考图1,示出了网络化计算机环境的功能框图,其图示了歌声转换系统100(下文称为“系统”)。该系统用于通过使用第二人的说话语音,将第一人的歌声语音改进转换成第二人的歌声语音。应当本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种使用第二人的说话语音将第一人的歌声语音转换成所述第二人的歌声语音的方法,其特征在于,所述方法包括:由计算机对上下文进行编码,所述上下文与一个或多个音素相关联,与第一人的所述歌声语音相对应;由所述计算机基于已编码的所述上下文,将所述一个或多个音素与一个或多个目标声学帧进行对准;由所述计算机根据已对准的所述音素、所述目标声学帧和所述第二人的所述说话语音的样本,递归地生成一个或多个梅尔语谱图特征;以及由所述计算机使用已生成的所述梅尔语谱图特征,将与第一人的所述歌声语音相对应的样本转换成与所述第二歌声语音相对应的样本。2.根据权利要求1所述的方法,其特征在于,所述编码包括:接收所述一个或多个音素的序列;以及输出一个或多个隐藏状态的序列,所述一个或多个隐藏状态的序列包含与已接收的所述音素的序列相关联的顺序表示。3.根据权利要求2所述的方法,其特征在于,所述将所述一个或多个音素与一个或多个目标声学帧进行对准,包括:将输出的隐藏状态的序列同与第一人的所述歌声语音相对应的信息进行连接;使用全连接层对已连接的所述输出序列应用降维;基于与每个音素相关联的持续时间,扩展已降维的所述输出序列;以及将已扩展的所述输出序列与所述目标声学帧进行对准。4.根据权利要求3所述的方法,其特征在于,所述方法进一步包括将一个或多个帧对准的隐藏状态与帧级别、均方根误差值以及每一帧相关联的相对位置进行连接。5.根据权利要求4所述的方法,其特征在于,所述每个音素的所述持续时间是通过对一个或多个输入音素和一个或多个声学特征执行强制对准来获得的。6.根据权利要求1所述的方法,其特征在于,基于对准的帧生成所述一个或多个梅尔语谱图特征,包括:从与所述一个或多个目标声学帧对准的一个或多个已编码隐藏状态计算注意上下文;以及将CBHG技术应用于计算出的所述注意上下文。7.根据权利要求6所述的方法,其特征在于,与所述梅尔语谱图相关联的损失值被最小化。8.根据权利要求1所述的方法,其特征在于,所述生成所述一个或多个梅尔语谱图特征由循环神经网络执行。9.根据权利要求8所述的方法,其特征在于,所述循环神经网络的输入包括所述一个或多个音素的序列、与所述一个或多个音素中的每个音素相关联的持续时间、基频、均方根误差值以及说话者相关联的身份。10.根据权利要求1所述的方法,其特征在于,在没有并行数据并且没有改变与第一人的所述歌声语音相关联的内容的情况下,将第一人的所述歌声语音转换成所述第二歌声语音。
11.一种用于使用第二人的说话语音将第一人的歌声语音转换成所述第二人的歌声语音的计算机系统,其特征在于,所述计算机系统包括:一个或多个计算机可读非易失性存储介质,被配置为存储计算机程序代码;以及一个或多个计算机处理器,被配置为访问所述计算机程序代码并且按照所述计算机程序代码的指示进行操作,所述计算机程序代码包括:编码代码,被配置为使所述一个或多个计算机处理器对上下文进行编码,所述上下文与一个或多个音素相关联,与第一人的所述歌声语音相对应;对准代码,被配置为使所述一个或多...

【专利技术属性】
技术研发人员:俞承柱卢恒翁超俞栋
申请(专利权)人:腾讯美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1