歌声转换制造技术

技术编号:34764141 阅读:35 留言:0更新日期:2022-08-31 19:09
提供一种用于将与第一发音者相关联的歌唱的第一歌声转换为与第二发音者相关联的第二歌声的方法、计算机程序和计算机系统。对与一个或多个音素相关联的上下文进行编码,一个或多个音素对应于第一歌声,以及基于已编码的上下文,将一个或多个音素与一个或多个目标声学帧对齐。根据已对齐的音素和目标声学帧来递归地生成一个或多个梅尔谱图特征,以及通过使用所生成的梅尔谱图特征,将对应于第一歌声的样本转换为对应于第二歌声的样本。样本转换为对应于第二歌声的样本。样本转换为对应于第二歌声的样本。

【技术实现步骤摘要】
【国外来华专利技术】歌声转换
相关申请的交叉引用
[0001]本申请要求于2020年2月13日提交的第16/789,674号美国申请的优先权,该美国申请明确地通过引用整体并入本申请。


[0002]本公开总体上涉及计算领域,更具体地涉及数据处理。

技术介绍

[0003]歌唱是人类表达的重要方式,多年来,通过计算机进行语音合成已引起人们的兴趣。歌声转换是合成歌声的一种方式,通过歌声转换,可使用另一位歌手的声音提取和再现现存的歌声中存在的音乐表达。

技术实现思路

[0004]实施例涉及用于将第一歌声转换为第二歌声的方法、系统和计算机可读介质。根据一方面,提供一种用于将第一歌声转换为第二歌声的方法。该方法可包括:通过计算机对与一个或多个音素相关联的上下文进行编码,一个或多个音素对应于第一歌声。计算机可基于已编码的上下文,将一个或多个音素与一个或多个目标声学帧对齐,以及计算机可根据已对齐的音素和目标声学帧来递归地生成一个或多个梅尔谱图特征。计算机可使用所生成的梅尔谱图特征,将对应于第一歌声的样本转换为对应于第二歌声的样本。
[0005]根据另一方面,提供一种用于将第一歌声转换为第二歌声的计算机系统。计算机系统可包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储设备、以及存储在一个或多个存储设备中的至少一个上的程序指令,程序指令经由一个或多个存储器中的至少一个存储器由一个或多个处理器中的至少一个处理器执行,以使计算机系统能够执行一种方法。该方法可包括:通过计算机对与一个或多个音素相关联的上下文进行编码,一个或多个音素对应于第一歌声。计算机可基于已编码的上下文,将一个或多个音素与一个或多个目标声学帧对齐,以及计算机可根据已对齐的音素和目标声学帧来递归地生成一个或多个梅尔谱图特征。计算机可使用所生成的梅尔谱图特征,将对应于第一歌声的样本转换为对应于第二歌声的样本。
[0006]根据又一方面,提供一种用于将第一歌声转换为第二歌声的计算机可读介质。计算机可读介质存储可包括一个或多个计算机可读存储设备和存储在一个或多个有形存储设备中的至少一个上程序指令,程序指令由处理器执行。程序指令可由处理器执行以执行一种方法,该方法可相应地包括:通过计算机对与一个或多个音素相关联的上下文进行编码,一个或多个音素对应于第一歌声。计算机可基于已编码的上下文,将一个或多个音素与一个或多个目标声学帧对齐,以及计算机可根据已对齐的音素和目标声学帧来递归地生成一个或多个梅尔谱图特征。计算机可使用所生成的梅尔谱图特征,将对应于第一歌声的样本转换为对应于第二歌声的样本。
附图说明
[0007]通过结合附图阅读说明性实施例的以下详细描述,这些和其它目的、特征和优点将变得显而易见。附图的各个特征未按比例绘制,因为示图是为了清楚地便于本领域技术人员结合详细描述来理解。在附图中:图1示出了根据至少一个实施例的联网计算机环境;图2是根据至少一个实施例的将第一歌声转换为第二歌声的程序的框图;图3是示出根据至少一个实施例的将第一歌声转换为第二歌声的程序所执行的步骤的操作流程图;图4是根据至少一个实施例的图1所描绘的计算机和服务器的内部组件和外部组件的框图;图5是根据至少一个实施例的包括图1所描绘的计算机系统的说明性云计算环境的框图;以及图6是根据至少一个实施例的图5的说明性云计算环境的功能层的框图。
具体实施方式
[0008]本文公开了所要求保护的结构和方法的详细实施例;然而,可以理解到,所公开的实施例仅仅是所要求保护的结构和方法的说明,所要求保护的结构和方法可以以各种形式实施。然而,这些结构和方法可以以许多不同的形式实施,且不应解释为限于本文所阐述的示例性实施例。相反,提供这些示例性实施例以使得本公开将是彻底的和完整的,并向本领域技术人员充分地传达范围。在描述中,可省略众所周知的特征和技术的细节,以避免不必要地模糊所呈现的实施例。
[0009]实施例总体上涉及计算领域,更具体地涉及数据处理。以下描述的示例性实施例提供一种系统、方法和程序产品,该系统、方法和程序产品尤其用于在不改变第一歌声的上下文的情况下,将第一发音者的声音的音色转换为第二发音者的声音的音色。因此,一些实施例在没有并行数据的情况下通过使用深度神经网络来转换歌声,而具有改善数据处理领域的能力。
[0010]如之前所描述的,歌唱是人类表达的重要方式,多年来,通过计算机进行语音合成已引起人们的兴趣。歌声转换是合成歌声的一种方式,通过歌声转换,可使用另一位歌手的声音提取和再现现存的歌声中存在的音乐表达。然而,虽然歌声转换可能类似于语音转换,但是歌声转换相比语音转换可能需要处理更大范围的频率变化,以及处理歌声中存在的音量和音高的更尖锐的变化。歌声转换的性能可能高度依赖于被转换歌声的音乐的表达和被转换声音的音色与目标歌手声音的相似度。传统的歌声合成系统可使用基于级联或隐马尔可夫模型的方法,或者可能需要并行数据,例如,由源歌手和目标歌手演唱的同一首歌。因此,不需要并行数据进行训练,而是使用机器学习和神经网络进行歌声转换,可能是有利的。
[0011]在本文中,参考根据各实施例的方法、装置(系统)和计算机可读介质的流程图和/或框图来描述各方面。应理解,流程图和/或框图的每个框以及流程图和/或框图中的框的组合可由计算机可读程序指令实现。
[0012]以下描述的示例性实施例提供一种将第一歌声转换为第二歌声的系统、方法和程
序产品。根据本实施例,这种无监督歌声转换方法不需要任何并行数据,可以在多个发音者训练期间,通过学习与一个或多个发音者相关联的嵌入数据来实现。因此,该系统可通过简单地在嵌入之间切换发音者来转换歌声的音色,但不改变歌声的上下文。
[0013]现在参考图1,示出了联网计算机环境的功能框图,其中示出了改进第一歌声到第二歌声的转换的歌声转换系统100(在下文中称为“系统”)。应理解,图1仅提供一种实现方式的图示,并不意味着对于可实现不同实施例的环境的任何限制。可基于设计和实现要求来对所描绘的环境做出许多修改。
[0014]系统100可包括计算机102和服务器计算机114。计算机102可通过通信网络110(在下文中称为“网络”)与服务器计算机114通信。计算机102可包括处理器104和软件程序108,软件程序108存储在数据存储器件106上且能够与用户对接并与服务器计算机114通信。如下面将参考图4讨论的,计算机102可分别包括内部组件800A和外部组件900A,且服务器计算机114可分别包括内部组件800B和外部组件900B。例如,计算机102可以是移动设备、电话、个人数字助理、上网本、膝上型计算机、平板计算机、台式计算机、或者能够运行程序、访问网络和访问数据库的任何类型的计算设备。
[0015]服务器计算机114还可以在云计算服务模型中操作,云计算服务模型例如软件即服务(SaaS)、平台即服务(PaaS)或基础设施即服务(IaaS),如下面关于图5和图6所讨论的。服务器计算机114还可位于云计算部署模型中,云本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种将第一歌声转换为第二歌声的方法,包括:通过计算机对与一个或多个音素相关联的上下文进行编码,所述一个或多个音素对应于所述第一歌声;通过所述计算机基于已编码的上下文,将所述一个或多个音素与一个或多个目标声学帧对齐;通过所述计算机根据已对齐的音素和所述目标声学帧来递归地生成一个或多个梅尔谱图特征;以及通过所述计算机使用所生成的梅尔谱图特征,将对应于所述第一歌声的样本转换为对应于所述第二歌声的样本。2.根据权利要求1所述的方法,其中,所述编码包括:接收所述一个或多个音素的序列;和输出一个或多个隐藏状态的序列,所述一个或多个隐藏状态的序列包含与所接收的音素的序列相关联的顺序表示。3.根据权利要求2所述的方法,其中,所述将所述一个或多个音素与一个或多个目标声学帧对齐包括:将所述隐藏状态的输出序列与对应于所述第一歌声的信息级联;通过使用全连接层,对所级联的输出序列应用降维;基于与每个音素相关联的持续时间来扩展经降维的输出序列;以及将所扩展的输出序列与所述目标声学帧对齐。4.根据权利要求3所述的方法,进一步包括:将一个或多个帧对齐的隐藏状态与帧级别、均方根误差值以及与每一帧相关联的相对位置级联。5.根据权利要求4所述的方法,其中,根据对一个或多个输入音素和一个或多个声学特征执行的力对齐,获得每个音素的所述持续时间。6.根据权利要求1所述的方法,其中,所述基于已对齐的帧来生成一个或多个梅尔谱图特征包括:根据与所述一个或多个目标声学帧对齐的一个或多个已编码的隐藏状态,计算注意力上下文;和将CBHG技术应用于所计算的注意力上下文。7.根据权利要求6所述的方法,其中,与所述梅尔谱图相关联的损耗值被最小化。8.根据权利要求1所述的方法,其中,由递归神经网络执行所述生成一个或多个梅尔谱图特征。9.根据权利要求8所述的方法,其中,所述递归神经网络的输入包括所述一个或多个音素的序列、与所述一个或多个音素中的每一个相关联的持续时间、基频、均方根误差值以及与发音者相关联的身份。10.根据权利要求1所述的方法,其中,在没有并行数据且不改变与所述第一歌声相关联的上下文的情况下,将所述第一歌声转换为所述第二歌声。11.一种用于将第一歌声转换为第二歌声的计算机系统,所述计算机系统包括:一个或多个计算机可读的非暂时性存储介质,配置为存储计算机程序代码;和一个或多个计算机处理器,配置为访问所述计算机程序代码,并按照所述计算机程序
代码的指令进行操作,所述计算机程序代码包括:编码代码,配置为使得所述一个或多个计算机处理器对与一个或多个音素相关联的上下文进行编码,所述一个或多个音素对应于所述第一歌声;对齐代码,配置为使得所述一个或多个计算机处理器基于已编码的上下文,将所述一个或多个音素与一个或多个目标声学帧对齐;生成代码,配置为使得所述一个或多个计算机处理器根据...

【专利技术属性】
技术研发人员:俞承柱卢恒翁超俞栋
申请(专利权)人:腾讯美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1