从语音中学习歌声制造技术

技术编号：34943967 阅读：16 留言：0更新日期：2022-09-17 12:18

提供了一种用于使用与第二说话者相关联的第二人的说话语音将与第一说话者相关联的第一人的歌声语音转换成第二人的歌声语音的方法、计算机程序和计算机系统。对与一个或多个音素相关联的、与第一人的歌声语音相对应的上下文进行编码，并且基于已编码的上下文将一个或多个音素与一个或多个目标声学帧对准。根据已对准的音素、目标声学帧和第二人的说话语音的样本，递归地生成一个或多个梅尔语谱图特征。使用已生成的梅尔语谱图特征，将与第一人的歌声语音相对应的样本转换成与第二歌声语音相对应的样本。音相对应的样本。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】从语音中学习歌声
相关申请的交叉引用
[0001]本申请要求于2020年2月6日提交的美国申请16/783,807的优先权，该申请的全部内容通过引用明确地并入本申请中。

[0002]本公开总体上涉及计算领域，并且更具体地涉及数据处理。

技术介绍

[0003]歌唱是人类表达的重要手段，并且多年来计算机的语音合成一直受到关注。歌声语音转换是合成歌声语音的一种方式，通过该方式，可以提取存在于现有歌声中的音乐表达，并使用另一歌唱者的语音来再现该音乐表达。

技术实现思路

[0004]实施例涉及一种用于使用第二人的说话语音将第一人的歌声转换成第二人的歌声语音的方法、系统和计算机可读介质。根据一个方面，提供了一种用于使用第二人的说话语音将第一人的歌声语音转换成第二人的歌声语音的方法。该方法可以包括由计算机对与一个或多个音素相关联的、与第一人的歌声语音相对应的上下文进行编码。计算机可以基于已编码的所述上下文将一个或多个音素与一个或多个目标声学帧对准，并且可以根据已对准的所述音素和目标声学帧递归地生成一个或多个梅尔语谱图特征。由计算机使用基于第二人的说话语音的生成的梅尔语谱图特征将与第一人的歌声语音相对应的样本转换成与第二歌声语音相对应的样本。
[0005]根据另一方面，提供了一种用于使用第二人的说话语音将第一人的歌声语音转换成第二人的歌声语音的计算机系统。计算机系统可以包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储设备，以及存储在一个或多个存储设备中的至少一个上...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种使用第二人的说话语音将第一人的歌声语音转换成所述第二人的歌声语音的方法，其特征在于，所述方法包括：由计算机对上下文进行编码，所述上下文与一个或多个音素相关联，与第一人的所述歌声语音相对应；由所述计算机基于已编码的所述上下文，将所述一个或多个音素与一个或多个目标声学帧进行对准；由所述计算机根据已对准的所述音素、所述目标声学帧和所述第二人的所述说话语音的样本，递归地生成一个或多个梅尔语谱图特征；以及由所述计算机使用已生成的所述梅尔语谱图特征，将与第一人的所述歌声语音相对应的样本转换成与所述第二歌声语音相对应的样本。2.根据权利要求1所述的方法，其特征在于，所述编码包括：接收所述一个或多个音素的序列；以及输出一个或多个隐藏状态的序列，所述一个或多个隐藏状态的序列包含与已接收的所述音素的序列相关联的顺序表示。3.根据权利要求2所述的方法，其特征在于，所述将所述一个或多个音素与一个或多个目标声学帧进行对准，包括：将输出的隐藏状态的序列同与第一人的所述歌声语音相对应的信息进行连接；使用全连接层对已连接的所述输出序列应用降维；基于与每个音素相关联的持续时间，扩展已降维的所述输出序列；以及将已扩展的所述输出序列与所述目标声学帧进行对准。4.根据权利要求3所述的方法，其特征在于，所述方法进一步包括将一个或多个帧对准的隐藏状态与帧级别、均方根误差值以及每一帧相关联的相对位置进行连接。5.根据权利要求4所述的方法，其特征在于，所述每个音素的所述持续时间是通过对一个或多个输入音素和一个或多个声学特征执行强制对准来获得的。6.根据权利要求1所述的方法，其特征在于，基于对准的帧生成所述一个或多个梅尔语谱图特征，包括：从与所述一个或多个目标声学帧对准的一个或多个已编码隐藏状态计算注意上下文；以及将CBHG技术应用于计算出的所述注意上下文。7.根据权利要求6所述的方法，其特征在于，与所述梅尔语谱图相关联的损失值被最小化。8.根据权利要求1所述的方法，其特征在于，所述生成所述一个或多个梅尔语谱图特征由循环神经网络执行。9.根据权利要求8所述的方法，其特征在于，所述循环神经网络的输入包括所述一个或多个音素的序列、与所述一个或多个音素中的每个音素相关联的持续时间、基频、均方根误差值以及说话者相关联的身份。10.根据权利要求1所述的方法，其特征在于，在没有并行数据并且没有改变与第一人的所述歌声语音相关联的内容的情况下，将第一人的所述歌声语音转换成所述第二歌声语音。
11.一种用于使用第二人的说话语音将第一人的歌声语音转换成所述第二人的歌声语音的计算机系统，其特征在于，所述计算机系统包括：一个或多个计算机可读非易失性存储介质，被配置为存储计算机程序代码；以及一个或多个计算机处理器，被配置为访问所述计算机程序代码并且按照所述计算机程序代码的指示进行操作，所述计算机程序代码包括：编码代码，被配置为使所述一个或多个计算机处理器对上下文进行编码，所述上下文与一个或多个音素相关联，与第一人的所述歌声语音相对应；对准代码，被配置为使所述一个或多...

【专利技术属性】
技术研发人员：俞承柱，卢恒，翁超，俞栋，
申请(专利权)人：腾讯美国有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人