歌声转换制造技术

技术编号：34764141 阅读：35 留言：0更新日期：2022-08-31 19:09

提供一种用于将与第一发音者相关联的歌唱的第一歌声转换为与第二发音者相关联的第二歌声的方法、计算机程序和计算机系统。对与一个或多个音素相关联的上下文进行编码，一个或多个音素对应于第一歌声，以及基于已编码的上下文，将一个或多个音素与一个或多个目标声学帧对齐。根据已对齐的音素和目标声学帧来递归地生成一个或多个梅尔谱图特征，以及通过使用所生成的梅尔谱图特征，将对应于第一歌声的样本转换为对应于第二歌声的样本。样本转换为对应于第二歌声的样本。样本转换为对应于第二歌声的样本。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】歌声转换
相关申请的交叉引用
[0001]本申请要求于2020年2月13日提交的第16/789,674号美国申请的优先权，该美国申请明确地通过引用整体并入本申请。

[0002]本公开总体上涉及计算领域，更具体地涉及数据处理。

技术介绍

[0003]歌唱是人类表达的重要方式，多年来，通过计算机进行语音合成已引起人们的兴趣。歌声转换是合成歌声的一种方式，通过歌声转换，可使用另一位歌手的声音提取和再现现存的歌声中存在的音乐表达。

技术实现思路

[0004]实施例涉及用于将第一歌声转换为第二歌声的方法、系统和计算机可读介质。根据一方面，提供一种用于将第一歌声转换为第二歌声的方法。该方法可包括：通过计算机对与一个或多个音素相关联的上下文进行编码，一个或多个音素对应于第一歌声。计算机可基于已编码的上下文，将一个或多个音素与一个或多个目标声学帧对齐，以及计算机可根据已对齐的音素和目标声学帧来递归地生成一个或多个梅尔谱图特征。计算机可使用所生成的梅尔谱图特征，将对应于第一歌声的样本转换为对应于第二歌声的样本。
[0005]根据另一方面，提供一种用于将第一歌声转换为第二歌声的计算机系统。计算机系统可包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储设备、以及存储在一个或多个存储设备中的至少一个上的程序指令，程序指令经由一个或多个存储器中的至少一个存储器由一个或多个处理器中的至少一个处理器执行，以使计算机系统能够执行一种方法。该方法可包括：通过计算机对与一个或多个音素相...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种将第一歌声转换为第二歌声的方法，包括：通过计算机对与一个或多个音素相关联的上下文进行编码，所述一个或多个音素对应于所述第一歌声；通过所述计算机基于已编码的上下文，将所述一个或多个音素与一个或多个目标声学帧对齐；通过所述计算机根据已对齐的音素和所述目标声学帧来递归地生成一个或多个梅尔谱图特征；以及通过所述计算机使用所生成的梅尔谱图特征，将对应于所述第一歌声的样本转换为对应于所述第二歌声的样本。2.根据权利要求1所述的方法，其中，所述编码包括：接收所述一个或多个音素的序列；和输出一个或多个隐藏状态的序列，所述一个或多个隐藏状态的序列包含与所接收的音素的序列相关联的顺序表示。3.根据权利要求2所述的方法，其中，所述将所述一个或多个音素与一个或多个目标声学帧对齐包括：将所述隐藏状态的输出序列与对应于所述第一歌声的信息级联；通过使用全连接层，对所级联的输出序列应用降维；基于与每个音素相关联的持续时间来扩展经降维的输出序列；以及将所扩展的输出序列与所述目标声学帧对齐。4.根据权利要求3所述的方法，进一步包括：将一个或多个帧对齐的隐藏状态与帧级别、均方根误差值以及与每一帧相关联的相对位置级联。5.根据权利要求4所述的方法，其中，根据对一个或多个输入音素和一个或多个声学特征执行的力对齐，获得每个音素的所述持续时间。6.根据权利要求1所述的方法，其中，所述基于已对齐的帧来生成一个或多个梅尔谱图特征包括：根据与所述一个或多个目标声学帧对齐的一个或多个已编码的隐藏状态，计算注意力上下文；和将CBHG技术应用于所计算的注意力上下文。7.根据权利要求6所述的方法，其中，与所述梅尔谱图相关联的损耗值被最小化。8.根据权利要求1所述的方法，其中，由递归神经网络执行所述生成一个或多个梅尔谱图特征。9.根据权利要求8所述的方法，其中，所述递归神经网络的输入包括所述一个或多个音素的序列、与所述一个或多个音素中的每一个相关联的持续时间、基频、均方根误差值以及与发音者相关联的身份。10.根据权利要求1所述的方法，其中，在没有并行数据且不改变与所述第一歌声相关联的上下文的情况下，将所述第一歌声转换为所述第二歌声。11.一种用于将第一歌声转换为第二歌声的计算机系统，所述计算机系统包括：一个或多个计算机可读的非暂时性存储介质，配置为存储计算机程序代码；和一个或多个计算机处理器，配置为访问所述计算机程序代码，并按照所述计算机程序
代码的指令进行操作，所述计算机程序代码包括：编码代码，配置为使得所述一个或多个计算机处理器对与一个或多个音素相关联的上下文进行编码，所述一个或多个音素对应于所述第一歌声；对齐代码，配置为使得所述一个或多个计算机处理器基于已编码的上下文，将所述一个或多个音素与一个或多个目标声学帧对齐；生成代码，配置为使得所述一个或多个计算机处理器根据...

【专利技术属性】
技术研发人员：俞承柱，卢恒，翁超，俞栋，
申请(专利权)人：腾讯美国有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人