基于音调对抗网络的无监督歌声语音转换制造技术

技术编号：35092755 阅读：20 留言：0更新日期：2022-10-01 16:52

提供了一种用于歌声语音转换的方法、计算机可读介质及计算机系统。接收与歌声语音相对应的数据。使用一个或多个对抗神经网络从接收的所述数据中提取一个或多个特征和音调数据。基于提取的所述音调数据和一个或多个特征生成一个或多个音频样本。成一个或多个音频样本。成一个或多个音频样本。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】基于音调对抗网络的无监督歌声语音转换
相关申请的交叉引用
[0001]本申请要求于2020年3月3日提交的美国申请16/807,851的优先权，该申请的全部内容通过引用明确地并入本申请中。

[0002]本公开总体上涉及计算领域，并且更具体地涉及数据处理。

技术介绍

[0003]歌唱是人类表达的重要手段，并且多年来计算机的语音合成一直受到关注。歌声语音转换是合成歌声语音的一种方式，通过该方式，可以提取存在于现有歌声中的音乐表达，并使用另一歌唱者的语音来再现该音乐表达。

技术实现思路

[0004]实施例涉及用于歌声语音转换的方法、系统和计算机可读介质。根据一个方面，提供了一种用于歌声语音转换的方法。该方法可以包括接收与歌声语音相对应的数据。使用一个或多个对抗神经网络从接收的数据中提取一个或多个特征和音调数据。基于提取的音调数据和一个或多个特征，生成一个或多个音频样本。
[0005]根据另一方面，提供了一种用于将第一歌声语音转换成第二歌声语音的计算机系统。计算机系统可以包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储设备，以及存储在一个或多个存储设备中的至少一个上存储设备的程序指令，程序指令用于经由一个或多个存储器中的至少一个存储器由一个或多个处理器中的至少一个处理器来执行，由此计算机系统能够执行方法。该方法可以包括接收与歌声语音相对应的数据。使用一个或多个对抗神经网络从接收的数据中提取一个或多个特征和音调数据。基于提取的音调数据和一个或多个特征，生成一...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于歌声语音转换的方法，由一个或多个计算机处理器执行，其特征在于，所述方法包括：接收与歌声语音相对应的数据；从接收的所述数据中提取一个或多个特征；从接收的所述数据中提取音调数据；以及基于提取的所述音调数据和所述一个或多个特征生成一个或多个音频样本。2.根据权利要求1所述的方法，其特征在于，所述音调数据是使用音调回归对抗神经网络来提取的。3.根据权利要求2所述的方法，其特征在于，所述对抗神经网络包括漏失层、两个卷积神经网络和全连接层。4.根据权利要求1所述的方法，其特征在于，所述特征是基于对与所述歌声语音相关联的歌手的识别来提取的。5.根据权利要求4所述的方法，其特征在于，所述识别是由歌手分类对抗神经网络执行的。6.根据权利要求5所述的方法，其特征在于，所述歌手分类对抗神经网络包括漏失层、两个卷积神经网络和全连接层。7.根据权利要求1所述的方法，其特征在于，进一步包括计算歌手分类损失值和音调回归损失值。8.根据权利要求7所述的方法，其特征在于，基于使所述歌手分类损失值和所述音调回归损失值最小化，将所述歌手分类损失值和所述音调回归损失值用作训练值。9.根据权利要求1所述的方法，其特征在于，接收的歌声语音数据被使用平均池化函数进行压缩。10.根据权利要求1所述的方法，其特征在于，所述音频样本是在没有并行数据并且没有改变与所述歌声语音相关联的内容的情况下生成的。11.一种用于歌声语音转换的计算机系统，其特征在于，所述计算机系统包括：一个或多个计算机可读非易失性存储介质，被配置为存储计算机程序代码；以及一个或多个计算机处理器，被配置为访问所述计算机程序代码并且如所述计算机程序代码所指示地操作，所述计算机程序代码包括：接收代码，被配置为使所述一个或多个计算机处理器接收与歌声语音相对应的数据；第一提取代码，被配置为使所述一个或多个计算机处理器从接收的...

【专利技术属性】
技术研发人员：俞承柱，卢恒，翁超，俞栋，
申请(专利权)人：腾讯美国有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人