音色转换方法及装置制造方法及图纸

技术编号:26925370 阅读:17 留言:0更新日期:2021-01-01 22:52
本公开提供了一种音色转换方法及装置。通过接收音色转换指令,该音色转换指令包括原始角色输出的第一语音数据和目标角色的音色转换模型标识;加载目标角色的音色转换模型标识对应的音色转换模型,音色转换模型由目标角色对应的音色序列以及至少一个原始训练角色的第三语音数据训练得到;以及根据音色转换指令,通过该音色转换模型将原始角色输出的第一语音数据转换为目标角色输出的第二语音数据,从而可以将用户输出的声音转换为用户希望的任意的目标角色输出的声音,满足不同用户的音色转换需求。

【技术实现步骤摘要】
音色转换方法及装置
本公开涉及神经网络技术,尤其涉及一种基于深度神经网络的音色转换方法及装置。
技术介绍
随着生活水平和科技水平的提高,人们已经能够通过电子设备(如手机、笔记本电脑、平板电脑、智能家居等)进行声音的录制和播放。但是,用户很难将自己的声音转变为喜爱的影视角色的声音,或者转变为游戏动漫里的卡通人物的声音,等等。其中,这是一种声音的音色转换,其特点是:声音转换前后,虽然声音表述的文字内容是相同的,但是听起来是不同卡通人物、影视角色等说出来的。有鉴于此,如何进行音色转换,获得稳定的音色转换效果,是本公开需要解决的问题。
技术实现思路
本公开提供一种音色转换方案。第一方面,提供了一种音色转换方法,所述方法包括:接收音色转换指令,所述音色转换指令包括原始角色输出的第一语音数据和目标角色的音色转换模型标识;加载所述目标角色的音色转换模型标识对应的音色转换模型,音色转换模型由所述目标角色对应的音色序列以及至少一个原始训练角色的第三语音数据训练得到;根据所述音色转换指令,通过所述目标角色的音色转换模型将所述原始角色输出的第一语音数据转换为所述目标角色输出的第二语音数据。在一种可能的实现中,所述音色转换模型包括编码网络和解码网络,所述根据所述音色转换指令,通过所述目标角色的音色转换模型将所述原始角色输出的第一语音数据转换为所述目标角色输出的第二语音数据,包括:根据所述音色转换指令,采用所述音色转换模型的编码网络对所述原始角色输出的第一语音数据进行编码,得到所述第一语音数据的内容和所述原始角色对应的音色序列,所述原始角色对应的音色序列包括所述原色角色的至少一个音色元素;采用所述目标角色对应的音色序列替换所述原始角色对应的音色序列,所述目标角色对应的音色序列包括所述目标角色的至少一个音色元素;所述音色转换模型的解码网络将所述第一语音数据的内容和所述目标角色对应的音色序列进行合成和解码,得到所述目标角色输出的第二语音数据。在又一种可能的实现中,所述方法还包括:输入至少一个原始训练角色输出的至少一个第三语音数据到所述目标角色的音色转换模型;将所述至少一个第三语音数据进行编码,得到所述至少一个第三语音数据的内容和所述至少一个原始训练角色对应的音色序列,所述至少一个原始训练角色对应的音色序列包括所述至少一个原始训练角色的音色元素;将所述目标角色对应的音色序列替换所述至少一个原始训练角色对应的音色序列;将所述至少一个第三语音数据的内容和所述目标角色对应的音色序列进行合成和解码,得到所述目标角色输出的至少一个第四语音数据,以训练所述目标角色的音色转换模型。在又一种可能的实现中,所述方法还包括:对所述至少一个第三语音数据进行预处理操作,所述预处理操作包括以下至少一个操作:去除所述至少一个第三语音数据中的静音部分;对所述至少一个第三语音数据中的非静音部分进行重采样;对重采样后的所述至少一个第三语音数据在时域上反相和/或逆序。在又一种可能的实现中,训练所述音色转换模型包括训练所述音色转换模型的以下至少一个参数:训练轮数,每一轮训练的取样次数,取样大小,取样音频长度,学习率,编码序列长度。第二方面,提供了一种音色转换装置,所述装置包括:接收单元,用于接收音色转换指令,所述音色转换指令包括原始角色输出的第一语音数据和目标角色的音色转换模型标识;加载单元,用于加载所述目标角色的音色转换模型标识对应的音色转换模型,音色转换模型由所述目标角色对应的音色序列以及至少一个原始训练角色的第三语音数据训练得到;转换单元,用于根据所述音色转换指令,通过所述目标角色的音色转换模型将所述原始角色输出的第一语音数据转换为所述目标角色输出的第二语音数据。在一种可能的实现中,所述音色转换模型包括编码网络和解码网络,所述转换单元包括:编码单元,用于根据所述音色转换指令,采用所述音色转换模型的编码网络对所述原始角色输出的第一语音数据进行编码,得到所述第一语音数据的内容和所述原始角色对应的音色序列,所述原始角色对应的音色序列包括所述原色角色的至少一个音色元素;替换单元,用于采用所述目标角色对应的音色序列替换所述原始角色对应的音色序列,所述目标角色对应的音色序列包括所述目标角色的至少一个音色元素;解码单元,用于所述音色转换模型的解码网络将所述第一语音数据的内容和所述目标角色对应的音色序列进行合成和解码,得到所述目标角色输出的第二语音数据。在又一种可能的实现中,所述装置还包括:输入单元,用于输入至少一个原始训练角色输出的至少一个第三语音数据到所述目标角色的音色转换模型;所述编码单元,还用于将所述至少一个第三语音数据进行编码,得到所述至少一个第三语音数据的内容和所述至少一个原始训练角色对应的音色序列,所述至少一个原始训练角色对应的音色序列包括所述至少一个原始训练角色的音色元素;所述替换单元,还用于将所述目标角色对应的音色序列替换所述至少一个原始训练角色对应的音色序列;所述解码单元,还用于将所述至少一个第三语音数据的内容和所述目标角色对应的音色序列进行合成和解码,得到所述目标角色输出的至少一个第四语音数据,以训练所述目标角色的音色转换模型。在又一种可能的实现中,所述装置还包括:预处理单元,用于对所述至少一个第三语音数据进行预处理操作,所述预处理操作包括以下至少一个操作:去除所述至少一个第三语音数据中的静音部分;对所述至少一个第三语音数据中的非静音部分进行重采样;对重采样后的所述至少一个第三语音数据在时域上反相和/或逆序。在又一种可能的实现中,训练所述音色转换模型包括训练所述音色转换模型的以下至少一个参数:训练轮数,每一轮训练的取样次数,取样大小,取样音频长度,学习率,编码序列长度。第三方面,提供了音色转换装置,包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器执行所述程序指令以实现如第一方面或第一方面的任一个实现所述的方法。第四方面,提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如第一方面或第一方面的任一个实现所述的方法。采用本申请的音色转换的方案,具有如下有益效果:可以接收音色转换指令,将用户输入的声音转换为用户希望的任意的目标角色的声音,满足不同用户的音色转换需求;且可以通过多个角色的语音数据,对音色转换模型进行有效地训练,使得在使用该音色转换模型进行音色转换时可以获得稳定的音色转换效果;该音色转换模型是经过深度神经网络训练不同的声音获得的,基于该音色转换模型进行声音合成,获得音频输出,可以获得稳定的音色转换效果。用户可以使用该技术进行音色转换,让喜欢的目标角色复述用户的声音,提高了用户体验。附图说明图1为本公开实施例提供的一种音色转换方法的流程示意图;图本文档来自技高网...

【技术保护点】
1.一种音色转换方法,其特征在于,所述方法包括:/n接收音色转换指令,所述音色转换指令包括原始角色输出的第一语音数据和目标角色的音色转换模型标识;/n加载所述目标角色的音色转换模型标识对应的音色转换模型,音色转换模型由所述目标角色对应的音色序列以及至少一个原始训练角色的第三语音数据训练得到;/n根据所述音色转换指令,通过所述目标角色的音色转换模型将所述原始角色输出的第一语音数据转换为所述目标角色输出的第二语音数据。/n

【技术特征摘要】
1.一种音色转换方法,其特征在于,所述方法包括:
接收音色转换指令,所述音色转换指令包括原始角色输出的第一语音数据和目标角色的音色转换模型标识;
加载所述目标角色的音色转换模型标识对应的音色转换模型,音色转换模型由所述目标角色对应的音色序列以及至少一个原始训练角色的第三语音数据训练得到;
根据所述音色转换指令,通过所述目标角色的音色转换模型将所述原始角色输出的第一语音数据转换为所述目标角色输出的第二语音数据。


2.根据权利要求1所述的方法,其特征在于,所述音色转换模型包括编码网络和解码网络,所述根据所述音色转换指令,通过所述目标角色的音色转换模型将所述原始角色输出的第一语音数据转换为所述目标角色输出的第二语音数据,包括:
根据所述音色转换指令,采用所述音色转换模型的编码网络对所述原始角色输出的第一语音数据进行编码,得到所述第一语音数据的内容和所述原始角色对应的音色序列,所述原始角色对应的音色序列包括所述原色角色的至少一个音色元素;
采用所述目标角色对应的音色序列替换所述原始角色对应的音色序列,所述目标角色对应的音色序列包括所述目标角色的至少一个音色元素;
所述音色转换模型的解码网络将所述第一语音数据的内容和所述目标角色对应的音色序列进行合成和解码,得到所述目标角色输出的第二语音数据。


3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
输入至少一个原始训练角色输出的至少一个第三语音数据到所述目标角色的音色转换模型;
将所述至少一个第三语音数据进行编码,得到所述至少一个第三语音数据的内容和所述至少一个原始训练角色对应的音色序列,所述至少一个原始训练角色对应的音色序列包括所述至少一个原始训练角色的音色元素;
将所述目标角色对应的音色序列替换所述至少一个原始训练角色对应的音色序列;
将所述至少一个第三语音数据的内容和所述目标角色对应的音色序列进行合成和解码,得到所述目标角色输出的至少一个第四语音数据,以训练所述目标角色的音色转换模型。


4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对所述至少一个第三语音数据进行预处理操作,所述预处理操作包括以下至少一个操作:
去除所述至少一个第三语音数据中的静音部分;
对所述至少一个第三语音数据中的非静音部分进行重采样;
对重采样后的所述至少一个第三语音数据在时域上反相和/或逆序。


5.根据权利要求3所述的方法,其特征在于,训练所述音色转换模型包括训练所述音色转换模型的以下至少一个参数:训练轮数,每一轮训练的取样次数,取样大小,取样音频长度,学习率,编码序列长度。


6.一种音色转换装...

【专利技术属性】
技术研发人员:徐东
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1