音色转换方法及装置制造方法及图纸

技术编号：26925370 阅读：17 留言：0更新日期：2021-01-01 22:52

本公开提供了一种音色转换方法及装置。通过接收音色转换指令，该音色转换指令包括原始角色输出的第一语音数据和目标角色的音色转换模型标识；加载目标角色的音色转换模型标识对应的音色转换模型，音色转换模型由目标角色对应的音色序列以及至少一个原始训练角色的第三语音数据训练得到；以及根据音色转换指令，通过该音色转换模型将原始角色输出的第一语音数据转换为目标角色输出的第二语音数据，从而可以将用户输出的声音转换为用户希望的任意的目标角色输出的声音，满足不同用户的音色转换需求。

全部详细技术资料下载

【技术实现步骤摘要】
音色转换方法及装置
本公开涉及神经网络技术，尤其涉及一种基于深度神经网络的音色转换方法及装置。
技术介绍
随着生活水平和科技水平的提高，人们已经能够通过电子设备(如手机、笔记本电脑、平板电脑、智能家居等)进行声音的录制和播放。但是，用户很难将自己的声音转变为喜爱的影视角色的声音，或者转变为游戏动漫里的卡通人物的声音，等等。其中，这是一种声音的音色转换，其特点是：声音转换前后，虽然声音表述的文字内容是相同的，但是听起来是不同卡通人物、影视角色等说出来的。有鉴于此，如何进行音色转换，获得稳定的音色转换效果，是本公开需要解决的问题。
技术实现思路
本公开提供一种音色转换方案。第一方面，提供了一种音色转换方法，所述方法包括：接收音色转换指令，所述音色转换指令包括原始角色输出的第一语音数据和目标角色的音色转换模型标识；加载所述目标角色的音色转换模型标识对应的音色转换模型，音色转换模型由所述目标角色对应的音色序列以及至少一个原始训练角色的第三语音数据训练得到；根据所述音色转换指令，通过所述目标角色的音色转换模型将所述原始角色输出的第一语音数据转换为所述目标角色输出的第二语音数据。在一种可能的实现中，所述音色转换模型包括编码网络和解码网络，所述根据所述音色转换指令，通过所述目标角色的音色转换模型将所述原始角色输出的第一语音数据转换为所述目标角色输出的第二语音数据，包括：根据所述音色转换指令，采用所述音色转换模型的编码网络对所述原始角色输出的第一语音数据进行编码，得...

【技术保护点】
1.一种音色转换方法，其特征在于，所述方法包括：/n接收音色转换指令，所述音色转换指令包括原始角色输出的第一语音数据和目标角色的音色转换模型标识；/n加载所述目标角色的音色转换模型标识对应的音色转换模型，音色转换模型由所述目标角色对应的音色序列以及至少一个原始训练角色的第三语音数据训练得到；/n根据所述音色转换指令，通过所述目标角色的音色转换模型将所述原始角色输出的第一语音数据转换为所述目标角色输出的第二语音数据。/n

【技术特征摘要】
1.一种音色转换方法，其特征在于，所述方法包括：
接收音色转换指令，所述音色转换指令包括原始角色输出的第一语音数据和目标角色的音色转换模型标识；
加载所述目标角色的音色转换模型标识对应的音色转换模型，音色转换模型由所述目标角色对应的音色序列以及至少一个原始训练角色的第三语音数据训练得到；
根据所述音色转换指令，通过所述目标角色的音色转换模型将所述原始角色输出的第一语音数据转换为所述目标角色输出的第二语音数据。

2.根据权利要求1所述的方法，其特征在于，所述音色转换模型包括编码网络和解码网络，所述根据所述音色转换指令，通过所述目标角色的音色转换模型将所述原始角色输出的第一语音数据转换为所述目标角色输出的第二语音数据，包括：
根据所述音色转换指令，采用所述音色转换模型的编码网络对所述原始角色输出的第一语音数据进行编码，得到所述第一语音数据的内容和所述原始角色对应的音色序列，所述原始角色对应的音色序列包括所述原色角色的至少一个音色元素；
采用所述目标角色对应的音色序列替换所述原始角色对应的音色序列，所述目标角色对应的音色序列包括所述目标角色的至少一个音色元素；
所述音色转换模型的解码网络将所述第一语音数据的内容和所述目标角色对应的音色序列进行合成和解码，得到所述目标角色输出的第二语音数据。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：
输入至少一个原始训练角色输出的至少一个第三语音数据到所述目标角色的音色转换模型；
将所述至少一个第三语音数据进行编码，得到所述至少一个第三语音数据的内容和所述至少一个原始训练角色对应的音色序列，所述至少一个原始训练角色对应的音色序列包括所述至少一个原始训练角色的音色元素；
将所述目标角色对应的音色序列替换所述至少一个原始训练角色对应的音色序列；
将所述至少一个第三语音数据的内容和所述目标角色对应的音色序列进行合成和解码，得到所述目标角色输出的至少一个第四语音数据，以训练所述目标角色的音色转换模型。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：
对所述至少一个第三语音数据进行预处理操作，所述预处理操作包括以下至少一个操作：
去除所述至少一个第三语音数据中的静音部分；
对所述至少一个第三语音数据中的非静音部分进行重采样；
对重采样后的所述至少一个第三语音数据在时域上反相和/或逆序。

5.根据权利要求3所述的方法，其特征在于，训练所述音色转换模型包括训练所述音色转换模型的以下至少一个参数：训练轮数，每一轮训练的取样次数，取样大小，取样音频长度，学习率，编码序列长度。

6.一种音色转换装...

【专利技术属性】
技术研发人员：徐东，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人