语音克隆方法、装置、训练方法、电子设备及存储介质制造方法及图纸

技术编号:33042687 阅读:9 留言:0更新日期:2022-04-15 09:24
本发明专利技术涉及语音克隆领域,公开了一种语音克隆方法、装置、训练方法、电子设备及存储介质。本发明专利技术中,语音克隆方法,包括:使用第一神经网络模型对待克隆语音的特征进行解耦合、得到所述待克隆语音的说话人特征,所述说话人特征为所述待克隆语音中与文本内容无关的特征,所述第一神经网络模型为多层神经网络模型;对待合成文本进行编码、得到所述待合成文本的文本内容特征;使用第二神经网络模型对所述待克隆语音的说话人特征和所述待合成文本的文本内容特征进行耦合,生成克隆语音。与现有技术相比,本发明专利技术实施方式所提供的语音克隆方法、装置及语音克隆装置的模型训练方法具有语音克隆模仿能力较强、训练数据量依赖性更低的优点。点。点。

【技术实现步骤摘要】
语音克隆方法、装置、训练方法、电子设备及存储介质


[0001]本专利技术涉及人工智能领域,特别涉及一种语音克隆方法、装置、训练方法、电子设备及存储介质。

技术介绍

[0002]语音克隆技术是一种利用参考语音信号,合成任意文本,但音色、韵律、风格等说话人特征与参考语音信号相似的目标语音信号的技术。可满足对声音或说话风格个性化定制的需求,应用于各类手机助手、电子读物、智能电话客服、音视频配音、智能交互机器人等。受益于深度学习技术的快速发展,基于神经网络的语音合成技术获得了巨大的成功,其合成语音已接近真人音质的效果,真假难辨。但随着语音合成个性化定制需求的激增,通过采集大量训练数据并对某一声音单独建模的传统方法,不但会增加开发成本,还会降低开发效率。随着越来越多的多说话人、多声音风格数据的开源和共享,依靠深度学习中的迁移学习原理,对在此数据上训练的平均模型,进行目标声音或风格微调和迁移,已取得了不错的效果,这将显著降低公司的开发成本,并提升效率。
[0003]然而,本专利技术的专利技术人发现,现有技术中的语音克隆技术,因对待克隆说话人特征的解耦能力较弱,其模仿能力较差,模仿效果较差,存在对训练数据的数量和多样性依赖性较高的缺点。

技术实现思路

[0004]本专利技术实施方式的目的在于提供一种语音克隆方法、装置及语音克隆装置的模型训练方法,可以提升语音克隆的模仿效果。
[0005]为解决上述技术问题,本专利技术的实施方式提供了一种语音克隆方法,包含以下步骤:使用第一神经网络模型对待克隆语音的特征进行解耦合、得到所述待克隆语音的说话人特征,所述说话人特征为所述待克隆语音中与文本内容无关的特征,所述第一神经网络模型为多层神经网络模型;对待合成文本进行编码、得到所述待合成文本的文本内容特征;使用第二神经网络模型对所述待克隆语音的说话人特征和所述待合成文本的文本内容特征进行耦合,生成克隆语音。
[0006]本专利技术的实施方式还提供了一种语音克隆装置,包括:内容编码器,所述内容编码器用于对待合成文本进行编码、输出所述待合成文本的文本内容特征;语谱编码器,所述语谱编码器用于对待克隆语音的特征进行解耦合、得到所述待克隆语音的说话人特征,所述说话人特征为所述待克隆语音中与文本内容无关的特征,所述语谱编码器中运行的第一神经网络模型为多层神经网络模型;语谱解码器,所述语谱解码器用于对所述待合成文本的文本内容特征和待克隆语音的说话人特征进行耦合,生成克隆语音。
[0007]本专利技术的实施方式还提供了一种语音克隆装置的模型训练方法,包括:获取多个样本语音和与各个所述样本语音对应的样本文本;根据所述样本语音和所述样本文本对前述的语音克隆装置进行模型训练。
[0008]本专利技术的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前述的语音克隆方法或如前述的语音克隆装置的模型训练方法。
[0009]本专利技术的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现前述的语音克隆方法或前述的语音克隆装置的模型训练方法。
[0010]本专利技术实施方式相对于现有技术而言,用于对待克隆语音进行解耦合和的第一神经网络模型为多层神经网络模型,因此,经由第一神经网络模型解耦合得到的说话人特征为多种、多粒度、多层次的说话人特征,从而可以使得说话人特征可以更好的表征说话人特征,提升语音克隆的克隆效果。
[0011]另外,所述使用第一神经网络模型对待克隆语音的特征进行解耦合、得到所述待克隆语音的说话人特征,包括:使用所述第一神经网络模型的各个网络层对所述待克隆语音进行编码运算,将各个网络层运算得到的隐变量作为所述待克隆语音的说话人特征,将所述第一神经网络模型输出的编码结果作为所述待克隆语音的文本内容特征。
[0012]另外,所述使用第二神经网络模型对所述待克隆语音的说话人特征和所述待合成文本的文本内容特征进行耦合,包括:使用所述第一神经网络模型的逆向模型对所述待克隆语音的说话人特征和所述待合成文本的文本内容特征进行耦合。用于对待克隆语音进行解耦合的第一神经网络模型为用于拼接形成克隆语音的第二神经网络模型的逆向模型,即第一神经网络模型和第二神经网络模型的网络层结构相同,因此,在对待克隆语音进行解耦合时,第一神经网络模型中所产生的系统参数均可以在合成克隆语音时在第二神经网络模型中进行应用,减少了参数的损失,而这些参数中普遍包含有待克隆语音中说话人的说话风格和说话声音信息等说话人特征,减少了参数的损失即可使得后续合成的克隆语音的模拟效果更好,从而提升语音克隆的模仿效果。
[0013]另外,所述使用第二神经网络模型对所述待克隆语音的说话人特征和所述待合成文本的文本内容特征进行耦合,包括:将所述各个网络层运算得到的所述隐变量分别输入所述第二神经网络模型中、与所述各个网络层相同的各个网络层中,根据所述各个网络层的隐变量对所述待合成文本的文本内容特征进行耦合。
[0014]另外,所述语谱解码器中所运行的第二神经网络模型为所述第一神经网络模型的逆向模型。
[0015]另外,将所述样本文本输入所述内容编码器,得到所述样本文本的文本内容特征;将所述样本语音输入所述语谱编码器,得到所述样本语音的说话人特征和所述样本语音的文本内容特征,所述说话人特征为所述样本语音中与文本内容无关的特征;将所述样本语音的的说话人特征和所述样本文本的文本内容特征输入语谱解码器,得到克隆语音;建立所述克隆语音和所述样本语音之间的第一损失函数,建立所述样本语音的文本内容特征和所述样本文本的文本内容特征之间的第二损失函数;根据所述多个样本语音和与各个所述样本语音对应的样本文本对所述语谱编码器和所述语谱解码器进行模型训练,直至所述第一损失函数和所述第二损失函数均收敛。在对语音克隆装置进行模型训练的过程中,建立克隆语音和样本语音之间的第一损失函数的同时、建立样本语音的文本内容特征和样本文
本的文本内容特征之间的第二损失函数,对语谱编码器和语谱解码器进行模型训练时,直至第一损失函数和第二损失函数均收敛才结束训练,可以使得语谱编码器解耦合得到的样本语音的文本内容特征与内容编码器得到样本文本的文本内容特征更为接近,由于语谱编码器中所运行的神经网络模型和语谱解码器中所运行的神经网络模型相同,语谱编码器解耦合得到的样本语音的文本内容特征与内容编码器得到样本文本的文本内容特征越接近,则语谱解码器拼接得到的克隆语音的模仿效果也就越好,从而进一步的提升训练后的语音克隆装置的语音克隆效果。
附图说明
[0016]图1是本专利技术第一实施方式所提供的语音克隆方法的流程示意图;
[0017]图2是本专利技术第二实施方式所提供的语音克隆方法的流程示意图;
[0018]图3是本专利技术第三实施方式所提供的语音克隆装置的结构示意图;
[0019]图4是本专利技术第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音克隆方法,其特征在于,包括:使用第一神经网络模型对待克隆语音的特征进行解耦合、得到所述待克隆语音的说话人特征,所述说话人特征为所述待克隆语音中与文本内容无关的特征,所述第一神经网络模型为多层神经网络模型;对待合成文本进行编码、得到所述待合成文本的文本内容特征;使用第二神经网络模型对所述待克隆语音的说话人特征和所述待合成文本的文本内容特征进行耦合,生成克隆语音。2.根据权利要求1所述的语音克隆方法,其特征在于,所述使用第一神经网络模型对待克隆语音的特征进行解耦合、得到所述待克隆语音的说话人特征,包括:使用所述第一神经网络模型的各个网络层对所述待克隆语音进行编码运算,将各个网络层运算得到的隐变量作为所述待克隆语音的说话人特征,将所述第一神经网络模型输出的编码结果作为所述待克隆语音的文本内容特征。3.根据权利要求2所述的语音克隆方法,其特征在于,所述使用第二神经网络模型对所述待克隆语音的说话人特征和所述待合成文本的文本内容特征进行耦合,包括:使用所述第一神经网络模型的逆向模型对所述待克隆语音的说话人特征和所述待合成文本的文本内容特征进行耦合。4.根据权利要求3所述的语音克隆方法,其特征在于,所述使用第二神经网络模型对所述待克隆语音的说话人特征和所述待合成文本的文本内容特征进行耦合,包括:将所述各个网络层运算得到的所述隐变量分别输入所述第二神经网络模型中、与所述各个网络层相同的各个网络层中,根据所述各个网络层的隐变量对所述待合成文本的文本内容特征进行耦合。5.一种语音克隆装置,其特征在于,包括:内容编码器,所述内容编码器用于对待合成文本进行编码、输出所述待合成文本的文本内容特征;语谱编码器,所述语谱编码器用于对待克隆语音的特征进行解耦合、得到所述待克隆语音的说话人特征,所述说话人特征为所述待克隆语音中与文本内容无关的特征,所述语谱编码器中运行的第一神经网络模型为多层神经网络模型;语谱解码器,所述语谱解码器用于对所...

【专利技术属性】
技术研发人员:李锐
申请(专利权)人:达闼机器人有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1