语音克隆方法、装置、训练方法、电子设备及存储介质制造方法及图纸

技术编号：33042687 阅读：9 留言：0更新日期：2022-04-15 09:24

本发明专利技术涉及语音克隆领域，公开了一种语音克隆方法、装置、训练方法、电子设备及存储介质。本发明专利技术中，语音克隆方法，包括：使用第一神经网络模型对待克隆语音的特征进行解耦合、得到所述待克隆语音的说话人特征，所述说话人特征为所述待克隆语音中与文本内容无关的特征，所述第一神经网络模型为多层神经网络模型；对待合成文本进行编码、得到所述待合成文本的文本内容特征；使用第二神经网络模型对所述待克隆语音的说话人特征和所述待合成文本的文本内容特征进行耦合，生成克隆语音。与现有技术相比，本发明专利技术实施方式所提供的语音克隆方法、装置及语音克隆装置的模型训练方法具有语音克隆模仿能力较强、训练数据量依赖性更低的优点。点。点。

全部详细技术资料下载

【技术实现步骤摘要】
语音克隆方法、装置、训练方法、电子设备及存储介质

[0001]本专利技术涉及人工智能领域，特别涉及一种语音克隆方法、装置、训练方法、电子设备及存储介质。

技术介绍

[0002]语音克隆技术是一种利用参考语音信号，合成任意文本，但音色、韵律、风格等说话人特征与参考语音信号相似的目标语音信号的技术。可满足对声音或说话风格个性化定制的需求，应用于各类手机助手、电子读物、智能电话客服、音视频配音、智能交互机器人等。受益于深度学习技术的快速发展，基于神经网络的语音合成技术获得了巨大的成功，其合成语音已接近真人音质的效果，真假难辨。但随着语音合成个性化定制需求的激增，通过采集大量训练数据并对某一声音单独建模的传统方法，不但会增加开发成本，还会降低开发效率。随着越来越多的多说话人、多声音风格数据的开源和共享，依靠深度学习中的迁移学习原理，对在此数据上训练的平均模型，进行目标声音或风格微调和迁移，已取得了不错的效果，这将显著降低公司的开发成本，并提升效率。
[0003]然而，本专利技术的专利技术人发现，现有技术中的语音克隆技术，因对待克隆说话人特征的解耦能力较弱，其模仿能力较差，模仿效果较差，存在对训练数据的数量和多样性依赖性较高的缺点。

技术实现思路

[0004]本专利技术实施方式的目的在于提供一种语音克隆方法、装置及语音克隆装置的模型训练方法，可以提升语音克隆的模仿效果。
[0005]为解决上述技术问题，本专利技术的实施方式提供了一种语音克隆方法，包含以下步骤：使用第一神经网络模型对待克隆语音的特...

【技术保护点】

【技术特征摘要】
1.一种语音克隆方法，其特征在于，包括：使用第一神经网络模型对待克隆语音的特征进行解耦合、得到所述待克隆语音的说话人特征，所述说话人特征为所述待克隆语音中与文本内容无关的特征，所述第一神经网络模型为多层神经网络模型；对待合成文本进行编码、得到所述待合成文本的文本内容特征；使用第二神经网络模型对所述待克隆语音的说话人特征和所述待合成文本的文本内容特征进行耦合，生成克隆语音。2.根据权利要求1所述的语音克隆方法，其特征在于，所述使用第一神经网络模型对待克隆语音的特征进行解耦合、得到所述待克隆语音的说话人特征，包括：使用所述第一神经网络模型的各个网络层对所述待克隆语音进行编码运算，将各个网络层运算得到的隐变量作为所述待克隆语音的说话人特征，将所述第一神经网络模型输出的编码结果作为所述待克隆语音的文本内容特征。3.根据权利要求2所述的语音克隆方法，其特征在于，所述使用第二神经网络模型对所述待克隆语音的说话人特征和所述待合成文本的文本内容特征进行耦合，包括：使用所述第一神经网络模型的逆向模型对所述待克隆语音的说话人特征和所述待合成文本的文本内容特征进行耦合。4.根据权利要求3所述的语音克隆方法，其特征在于，所述使用第二神经网络模型对所述待克隆语音的说话人特征和所述待合成文本的文本内容特征进行耦合，包括：将所述各个网络层运算得到的所述隐变量分别输入所述第二神经网络模型中、与所述各个网络层相同的各个网络层中，根据所述各个网络层的隐变量对所述待合成文本的文本内容特征进行耦合。5.一种语音克隆装置，其特征在于，包括：内容编码器，所述内容编码器用于对待合成文本进行编码、输出所述待合成文本的文本内容特征；语谱编码器，所述语谱编码器用于对待克隆语音的特征进行解耦合、得到所述待克隆语音的说话人特征，所述说话人特征为所述待克隆语音中与文本内容无关的特征，所述语谱编码器中运行的第一神经网络模型为多层神经网络模型；语谱解码器，所述语谱解码器用于对所...

【专利技术属性】
技术研发人员：李锐，
申请(专利权)人：达闼机器人有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人