一种基于音色克隆的语音合成方法、装置及电子设备制造方法及图纸

技术编号：26602130 阅读：32 留言：0更新日期：2020-12-04 21:25

本发明专利技术公开了一种基于音色克隆的语音合成方法、装置及电子设备，所述方法包括：通过开源语料训练TTS基础模型；通过目标音色语料以微调finetune的方式训练所述基础模型，得到微调模型；根据变量语料和所述微调模型生成目标音色的变量语音；根据所述变量语音和固定语音合成目标音色语音。本发明专利技术先采用开源语料，再通过少量目标音色语料以微调finetune的方式训练TTS网络的微调模型。相较于穷举式的人工录制，或者是传统的TTS高质量语料合成方式，能有效减小目标音色语料的录制时间，大大节约录制成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于音色克隆的语音合成方法、装置及电子设备
本专利技术涉及语音智能
，具体而言，涉及一种基于音色克隆的语音合成方法、装置、电子设备及计算机可读介质。
技术介绍
在智能语音交互过程中，语音机器人通常会采用预设的话术与用户进行语音交互。其中，预设话术一般由固定语音和变量语音合成。固定语音是对所有用户通用的语音，变量语音是对单个用户需要改变的语音。例如，在预设话术“您好！xx先生。”中，“您好”和“先生”对所有男性用户均可使用，属于固定语音；而“xx”需要根据每位男性用户的姓名进行改变，因此属于变量语音。现有技术中，固定语音是预先找专业的录音师录制好的，而变量语音的一种生成方法是先根据产品将变量语音缩减到可穷举的范围，然后找录音师录制所有穷举的变量语音。这种方式需要缩减变量语音到可穷举范围，其本身在业务上就是一种折衷；而且录制大量变量语音的时间和经济成本消耗也很高。变量语音的另一种生成方法是通过从文本到语音（Text-To-Speech，TTS）合成录音师音色的声音，之后再将变量语音和固定语音拼接到一起。...

【技术保护点】
1.一种基于音色克隆的语音合成方法，其特征在于，所述方法包括：/n通过开源语料训练TTS基础模型；/n通过目标音色语料以微调finetune的方式训练所述基础模型，得到微调模型；/n根据变量语料和所述微调模型生成目标音色的变量语音；/n根据所述变量语音和固定语音合成目标音色语音。/n

【技术特征摘要】
1.一种基于音色克隆的语音合成方法，其特征在于，所述方法包括：
通过开源语料训练TTS基础模型；
通过目标音色语料以微调finetune的方式训练所述基础模型，得到微调模型；
根据变量语料和所述微调模型生成目标音色的变量语音；
根据所述变量语音和固定语音合成目标音色语音。

2.根据权利要求1所述的方法，其特征在于，所述通过开源语料训练基础模型之前，所述方法还包括：
获取第一性别的开源语料；
所述通过目标音色语料以微调finetune的方式训练所述基础模型之前，所述方法还包括：
获取第一性别的目标音色语料。

3.根据权利要求1所述的方法，其特征在于，所述根据变量语料和所述微调模型生成目标音色的变量语音包括：
将变量语料输入所述微调模型中得到声音频谱的声学特征；
通过预设声码器基于所述声学特征生成变量音频，得到所述目标音色的变量语音。

4.根据权利要求3所述的方法，其特征在于，所述通过预设声码器基于所述声学特征生成变量音频之前，所述方法还包括：
通过所述目标音色语料训练所述预设声码器。

【专利技术属性】
技术研发人员：张彤彤，
申请(专利权)人：北京淇瑀信息科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人