一种统一的语音合成与语音转换的训练方法和系统技术方案

技术编号：33502902 阅读：39 留言：0更新日期：2022-05-19 01:12

本发明专利技术提出一种统一的语音合成与语音转换的训练方法和系统。其中，方法包括：将语音合成和语音转换的编码任务解耦成三个子任务，分别为内容信息的提取、说话人信息的提取和韵律信息的提取；所述内容信息是与说话人无关的语言信息；所述说话人信息包括：说话人的特征；所述韵律信息表示说话人如何说出内容信息，反映语音的节奏；将提取得到的所述内容信息、说话人信息和韵律信息输入解码任务，得到还原的语音信息。本发明专利技术提出的方案，将语音合成与语音转换模型进行了统一，避免了独立搭建的困难；使用无标注的语音提高语音合成与语音转换的性能。性能。性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种统一的语音合成与语音转换的训练方法和系统

[0001]本专利技术属于语音克隆
，尤其涉及一种统一的语音合成与语音转换的训练方法和系统。

技术介绍

[0002]克隆目标说话人的声音是一项极具吸引力的技术，可以应用于各种场景，如娱乐创作、个性化移动助手、安全领域等。最理想的语音克隆操作是只给未见过目标说话人的一句话语音作为参考，然后即可以合成目标说话人的任何语音，这称为单样本语音克隆。在语音研究领域，语音合成技术和语音转换技术是实现语音克隆的两种主流方式。两种技术在以往是作为独立的任务进行分别研究和开发的。
[0003]TTS (text
‑
to
‑
speech):语音合成；VC (voice conversion):语音转换；虽然TTS和VC技术是语音克隆的两种重要方法，两种技术在以往是作为独立的任务进行分别研究和开发的，它们之间没有太多的相互作用。困难的原因是因为这两项任务的语音内容表示不同。具体来说，TTS中的语音内容是通过文本信息获得的，TTS中的文本和语音是两个不相...

【技术保护点】

【技术特征摘要】
1.一种统一的语音合成与语音转换的训练方法，其特征在于，所述方法包括：步骤S1、将语音合成和语音转换的编码任务解耦成三个子任务，分别为内容信息的提取、说话人信息的提取和韵律信息的提取；所述内容信息是与说话人无关的语言信息；所述说话人信息包括：说话人的特征；所述韵律信息表示说话人如何说出内容信息，反映语音的节奏；步骤S2、将提取得到的所述内容信息、说话人信息和韵律信息输入解码任务，得到还原的语音信息。2.根据权利要求1所述的一种统一的语音合成与语音转换的训练方法，其特征在于，在所述内容信息的提取的子任务中，对于语音合成，语音内容的来源是文本，使用文本编码器对文本进行编码以获得上下文表示；根据音素的持续时间信息对所述上下文表示进行上采样，以获得语音的内容信息。3.根据权利要求2所述的一种统一的语音合成与语音转换的训练方法，其特征在于，在所述内容信息的提取的子任务中，对于语音转换，由于源语音与目标语音对齐，直接使用内容编码器从源语音中提取语音的内容信息。4.根据权利要求1所述的一种统一的语音合成与语音转换的训练方法，其特征在于，所述说话人信息的提取的编码器在语音合成与语音转换的任务中是共享的，直接从没有文本的语音中提取所述说话人信息。5.根据权利要求1所述的一种统一的语音合成与语音转换的训练方法，其特征在于，所述韵律信息的提取的编码器在语音合成与语音转换的任务中是共享的，直接从语音中提取基频信息作为所述韵律信息。6.根据权利要求5所述的一种统一的语音合成与语音转换的训练方法，其特征在于，在训练阶段，以语音的内容信息和说话人信息为输入来预测基频信息。7.根据权利要求1所述的一种统一的语音合成与语音转换的训练方法，其特征在于，语音合成和语音转换的总损失函数包括三部分，语音合成的损失函数、语音转换的损失...

【专利技术属性】
技术研发人员：陶建华，汪涛，易江燕，傅睿博，张震，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人