语音合成模型的训练方法、语音合成方法及装置制造方法及图纸

技术编号：37459872 阅读：11 留言：0更新日期：2023-05-06 09:32

本申请提出一种语音合成模型的训练方法、语音合成方法及装置，涉及深度学习、语音技术等人工智能技术领域，语音合成模型的训练方法包括：获取多个第一样本音频的样本声学特征、对应的第一音素序列以及对应的说话人标识，至少一个同一说话人标识对应的第一样本音频具有单一风格特征；将第一样本音频对应的第一音素序列以及对应的说话人标识输入语音合成模型，得到第一样本音频的预测声学特征；基于各第一样本音频的预测声学特征和样本声学特征对语音合成模型进行训练。实现了对音频中的音色特征和风格特征的解耦，从而可以利用多个说话人各自对应的具有单一风格特征的音频来训练语音合成模型，进而减少了语音合成模型的训练成本。练成本。练成本。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成模型的训练方法、语音合成方法及装置

[0001]本申请涉及深度学习、语音技术等人工智能
，尤其涉及一种语音合成模型的训练方法、语音合成方法及装置。

技术介绍

[0002]目前，语音合成技术广泛应用于智能问答、语音播报、有声读物、虚拟主播等场景中。在某些场景下，需要合成同一个说话人不同风格的音频。
[0003]相关技术，为了合成同一说话人不同风格的音频，需要使用每个说话人录制的不同风格的音频作为训练数据，训练生成语音合成模型，由于音频录制成本高，从而语音合成模型的训练成本高。

技术实现思路

[0004]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]本申请提出一种语音合成模型的训练方法、语音合成方法及装置，以解决相关技术中的语音合成模型的训练成本高的技术问题。
[0006]本申请第一方面实施例提出了一种语音合成模型的训练方法，包括：获取多个第一样本音频的样本声学特征、对应的第一音素序列以及对应的说话人标识，至少一个同一说话人标识对应的第一样本音频具有单一风格特征；将所述第一样本音频对应的第一音素序列以及对应的说话人标识，输入语音合成模型的编码层，以基于所述说话人标识对应的风格表征和所述第一音素序列，确定所述说话人标识对应的说话人在所述第一音素序列中各音素上的韵律特征，并基于所述第一音素序列和所述韵律特征确定所述第一音素序列在音频帧级别上的文本编码；将所述第一音素序列在所述音频帧级别上的文本编码和对应的所述说话人标识，输入所述语音合成模型的解码层...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型的训练方法，其特征在于，所述方法包括：获取多个第一样本音频的样本声学特征、对应的第一音素序列以及对应的说话人标识，至少一个同一说话人标识对应的第一样本音频具有单一风格特征；将所述第一样本音频对应的第一音素序列以及对应的说话人标识，输入语音合成模型的编码层，以基于所述说话人标识对应的风格表征和所述第一音素序列，确定所述说话人标识对应的说话人在所述第一音素序列中各音素上的韵律特征，并基于所述第一音素序列和所述韵律特征确定所述第一音素序列在音频帧级别上的文本编码；将所述第一音素序列在所述音频帧级别上的文本编码和对应的所述说话人标识，输入所述语音合成模型的解码层，以基于所述说话人标识对应的音色表征和所述文本编码进行解码，得到所述第一样本音频的预测声学特征；基于各所述第一样本音频的预测声学特征和所述样本声学特征对所述语音合成模型进行训练。2.根据权利要求1所述的方法，其特征在于，所述编码层包括依次连接的第一嵌入模块、编码器、韵律预测模块和第二嵌入模块；所述将所述第一样本音频对应的第一音素序列以及对应的说话人标识，输入语音合成模型的编码层，以基于所述说话人标识对应的风格表征和所述第一音素序列，确定所述说话人标识对应的说话人在所述第一音素序列中各音素上的韵律特征，并基于所述第一音素序列和所述韵律特征确定所述第一音素序列在音频帧级别上的文本编码，包括：将所述说话人标识输入所述第二嵌入模块，得到所述说话人标识对应的风格表征；将所述第一音素序列输入所述第一嵌入模块，得到所述第一音素序列中各音素的文本表征，并将各所述音素的文本表征输入所述编码器，得到各所述音素的文本编码；将各所述音素的文本编码和所述风格表征输入所述韵律预测模块，得到所述说话人标识对应的说话人在所述第一音素序列中各音素上的韵律特征，并基于所述第一音素序列和所述韵律特征确定所述第一音素序列在音频帧级别上的文本编码。3.根据权利要求2所述的方法，其特征在于，所述韵律预测模块包括韵律预测单元和韵律处理单元；所述韵律特征包括音高特征、能量特征和时长特征；所述将各所述音素的文本编码和所述风格表征输入所述韵律预测模块，得到所述说话人标识对应的说话人在所述第一音素序列中各音素上的韵律特征，并基于所述第一音素序列和所述韵律特征确定所述第一音素序列在音频帧级别上的文本编码，包括：将各所述音素的文本编码和所述风格表征，输入所述韵律预测单元，得到所述说话人标识对应的说话人在各所述音素上的音高特征、能量特征和时长特征；将各所述音素的文本编码和所述说话人在各所述音素上的音高特征、能量特征和时长特征，输入韵律处理单元，以将所述说话人在各所述音素上的音高特征和能量特征与各所述音素的文本编码进行融合，得到各所述音素的融合编码，并基于所述说话人在各所述音素上的时长特征，将各所述音素的融合编码扩展到音频帧级别，得到所述第一音素序列在音频帧级别上的文本编码。4.根据权利要求1
‑
3中任一项所述的方法，其特征在于，所述解码层，包括与所述编码层连接的解码器和与所述解码器连接的第三嵌入模块；所述将所述第一音素序列在所述音频帧级别上的文本编码和对应的所述说话人标识，
输入所述语音合成模型的解码层，以基于所述说话人标识对应的音色表征和所述文本编码进行解码，得到所述第一样本音频的预测声学特征，包括：将所述说话人标识输入所述第三嵌入模块，得到所述说话人标识对应的音色表征；将所述音色表征和所述第一音素序列在所述音频帧级别上的文本编码输入所述解码器，以基于所述音色表征和所述文本编码进行解码，得到所述预测声学特征。5.根据权利要求2或3所述的方法，其特征在于，所述基于各所述第一样本音频的预测声学特征和所述样本声学特征对所述语音合成模型进行训练之后，还包括：获取至少一个包含噪声的第二样本音频的样本声学特征、对应的第二音素序列以及对应的说话人标识；基于所述至少一个包含噪声的第二样本音频的样本声学特征、对应的第二音素序列以及对应的说话人标识，对所述韵律预测模块进行训练。6.一种语音合成方法，其特征在于，所述方法包括：获取待合成的目标文本对应的第三音素序列，并从候选标识集中获取第一说话人标识和第二说话人标识；将所述第三音素序列和所述第一说话人标识，输入语音合成模型的编码层，以基于所述第一说话人标识对应的风格表征和所述第三音素序列，确定所述第一说话人标识对应的说话人在所述第三音素序列中各音素上的韵律特征，并基于所述第三音素序列和所述韵律特征确定所述第三音素序列在音频帧级别上的文本编码；将所述第三音素序列在音频帧级别上的文本编码和所述第二说话人标识，输入所述语音合成模型的解码层，以基于所述第二说话人标识对应的音色表征和所述文本编码进行解码，得到声学特征；基于所述声学特征，生成所述目标文本对应的目标音频。7.一种语音合成模型的训练装置，...

【专利技术属性】
技术研发人员：宋伟，张雅洁，岳杨皓，张政臣，吴友政，
申请(专利权)人：京东科技信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人