语音风格迁移合成方法及装置、电子设备、存储介质制造方法及图纸

技术编号：37627904 阅读：19 留言：0更新日期：2023-05-18 12:19

本公开提供了一种语音风格迁移合成方法及装置、电子设备、存储介质，涉及语音合成技术领域。该方法包括：获取待合成语音文本，确定待合成语音文本对应的音素序列；确定具有目标音色的对象语音嵌入向量；将音素序列以及对象语音嵌入向量输入到语音风格迁移合成模型中，生成目标语音音频；语音风格迁移合成模型用于预测目标语音风格的韵律特征，语音风格迁移合成模型包括用于生成韵律特征的韵律预测器，目标语音音频在播放时符合目标音色和目标语音风格。本公开实施例的技术方案可以在不改变音色的前提下，实现任意类型的语音风格的迁移，并且通过韵律预测器使合成的目标语音音频的语音风格可调，提升合成的目标语音音频的质量。提升合成的目标语音音频的质量。提升合成的目标语音音频的质量。

全部详细技术资料下载

【技术实现步骤摘要】
语音风格迁移合成方法及装置、电子设备、存储介质

[0001]本公开涉及语音合成
，具体而言，涉及一种语音风格迁移合成方法、语音风格迁移合成装置、电子设备以及计算机可读存储介质。

技术介绍

[0002]随着科学技术的发展，语音合成(Speech Synthesis)技术越来越受到人们的欢迎。语音合成是指通过机械的、电子的方法产生人造语音的技术，而语音合成的风格迁移，是指在保留目标说话人音色的基础上，改变其说话的风格，让语音合成的风格变换为其他的要学习的说话人风格。
[0003]目前，相关的语音合成的风格迁移方案中，要么语音合成的过程语音风格不可控，导致风格迁移后的合成语音音频的效果较差，要么只能进行已经录制的语音风格的风格转换，不能迁移到任意说话人的语音风格，语音合成的风格迁移效率较差。
[0004]需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开实施例的目的在于提供一种...

【技术保护点】

【技术特征摘要】
1.一种语音风格迁移合成方法，其特征在于，包括：获取待合成语音文本，确定所述待合成语音文本对应的音素序列；确定具有目标音色的对象语音嵌入向量；将所述音素序列以及所述对象语音嵌入向量输入到语音风格迁移合成模型中，生成目标语音音频；其中，所述语音风格迁移合成模型用于预测目标语音风格的韵律特征，所述语音风格迁移合成模型包括用于生成所述韵律特征的韵律预测器，所述目标语音音频在播放时符合所述目标音色和目标语音风格。2.根据权利要求1所述的语音风格迁移合成方法，其特征在于，所述语音风格迁移合成模型包括编码器以及解码器；所述将所述音素序列以及所述对象语音嵌入向量输入到语音风格迁移合成模型中，生成目标语音音频，包括：将所述音素序列输入到所述编码器中，得到音素序列嵌入向量；将所述音素序列嵌入向量以及所述对象语音嵌入向量输入到所述韵律预测器中，确定所述音素序列嵌入向量对应的韵律特征，所述韵律特征包括音素发音时长、音素音高、音素能量；将所述韵律特征输入到所述解码器中，生成目标语音音频。3.根据权利要求2所述的语音风格迁移合成方法，其特征在于，所述韵律预测器包括音素发音时长预测器、音素音高预测器和音素能量预测器；所述将所述音素序列嵌入向量以及所述对象语音嵌入向量输入到所述韵律预测器中，确定所述音素序列嵌入向量对应的韵律特征，包括：将所述音素序列嵌入向量以及所述对象语音嵌入向量输入到所述音素发音时长预测器中，确定所述音素发音时长；将所述音素序列嵌入向量以及所述对象语音嵌入向量输入到所述音素音高预测器中，确定所述音素音高；将所述音素序列嵌入向量以及所述对象语音嵌入向量输入到所述音素能量预测器中，确定所述音素能量；基于所述韵律预测器将所述音素发音时长扩展到帧级别的音素发音时长；根据所述帧级别的音素发音时长、所述音素音高以及所述音素能量确定所述音素序列嵌入向量对应的韵律特征。4.根据权利要求2或3所述的语音风格迁移合成方法，其特征在于，所述方法还包括：对所述音素音高和所述音素能量进行高斯归一化处理。5.根据权利要求1所述的语音风格迁移合成方法，其特征在于，所述语音风格迁移合成模型是通过风格迁移训练过程得到的，所述风格迁移训练过程包括：获取预训练的语音合成模型，所述语音合成模型用于生成具有第一音色以及第一语音风格的第一语音音频；获取风格迁移训练数据，所述风格迁移训...

【专利技术属性】
技术研发人员：宋伟，岳杨皓，张雅洁，张政臣，吴友政，
申请(专利权)人：京东科技信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人