重读可控语音合成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：39069186 阅读：23 留言：0更新日期：2023-10-12 20:01

本公开提供了一种重读可控语音合成方法、装置、电子设备及存储介质。本公开实施例的重读可控语音合成方法包括：获取用户提供的第一文本；通过语音合成模型中的文本编码器获取第一文本的文本编码状态；获取重读特征，重读特征包括第一重读特征和/或第二重读特征，第一重读特征由用户设置，第二重读特征通过语音合成模型中的重音预测器基于第一文本的文本编码状态得到；至少通过语音合成模型中的解码器基于第一文本的文本编码状态和重读特征获得第一文本的合成音频。本公开实施例能够在不降低语音合成质量的前提下实现语音合成的重读可控。可控。可控。

全部详细技术资料下载

【技术实现步骤摘要】
重读可控语音合成方法、装置、电子设备及存储介质

[0001]本公开涉及一种重读可控语音合成方法、装置、电子设备及存储介质。

技术介绍

[0002]随着语音合成技术的发展，修改音频中特定文本重读程度的重度语音合成技术得到了广泛应用。目前，多数重读可控的语音合成方法通过在文本中插入重读标签来实现，这种方法需要训练一个单独的模型用于文本中重读标签的预测，该模型需要大量的重读标注数据才能学习合适的风格表示，而重读标注数据需大量人力来根据音频对文本进行重读标签的标注，存在诸多不确定性、耗时费力并且标注数据量难以保障，导致模型的精度、可靠性等均难以达标。因此，如何在不降低语音合成质量的前提下省时省力地实现合成音频的重读控制，是亟待解决的问题。

技术实现思路

[0003]为了解决上述技术问题中的至少一个，本公开提供了一种重读可控语音合成方法、装置、电子设备及存储介质。
[0004]根据本公开的第一方面，提供了一种重读可控语音合成方法，包括：
[0005]获取用户提供的第一文本；
[0006]通过语音...

【技术保护点】

【技术特征摘要】
1.一种重读可控语音合成方法，其特征在于，包括：获取用户提供的第一文本；通过语音合成模型中的文本编码器获取第一文本的文本编码状态；获取重读特征，所述重读特征包括第一重读特征和/或第二重读特征，所述第一重读特征由用户设置，所述第二重读特征通过所述语音合成模型中的重音预测器基于所述第一文本的文本编码状态得到；至少通过所述语音合成模型中的解码器基于所述第一文本的文本编码状态和所述重读特征获得第一文本的合成音频。2.根据权利要求1所述的重读可控语音合成方法，其特征在于，所述第一重读特征通过如下方式之一得到：根据第一用户提供的重读标识信息生成所述第一重读特征，所述重读标识信息指示用户指定的重读音素的位置及其重读程度；从用户提供的参考音频提取得到所述第一重读特征。3.根据权利要求1所述的重读可控语音合成方法，其特征在于，所述至少通过所述语音合成模型中的解码器基于所述第一文本的文本编码状态和所述重读特征获得第一文本的合成音频，包括：将所述重读特征与所述第一文本的文本编码状态相加以获得第一文本的重读文本编码状态；所述第一文本的重读文本编码状态依次经所述语音合成模型的时长预测器和流模块处理得到第一文本的声学序列特征；通过所述解码器对所述第一文本的声学序列特征处理得到所述第一文本的合成音频。4.根据权利要求1所述的重读可控语音合成方法，其特征在于，所述语音合成模型通过如下步骤训练得到：获取第二文本及其原始音频；利用第二文本的原始音频获取第二文本的真实重音特征；利用所述第二文本经所述语音合成模型中的文本编码器和重音预测器处理得到所述第二文本的文本编码状态和第二重读特征；利用语音合成模型的解码器基于来自输入线性谱的声学隐状态得到第二文本的合成音频；根据第二文本的第二重读特征和真实重读特征得到第一损失，根据第二文本的合成音频和原始音频得到第...

【专利技术属性】
技术研发人员：史文婧，江明奇，陈云琳，
申请(专利权)人：上海墨百意信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人