语音合成模型训练和应用方法、设备、介质及产品技术

技术编号:42119492 阅读:21 留言:0更新日期:2024-07-25 00:38
本公开提供了一种语音合成模型训练和应用方法、设备、介质及产品。本公开语音合成模型训练方法包括:获取样本数据;基于发音人的音频数据通过后验编码器得到后验隐变量;基于和发音人的音频数据对应的文本数据通过先验编码器得到先验隐变量以及文本编码;基于后验隐变量、先验隐变量、文本编码、发音人的角色表征以及发音人表征通过随机时长预测器得到第一结果数据;基于第一结果数据、发音人的角色表征以及发音人表征通过解码器得到预测音频。

【技术实现步骤摘要】

本公开涉及计算机,本公开尤其涉及一种语音合成模型训练和应用方法、设备、介质及产品


技术介绍

1、近年来,语音合成技术在深度学习的推动下取得了显著提高,通过语音合成技术生成的音频越来越接近真实的语音。但是,典型的语音合成模型只能合成训练数据中出现过的说话人的语音,即现实生活中存在的一个说话人,这就意味着我们无法得到无穷的说话人音色。

2、使用传统的语音合成模型时,音色的数量的增加会直接导致训练数据的收集成本成比例提高,导致某些应用场景的数据成本过高,例如为大量的虚拟角色配音、构建个性化的语音助手。


技术实现思路

1、本公开提供了一种语音合成模型训练和应用方法、设备、介质及产品。

2、根据本公开的一个方面,提供了一种语音合成模型训练方法,所述语音合成模型包括文本编码器、先验编码器、后验编码器以及随机时长预测器,所述方法包括:

3、获取样本数据,所述样本数据包括第一样本数据、第二样本数据、第三样本数据以及第四样本数据,所述第一样本数据用于表示发音人的音频数据,所述第二样本数据用本文档来自技高网...

【技术保护点】

1.一种语音合成模型训练方法,其特征在于,所述语音合成模型包括文本编码器、先验编码器、后验编码器以及随机时长预测器,所述方法包括:

2.根据权利要求1所述的语音合成模型训练方法,其特征在于,获取发音人的角色表征,包括:

3.根据权利要求1所述的语音合成模型训练方法,其特征在于,获取发音人表征,包括:

4.根据权利要求1所述的语音合成模型训练方法,其特征在于,基于所述发音人的音频数据通过所述后验编码器得到后验隐变量,包括:

5.一种语音合成模型应用方法,其特征在于,包括:

6.根据权利要求5所述的语音合成模型应用方法,其特征在于,...

【技术特征摘要】

1.一种语音合成模型训练方法,其特征在于,所述语音合成模型包括文本编码器、先验编码器、后验编码器以及随机时长预测器,所述方法包括:

2.根据权利要求1所述的语音合成模型训练方法,其特征在于,获取发音人的角色表征,包括:

3.根据权利要求1所述的语音合成模型训练方法,其特征在于,获取发音人表征,包括:

4.根据权利要求1所述的语音合成模型训练方法,其特征在于,基于所述发音人的音频数据通过所述后验编码器得到后验隐变量,包括:

5.一种语音合成模型应用方法,其特征在于,包括:

6.根据权利...

【专利技术属性】
技术研发人员:王瑞江明奇殷昊史文婧陈云琳
申请(专利权)人:出门问问苏州信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1