语音合成方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号：39942125 阅读：20 留言：0更新日期：2024-01-08 22:38

本申请关于一种语音合成方法、装置、设备、存储介质及程序产品，涉及人工智能技术领域。该方法包括：获取目标文本和提示音频；对提示音频进行特征提取，获得提示语义令牌和提示声学令牌；提示语义令牌用于指示提示音频在各个时间点上的语义特征，提示声学令牌用于指示提示音频在各个时间点上的声学特征；对目标文本进行特征提取，获得目标语义令牌；目标语义令牌用于指示目标文本对应的语音在各个时间点上的语义特征；基于提示语义令牌、提示声学令牌以及目标语义令牌，获取目标声学令牌；目标声学令牌用于指示目标文本对应的语音在各个时间点上的声学特征；基于目标声学令牌，获取目标文本的目标音频。本申请能够提高语音合成的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，特别涉及一种语音合成方法、装置、设备、存储介质及程序产品。

技术介绍

1、语音合成是指将文本转化为音频的过程，该过程中，通常利用基于ai模型的语音合成系统进行语音合成。

2、在相关技术中，语音合成系统可以将语音内容的文本，以及一个提示音频输入到声学令牌提取模型中，提取出声学令牌，将声学令牌作为要生成的音频的声学特征，输入到声音解码器，以生成最终的音频。生成的该音频的语音内容来自于上述文本，且该音频的音色、情绪等特征来自于上述提示音频。

3、上述方案从文本和提示音频直接预测声学令牌，从文本到声学令牌的特征跨度过大，导致声学令牌提取模型的训练过程对有标注数据的要求较高，从而限制了声学令牌提取模型的准确性，进而影响语音合成的准确性。

技术实现思路

1、本申请提供了一种语音合成方法、装置、设备、存储介质及程序产品，可以，进而提高语音合成的准确性；所述技术方案内容如下。

2、根据本申请的一方面，提供了一种语音合成方法，所述方法包括：

>3、获取目标文本和本文档来自技高网...

【技术保护点】

1.一种语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述提示音频进行特征提取，获得提示语义令牌和提示声学令牌，包括：

3.根据权利要求2所述的方法，其特征在于，所述语义令牌提取器包含卷积分支和第一转换器；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，所述文本转语义令牌模型包括文本编码器、时长预测器、上采样分支以及解码器；

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特...

【技术特征摘要】

1.一种语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述提示音频进行特征提取，获得提示语义令牌和提示声学令牌，包括：

3.根据权利要求2所述的方法，其特征在于，所述语义令牌提取器包含卷积分支和第一转换器；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，所述文本转语义令牌模型包括文本编码器、时长预测器、上采样分支以及解码器；

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述第二音频样本的语音文本输入所述文本转语义令牌模型，获得所述文本转语义令牌模型输出的，所述第二音频样本的第一语义令牌样本，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述第一播放时长样本、所述第二播放时长样本、所述第二音频样本的第一语义令牌样本、以及所述第二音频样本的语义令牌标签，获取所述文本转语义令牌模型的损失函数值，包括：<...

【专利技术属性】
技术研发人员：林诗伦，蒙力，苏文超，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人