【技术实现步骤摘要】
本申请涉及人工智能,特别涉及一种语音合成方法、装置、设备、存储介质及程序产品。
技术介绍
1、语音合成是指将文本转化为音频的过程,该过程中,通常利用基于ai模型的语音合成系统进行语音合成。
2、在相关技术中,语音合成系统可以将语音内容的文本,以及一个提示音频输入到声学令牌提取模型中,提取出声学令牌,将声学令牌作为要生成的音频的声学特征,输入到声音解码器,以生成最终的音频。生成的该音频的语音内容来自于上述文本,且该音频的音色、情绪等特征来自于上述提示音频。
3、上述方案从文本和提示音频直接预测声学令牌,从文本到声学令牌的特征跨度过大,导致声学令牌提取模型的训练过程对有标注数据的要求较高,从而限制了声学令牌提取模型的准确性,进而影响语音合成的准确性。
技术实现思路
1、本申请提供了一种语音合成方法、装置、设备、存储介质及程序产品,可以,进而提高语音合成的准确性;所述技术方案内容如下。
2、根据本申请的一方面,提供了一种语音合成方法,所述方法包括:
【技术保护点】
1.一种语音合成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述提示音频进行特征提取,获得提示语义令牌和提示声学令牌,包括:
3.根据权利要求2所述的方法,其特征在于,所述语义令牌提取器包含卷积分支和第一转换器;
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求2所述的方法,其特征在于,所述文本转语义令牌模型包括文本编码器、时长预测器、上采样分支以及解码器;
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
7.根据权利要
...【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述提示音频进行特征提取,获得提示语义令牌和提示声学令牌,包括:
3.根据权利要求2所述的方法,其特征在于,所述语义令牌提取器包含卷积分支和第一转换器;
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求2所述的方法,其特征在于,所述文本转语义令牌模型包括文本编码器、时长预测器、上采样分支以及解码器;
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
7.根据权利要求6所述的方法,其特征在于,所述将所述第二音频样本的语音文本输入所述文本转语义令牌模型,获得所述文本转语义令牌模型输出的,所述第二音频样本的第一语义令牌样本,包括:
8.根据权利要求7所述的方法,其特征在于,所述基于所述第一播放时长样本、所述第二播放时长样本、所述第二音频样本的第一语义令牌样本、以及所述第二音频样本的语义令牌标签,获取所述文本转语义令牌模型的损失函数值,包括:<...
【专利技术属性】
技术研发人员:林诗伦,蒙力,苏文超,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。