【技术实现步骤摘要】
本专利技术涉及智能语音,具体涉及一种基于改进端到端语音合成模型提升流式语音合成自然度的方法。
技术介绍
1、主流的端到端语音合成模型结构通常包含:内容编码器、时长预测器、梅尔频谱生成器以及解码器。其中,内容编码器负责将输入的文本转化为内容特征向量;时长预测器则基于这些特征向量,预测每个音节的发音时长,并据此对内容特征向量进行复制和排列;随后,这些特征向量被送入梅尔频谱生成器,以生成合成的梅尔频谱;最终,解码器将这些频谱转化为音频波形,保存为wav文件。
2、然而,传统的端到端模型训练方法是:每次喂入模型的数据为(audio,text),其中audio为一句完整的句子,text为音频对应文字。这种训练方式在流式合成时会导致:针对非标点符号处断句合成的分句,相邻分句间不自然的停顿、不连贯非常明显。
3、为了实现流式语音合成的无延迟效果,需要满足:在当前音频播放完成前,完成下一分句音频的合成。所以,一种常见的策略是:将输入的文字尽可能分割成长度相近的句子进行合成。否则,当短句与长句交替出现时,短句播放完毕后需要等待长句
...【技术保护点】
1.一种基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,包括:
2.根据权利要求1所述基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,将50%原有(audio,text)处理成三段式({audio1,audio2,audio3},{text1,text2,text3})。
3.根据权利要求1所述基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,将剩下50%数据以(audio,text)格式保存。
4.根据权利要求1所述基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,所述语
...【技术特征摘要】
1.一种基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,包括:
2.根据权利要求1所述基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,将50%原有(audio,text)处理成三段式({audio1,audio2,audio3},{text1,text2,text3})。
3.根据权利要求1所述基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,将剩下50%数据以(audio,text)格式保存。
4.根据权利要求1所述基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,所述语义特征提取t1基于transformer、所述音频特征提取a1基于wav2vec或hubert和所述向量嵌入e1。
5.根据权利要求1所述基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,所述端到端模型替换内容编码器textencoder,改进后训练时的模型输入有两种情况。
6.根据权利要求5所述基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,抽取到({audio1,audio2,audio3},{text1,text2,text3})格式保存的数据;
7.根据权利要求5所述基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,抽取到(audio,text)格式保存的...
【专利技术属性】
技术研发人员:周邦健,沈伟林,
申请(专利权)人:华院计算技术上海股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。