基于改进端到端语音合成模型提升流式语音自然度的方法、系统、设备及介质技术方案

技术编号:42380130 阅读:68 留言:0更新日期:2024-08-16 15:06
一种基于改进端到端语音合成模型提升流式语音自然度的方法,包括:获取训练数据,通过MFA模型对所述训练数据进行音频、文本对齐,对所述音频进行随机切分;在端模型模型基础上,添加语义特征提取、音频特征提取和向量嵌入;改写损失函数,得到预训练好的语音合成模型。针对合成的音频在衔接处会出现不自然的停顿、难以直接连接上的问题,本发明专利技术会对训练数据、训练模块进行调整,使端到端语音模型的输入变为(context,audio,text),并且在损失函数中添加一个L1loss,控制模型当前音频与上文音频衔接处波形振幅尽可能一致,使模型具备合成能够和上下文音频自然衔接的音频的能力。

【技术实现步骤摘要】

本专利技术涉及智能语音,具体涉及一种基于改进端到端语音合成模型提升流式语音合成自然度的方法。


技术介绍

1、主流的端到端语音合成模型结构通常包含:内容编码器、时长预测器、梅尔频谱生成器以及解码器。其中,内容编码器负责将输入的文本转化为内容特征向量;时长预测器则基于这些特征向量,预测每个音节的发音时长,并据此对内容特征向量进行复制和排列;随后,这些特征向量被送入梅尔频谱生成器,以生成合成的梅尔频谱;最终,解码器将这些频谱转化为音频波形,保存为wav文件。

2、然而,传统的端到端模型训练方法是:每次喂入模型的数据为(audio,text),其中audio为一句完整的句子,text为音频对应文字。这种训练方式在流式合成时会导致:针对非标点符号处断句合成的分句,相邻分句间不自然的停顿、不连贯非常明显。

3、为了实现流式语音合成的无延迟效果,需要满足:在当前音频播放完成前,完成下一分句音频的合成。所以,一种常见的策略是:将输入的文字尽可能分割成长度相近的句子进行合成。否则,当短句与长句交替出现时,短句播放完毕后需要等待长句合成完成,从而产生不本文档来自技高网...

【技术保护点】

1.一种基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,包括:

2.根据权利要求1所述基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,将50%原有(audio,text)处理成三段式({audio1,audio2,audio3},{text1,text2,text3})。

3.根据权利要求1所述基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,将剩下50%数据以(audio,text)格式保存。

4.根据权利要求1所述基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,所述语义特征提取T1基于t...

【技术特征摘要】

1.一种基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,包括:

2.根据权利要求1所述基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,将50%原有(audio,text)处理成三段式({audio1,audio2,audio3},{text1,text2,text3})。

3.根据权利要求1所述基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,将剩下50%数据以(audio,text)格式保存。

4.根据权利要求1所述基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,所述语义特征提取t1基于transformer、所述音频特征提取a1基于wav2vec或hubert和所述向量嵌入e1。

5.根据权利要求1所述基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,所述端到端模型替换内容编码器textencoder,改进后训练时的模型输入有两种情况。

6.根据权利要求5所述基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,抽取到({audio1,audio2,audio3},{text1,text2,text3})格式保存的数据;

7.根据权利要求5所述基于改进端到端语音合成模型提升流式语音自然度的方法,其特征在于,抽取到(audio,text)格式保存的...

【专利技术属性】
技术研发人员:周邦健沈伟林
申请(专利权)人:华院计算技术上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1