语音合成方法及装置制造方法及图纸

技术编号:45055368 阅读:34 留言:0更新日期:2025-04-22 17:38
本发明专利技术提供一种语音合成方法及装置,所述方法包括:基于编码器中的当前自注意力模块,对上一自注意力模块输出的上一文本特征进行关键信息提取,确定当前文本特征;基于解码器中与当前自注意力模块层级对应的当前交叉注意力模块,对上一交叉注意力模块输出的上一语音特征与当前文本特征进行特征对齐,得到当前语音特征;基于解码器中末个交叉注意力模块输出的语音特征,对待合成文本进行语音合成,得到合成语音。本发明专利技术减少了语音合成中语义信息和声学信息的耦合,提高了语义信息和声学信息对齐稳定性,减少了交叉注意力带来的对齐不稳定,进而提高了语音合成效果。

【技术实现步骤摘要】

本专利技术涉及语音合成,尤其涉及一种语音合成方法及装置


技术介绍

1、语音合成(speech synthesis),又称文字转语音(text-to-speech, tts),旨在将输入文本转换为流畅自然的输出语音,可以应用于辅助视力障碍者阅读、语音导航系统、自动客服系统、有声书制作等。

2、目前,多基于语音合成模型进行语音合成,该语音合成模型在训练过程中基于样本文本的语义信息预测语音信号的第一离散单元(即离散token),并将样本文本对应的语音信号标签转换为第二离散单元,基于第一离散单元与第二离散单元更新语音合成模型的参数,得到训练完成的语音合成模型。然而,训练完成的语音合成模型仍然存在语音合成稳定性问题,例如出现多读、漏读、错读等。


技术实现思路

1、本专利技术提供一种语音合成方法及装置,用以解决现有技术中存在的缺陷。

2、本专利技术提供一种语音合成方法,包括如下步骤:

3、基于编码器中的当前自注意力模块,对上一自注意力模块输出的上一文本特征进行关键信息提取,确定当前文本文档来自技高网...

【技术保护点】

1.一种语音合成方法,其特征在于,包括:

2.根据权利要求1所述的语音合成方法,其特征在于,所述解码器中各交叉注意力模块的对齐粒度随着对齐文本特征对应编码器中自注意力模块层级的递增而递减。

3.根据权利要求2所述的语音合成方法,其特征在于,所述基于解码器中与所述当前自注意力模块层级对应的当前交叉注意力模块,对上一交叉注意力模块输出的上一语音特征与所述当前文本特征进行特征对齐,得到当前语音特征,包括:

4.根据权利要求3所述的语音合成方法,其特征在于,所述对所述扩展语音特征与所述当前文本特征进行特征对齐,得到所述当前语音特征,包括:</p>

5.根据...

【技术特征摘要】

1.一种语音合成方法,其特征在于,包括:

2.根据权利要求1所述的语音合成方法,其特征在于,所述解码器中各交叉注意力模块的对齐粒度随着对齐文本特征对应编码器中自注意力模块层级的递增而递减。

3.根据权利要求2所述的语音合成方法,其特征在于,所述基于解码器中与所述当前自注意力模块层级对应的当前交叉注意力模块,对上一交叉注意力模块输出的上一语音特征与所述当前文本特征进行特征对齐,得到当前语音特征,包括:

4.根据权利要求3所述的语音合成方法,其特征在于,所述对所述扩展语音特征与所述当前文本特征进行特征对齐,得到所述当前语音特征,包括:

5.根据权利要求1至4任一项所述的语音合成方法,其特征在于,所述解码器中的首个交叉注意力模块输入是对目标说话...

【专利技术属性】
技术研发人员:宋堃胡亚军宋锐方昕高建清潘嘉刘聪
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1