基于神经音频编解码器的语音合成方法技术

技术编号:42372148 阅读:15 留言:0更新日期:2024-08-16 14:55
本发明专利技术涉及一种基于神经音频编解码器的语音合成方法。其包括:将参考语音、待合成文本加载到预先构建的语音合成模型Zero‑TTS,语音预测编码器接收待合成文本,并对待合成文本进行语音预测,以在语音预测后生成文本‑语音预测编码,神经音频编解码器接收参考语音,在神经音频编解码器内,将文本‑语音预测编码以及目标说话人的说话人特征编码进行重构,以在重构后生成与目标说话人适配的目标语音。本发明专利技术能提高对目标说话人的语音合成质量,大大降低对目标说话人的数据以及模型微调的需求,实现了高效率、高质量、高保真地生成目标语音。

【技术实现步骤摘要】

本专利技术涉及一种语音合成方法,尤其是一种基于神经音频编解码器的语音合成方法


技术介绍

1、随着人工智能的发展,人们对智能化生活的需求更加迫切。目前,语音合成技术,在视听障碍人群的辅助交流、人工智能艺术创作、智能设备人机交互等领域发挥了重要作用,促进了产业智能化发展,提高了人民生活水平。

2、传统的语音合成方法,依赖于统计参数合成与音频拼接,合成出的语音音质低、不真实。深度学习合成模型可以生成高质量语音,但深度学习合成模型需要进行训练,在训练时,需要利用大量相应说话人的语音数据和文本数据,对于新的说话人,则需要过程复杂、繁琐的微调以及新的数据资源。由此,低质量的语音合成,已经无法满足人们的需求;而复杂的深度学习模型,会增加用户的使用成本,不同语音合成方法的局限性,限制了语音合成技术的推广与应用,阻碍了人工智能产业的发展进程。

3、现有基于深度学习的多说话人语音合成方法,利用声学模型对不同说话人的声学特征建模,不能自适应获取说话人信息,导致模型对于不同说话人泛化能力不足。基于大模型的多说话人自适应合成方法,则受限于模型过大的参数量,本文档来自技高网...

【技术保护点】

1.一种基于神经音频编解码器的语音合成方法,其特征是,所述语音合成方法包括:

2.根据权利要求1所述的基于神经音频编解码器的语音合成方法,其特征是,所述神经音频编解码器包括神经音频编码器、神经音频解码器以及连续残差向量量化器,其中,

3.根据权利要求2所述的基于神经音频编解码器的语音合成方法,其特征是,所述语音特征解耦模块至少包括说话人特征编码器,其中,

4.根据权利要求1所述的基于神经音频编解码器的语音合成方法,其特征是,语音编码预测器包括文本语义编码器、随机时长预测器以及正则化流,其中,

5.根据权利要求1至4任一项所述的基于神经音频编...

【技术特征摘要】

1.一种基于神经音频编解码器的语音合成方法,其特征是,所述语音合成方法包括:

2.根据权利要求1所述的基于神经音频编解码器的语音合成方法,其特征是,所述神经音频编解码器包括神经音频编码器、神经音频解码器以及连续残差向量量化器,其中,

3.根据权利要求2所述的基于神经音频编解码器的语音合成方法,其特征是,所述语音特征解耦模块至少包括说话人特征编码器,其中,

4.根据权利要求1所述的基于神经音频编解码器的语音合成方法,其特征是,语音编码预测器包括文本语义编码器、随机时长预测器以及正则化流,其中,

5.根据权利要求1至4任一项所述的基于神经音频编解码器的语音合成方法,其特征是,构建语音合成模型zero-tts时,构建方法包括:

6.根据权利要求5所述...

【专利技术属性】
技术研发人员:邹亮闫祖龙雷萌凌辉轩宁琪玥周星翰许世凡赵荣焕
申请(专利权)人:中国矿业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1