基于神经音频编解码器的语音合成方法技术

技术编号：42372148 阅读：15 留言：0更新日期：2024-08-16 14:55

本发明专利技术涉及一种基于神经音频编解码器的语音合成方法。其包括：将参考语音、待合成文本加载到预先构建的语音合成模型Zero‑TTS，语音预测编码器接收待合成文本，并对待合成文本进行语音预测，以在语音预测后生成文本‑语音预测编码，神经音频编解码器接收参考语音，在神经音频编解码器内，将文本‑语音预测编码以及目标说话人的说话人特征编码进行重构，以在重构后生成与目标说话人适配的目标语音。本发明专利技术能提高对目标说话人的语音合成质量，大大降低对目标说话人的数据以及模型微调的需求，实现了高效率、高质量、高保真地生成目标语音。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种语音合成方法，尤其是一种基于神经音频编解码器的语音合成方法。

技术介绍

1、随着人工智能的发展，人们对智能化生活的需求更加迫切。目前，语音合成技术，在视听障碍人群的辅助交流、人工智能艺术创作、智能设备人机交互等领域发挥了重要作用，促进了产业智能化发展，提高了人民生活水平。

2、传统的语音合成方法，依赖于统计参数合成与音频拼接，合成出的语音音质低、不真实。深度学习合成模型可以生成高质量语音，但深度学习合成模型需要进行训练，在训练时，需要利用大量相应说话人的语音数据和文本数据，对于新的说话人，则需要过程复杂、繁琐的微调以及新的数据资源。由此，低质量的语音合成，已经无法满足人们的需求；而复杂的深度学习模型，会增加用户的使用成本，不同语音合成方法的局限性，限制了语音合成技术的推广与应用，阻碍了人工智能产业的发展进程。

3、现有基于深度学习的多说话人语音合成方法，利用声学模型对不同说话人的声学特征建模，不能自适应获取说话人信息，导致模型对于不同说话人泛化能力不足。基于大模型的多说话人自适应合成方法，则受限...

【技术保护点】

1.一种基于神经音频编解码器的语音合成方法，其特征是，所述语音合成方法包括：

2.根据权利要求1所述的基于神经音频编解码器的语音合成方法，其特征是，所述神经音频编解码器包括神经音频编码器、神经音频解码器以及连续残差向量量化器，其中，

3.根据权利要求2所述的基于神经音频编解码器的语音合成方法，其特征是，所述语音特征解耦模块至少包括说话人特征编码器，其中，

4.根据权利要求1所述的基于神经音频编解码器的语音合成方法，其特征是，语音编码预测器包括文本语义编码器、随机时长预测器以及正则化流，其中，

5.根据权利要求1至4任一项所述的基于神经音频编...

【技术特征摘要】

1.一种基于神经音频编解码器的语音合成方法，其特征是，所述语音合成方法包括：

3.根据权利要求2所述的基于神经音频编解码器的语音合成方法，其特征是，所述语音特征解耦模块至少包括说话人特征编码器，其中，

5.根据权利要求1至4任一项所述的基于神经音频编解码器的语音合成方法，其特征是，构建语音合成模型zero-tts时，构建方法包括：

6.根据权利要求5所述...

【专利技术属性】
技术研发人员：邹亮，闫祖龙，雷萌，凌辉轩，宁琪玥，周星翰，许世凡，赵荣焕，
申请(专利权)人：中国矿业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人