【技术实现步骤摘要】
本专利技术涉及一种语音合成方法,尤其是一种基于神经音频编解码器的语音合成方法。
技术介绍
1、随着人工智能的发展,人们对智能化生活的需求更加迫切。目前,语音合成技术,在视听障碍人群的辅助交流、人工智能艺术创作、智能设备人机交互等领域发挥了重要作用,促进了产业智能化发展,提高了人民生活水平。
2、传统的语音合成方法,依赖于统计参数合成与音频拼接,合成出的语音音质低、不真实。深度学习合成模型可以生成高质量语音,但深度学习合成模型需要进行训练,在训练时,需要利用大量相应说话人的语音数据和文本数据,对于新的说话人,则需要过程复杂、繁琐的微调以及新的数据资源。由此,低质量的语音合成,已经无法满足人们的需求;而复杂的深度学习模型,会增加用户的使用成本,不同语音合成方法的局限性,限制了语音合成技术的推广与应用,阻碍了人工智能产业的发展进程。
3、现有基于深度学习的多说话人语音合成方法,利用声学模型对不同说话人的声学特征建模,不能自适应获取说话人信息,导致模型对于不同说话人泛化能力不足。基于大模型的多说话人自适应合成方法,则受限
...【技术保护点】
1.一种基于神经音频编解码器的语音合成方法,其特征是,所述语音合成方法包括:
2.根据权利要求1所述的基于神经音频编解码器的语音合成方法,其特征是,所述神经音频编解码器包括神经音频编码器、神经音频解码器以及连续残差向量量化器,其中,
3.根据权利要求2所述的基于神经音频编解码器的语音合成方法,其特征是,所述语音特征解耦模块至少包括说话人特征编码器,其中,
4.根据权利要求1所述的基于神经音频编解码器的语音合成方法,其特征是,语音编码预测器包括文本语义编码器、随机时长预测器以及正则化流,其中,
5.根据权利要求1至4任一项
...【技术特征摘要】
1.一种基于神经音频编解码器的语音合成方法,其特征是,所述语音合成方法包括:
2.根据权利要求1所述的基于神经音频编解码器的语音合成方法,其特征是,所述神经音频编解码器包括神经音频编码器、神经音频解码器以及连续残差向量量化器,其中,
3.根据权利要求2所述的基于神经音频编解码器的语音合成方法,其特征是,所述语音特征解耦模块至少包括说话人特征编码器,其中,
4.根据权利要求1所述的基于神经音频编解码器的语音合成方法,其特征是,语音编码预测器包括文本语义编码器、随机时长预测器以及正则化流,其中,
5.根据权利要求1至4任一项所述的基于神经音频编解码器的语音合成方法,其特征是,构建语音合成模型zero-tts时,构建方法包括:
6.根据权利要求5所述...
【专利技术属性】
技术研发人员:邹亮,闫祖龙,雷萌,凌辉轩,宁琪玥,周星翰,许世凡,赵荣焕,
申请(专利权)人:中国矿业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。