基于人工智能的语料扩充及语音合成系统构建方法及装置制造方法及图纸

技术编号:19024866 阅读:69 留言:0更新日期:2018-09-26 19:26
本发明专利技术公开了基于人工智能的语料扩充及语音合成系统构建方法及装置,如可包括:根据小样本音库中的语料,训练得到WaveNet模型;利用WaveNet模型,生成给定文本对应的语音波形;将生成的语音波形对应的语料补充到小样本音库中,得到大样本音库;利用大样本音库中的语料,构建出统计参数语音合成系统。应用本发明专利技术所述方案,能够提升语音合成效果,并节省人力物力及时间成本等。

【技术实现步骤摘要】
基于人工智能的语料扩充及语音合成系统构建方法及装置
本专利技术涉及计算机应用技术,特别涉及基于人工智能的语料扩充及语音合成系统构建方法及装置。
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。在语音合成技术中,需要针对发音人进行语料的录制,录制过程需要在专业的录音环境中进行,以保证语音的音质,并要保证发音人的发音平稳性,同时对应的文本需要具有较高的文本覆盖率,这样才能较为准确和优质地合成出训练集外的语音。为构建出质量较好的统计参数语音合成系统,需要先构建出大样本音库(或称为大规模音库),大样本音库中往往会录制上万句语料,时长达到十小时以上的规模。对于一些特定发音人如明星来说,邀请其进行如此大规模的语料录制显然是不切实际的。现有技术中,基于精心设计的含有一小时左右时长、千余句本文档来自技高网...

【技术保护点】
1.一种基于人工智能的语料扩充方法,其特征在于,包括:根据音库中的语料,训练得到WaveNet模型;利用所述WaveNet模型,生成给定文本对应的语音波形;将生成的语音波形对应的语料补充到所述音库中。

【技术特征摘要】
1.一种基于人工智能的语料扩充方法,其特征在于,包括:根据音库中的语料,训练得到WaveNet模型;利用所述WaveNet模型,生成给定文本对应的语音波形;将生成的语音波形对应的语料补充到所述音库中。2.根据权利要求1所述的方法,其特征在于,所述利用所述WaveNet模型,生成给定文本对应的语音波形之前,进一步包括:根据音库中的语料,训练得到时长预测模型以及基频预测模型;利用所述时长预测模型以及所述基频预测模型,分别预测出所述给定文本对应的时长信息以及基频信息;所述利用所述WaveNet模型,生成给定文本对应的语音波形包括:根据预测出的时长信息、基频信息以及所述WaveNet模型,生成所述给定文本对应的语音波形。3.根据权利要求1所述的方法,其特征在于,所述音库为小样本音库;所述给定文本为:满足预定文本覆盖率要求的文本;当生成的语音波形对应的语料补充到所述小样本音库中后,所述小样本音库扩充为大样本音库。4.根据权利要求3所述的方法,其特征在于,该方法进一步包括:利用所述大样本音库中的语料,构建出统计参数语音合成系统。5.一种基于人工智能的统计参数语音合成系统构建方法,其特征在于,包括:根据小样本音库中的语料,训练得到WaveNet模型;利用所述WaveNet模型,生成给定文本对应的语音波形;将生成的语音波形对应的语料补充到所述小样本音库中,得到大样本音库;利用所述大样本音库中的语料,构建出统计参数语音合成系统。6.根据权利要求5所述的方法,其特征在于,所述利用所述WaveNet模型,生成给定文本对应的语音波形之前,进一步包括:根据小样本音库中的语料,训练得到时长预测模型以及基频预测模型;利用所述时长预测模型以及所述基频预测模型,分别预测出所述给定文本对应的时长信息以及基频信息;所述利用所述WaveNet模型,生成给定文本对应的语音波形包括:根据预测出的时长信息、基频信息以及所述WaveNet模型,生成所述给定文本对应的语音波形。7.一种基于人工智能的语料扩充装置,其特征在于,包括:第一训练单元、第一生成单元以及第一扩充单元;所述第一训练单元,用于根据音库中的语料,训练得到WaveNet模型;所述第一生成单元,用于利用所述WaveNet模型,...

【专利技术属性】
技术研发人员:顾宇王振宇李昊康永国
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1