【技术实现步骤摘要】
基于人工智能的语料扩充及语音合成系统构建方法及装置
本专利技术涉及计算机应用技术,特别涉及基于人工智能的语料扩充及语音合成系统构建方法及装置。
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。在语音合成技术中,需要针对发音人进行语料的录制,录制过程需要在专业的录音环境中进行,以保证语音的音质,并要保证发音人的发音平稳性,同时对应的文本需要具有较高的文本覆盖率,这样才能较为准确和优质地合成出训练集外的语音。为构建出质量较好的统计参数语音合成系统,需要先构建出大样本音库(或称为大规模音库),大样本音库中往往会录制上万句语料,时长达到十小时以上的规模。对于一些特定发音人如明星来说,邀请其进行如此大规模的语料录制显然是不切实际的。现有技术中,基于精心设计的含有一 ...
【技术保护点】
1.一种基于人工智能的语料扩充方法,其特征在于,包括:根据音库中的语料,训练得到WaveNet模型;利用所述WaveNet模型,生成给定文本对应的语音波形;将生成的语音波形对应的语料补充到所述音库中。
【技术特征摘要】
1.一种基于人工智能的语料扩充方法,其特征在于,包括:根据音库中的语料,训练得到WaveNet模型;利用所述WaveNet模型,生成给定文本对应的语音波形;将生成的语音波形对应的语料补充到所述音库中。2.根据权利要求1所述的方法,其特征在于,所述利用所述WaveNet模型,生成给定文本对应的语音波形之前,进一步包括:根据音库中的语料,训练得到时长预测模型以及基频预测模型;利用所述时长预测模型以及所述基频预测模型,分别预测出所述给定文本对应的时长信息以及基频信息;所述利用所述WaveNet模型,生成给定文本对应的语音波形包括:根据预测出的时长信息、基频信息以及所述WaveNet模型,生成所述给定文本对应的语音波形。3.根据权利要求1所述的方法,其特征在于,所述音库为小样本音库;所述给定文本为:满足预定文本覆盖率要求的文本;当生成的语音波形对应的语料补充到所述小样本音库中后,所述小样本音库扩充为大样本音库。4.根据权利要求3所述的方法,其特征在于,该方法进一步包括:利用所述大样本音库中的语料,构建出统计参数语音合成系统。5.一种基于人工智能的统计参数语音合成系统构建方法,其特征在于,包括:根据小样本音库中的语料,训练得到WaveNet模型;利用所述WaveNet模型,生成给定文本对应的语音波形;将生成的语音波形对应的语料补充到所述小样本音库中,得到大样本音库;利用所述大样本音库中的语料,构建出统计参数语音合成系统。6.根据权利要求5所述的方法,其特征在于,所述利用所述WaveNet模型,生成给定文本对应的语音波形之前,进一步包括:根据小样本音库中的语料,训练得到时长预测模型以及基频预测模型;利用所述时长预测模型以及所述基频预测模型,分别预测出所述给定文本对应的时长信息以及基频信息;所述利用所述WaveNet模型,生成给定文本对应的语音波形包括:根据预测出的时长信息、基频信息以及所述WaveNet模型,生成所述给定文本对应的语音波形。7.一种基于人工智能的语料扩充装置,其特征在于,包括:第一训练单元、第一生成单元以及第一扩充单元;所述第一训练单元,用于根据音库中的语料,训练得到WaveNet模型;所述第一生成单元,用于利用所述WaveNet模型,...
【专利技术属性】
技术研发人员:顾宇,王振宇,李昊,康永国,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。