基于人工智能的语料扩充及语音合成系统构建方法及装置制造方法及图纸

技术编号:19024866 阅读:56 留言:0更新日期:2018-09-26 19:26
本发明专利技术公开了基于人工智能的语料扩充及语音合成系统构建方法及装置,如可包括:根据小样本音库中的语料,训练得到WaveNet模型;利用WaveNet模型,生成给定文本对应的语音波形;将生成的语音波形对应的语料补充到小样本音库中,得到大样本音库;利用大样本音库中的语料,构建出统计参数语音合成系统。应用本发明专利技术所述方案,能够提升语音合成效果,并节省人力物力及时间成本等。

【技术实现步骤摘要】
基于人工智能的语料扩充及语音合成系统构建方法及装置
本专利技术涉及计算机应用技术,特别涉及基于人工智能的语料扩充及语音合成系统构建方法及装置。
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。在语音合成技术中,需要针对发音人进行语料的录制,录制过程需要在专业的录音环境中进行,以保证语音的音质,并要保证发音人的发音平稳性,同时对应的文本需要具有较高的文本覆盖率,这样才能较为准确和优质地合成出训练集外的语音。为构建出质量较好的统计参数语音合成系统,需要先构建出大样本音库(或称为大规模音库),大样本音库中往往会录制上万句语料,时长达到十小时以上的规模。对于一些特定发音人如明星来说,邀请其进行如此大规模的语料录制显然是不切实际的。现有技术中,基于精心设计的含有一小时左右时长、千余句语料的小样本音库,已经可以训练出一个小型的统计参数语音合成系统,但这种方式下,合成的效果音质相对较差,音色还原度同原始发音人相比差异较大。综合上述问题,现有技术中又提出了如下解决方式:针对小样本音库,可首先挑选出一个发音条件相对接近的大样本音库训练出一个基础模型,然后利用基础模型的参数初始化新模型,再利用小样本音库对新模型进行优化等,或者,聘请一些与相应明星音色较为接近的声替来录制一定规模的语料等。但是,上述两种方式在实际应用中均会存在一定的问题,如:对于前一种方式,虽然有一定效果,但毕竟基础发音人与目标发音人的频谱、基频等声学特征具有较大的差别,而且一些口音较重的发音人很难在现有的大样本音库中找到比较匹配的发音人,因此实际使用的效果并不理想,语音合成效果较差;聘请声替的方式虽然可以弥补语料数量不足的问题,但聘请声替的成本往往比普通发音人要高昂得多,而且一些音色辨识度较高的明星的声替也是较难寻找的,寻找声替的过程是一个相当耗时耗力的过程。
技术实现思路
有鉴于此,本专利技术提供了基于人工智能的语料扩充及语音合成系统构建方法及装置。具体技术方案如下:一种基于人工智能的语料扩充方法,包括:根据音库中的语料,训练得到WaveNet模型;利用所述WaveNet模型,生成给定文本对应的语音波形;将生成的语音波形对应的语料补充到所述音库中。根据本专利技术一优选实施例,所述利用所述WaveNet模型,生成给定文本对应的语音波形之前,进一步包括:根据音库中的语料,训练得到时长预测模型以及基频预测模型;利用所述时长预测模型以及所述基频预测模型,分别预测出所述给定文本对应的时长信息以及基频信息;所述利用所述WaveNet模型,生成给定文本对应的语音波形包括:根据预测出的时长信息、基频信息以及所述WaveNet模型,生成所述给定文本对应的语音波形。根据本专利技术一优选实施例,所述音库为小样本音库;所述给定文本为:满足预定文本覆盖率要求的文本;当生成的语音波形对应的语料补充到所述小样本音库中后,所述小样本音库扩充为大样本音库。根据本专利技术一优选实施例,该方法进一步包括:利用所述大样本音库中的语料,构建出统计参数语音合成系统。一种基于人工智能的统计参数语音合成系统构建方法,包括:根据小样本音库中的语料,训练得到WaveNet模型;利用所述WaveNet模型,生成给定文本对应的语音波形;将生成的语音波形对应的语料补充到所述小样本音库中,得到大样本音库;利用所述大样本音库中的语料,构建出统计参数语音合成系统。根据本专利技术一优选实施例,所述利用所述WaveNet模型,生成给定文本对应的语音波形之前,进一步包括:根据小样本音库中的语料,训练得到时长预测模型以及基频预测模型;利用所述时长预测模型以及所述基频预测模型,分别预测出所述给定文本对应的时长信息以及基频信息;所述利用所述WaveNet模型,生成给定文本对应的语音波形包括:根据预测出的时长信息、基频信息以及所述WaveNet模型,生成所述给定文本对应的语音波形。一种基于人工智能的语料扩充装置,包括:第一训练单元、第一生成单元以及第一扩充单元;所述第一训练单元,用于根据音库中的语料,训练得到WaveNet模型;所述第一生成单元,用于利用所述WaveNet模型,生成给定文本对应的语音波形;所述第一扩充单元,用于将生成的语音波形对应的语料补充到所述音库中。根据本专利技术一优选实施例,所述第一训练单元进一步用于,根据音库中的语料,训练得到时长预测模型以及基频预测模型;所述第一生成单元进一步用于,利用所述时长预测模型以及所述基频预测模型,分别预测出所述给定文本对应的时长信息以及基频信息,根据预测出的时长信息、基频信息以及所述WaveNet模型,生成所述给定文本对应的语音波形。根据本专利技术一优选实施例,所述音库为小样本音库;所述给定文本为:满足预定文本覆盖率要求的文本;当生成的语音波形对应的语料补充到所述小样本音库中后,所述小样本音库扩充为大样本音库。根据本专利技术一优选实施例,所述装置中进一步包括:第一构建单元;所述第一构建单元,用于利用所述大样本音库中的语料,构建出统计参数语音合成系统。一种基于人工智能的统计参数语音合成系统构建装置,包括:第二训练单元、第二生成单元、第二扩充单元以及第二构建单元;所述第二训练单元,用于根据小样本音库中的语料,训练得到WaveNet模型;所述第二生成单元,用于利用所述WaveNet模型,生成给定文本对应的语音波形;所述第二扩充单元,用于将生成的语音波形对应的语料补充到所述小样本音库中,得到大样本音库;所述第二构建单元,用于利用所述大样本音库中的语料,构建出统计参数语音合成系统。根据本专利技术一优选实施例,所述第二训练单元进一步用于,根据小样本音库中的语料,训练得到时长预测模型以及基频预测模型;所述第二生成单元进一步用于,利用所述时长预测模型以及所述基频预测模型,分别预测出所述给定文本对应的时长信息以及基频信息,根据预测出的时长信息、基频信息以及所述WaveNet模型,生成所述给定文本对应的语音波形。一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。基于上述介绍可以看出,采用本专利技术所述方案,可首先根据音库中的语料,训练得到WaveNet模型,之后,可利用WaveNet模型,生成给定文本对应的语音波形,进而可将生成的语音波形对应的语料补充到音库中,从而实现了对于音库中的语料的扩充,相比于现有技术,本专利技术所述方案中可在已有相对少量的语料的情况下,基于这些语料,通过WaveNet模型扩充给出更多的语料,从而将小样本音库扩充为大样本音库,进而可基于大样本音库来构建所需的统计参数语音合成系统,从而提升了语音合成效果,而且,节省了寻找声替所需耗费的人力物力以及时间成本等。【附图说明】图1为本专利技术基于人工智能的语料扩充方法实施例的流程图。图2本文档来自技高网
...

【技术保护点】
1.一种基于人工智能的语料扩充方法,其特征在于,包括:根据音库中的语料,训练得到WaveNet模型;利用所述WaveNet模型,生成给定文本对应的语音波形;将生成的语音波形对应的语料补充到所述音库中。

【技术特征摘要】
1.一种基于人工智能的语料扩充方法,其特征在于,包括:根据音库中的语料,训练得到WaveNet模型;利用所述WaveNet模型,生成给定文本对应的语音波形;将生成的语音波形对应的语料补充到所述音库中。2.根据权利要求1所述的方法,其特征在于,所述利用所述WaveNet模型,生成给定文本对应的语音波形之前,进一步包括:根据音库中的语料,训练得到时长预测模型以及基频预测模型;利用所述时长预测模型以及所述基频预测模型,分别预测出所述给定文本对应的时长信息以及基频信息;所述利用所述WaveNet模型,生成给定文本对应的语音波形包括:根据预测出的时长信息、基频信息以及所述WaveNet模型,生成所述给定文本对应的语音波形。3.根据权利要求1所述的方法,其特征在于,所述音库为小样本音库;所述给定文本为:满足预定文本覆盖率要求的文本;当生成的语音波形对应的语料补充到所述小样本音库中后,所述小样本音库扩充为大样本音库。4.根据权利要求3所述的方法,其特征在于,该方法进一步包括:利用所述大样本音库中的语料,构建出统计参数语音合成系统。5.一种基于人工智能的统计参数语音合成系统构建方法,其特征在于,包括:根据小样本音库中的语料,训练得到WaveNet模型;利用所述WaveNet模型,生成给定文本对应的语音波形;将生成的语音波形对应的语料补充到所述小样本音库中,得到大样本音库;利用所述大样本音库中的语料,构建出统计参数语音合成系统。6.根据权利要求5所述的方法,其特征在于,所述利用所述WaveNet模型,生成给定文本对应的语音波形之前,进一步包括:根据小样本音库中的语料,训练得到时长预测模型以及基频预测模型;利用所述时长预测模型以及所述基频预测模型,分别预测出所述给定文本对应的时长信息以及基频信息;所述利用所述WaveNet模型,生成给定文本对应的语音波形包括:根据预测出的时长信息、基频信息以及所述WaveNet模型,生成所述给定文本对应的语音波形。7.一种基于人工智能的语料扩充装置,其特征在于,包括:第一训练单元、第一生成单元以及第一扩充单元;所述第一训练单元,用于根据音库中的语料,训练得到WaveNet模型;所述第一生成单元,用于利用所述WaveNet模型,...

【专利技术属性】
技术研发人员:顾宇王振宇李昊康永国
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1