【技术实现步骤摘要】
一种音频合成方法、装置、电子设备及存储介质
[0001]本公开涉及计算机
,尤其涉及一种音频合成方法、装置、电子设备及存储介质。
技术介绍
[0002]音频合成技术可以将文字信息转化为流畅的语音输出。相关技术在实现音频合成的过程中,以待合成文本直接映射到梅尔频谱的方式得到合成音频,使用这种音频合成方式,合成音频的音高准确度无法调整,音频合成的灵活性差,无法适用于像歌唱合成这种对音高准确度有限制的音频合成场景。
技术实现思路
[0003]本公开提供一种音频合成方法、装置、电子设备及存储介质,以至少解决相关技术中音频合成灵活性差,无法适用于对音高准确度有限制的音频合成场景的问题。本公开的技术方案如下:
[0004]根据本公开实施例的第一方面,提供一种音频方法,包括:
[0005]获取待合成基频和待合成文本;
[0006]将所述待合成文本输入预先训练的谱预测模型,得到谱包络信息;
[0007]将所述谱包络信息和所述待合成基频输入预先训练的梅尔频谱预测模型,得到预测梅尔频谱;r/>[0008]根本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种音频合成方法,其特征在于,包括:获取待合成基频和待合成文本;将所述待合成文本输入预先训练的谱预测模型,得到谱包络信息;将所述谱包络信息和所述待合成基频输入预先训练的梅尔频谱预测模型,得到预测梅尔频谱;根据所述预测梅尔频谱得到目标合成音频。2.根据权利要求1所述的音频合成方法,其特征在于,所述获取待合成基频包括:获取乐谱数据;确定所述乐谱数据对应的原始基频;对所述原始基频进行调整,得到所述乐谱数据对应的调整基频;将所述调整基频作为所述待合成基频。3.根据权利要求2所述的音频合成方法,其特征在于,所述对所述原始基频进行调整,得到所述乐谱数据对应的调整基频包括:将所述乐谱数据输入预先训练的基频残差预测模型,得到所述乐谱数据对应的基频残差;对所述基频残差进行调整,得到调整基频残差;计算所述原始基频与所述调整基频残差的和值,将所述和值作为所述乐谱数据对应的调整基频。4.根据权利要求3所述的音频合成方法,其特征在于,所述对所述基频残差进行调整,得到调整基频残差包括:根据所述乐谱数据的原始基频,确定所述乐谱数据的半音基频;判断所述基频残差是否超过所述半音基频;若所述基频残差超过所述半音基频,则对所述基频残差进行调整得到调整基频残差;所述调整基频残差不超过所述半音基频。5.根据权利要求1所述的音频合成方法,其特征在于,所述获取待合成基频包括:获取用户语音音频;确定所述用户语音音频的语音基频;将所述语音基频作为所述待合成基频。6.根据权利要求3所述的音频合成方法,其特征在于,所述方法还包括训练音频合成模型的步骤;所述训练音频合成模型包括:构建待训练的音频合成模型,所述待训练的音频合成模型包括待训练的谱预测模型、待训练的基频残差预测模型和待训练的梅尔频谱预测模型;获取训练数据,所述训练数据包括样本数据和参考数据,所述样本数据包括样本文本和样本乐谱数据,所述参考数据包括参考梅尔频谱和参考基频残差;将所述样本文本和所述样本...
【专利技术属性】
技术研发人员:肖金霸,王晓瑞,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。