【技术实现步骤摘要】
多媒体音频的合成方法、装置、电子设备和存储介质
本申请涉及计算机
,具体涉及语音技术、深度学习等人工智能
,尤其涉及多媒体音频的方法、装置、电子设备及存储介质。
技术介绍
随着语音合成技术的发展,音频合成作为语音合成中重要的分支之一,也越来越受到市场和研究者的关注。相关技术中,在一定的场景,例如,乐团歌唱合成会因乐谱的规范,对合成音频有较高的要求,因此,如何更好的实现对多媒体音频的合成成为现在亟待解决的问题。
技术实现思路
本申请提供了一种多媒体音频的合成方法、装置、电子设备以及存储介质。根据本申请的第一方面,提供了一种多媒体音频的合成方法,包括:接收多媒体合成请求,其中,所述多媒体生成请求包括操作者的标识和目标多媒体信息;根据所述操作者的标识,获取所述操作者的音色特征信息;根据所述目标多媒体信息,获取目标多媒体的音素特征信息以及基频特征信息;以及根据所述音色特征信息、音素特征信息以及基频特征信息,合成所述操作者针对所述目标多媒体的音频。 ...
【技术保护点】
1.一种多媒体音频的合成方法,包括:/n接收多媒体合成请求,其中,所述多媒体生成请求包括操作者的标识和目标多媒体信息;/n根据所述操作者的标识,获取所述操作者的音色特征信息;/n根据所述目标多媒体信息,获取目标多媒体的音素特征信息以及基频特征信息;以及/n根据所述音色特征信息、音素特征信息以及基频特征信息,合成所述操作者针对所述目标多媒体的音频。/n
【技术特征摘要】
1.一种多媒体音频的合成方法,包括:
接收多媒体合成请求,其中,所述多媒体生成请求包括操作者的标识和目标多媒体信息;
根据所述操作者的标识,获取所述操作者的音色特征信息;
根据所述目标多媒体信息,获取目标多媒体的音素特征信息以及基频特征信息;以及
根据所述音色特征信息、音素特征信息以及基频特征信息,合成所述操作者针对所述目标多媒体的音频。
2.根据权利要求1所述的方法,其中,所述根据所述音色特征信息、音素特征信息以及基频特征信息,合成所述操作者针对所述目标多媒体的音频,包括:
将所述音色特征信息、音素特征信息以及基频特征信息输入到多媒体合成模型,以合成所述操作者针对所述目标多媒体的音频。
3.根据权利要求2所述的方法,其中,在所述将所述音色特征信息、音素特征信息以及基频特征信息输入到多媒体合成模型,以合成所述操作者针对所述目标多媒体的音频之前,所述方法还包括:
获取训练数据,其中,所述训练数据包括所述音色特征信息以及样本多媒体的梅尔样本频谱、基频特征样本和音素特征样本;
将所述音色特征信息、所述基频特征样本和所述音素特征样本输入到所述多媒体合成模型,以得到预测梅尔频谱;
根据所述预测梅尔频谱和所述梅尔样本频谱对所述多媒体合成模型进行训练。
4.根据权利要求2所述的方法,其中,所述根据所述操作者的标识,获取所述操作者的音色特征信息,包括:
根据所述操作者的标识,获取所述操作者的操作者音频;以及
将所述操作者音频输入到音色提取模型,以得到所述操作者的音色特征信息。
5.根据权利要求4所述的方法,其中,在所述将所述音色特征信息、音素特征信息以及基频特征信息输入到多媒体合成模型,以合成所述操作者针对所述目标多媒体的音频之前,所述方法还包括:
获取初始的联合模型,其中,所述联合模型包括:依次连接的音色提取模型和多媒体合成模型;
获取训练数据,其中,所述训练数据包括:操作者音频以及样本多媒体的梅尔样本频谱、基频特征样本和音素特征样本;
将所述操作者音频、所述基频特征样本和音素特征样本输入到所述初始的联合模型,以得到预测梅尔频谱;
根据所述预测梅尔频谱和所述梅尔样本频谱对所述初始的联合模型进行训练,以得到训练好的联合模型;
获取所述训练好的联合模型中的音色提取模型以及多媒体合成模型。
6.根据权利要求1所述的方法,其中,所述目标多媒体信息包括所述目标多媒体的标识;所述根据所述目标多媒体信息,获取目标多媒体的音素特征信息以及基频特征信息,包括:
根据所述目标多媒体的标识,获取与所述目标多媒体对应的已有发音者;
从所述已有发音者中获取指定的发音者,并获取所述指定的发音者针对所述目标多媒体的多媒体音频,并获取所述多媒体音频对应的文本数据;
根据所述多媒体音频和所述文本数据,确定所述目标多媒体的音素特征信息;以及
对所述多媒体音频进行基频特征提取,以得到所述目标多媒体的基频特征信息。
7.根据权利要求6所述的方法,其中,所述根据所述多媒体音频和所述文本数据,确定所述目标多媒体的音素特征信息,包括:
对所述多媒体音频和所述文本数据进行对齐处理,以得到所述文本数据中每个音素在所述多媒体音频中的音频起始帧和音频结束帧;以及
根据每个音素在所述多媒体音频中的音频起始帧和音频结束帧,生成所述目标多媒体的音素特征信息。
8.一种多媒体音频的合成装置,包括:
第一接收模块,用于接收多媒体合成请求,其中,所述多媒体生成请求包括操作者的标识和目标多媒体信息;
第一获取模块,用于根据所述操作者...
【专利技术属性】
技术研发人员:孙子涵,左晨,孙晨曦,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。