【技术实现步骤摘要】
神经网络模型训练方法、音频生成方法及装置和电子设备
本申请涉及声音合成
,更具体地说,涉及一种神经网络模型训练方法、装置及一种音频生成方法、装置、电子设备和计算机可读存储介质。
技术介绍
随着深度学习技术和音频信号处理技术的发展,人工合成的歌声逐渐成为了可能,人们可以通过技术生成干声,即无音乐的纯人声。这些合成出来的干声配上伴奏,即可得到歌曲。在相关技术中,采用基于参数合成的方法合成干声,在参数准确的情况下可以达到发音时间准确、节奏可控的效果,但是在音质上一般较差。可见,在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:合成干声的音质较差。因此,如何提高合成干声的音质是本领域技术人员需要解决的技术问题。
技术实现思路
本申请的目的在于提供一种神经网络模型训练方法、装置及一种音频生成方法、装置、电子设备和计算机可读存储介质,提高了合成干声的音质。为实现上述目的,本申请第一方面提供了一种神经网络模型训练方法,包括:获取训练干声音频,确定所述训练干声音频中的 ...
【技术保护点】
1.一种神经网络模型训练方法,其特征在于,包括:/n获取训练干声音频,确定所述训练干声音频中的所有音标,并将每个所述音标转换为国际音标;/n根据所有所述音标中每个清音音标的后续音标和每个所述清音音标对应的国际音标确定每个所述清音音标对应的分化国际音标;/n基于所述清音音标对应的分化国际音标和除所述清音音标之外的音标对应的国际音标生成所述训练干声音频对应的音素信息;/n利用所述训练干声音频和对应的音素信息训练神经网络模型,从而建立音素信息与干声音频的映射关系。/n
【技术特征摘要】
1.一种神经网络模型训练方法,其特征在于,包括:
获取训练干声音频,确定所述训练干声音频中的所有音标,并将每个所述音标转换为国际音标;
根据所有所述音标中每个清音音标的后续音标和每个所述清音音标对应的国际音标确定每个所述清音音标对应的分化国际音标;
基于所述清音音标对应的分化国际音标和除所述清音音标之外的音标对应的国际音标生成所述训练干声音频对应的音素信息;
利用所述训练干声音频和对应的音素信息训练神经网络模型,从而建立音素信息与干声音频的映射关系。
2.根据权利要求1所述神经网络模型训练方法,其特征在于,所述确定所述训练干声音频中的所有音标,包括:
获取所述训练干声音频对应的训练歌词文本;其中,所述训练歌词文本包括多个歌词字;
根据每个所述歌词字的文字类型确定每个所述歌词字的音标,以便确定所述训练干声音频中的所有音标。
3.根据权利要求2所述神经网络模型训练方法,其特征在于,若目标歌词字的文字类型为汉字,则所述目标歌词字的音标为拼音。
4.根据权利要求2所述神经网络模型训练方法,其特征在于,所述获取所述训练干声音频对应的训练歌词文本,包括:
从所述训练干声音频中提取训练歌词文本。
5.根据权利要求1至4中任一项所述神经网络模型训练方法,其特征在于,还包括:
确定每个所述清音音标的所有候选后续音标,并基于所有所述候选后续音标对每个所述清音音标对应的国际音标进行分化,得到所述国际音标对应的多个分化国际音标;
相应的,所述根据所有所述音标中每个清音音标的后续音标和每个所述清音音标对应的国际音标确定每个所述清音音标对应的分化国际音标,包括:
确定每个所述清音音标在所述训练干声音频中的后续音标,并根据所述后续音标确定每个所述清音音标对应的分化国际音标。
6.根据权利要求5所述神经网络模型训练方法,其特征在于,所述国际音标对应的分化国际音标与所述国际音标对应的清音音标的候选后续音标一一对应。
7.根据权利要求5所述神经网络模型训练方法,其特征在于,所述基于所有所述候选音标对每个所述清音音标对应的国际音标进行分化,得到所述国际音标对应的多个分化国际音标,包括:
确定所有所述候选音标的所有首字母,并基于所有所述首字母对每个所述清音音标对应的国际音标进行分化,得到所述国际音标对应的多个分化国际音标;其中,所述国际音标对应的分化国际音标与所述国际音标对应的清音...
【专利技术属性】
技术研发人员:徐东,
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。