音频模板的生成方法、服务器及存储介质技术

技术编号:38133202 阅读:12 留言:0更新日期:2023-07-08 09:42
本申请涉及一种音频模板的生成方法、服务器及存储介质。所述方法包括:获取目标音频以及目标音频对应的音符序列;确定各音频帧的初始基频特征;确定各音频帧的初始能量特征;以及确定各音符片段的音高特征;基于各音频帧的初始基频特征与对应匹配的音符片段的音高特征之间的统计数据,确定针目标音频的预测基频特征;以及,基于各音频帧的初始能量特征的统计数据,确定针对目标音频的预测能量特征;融合预测基频特征和预测能量特征,生成针对于目标音频的音频模板。采用本方法能够优体现出用户演唱的原始歌声的情感和特点,提升了生成的音频模板的自然度和感染力。音频模板的自然度和感染力。音频模板的自然度和感染力。

【技术实现步骤摘要】
音频模板的生成方法、服务器及存储介质


[0001]本申请涉及计算机
,特别是涉及一种音频模板的生成方法、服务器及存储介质。

技术介绍

[0002]随着互联网技术的发展,歌声合成作为语音合成技术一个新的应用领域,其利用语音合成相关技术,让用户能够像专业歌手一样唱出优美动听的歌声。
[0003]在传统的歌声合成的方法中,一般是首先通过节奏判断算法来确定用户所演唱歌曲的节奏是否准确,然后,针对用户演唱的节奏为准确的部分,利用预设的标准基频来对用户演唱歌曲的基频进行调整;以及,针对用户演唱的节奏为不准确的部分,直接将标准基频作为用户演唱歌曲的基频,以进行歌曲模板的生成。
[0004]但是目前的歌声合成的方法中,会丢失过多用户演唱歌曲的基频,使得生成的歌曲模板比较机械,从而导致合成的歌声不能够准确的表达出用户演唱的原始歌声的情感和特点,使得合成的歌声缺乏自然度和感染力。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够提升合成音频的自然度和感染力的音频模板的生成方法、音频模板的生成装置、服务器、存储介质及计算机程序产品。
[0006]根据本公开实施例的第一方面,提供一种音频模板的生成方法,包括:
[0007]获取目标音频以及所述目标音频对应的音符序列;所述音符序列由多个连续的音符片段组成,每个音符片段由多个连续的音频帧表达;
[0008]对所述目标音频中的各音频帧进行基频提取,确定各音频帧的初始基频特征;对所述目标音频中的各音频帧进行能量提取,确定各音频帧的初始能量特征;以及,对所述多个连续的音符片段进行音高提取,确定各音符片段的音高特征;
[0009]基于各所述音频帧的初始基频特征与对应匹配的所述音符片段的音高特征之间的统计数据,确定针对所述目标音频的预测基频特征;以及,基于各所述音频帧的初始能量特征的统计数据,确定针对所述目标音频的预测能量特征;
[0010]融合所述预测基频特征和所述预测能量特征,生成针对于所述目标音频的音频模板。
[0011]在一示例性实施例中,所述基于各所述音频帧的初始基频特征与对应匹配的所述音符片段的音高特征之间的统计数据,确定针对所述目标音频的预测基频特征,包括:
[0012]基于各所述音频帧的初始基频特征与对应匹配的所述音符片段的音高特征之间的统计数据,确定针对所述目标音频的音频抖动特征;
[0013]融合所述目标音频的音频抖动特征和各所述音符片段的音高特征,生成针对所述目标音频的预测基频特征。
[0014]在一示例性实施例中,所述初始基频特征包括对应所述音频帧的初始基频值,所
述音高特征包括对应所述音符片段的初始音高值;
[0015]所述基于各所述音频帧的初始基频特征与对应匹配的所述音符片段的音高特征之间的统计数据,确定针对所述目标音频的音频抖动特征,包括:
[0016]在各所述音频帧的初始基频值与对应时间域上相匹配的所述音符片段的初始音高值中,确定两者的差值的绝对值;每一所述音符片段在对应时间域上与至少一个所述音频帧相匹配;
[0017]在每一所述音符片段对应相匹配的所述至少一个音频帧中,基于对应的各所述绝对值的大小,确定针对所述目标音频的抖动频率特征和抖动幅度特征;
[0018]其中,所述抖动频率特征表征在所述音符片段对应的时间域内,所述目标音频出现颤音的频率;所述抖动幅度特征表征在所述音符片段对应的时间域内,所述目标音频出现的颤音的强度。
[0019]在一示例性实施例中,所述在每一所述音符片段对应相匹配的所述至少一个音频帧中,基于对应的各所述绝对值的大小,确定针对所述目标音频的抖动频率特征和抖动幅度特征,包括:
[0020]在每一所述音符片段对应相匹配的所述至少一个音频帧中,基于对应的各所述绝对值中为零值的第一数量与对应相匹配的所述音频帧的第二数量之间的商值,确定针对所述目标音频的抖动频率特征;
[0021]在每一所述音符片段对应相匹配的所述至少一个音频帧中,基于对应的各所述绝对值的大小,确定针对所述目标音频的抖动幅度特征。
[0022]在一示例性实施例中,所述在每一所述音符片段对应相匹配的所述至少一个音频帧中,基于对应的各所述绝对值的大小,确定针对所述目标音频的抖动幅度特征,包括以下两项中的任意一项:
[0023]在每一所述音符片段对应相匹配的所述至少一个音频帧中,基于对应处于预设阈值区间内的各所述绝对值之间的均值,确定针对所述目标音频的抖动幅度特征;
[0024]在每一所述音符片段对应相匹配的所述至少一个音频帧中,基于对应处于预设百分比之后的各所述绝对值之间的均值,确定针对所述目标音频的抖动幅度特征。
[0025]在一示例性实施例中,所述融合所述目标音频的音频抖动特征和各所述音符片段的音高特征,生成针对所述目标音频的预测基频特征,包括:
[0026]将各所述音符片段的音高特征与对应在时间域上相匹配的所述抖动频率特征和所述抖动幅度特征进行融合,生成对应于各所述音频帧的第一融合特征;
[0027]在将各所述音频帧的第一融合特征进行傅里叶变换之后,将傅里叶变换后的第一融合特征与预设的高斯噪声特征进行融合,生成对应于各所述音频帧的第二融合特征;所述高斯噪声特征与各所述音频帧在对应时间域上相匹配;
[0028]对所述第二融合特征进行线性变换,生成针对于各所述音频帧的预测基频特征;
[0029]将各所述预测基频特征与对应在时间域上相匹配的各所述音符片段的音高特征进行融合,生成针对于所述目标音频的预测基频特征。
[0030]在一示例性实施例中,所述对所述目标音频中的各音频帧进行能量提取,确定各音频帧的初始能量特征,包括:
[0031]对所述目标音频中的各音频帧进行第一特征提取,确定各所述音频帧中的梅尔频
特征;
[0032]对各所述音频帧中的梅尔频特征进行时频变换,确定对应各所述音频帧的初始能量特征。
[0033]在一示例性实施例中,所述初始能量特征包括各所述音频帧对应的初始能量值;
[0034]所述基于各所述音频帧的初始能量特征的统计数据,确定针对所述目标音频的预测能量特征,包括:
[0035]对所述目标音频中的各音频帧进行第二特征提取,确定各所述音频帧中的音素特征,并基于预设的乐理规则,将各所述音素特征所对应的各所述音频帧识别为清音帧或者浊音帧;
[0036]确定各所述清音帧对应的初始能量值之间的平均值,并将所述平均值作为针对各所述清音帧的预测能量值;
[0037]将各所述浊音帧对应的初始能量值和各所述清音帧对应的预测能量值按照对应时间域上的先后次序进行排列,得到针对所述目标音频的预测能量特征。
[0038]根据本公开实施例的第二方面,提供一种音频模板的生成装置,包括:
[0039]信息获取单元,被配置为执行获取目标音频,以及所述目标音频对应的音符序列;所述音符序列为由多个连续的音符本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频模板的生成方法,其特征在于,所述方法包括:获取目标音频以及所述目标音频对应的音符序列;所述音符序列由多个连续的音符片段组成,每个音符片段由多个连续的音频帧表达;对所述目标音频中的各音频帧进行基频提取,确定各音频帧的初始基频特征;对所述目标音频中的各音频帧进行能量提取,确定各音频帧的初始能量特征;以及,对所述多个连续的音符片段进行音高提取,确定各音符片段的音高特征;基于各所述音频帧的初始基频特征与对应匹配的所述音符片段的音高特征之间的统计数据,确定针对所述目标音频的预测基频特征;以及,基于各所述音频帧的初始能量特征的统计数据,确定针对所述目标音频的预测能量特征;融合所述预测基频特征和所述预测能量特征,生成针对于所述目标音频的音频模板。2.根据权利要求1所述的方法,其特征在于,所述基于各所述音频帧的初始基频特征与对应匹配的所述音符片段的音高特征之间的统计数据,确定针对所述目标音频的预测基频特征,包括:基于各所述音频帧的初始基频特征与对应匹配的所述音符片段的音高特征之间的统计数据,确定针对所述目标音频的音频抖动特征;融合所述目标音频的音频抖动特征和各所述音符片段的音高特征,生成针对所述目标音频的预测基频特征。3.根据权利要求2所述的方法,其特征在于,所述初始基频特征包括对应所述音频帧的初始基频值,所述音高特征包括对应所述音符片段的初始音高值;所述基于各所述音频帧的初始基频特征与对应匹配的所述音符片段的音高特征之间的统计数据,确定针对所述目标音频的音频抖动特征,包括:在各所述音频帧的初始基频值与对应时间域上相匹配的所述音符片段的初始音高值中,确定两者的差值的绝对值;每一所述音符片段在对应时间域上与至少一个所述音频帧相匹配;在每一所述音符片段对应相匹配的所述至少一个音频帧中,基于对应的各所述绝对值的大小,确定针对所述目标音频的抖动频率特征和抖动幅度特征;其中,所述抖动频率特征表征在所述音符片段对应的时间域内,所述目标音频出现颤音的频率;所述抖动幅度特征表征在所述音符片段对应的时间域内,所述目标音频出现的颤音的强度。4.根据权利要求3所述的方法,其特征在于,所述在每一所述音符片段对应相匹配的所述至少一个音频帧中,基于对应的各所述绝对值的大小,确定针对所述目标音频的抖动频率特征和抖动幅度特征,包括:在每一所述音符片段对应相匹配的所述至少一个音频帧中,基于对应的各所述绝对值中为零值的第一数量与对应相匹配的所述音频帧的第二数量之间的商值,确定针对所述目标音频的抖动频率特征;在每一所述音符片段对应相匹配的所述至少一个音频帧中,基于对应的各所述绝对值的大小,确定针对所述目标音频的抖动幅度特征。5.根据权利要求4所述的方法,其特征在于,所述在每一所述音符片段对应相匹配的...

【专利技术属性】
技术研发人员:庄晓滨
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1