音频模板的生成方法、服务器及存储介质技术

技术编号：38133202 阅读：12 留言：0更新日期：2023-07-08 09:42

本申请涉及一种音频模板的生成方法、服务器及存储介质。所述方法包括：获取目标音频以及目标音频对应的音符序列；确定各音频帧的初始基频特征；确定各音频帧的初始能量特征；以及确定各音符片段的音高特征；基于各音频帧的初始基频特征与对应匹配的音符片段的音高特征之间的统计数据，确定针目标音频的预测基频特征；以及，基于各音频帧的初始能量特征的统计数据，确定针对目标音频的预测能量特征；融合预测基频特征和预测能量特征，生成针对于目标音频的音频模板。采用本方法能够优体现出用户演唱的原始歌声的情感和特点，提升了生成的音频模板的自然度和感染力。音频模板的自然度和感染力。音频模板的自然度和感染力。

全部详细技术资料下载

【技术实现步骤摘要】
音频模板的生成方法、服务器及存储介质

[0001]本申请涉及计算机
，特别是涉及一种音频模板的生成方法、服务器及存储介质。

技术介绍

[0002]随着互联网技术的发展，歌声合成作为语音合成技术一个新的应用领域，其利用语音合成相关技术，让用户能够像专业歌手一样唱出优美动听的歌声。
[0003]在传统的歌声合成的方法中，一般是首先通过节奏判断算法来确定用户所演唱歌曲的节奏是否准确，然后，针对用户演唱的节奏为准确的部分，利用预设的标准基频来对用户演唱歌曲的基频进行调整；以及，针对用户演唱的节奏为不准确的部分，直接将标准基频作为用户演唱歌曲的基频，以进行歌曲模板的生成。
[0004]但是目前的歌声合成的方法中，会丢失过多用户演唱歌曲的基频，使得生成的歌曲模板比较机械，从而导致合成的歌声不能够准确的表达出用户演唱的原始歌声的情感和特点，使得合成的歌声缺乏自然度和感染力。

技术实现思路

[0005]基于此，有必要针对上述技术问题，提供一种能够提升合成音频的自然度和感染力的音频模板的生成方法、音频模板的生成装置、服务器、存储介质及计算机程序产品。
[0006]根据本公开实施例的第一方面，提供一种音频模板的生成方法，包括：
[0007]获取目标音频以及所述目标音频对应的音符序列；所述音符序列由多个连续的音符片段组成，每个音符片段由多个连续的音频帧表达；
[0008]对所述目标音频中的各音频帧进行基频提取，确定各音频帧的初始基频特征；对所述目标音频中的各音频帧进行能量提取，...

【技术保护点】

【技术特征摘要】
1.一种音频模板的生成方法，其特征在于，所述方法包括：获取目标音频以及所述目标音频对应的音符序列；所述音符序列由多个连续的音符片段组成，每个音符片段由多个连续的音频帧表达；对所述目标音频中的各音频帧进行基频提取，确定各音频帧的初始基频特征；对所述目标音频中的各音频帧进行能量提取，确定各音频帧的初始能量特征；以及，对所述多个连续的音符片段进行音高提取，确定各音符片段的音高特征；基于各所述音频帧的初始基频特征与对应匹配的所述音符片段的音高特征之间的统计数据，确定针对所述目标音频的预测基频特征；以及，基于各所述音频帧的初始能量特征的统计数据，确定针对所述目标音频的预测能量特征；融合所述预测基频特征和所述预测能量特征，生成针对于所述目标音频的音频模板。2.根据权利要求1所述的方法，其特征在于，所述基于各所述音频帧的初始基频特征与对应匹配的所述音符片段的音高特征之间的统计数据，确定针对所述目标音频的预测基频特征，包括：基于各所述音频帧的初始基频特征与对应匹配的所述音符片段的音高特征之间的统计数据，确定针对所述目标音频的音频抖动特征；融合所述目标音频的音频抖动特征和各所述音符片段的音高特征，生成针对所述目标音频的预测基频特征。3.根据权利要求2所述的方法，其特征在于，所述初始基频特征包括对应所述音频帧的初始基频值，所述音高特征包括对应所述音符片段的初始音高值；所述基于各所述音频帧的初始基频特征与对应匹配的所述音符片段的音高特征之间的统计数据，确定针对所述目标音频的音频抖动特征，包括：在各所述音频帧的初始基频值与对应时间域上相匹配的所述音符片段的初始音高值中，确定两者的差值的绝对值；每一所述音符片段在对应时间域上与至少一个所述音频帧相匹配；在每一所述音符片段对应相匹配的所述至少一个音频帧中，基于对应的各所述绝对值的大小，确定针对所述目标音频的抖动频率特征和抖动幅度特征；其中，所述抖动频率特征表征在所述音符片段对应的时间域内，所述目标音频出现颤音的频率；所述抖动幅度特征表征在所述音符片段对应的时间域内，所述目标音频出现的颤音的强度。4.根据权利要求3所述的方法，其特征在于，所述在每一所述音符片段对应相匹配的所述至少一个音频帧中，基于对应的各所述绝对值的大小，确定针对所述目标音频的抖动频率特征和抖动幅度特征，包括：在每一所述音符片段对应相匹配的所述至少一个音频帧中，基于对应的各所述绝对值中为零值的第一数量与对应相匹配的所述音频帧的第二数量之间的商值，确定针对所述目标音频的抖动频率特征；在每一所述音符片段对应相匹配的所述至少一个音频帧中，基于对应的各所述绝对值的大小，确定针对所述目标音频的抖动幅度特征。5.根据权利要求4所述的方法，其特征在于，所述在每一所述音符片段对应相匹配的...

【专利技术属性】
技术研发人员：庄晓滨，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人