音频调整方法、计算机设备和程序产品技术

技术编号:37998194 阅读:7 留言:0更新日期:2023-06-30 10:12
本申请涉及一种音频调整方法、计算机设备和计算机程序产品。通过选择音频模板录制人声音频,根据音频模板中每个文本字对应的音频部分的时长信息调整人声音频对应的基频信息的时长,得到与时长信息匹配的目标基频信息,根据模板音高信息对目标基频信息进行音高调整,并基于音高调整后的目标基频信息确定调整后的目标人声音频,再将目标人声音频与模板伴奏进行融合处理,得到调整完成的目标音频。相较于传统的通过人工对多个时间段的音频进行剪辑的调整方式,本方案通过基于音频模板对人声音频进行包括时长调整、音高调整和融合等处理,提高了在进行鬼畜音频调整时的音频调整效果。果。果。

【技术实现步骤摘要】
音频调整方法、计算机设备和程序产品


[0001]本申请涉及音频处理
,特别是涉及一种音频调整方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着计算机技术的发展,目前已经可以通过各种终端设备进行音频收听和处理,例如对歌曲进行收听和处理等。随着音频剪辑技术的发展,鬼畜音视频逐渐兴起,鬼畜是指利用素材中的声音进行剪辑拼凑、调音,与歌曲伴奏相结合,从而得到一个完整的音视频作品。因此,用户在需要得到一个鬼畜音频时,需要对音频进行调整。目前对音频进行调整并生成鬼畜音频的方式通常是通过人工对多个时间段的音频进行剪辑后,得到一个调整后的鬼畜音频。然而,通过时段剪辑的方式调整音频,仅能实现对音频的简单重复效果。
[0003]因此,目前的音频调整方法存在调整效果不足的缺陷。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高调整效果的音频调整方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种音频调整方法,所述方法包括:
[0006]选择音频模板,录制所述音频模板对应的人声音频;
[0007]获取所述人声音频对应的基频信息并识别所述人声音频中的文本及文本字对应的时间戳;
[0008]基于所述基频信息及所述文本字对应的时间戳确定所述文本字对应的基频信息;
[0009]基于所述音频模板中每个文本字对应的音频部分的时长信息调整所述人声音频中文本字的基频时长,得到目标基频信息;
[0010]根据所述音频模板的每个文本字对应的音高信息以及所述音频模板的音高变化趋势,对所述目标基频信息进行音高调整,确定调整后的目标人声音频;
[0011]获取所述音频模板对应的模板伴奏,并将所述目标人声音频与模板伴奏进行融合处理,得到调整完成的目标音频。
[0012]在其中一个实施例中,所述选择音频模板,录制所述模板对应的人声音频,包括:
[0013]展示至少一个待选择音频模板;
[0014]接收对所述至少一个待选择音频模板的选择指令,确定被选择的音频模板;
[0015]展示所述音频模板对应的文本,并录制用户基于所述音频模板对应的文本输入的人声音频。
[0016]在其中一个实施例中,所述识别所述人声音频中的文本及文本字对应的时间戳,包括:
[0017]根据所述基频信息识别所述人声音频对应的原始文本;
[0018]根据所述原始文本与所述音频模板对应的文本的匹配结果,修改所述原始文本,
得到所述人声音频对应的文本;所述人声音频对应的文本中各个文本字与所述音频模板对应的文本的各个文本字匹配;
[0019]根据所述人声音频对应的文本中各个文本字在所述人声音频中对应的音频的持续时间,确定所述人声音频中各个文本字的时间戳。
[0020]在其中一个实施例中,所述获取所述人声音频对应的基频信息,包括:
[0021]获取所述人声音频对应的音高信息、音色信息和发声特征信息,作为基频信息。
[0022]在其中一个实施例中,所述基于所述音频模板中每个文本字对应的音频部分的时长信息调整所述人声音频中文本字的基频时长,得到目标基频信息,包括:
[0023]获取所述人声音频中各个文本字与所述音频模板中对应文本字的音频部分的音高信息、音色信息和发声特征信息,作为所述人声音频中各个文本字对应的基频信息;
[0024]根据所述音频模板中每个文本字对应的音频部分的时长信息对所述人声音频各个文本字的音高信息、音色信息和发声特征信息分别进行一维线性插值处理,以使所述音高信息的时长、所述音色信息的时长、所述发声特征信息的时长分别与所述音频模板中每个文本字对应的音频部分的时长信息匹配;
[0025]将插值处理后的目标音高信息、目标音色信息和目标发声特征信息作为目标基频信息。
[0026]在其中一个实施例中,所述根据所述音频模板的每个文本字对应的音高信息以及所述音频模板的音高变化趋势,对所述目标基频信息进行音高调整,包括:
[0027]获取所述目标基频信息中的目标音高信息,并获取所述目标音高信息中与所述人声音频中每个所述文本字对应的部分目标音高信息;
[0028]针对每个部分目标音高信息,获取该部分目标音高信息中各个帧相邻的预设数量的相邻帧;
[0029]根据各个帧的部分目标音高信息与所述各个帧对应的相邻帧的相邻部分目标音高信息的平均值,得到所述各个帧的部分目标音高信息对应的平均音高信息;所述平均音高信息表征所述各个帧的部分目标音高信息的音高变化趋势;
[0030]根据所述平均音高信息以及所述音频模板中每个文本字对应的音高信息,对所述目标音频特征中该部分目标音高信息进行音高调整。
[0031]在其中一个实施例中,所述音频模板还包括:基准音高以及所述基准音高对应的基准频率;所述获取所述人声音频对应的音高信息、音色信息和发声特征信息,包括:
[0032]获取所述人声音频的文本中与所述音频模板的每个字符对应的文本字;
[0033]获取所述人声音频中每个所述文本字对应的部分人声音频;
[0034]针对每个所述文本字对应的部分人声音频,获取该部分人声音频对应的部分基频;根据该部分人声音频对应的部分基频以及所述基准频率,确定该部分人声音频对应的音高信息的音高偏移值,并根据所述基准音高和所述音高偏移值确定该部分人声音频对应的音高信息;
[0035]根据该部分人声音频中预设数量的频点的包络向量构建包络矩阵,得到所述音色信息;
[0036]根据该部分人声音频中预设数量的频段中的非周期信息,得到所述发声特征信息。
[0037]在其中一个实施例中,所述确定调整后的目标人声音频,包括:
[0038]根据所述音高调整后的目标音高信息以及所述音频模板的基准音高,确定所述音高调整后的目标音高信息的频率调整值;
[0039]根据所述音频模板的基准频率以及所述频率调整值,确定所述人声音频对应的调整后的目标频率;
[0040]根据所述目标频率、所述目标音色信息和所述目标发声特征信息,确定调整后的目标人声音频。
[0041]在其中一个实施例中,所述将所述目标人声音频与模板伴奏进行融合处理,得到调整完成的目标音频,包括:
[0042]获取所述模板伴奏的模板节拍;
[0043]根据所述模板节拍将所述目标人声音频与所述模板伴奏进行匹配;
[0044]对所述匹配完成的音频进行混音处理,得到调整完成的目标音频。
[0045]在其中一个实施例中,所述获取所述模板伴奏的模板节拍,包括:
[0046]获取所述模板伴奏中各个时间点的音频能量值,将大于预设能量阈值的音频能量值对应的时间点作为所述模板伴奏的重拍时间戳;
[0047]根据多个所述重拍时间戳确定所述模板伴奏的模板节拍。
[0048]在其中一个实施例中,所述对所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频调整方法,其特征在于,所述方法包括:选择音频模板,录制所述音频模板对应的人声音频;获取所述人声音频对应的基频信息并识别所述人声音频中的文本及文本字对应的时间戳;基于所述基频信息及所述文本字对应的时间戳确定所述文本字对应的基频信息;基于所述音频模板中每个文本字对应的音频部分的时长信息调整所述人声音频中文本字的基频时长,得到目标基频信息;根据所述音频模板的每个文本字对应的音高信息以及所述音频模板的音高变化趋势,对所述目标基频信息进行音高调整,确定调整后的目标人声音频;获取所述音频模板对应的模板伴奏,并将所述目标人声音频与模板伴奏进行融合处理,得到调整完成的目标音频。2.根据权利要求1所述的方法,其特征在于,所述选择音频模板,录制所述模板对应的人声音频,包括:展示至少一个待选择音频模板;接收对所述至少一个待选择音频模板的选择指令,确定被选择的音频模板;展示所述音频模板对应的文本,并录制用户基于所述音频模板对应的文本输入的人声音频。3.根据权利要求1所述的方法,其特征在于,所述识别所述人声音频中的文本及文本字对应的时间戳,包括:根据所述基频信息识别所述人声音频对应的原始文本;根据所述原始文本与所述音频模板对应的文本的匹配结果,修改所述原始文本,得到所述人声音频对应的文本;所述人声音频对应的文本中各个文本字与所述音频模板对应的文本的各个文本字匹配;根据所述人声音频对应的文本中各个文本字在所述人声音频中对应的音频的持续时间,确定所述人声音频中各个文本字的时间戳。4.根据权利要求1所述的方法,其特征在于,所述获取所述人声音频对应的基频信息,包括:获取所述人声音频对应的音高信息、音色信息和发声特征信息,作为基频信息。5.根据权利要求4所述的方法,其特征在于,所述基于所述音频模板中每个文本字对应的音频部分的时长信息调整所述人声音频中文本字的基频时长,得到目标基频信息,包括:获取所述人声音频中各个文本字与所述音频模板中对应文本字的音频部分的音高信息、音色信息和发声特征信息,作为所述人声音频中各个文本字对应的基频信息;根据所述音频模板中每个文本字对应的音频部分的时长信息对所述人声音频各个文本字的音高信息、音色信息和发声特征信息分别进行一维线性插值处理,以使所述音高信息的时长、所述音色信息的时长、所述发声特征信息的时长分别与所述音频模板中每个文本字对应的音频部分的时长信息匹配;将插值处理后的目标音高信息、目标音色信息和目标发声特征信息作为目标基频信息。6.根据权利要求5所述的方法,其特征在于,所述根据所述音频模板的每个文本字对应
的音高信息以及所述音频模板的音高变化趋势,对所述目标基频信息进行音高调整,包括:获取所述目标基频信息中的目标音高信息,并获取所述目标音高信息中与所述人声音频中每个所述文本字对应的部分目标音高信息;针对每个部分目标音高信息,获取该部分目标音高信息中各个帧相邻的预设数量的相邻帧;根据各个帧的部分目标音高信息与所...

【专利技术属性】
技术研发人员:张超鹏吴逸龙
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1