音频合成方法技术

技术编号:39599601 阅读:8 留言:0更新日期:2023-12-03 19:59
本申请涉及一种音频合成方法

【技术实现步骤摘要】
音频合成方法、音频合成系统、计算机设备及存储介质


[0001]本申请涉及计算机
,特别是涉及一种音频合成方法

音频合成系统

计算机设备及计算机可读存储介质


技术介绍

[0002]互联网通信技术的发展使得网络歌手

直播演唱等的应用越来越广泛

在将用户演唱的干声音频与演唱歌曲对应的伴奏音频进行实时的音频合成,得到合成的合成音频是这些应用中不可或缺的功能

[0003]在相关技术中,一般是先将待播放的伴奏音频数据存入音频缓冲区中,以供播放器对伴奏音频数据进行读取和播放,然后,在用户听到播放伴奏时进行人声跟唱,以供录音器对人声进行录制得到用户的干声音频数据,最后,再将读取的伴奏音频数据和录制的干声音频数据按照次序逐帧进行混合,以得到合成音频

然而,不稳定的网络环境会使得伴奏音频数据不能正常的被存入音频缓冲区中,或者音频缓冲区中的伴奏音频数据不能正常的被读取,导致音频缓冲区中缓冲的伴奏音频数据的数据量少于正常的数据量或大于正常的数据量,使得后续读取的伴奏音频数据和录制的干声音频数据不相对应,从而合成的合成音频存在人声与伴奏不对齐的问题


技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提升合成音频的合成质量的音频合成方法

音频合成系统

计算机设备

计算机可读存储介质及计算机程序产品/>。
[0005]根据本公开实施例的第一方面,提供一种音频合成方法,包括:
[0006]获取音频缓冲区的当前缓冲数据量;所述音频缓冲区用于缓冲待播放的伴奏音频数据,所述当前缓冲数据量用于指示所述音频缓冲区中的伴奏音频数据的播放时长;
[0007]基于所述当前缓冲数据量与参考缓冲数据量之间的差异,调整所述音频缓冲区中缓冲的伴奏音频数据的数据量,得到调整后的音频缓冲区;
[0008]从所述调整后的音频缓冲区中读取出伴奏音频数据,并播放读取的所述伴奏音频数据;以及,在用户对播放的所述伴奏音频数据进行跟唱时,录制所述用户的干声音频数据;其中,所述参考缓冲数据量对应的播放时长与开始播放音频数据到录制得到音频数据之间的延迟时长相匹配;
[0009]将读取的所述伴奏音频数据和录制的所述干声音频数据进行音频合成处理,得到合成音频数据

[0010]在一示例性实施例中,所述基于所述当前缓冲数据量与参考缓冲数据量之间的差异,调整所述音频缓冲区中缓冲的伴奏音频数据的数据量,得到调整后的音频缓冲区,包括以下两项中的一项:
[0011]在所述当前缓冲数据量大于所述参考缓冲数据量的上限的情况下,减少所述音频缓冲区中缓冲的伴奏音频数据的数据量,以将所述音频缓冲区中缓冲的伴奏音频数据的数
据量调整与所述参考缓冲数据量相匹配,得到调整后的音频缓冲区;
[0012]在所述当前缓冲数据量小于所述参考缓冲数据量的下限的情况下,增加所述音频缓冲区中缓冲的伴奏音频数据的数据量,以将所述音频缓冲区中缓冲的伴奏音频数据的数据量调整与所述参考缓冲数据量相匹配,得到调整后的音频缓冲区

[0013]在一示例性实施例中,所述音频缓冲区中缓冲的伴奏音频数据包括音频帧,所述音频缓冲区的缓冲数据量基于所述音频帧的音频帧数量表征,所述音频帧中包括空白音频帧;
[0014]所述减少所述音频缓冲区中缓冲的伴奏音频数据的数据量,包括:
[0015]确定所述音频缓冲区中缓冲的音频帧数量与所述参考缓冲数据量所对应的音频帧数量之间的第一数量差,并从所述音频缓冲区中移除对应所述第一数量差的空白音频帧;
[0016]所述增加所述音频缓冲区中缓冲的伴奏音频数据的数据量,包括:
[0017]确定所述音频缓冲区中缓冲的音频帧数量与所述参考缓冲数据量所对应的音频帧数量之间的第二数量差,并从所述音频缓冲区中加入对应所述第二数量差的空白音频帧

[0018]在一示例性实施例中,读取的所述伴奏音频数据包括伴奏音频帧和读取所述伴奏音频帧时的第一时间戳;录制的所述干声音频数据包括干声音频帧和录制所述干声音频帧时的第二时间戳;
[0019]所述将读取的所述伴奏音频数据和录制的所述干声音频数据进行音频合成处理,得到合成音频数据,包括:
[0020]在所述调整后的音频缓冲区中缓冲的伴奏音频数据的数据量为所述参考缓冲数据量的情况下,基于所述第一时间戳和所述第二时间戳,将读取的所述伴奏音频帧和录制的所述干声音频帧进行逐帧混合,得到合成音频数据

[0021]在一示例性实施例中,从开始播放所述伴奏音频数据到录制得到所述干声音频数据之间存在第一延迟时长;从将所述伴奏音频数据输入所述音频缓冲区到开始播放所述伴奏音频数据之间存在第二延迟时长;
[0022]在所述基于所述当前缓冲数据量与参考缓冲数据量之间的差异,调整所述音频缓冲区中缓冲的伴奏音频数据的数据量之前,还包括:
[0023]基于所述第一时间延迟和所述第二时间延迟之间的延迟距离,确定对应于所述延迟距离的至少一个空白音频帧;
[0024]将所述至少一个空白音频帧加入所述音频缓冲区中,得到更新的音频缓冲区;
[0025]其中,在所述更新的音频缓冲区中缓冲的伴奏音频数据的数据量为所述参考缓冲数据量的情况下,读取的所述伴奏音频数据的第一时间戳和录制的所述干声音频数据的第二时间戳相匹配

[0026]在一示例性实施例中,所述方法还包括:
[0027]获取第一回声系统的第一回声响应时长,并将所述第一回声响应时长作为所述第一延迟时长;以及
[0028]获取第二回声系统的第二回声响应时长,并将所述第二回声响应时长作为所述第二延迟时长;
[0029]其中,所述第一回声系统用于对播放的所述伴奏音频数据进行录制,得到所述干声音频数据;所述第二回声系统用于将所述伴奏音频数据输入所述音频缓冲区中,以及对所述音频缓冲区中的伴奏音频数据进行读取,以将所述伴奏音频数据进行播放

[0030]在一示例性实施例中,所述方法,还包括:
[0031]获取样本音频数据;
[0032]基于所述样本音频数据构建针对预设回声系统的样本激励数据;所述预设回声系统为所述第一回声系统或者所述第二回声系统;
[0033]对所述样本激励数据进行频谱调整处理,得到调整后的激励数据;所述频谱调整处理用于模拟所述样本激励数据在经过所述预设回声系统后的频谱损失,并基于所述频谱损失调整所述样本激励数据;
[0034]基于预设的互相关函数确定所述样本音频数据和所述调整后的样本激励数据之间的互相关值,并将所述互相关值作为所述预设回声系统的回声响应时长

[0035]根据本公开实施例的第二方面,提供一种音频合成系统,所述系统包括:第一处理器<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种音频合成方法,其特征在于,所述方法包括:获取音频缓冲区的当前缓冲数据量;所述音频缓冲区用于缓冲待播放的伴奏音频数据,所述当前缓冲数据量用于指示所述音频缓冲区中的伴奏音频数据的播放时长;基于所述当前缓冲数据量与参考缓冲数据量之间的差异,调整所述音频缓冲区中缓冲的伴奏音频数据的数据量,得到调整后的音频缓冲区;从所述调整后的音频缓冲区中读取出伴奏音频数据,并播放读取的所述伴奏音频数据;以及,在用户对播放的所述伴奏音频数据进行跟唱时,录制所述用户的干声音频数据;其中,所述参考缓冲数据量对应的播放时长与开始播放音频数据到录制得到音频数据之间的延迟时长相匹配;将读取的所述伴奏音频数据和录制的所述干声音频数据进行音频合成处理,得到合成音频数据
。2.
根据权利要求1所述的方法,其特征在于,所述基于所述当前缓冲数据量与参考缓冲数据量之间的差异,调整所述音频缓冲区中缓冲的伴奏音频数据的数据量,得到调整后的音频缓冲区,包括以下两项中的一项:在所述当前缓冲数据量大于所述参考缓冲数据量的上限的情况下,减少所述音频缓冲区中缓冲的伴奏音频数据的数据量,以将所述音频缓冲区中缓冲的伴奏音频数据的数据量调整与所述参考缓冲数据量相匹配,得到调整后的音频缓冲区;在所述当前缓冲数据量小于所述参考缓冲数据量的下限的情况下,增加所述音频缓冲区中缓冲的伴奏音频数据的数据量,以将所述音频缓冲区中缓冲的伴奏音频数据的数据量调整与所述参考缓冲数据量相匹配,得到调整后的音频缓冲区
。3.
根据权利要求2所述的方法,其特征在于,所述音频缓冲区中缓冲的伴奏音频数据包括音频帧,所述音频缓冲区的缓冲数据量基于所述音频帧的音频帧数量表征,所述音频帧中包括空白音频帧;所述减少所述音频缓冲区中缓冲的伴奏音频数据的数据量,包括:确定所述音频缓冲区中缓冲的音频帧数量与所述参考缓冲数据量所对应的音频帧数量之间的第一数量差,并从所述音频缓冲区中移除对应所述第一数量差的空白音频帧;所述增加所述音频缓冲区中缓冲的伴奏音频数据的数据量,包括:确定所述音频缓冲区中缓冲的音频帧数量与所述参考缓冲数据量所对应的音频帧数量之间的第二数量差,并从所述音频缓冲区中加入对应所述第二数量差的空白音频帧
。4.
根据权利要求1所述的方法,其特征在于,读取的所述伴奏音频数据包括伴奏音频帧和读取所述伴奏音频帧时的第一时间戳;录制的所述干声音频数据包括干声音频帧和录制所述干声音频帧时的第二时间戳;所述将读取的所述伴奏音频数据和录制的所述干声音频数据进行音频合成处理,得到合成音频数据,包括:在所述调整后的音频缓冲区中缓冲的伴奏音频数据的数据量为所述参考缓冲数据量的情况下,基于所述第一时间戳和所述第二时间戳,将读取的所述伴奏音频帧和录制的所述干声音频帧进行逐帧混合,得到合成音频数据
。5.
根据权利要求4所述的方法,其特征在于,从开始播放所述伴奏音频数据到录制得到所述干声音频数据之间存在第一延迟时长;从将所述伴奏音频数据输入所述音频缓冲区到
开始播放所述伴奏音频数据之间存在第二延迟时长;在所述基于所述当前缓冲数据量与参考缓冲数据量之间的差异,调整所述音频缓冲区中缓冲的伴奏音频数据的数据量之前,还包括:基于所述第一时间延迟和所述第二时...

【专利技术属性】
技术研发人员:雷勇
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1