说唱音视频合成方法、系统、设备及可读存储介质技术方案

技术编号:37419630 阅读:9 留言:0更新日期:2023-04-30 09:42
本申请提供一种说唱音视频合成方法、系统、设备及可读存储介质,本申请提供的方法可以依据用户录制的音频数据进行处理即可合成与用户的音色匹配的说唱歌曲,用户不需要会说唱,用户只需要能够正常发出声音完成音频录制即可完成合成说唱歌曲,本申请实施例提供的方法对用户录制的声音时长没有要求,在用户完成音频录制之后不需要等待很长的时间,就可生成具有用户音色的说唱单曲视频,同时还可以对用户录制的音频数据进行质检,以便可以在用户录制的音频数据不合格时,提醒用户重新录制音频,以提高合成与用户的音色对应的说唱歌曲的效率,并且最终合成的与用户的音色匹配的说唱歌曲具备较高的音乐性与悦耳性,具备节奏、乐感等细节。感等细节。感等细节。

【技术实现步骤摘要】
说唱音视频合成方法、系统、设备及可读存储介质


[0001]本申请涉及音视频数据处理
,尤其涉及一种说唱音视频合成方法、系统、设备及可读存储介质。

技术介绍

[0002]近年来在说唱综艺的带动下,越来越多的年轻人被说唱吸引,不少年轻人热衷于进行与说唱相关的潮流娱乐和消费,年轻人学习说唱的兴趣高涨。但是说唱表演的技术难度与普通的唱歌不同。在实践中,人们发现即使熟悉了说唱歌曲的歌词也很难进行像样的说唱,但是又很希望能亲自演唱出喜爱的说唱歌曲。
[0003]现有人工智能模仿用户音色的生成歌曲软件,不能满足用户生成说唱类的歌曲,生成的歌曲缺乏说唱节奏、flow等说唱音乐性,听起来不真实。另外,现有技术合成一首歌曲需要花费用户较长时间,首先用户必须至少上传若干完整的歌曲作为学习材料,且普遍要等待若干小时才能完成训练,合成一首新的歌曲。

技术实现思路

[0004]本申请旨在至少能解决上述的技术缺陷之一,有鉴于此,本申请提供了一种说唱音视频合成方法、系统、设备及可读存储介质,用于解决现有技术中难以合成说唱音视频歌曲的技术缺陷。
[0005]一种说唱音视频合成方法,包括:
[0006]响应用户选择目标合成文本的操作,确定所述用户选择的目标合成文本;
[0007]依据所述用户选择的目标合成文本,响应所述用户点击录音按钮的操作,开始录制所述用户创作的音频数据,并在待所述用户完成录音后,获取所述用户的原始录音数据作为目标录制音频;
[0008]将所述目标录制音频进行质检,得到所述目标录制音频的质检评分结果;
[0009]判断所述目标录制音频的质检评分结果是否达到预设的合成说唱音视频的标准;
[0010]若所述目标录制音频的质检评分结果达到预设的合成说唱音视频的标准,则提取所述目标录制音频对应的用户声纹特征;
[0011]将所述用户声纹特征与预设的说唱歌曲模板进行转换,得到目标转换结果;
[0012]将所述目标转换结果与预设的伴奏进行混音,得到与用户的音色匹配的目标说唱歌曲。
[0013]优选地,该方法还包括:
[0014]若所述目标录制音频的质检评分结果未达到所述预设的合成说唱音视频的标准,则提醒所述用户重新录制音频数据,并在所述用户重新录制音频数据完成之后,获取所述用户的重新录制的音频数据作为目标录制音频;
[0015]返回执行将所述目标录制音频进行质检的操作。
[0016]优选地,在得到与用户的音色匹配的目标说唱歌曲之后,该方法还包括:
[0017]从预设的背景视频库中随机确定一个背景视频样本作为目标背景视频,或依据用户从所述预设的背景视频库中确定的背景视频样本作为目标背景视频;
[0018]将所述目标说唱歌曲与所述目标背景视频进行合并,得到目标说唱音乐短片。
[0019]优选地,所述预设的说唱歌曲模板的创建过程,包括:
[0020]收集目标说唱歌手的说唱歌曲片段;
[0021]分离所述目标说唱歌手的说唱歌曲片段中说唱人声和说唱伴奏以及说唱歌词;
[0022]对所述说唱歌词进行标注,得到所述目标说唱歌手的说唱歌曲片段的歌词标注结果;
[0023]将所述说唱歌词标注结果按照预设的格式进行处理,得到与所述说唱歌词标注结果对应的歌词文件;
[0024]提取所述目标说唱歌手的说唱歌曲片段中的人声音频的语义特征;
[0025]结合所述说唱歌词文件与所述目标说唱歌手的说唱歌曲片段中的人声音频的语义特征合成说唱歌曲模板。
[0026]一种说唱音视频合成系统,应用于上述介绍的任一项的说唱音视频合成方法,该系统包括:客户端以及服务端;
[0027]其中,
[0028]所述客户端响应用户点击进入人工智能说唱界面和点击录制按钮的操作,依据用户朗读的说唱歌词录制所述用户的目标录制音频,并在所述用户点击结束录制的操作之后将所述目标录制音频上传至所述服务端;
[0029]所述服务端使用音质检测模块检测所述用户的目标录制音频的质量,得到所述目标录制音频的质检评分结果,并将所述质检评分结果返回给所述客户端,依据预设的合成说唱音视频的标准,结合所述质检评分结果,判断所述目标录制音频是否满足所述预设的合成说唱音视频的标准,若所述目标录制音频满足所述预设的合成说唱音视频的标准,则将所述目标录制音频发送到所述服务端的说唱合成服务模块;
[0030]所述说唱合成服务模块在接收到所述目标录制音频之后,对所述目标录制音频进行降噪以及声纹提取处理,在得到与所述用户对应的声纹特征向量之后,读取预设的说唱歌曲模板中的语义后验概率特征以及基频特征,并将预设的说唱歌曲模板中的语义后验概率特征以及基频特征以及与所述用户对应的声纹特征向量输入到预设的转换模型和声码器中进行合成处理,得到与用户的音色对应的目标说唱音频,同时将所述目标说唱音频与相关的视频素材一并返回给所述客户端;
[0031]所述客户端根据所述服务端的说唱合成服务模块返回的所述目标说唱音频与相关的视频素材,绘制出以所述用户音色演唱的说唱音频,并生成以所述服务端返回的视频素材为背景的目标说唱音乐短片。
[0032]优选地,该系统还包括:
[0033]若所述服务端确定所述目标录制音频的质检评分结果未达到所述预设合成说唱音视频的标准,则向所述客户端发送提醒所述用户重新录制音频数据的反馈信息;
[0034]所述客户端接收所述服务端发送的发送提醒所述用户重新录制音频数据的反馈信息,提醒所述用户重新录制音频数据,并在所述用户重新录制音频数据完成之后,获取所述用户的重新录制的音频数据作为目标录制音频发送给所述服务端。
[0035]优选地,该系统还包括运营后台,
[0036]所述运营后台用于收集目标说唱歌手的目标说唱歌曲片段,并利用伴奏人声分离工具,将所述目标说唱歌曲片段中说唱人声和伴奏分离出来,并对所述目标说唱歌曲片段中的说唱歌词进行标注,按要求统一处理为预设的格式的歌词文件,并将所述目标说唱歌曲片段中说唱人声和伴奏以及所述预设的格式的歌词文件发送给所述服务端;
[0037]所述服务端接收所述目标说唱歌曲片段中说唱人声和伴奏以及所述预设的格式的歌词文件,并利用预设的语音后验概率模型提取所述预设的格式的歌词文件中的语义特征,以便用来结合所述目标说唱歌曲片段中说唱人声和伴奏合成说唱歌曲模板,其中,所述预设的语音后验概率模型以训练的说唱歌曲的歌词文件作为训练样本,以所述训练的说唱歌曲的歌词文件中的每个特定时间帧,每个语音类别的后验概率对应的说话人语义的特征作为样本标签,训练得到。
[0038]优选地,所述预设的格式为声音文件格式和文本文档文件格式。
[0039]一种说唱音视频合成设备,包括:一个或多个处理器,以及存储器;
[0040]所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,实现如前述介绍中任一项所述说唱音视频合成方法的步骤。...

【技术保护点】

【技术特征摘要】
1.一种说唱音视频合成方法,其特征在于,包括:响应用户选择目标合成文本的操作,确定所述用户选择的目标合成文本;依据所述用户选择的目标合成文本,响应所述用户点击录音按钮的操作,开始录制所述用户创作的音频数据,并在待所述用户完成录音后,获取所述用户的原始录音数据作为目标录制音频;将所述目标录制音频进行质检,得到所述目标录制音频的质检评分结果;判断所述目标录制音频的质检评分结果是否达到预设的合成说唱音视频的标准;若所述目标录制音频的质检评分结果达到预设的合成说唱音视频的标准,则提取所述目标录制音频对应的用户声纹特征;将所述用户声纹特征与预设的说唱歌曲模板进行转换,得到目标转换结果;将所述目标转换结果与预设的伴奏进行混音,得到与用户的音色匹配的目标说唱歌曲。2.根据权利要求1所述的方法,其特征在于,该方法还包括:若所述目标录制音频的质检评分结果未达到所述预设的合成说唱音视频的标准,则提醒所述用户重新录制音频数据,并在所述用户重新录制音频数据完成之后,获取所述用户的重新录制的音频数据作为目标录制音频;返回执行将所述目标录制音频进行质检的操作。3.根据权利要求1所述的方法,其特征在于,在得到与用户的音色匹配的目标说唱歌曲之后,该方法还包括:从预设的背景视频库中随机确定一个背景视频样本作为目标背景视频,或依据用户从所述预设的背景视频库中确定的背景视频样本作为目标背景视频;将所述目标说唱歌曲与所述目标背景视频进行合并,得到目标说唱音乐短片。4.根据权利要求1所述的方法,其特征在于,所述预设的说唱歌曲模板的创建过程,包括:收集目标说唱歌手的说唱歌曲片段;分离所述目标说唱歌手的说唱歌曲片段中说唱人声和说唱伴奏以及说唱歌词;对所述说唱歌词进行标注,得到所述目标说唱歌手的说唱歌曲片段的歌词标注结果;将所述说唱歌词标注结果按照预设的格式进行处理,得到与所述说唱歌词标注结果对应的歌词文件;提取所述目标说唱歌手的说唱歌曲片段中的人声音频的语义特征;结合所述说唱歌词文件与所述目标说唱歌手的说唱歌曲片段中的人声音频的语义特征合成说唱歌曲模板。5.一种说唱音视频合成系统,其特征在于,应用于上述权利要求1

4任一项的说唱音视频合成方法,该系统包括:客户端以及服务端;其中,所述客户端响应用户点击进入人工智能说唱界面和点击录制按钮的操作,依据用户朗读的说唱歌词录制所述用户的目标录制音频,并在所述用户点击结束录制的操作之后将所述目标录制音频上传至所述服务端;所述服务端使用音质检测模块检测所述用户的目标录制音频的质量,得到所述目标录
制音频的质检评分结果,并将所述质检评分结果返回给所述客户端,依据预设的合成说唱音视频的标准,结合所述质检评分结果,判断所述目标录制音频是否满足所述预设的合成说唱音视频的标准,若所述目标录制音频满足...

【专利技术属性】
技术研发人员:李倍源李文生蒋海波于洋黄玮文简康达卢安张龄宇王恒岩马金龙盘子圣黎智鑫黄祥康
申请(专利权)人:广州趣丸网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1