说唱音视频合成方法、系统、设备及可读存储介质技术方案

技术编号：37419630 阅读：9 留言：0更新日期：2023-04-30 09:42

本申请提供一种说唱音视频合成方法、系统、设备及可读存储介质，本申请提供的方法可以依据用户录制的音频数据进行处理即可合成与用户的音色匹配的说唱歌曲，用户不需要会说唱，用户只需要能够正常发出声音完成音频录制即可完成合成说唱歌曲，本申请实施例提供的方法对用户录制的声音时长没有要求，在用户完成音频录制之后不需要等待很长的时间，就可生成具有用户音色的说唱单曲视频，同时还可以对用户录制的音频数据进行质检，以便可以在用户录制的音频数据不合格时，提醒用户重新录制音频，以提高合成与用户的音色对应的说唱歌曲的效率，并且最终合成的与用户的音色匹配的说唱歌曲具备较高的音乐性与悦耳性，具备节奏、乐感等细节。感等细节。感等细节。

全部详细技术资料下载

【技术实现步骤摘要】
说唱音视频合成方法、系统、设备及可读存储介质

[0001]本申请涉及音视频数据处理
，尤其涉及一种说唱音视频合成方法、系统、设备及可读存储介质。

技术介绍

[0002]近年来在说唱综艺的带动下，越来越多的年轻人被说唱吸引，不少年轻人热衷于进行与说唱相关的潮流娱乐和消费，年轻人学习说唱的兴趣高涨。但是说唱表演的技术难度与普通的唱歌不同。在实践中，人们发现即使熟悉了说唱歌曲的歌词也很难进行像样的说唱，但是又很希望能亲自演唱出喜爱的说唱歌曲。
[0003]现有人工智能模仿用户音色的生成歌曲软件，不能满足用户生成说唱类的歌曲，生成的歌曲缺乏说唱节奏、flow等说唱音乐性，听起来不真实。另外，现有技术合成一首歌曲需要花费用户较长时间，首先用户必须至少上传若干完整的歌曲作为学习材料，且普遍要等待若干小时才能完成训练，合成一首新的歌曲。

技术实现思路

[0004]本申请旨在至少能解决上述的技术缺陷之一，有鉴于此，本申请提供了一种说唱音视频合成方法、系统、设备及可读存储介质，用于解决现有技术中难以合成说唱音视频歌曲的技术缺陷。
[0005]一种说唱音视频合成方法，包括：
[0006]响应用户选择目标合成文本的操作，确定所述用户选择的目标合成文本；
[0007]依据所述用户选择的目标合成文本，响应所述用户点击录音按钮的操作，开始录制所述用户创作的音频数据，并在待所述用户完成录音后，获取所述用户的原始录音数据作为目标录制音频；
[0008]将所述目标录制音频进行质检，得到所述

【技术保护点】

【技术特征摘要】
1.一种说唱音视频合成方法，其特征在于，包括：响应用户选择目标合成文本的操作，确定所述用户选择的目标合成文本；依据所述用户选择的目标合成文本，响应所述用户点击录音按钮的操作，开始录制所述用户创作的音频数据，并在待所述用户完成录音后，获取所述用户的原始录音数据作为目标录制音频；将所述目标录制音频进行质检，得到所述目标录制音频的质检评分结果；判断所述目标录制音频的质检评分结果是否达到预设的合成说唱音视频的标准；若所述目标录制音频的质检评分结果达到预设的合成说唱音视频的标准，则提取所述目标录制音频对应的用户声纹特征；将所述用户声纹特征与预设的说唱歌曲模板进行转换，得到目标转换结果；将所述目标转换结果与预设的伴奏进行混音，得到与用户的音色匹配的目标说唱歌曲。2.根据权利要求1所述的方法，其特征在于，该方法还包括：若所述目标录制音频的质检评分结果未达到所述预设的合成说唱音视频的标准，则提醒所述用户重新录制音频数据，并在所述用户重新录制音频数据完成之后，获取所述用户的重新录制的音频数据作为目标录制音频；返回执行将所述目标录制音频进行质检的操作。3.根据权利要求1所述的方法，其特征在于，在得到与用户的音色匹配的目标说唱歌曲之后，该方法还包括：从预设的背景视频库中随机确定一个背景视频样本作为目标背景视频，或依据用户从所述预设的背景视频库中确定的背景视频样本作为目标背景视频；将所述目标说唱歌曲与所述目标背景视频进行合并，得到目标说唱音乐短片。4.根据权利要求1所述的方法，其特征在于，所述预设的说唱歌曲模板的创建过程，包括：收集目标说唱歌手的说唱歌曲片段；分离所述目标说唱歌手的说唱歌曲片段中说唱人声和说唱伴奏以及说唱歌词；对所述说唱歌词进行标注，得到所述目标说唱歌手的说唱歌曲片段的歌词标注结果；将所述说唱歌词标注结果按照预设的格式进行处理，得到与所述说唱歌词标注结果对应的歌词文件；提取所述目标说唱歌手的说唱歌曲片段中的人声音频的语义特征；结合所述说唱歌词文件与所述目标说唱歌手的说唱歌曲片段中的人声音频的语义特征合成说唱歌曲模板。5.一种说唱音视频合成系统，其特征在于，应用于上述权利要求1
‑
4任一项的说唱音视频合成方法，该系统包括：客户端以及服务端；其中，所述客户端响应用户点击进入人工智能说唱界面和点击录制按钮的操作，依据用户朗读的说唱歌词录制所述用户的目标录制音频，并在所述用户点击结束录制的操作之后将所述目标录制音频上传至所述服务端；所述服务端使用音质检测模块检测所述用户的目标录制音频的质量，得到所述目标录
制音频的质检评分结果，并将所述质检评分结果返回给所述客户端，依据预设的合成说唱音视频的标准，结合所述质检评分结果，判断所述目标录制音频是否满足所述预设的合成说唱音视频的标准，若所述目标录制音频满足...

【专利技术属性】
技术研发人员：李倍源，李文生，蒋海波，于洋，黄玮文，简康达，卢安，张龄宇，王恒岩，马金龙，盘子圣，黎智鑫，黄祥康，
申请(专利权)人：广州趣丸网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人