【技术实现步骤摘要】
音乐生成模型的训练数据生成方法、装置、设备及介质
[0001]本申请涉及音频处理
,特别是涉及一种音乐生成模型的训练数据生成方法、装置、设备及介质。
技术介绍
[0002]当前,随着信息技术和人工智能技术的高速发展,相关的应用已经逐步融入到人们的生活中,为人们提供了各式各样的服务。例如,在音频处理
内,存在有Text
‑2‑
Music(文本到音乐)的应用,该应用能够使用音乐生成模型,根据目标对象的描述信息生成一段音频数据,可以有效提高目标对象的音乐聆听体验。
[0003]相关技术中,为了使得生成的音频数据尽可能满足目标对象的需求,需要对音乐生成模型进行训练。训练音乐生成模型时需要使用到描述信息,一般情况下,往往收集现有音乐对应的评论信息来作为描述信息。但是,在实际应用中发现,使用评论信息作为音乐的描述信息存在有噪声偏大的情况,比如说一些音乐的评论信息往往和音乐本身无关,属于闲聊语料,导致训练得到的音乐生成模型应用效果较差;而如果由人工筛选或者编辑描述信息,又会增加收集训练数据的耗时和人力负担,实现成本较高。
[0004]综上,相关技术中存在的技术问题有待得到改善。
技术实现思路
[0005]本申请实施例提供了一种音乐生成模型的训练数据生成方法、装置、设备及介质,能够高效、低成本地构造用于训练音乐生成模型的训练数据,便于训练得到准确度较高的音乐生成模型,有利于提高目标对象的音乐聆听体验。
[0006]本申请实施例的一方面提供了一种音乐生成模型的训练数 ...
【技术保护点】
【技术特征摘要】
1.一种音乐生成模型的训练数据生成方法,其特征在于,所述方法包括:获取第一样本音乐的第一音频数据和预先设定的生成指令信息;所述生成指令信息用于指示目标语言模型生成针对所述第一音频数据的第一描述信息;通过音乐理解模型对所述第一音频数据进行分析处理,得到所述第一音频数据对应的第一预测结果;其中,所述第一预测结果用于表征所述第一音频数据在至少两个不同维度上的预测类别信息;将所述第一预测结果和所述生成指令信息输入到所述目标语言模型中,通过所述目标语言模型生成所述第一音频数据对应的第一描述信息;根据各个所述第一音频数据以及所述第一音频数据对应的第一描述信息,构造得到用于训练音乐生成模型的第一训练数据集。2.根据权利要求1所述的音乐生成模型的训练数据生成方法,其特征在于,所述获取第一样本音乐的第一音频数据的步骤之后,所述方法还包括筛选流程;所述筛选流程包括以下步骤中的至少一者:检测所述第一音频数据中是否包含人声成分,若所述第一音频数据中包含人声成分,删除所述第一音频数据;或者,对所述第一音频数据进行音质检测,得到所述第一音频数据对应的音质评分,将所述音质评分和预设的评分阈值进行比较,若所述音质评分小于或者等于所述评分阈值,删除所述音质评分对应的第一音频数据。3.根据权利要求2所述的音乐生成模型的训练数据生成方法,其特征在于,所述对所述第一音频数据进行音质检测,得到所述第一音频数据对应的音质评分,包括:对所述第一音频数据进行音质检测,得到所述第一音频数据对应的采样率数据和噪声含量数据;根据所述采样率数据和所述噪声含量数据,得到所述第一音频数据对应的音质评分;其中,所述第一音频数据对应的音质评分和所述采样率数据正相关,所述第一音频数据对应的音质评分和所述噪声含量数据负相关。4.根据权利要求1所述的音乐生成模型的训练数据生成方法,其特征在于,所述获取第一样本音乐的第一音频数据的步骤之后,所述方法还包括:检测所述第一音频数据的播放时长;将所述播放时长和预设的时长阈值进行比较;若所述播放时长大于或者等于所述时长阈值,对所述第一音频数据进行截断处理,得到至少两个新的第一音频数据。5.根据权利要求1
‑
4中任一项所述的音乐生成模型的训练数据生成方法,其特征在于,所述音乐理解模型通过以下步骤训练得到:获取第二训练数据集;所述第二训练数据集包括批量的第二样本音乐的第二音频数据和各个所述第二音频数据对应的第一标签信息;其中,所述第一标签信息用于表征所述第二音频数据在至少两个不同维度上的真实类别信息;提取所述第二音频数据的第一特征信息;将所述第一特征信息输入到待优化的音乐理解模型中,通过所述待优化的音乐理解模型预测得到所述第二音频数据对应的第二预测结果;所述第二预测结果用于表征所述第二
音频数据在至少两个不同维度上的预测类别信息;根据所述第一标签信息和所述第二预测结果,确定预测的第一损失值;根据所述第一损失值,对所述待优化的音乐理解模型进行参数更新,得到训练好的音乐理解模型。6.根据权利要求5所述的音乐生成模型的训练数据生成方法,其特征在于,所述维度包括类型维度、速度维度、情绪维度和配器维度;所述将所述第一特征信息输入到待优化的音乐理解模型中,通过所述待优化的音乐理解模型预测得到所述第二音频数据对应的第二预测结果,包括:将所述第一特征信息输入到待优化的音乐理解模型中;通过所述待优化的音乐理解模型对所述第一特征信息进行编码处理,映射得到预测输出向量;所述预测输出向量中包括第一元素、第二元素、第三元素和第四元素,其中,所述第一元素用于表征所述第二音频数据在所述类型维度上的预测类别信息,所述第二...
【专利技术属性】
技术研发人员:邱耀,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。