音乐生成模型的训练数据生成方法、装置、设备及介质制造方法及图纸

技术编号:39243237 阅读:10 留言:0更新日期:2023-10-30 11:55
本申请公开了一种音乐生成模型的训练数据生成方法、装置、设备及介质,获取第一样本音乐的第一音频数据和预先设定的生成指令信息,通过音乐理解模型对第一音频数据进行分析处理,得到表征第一音频数据在至少两个不同维度上的预测类别信息的第一预测结果,然后将第一预测结果和生成指令信息输入到目标语言模型中,通过目标语言模型来生成第一音频数据对应的第一描述信息,通过第一音频数据和第一描述信息作为训练数据集训练音乐生成模型。本申请能够高效、低成本地构造用于训练音乐生成模型的训练数据,便于训练得到准确度较高的音乐生成模型,有利于提高目标对象的音乐聆听体验。本申请的技术方案可广泛应用于音频处理技术领域。领域。领域。

【技术实现步骤摘要】
音乐生成模型的训练数据生成方法、装置、设备及介质


[0001]本申请涉及音频处理
,特别是涉及一种音乐生成模型的训练数据生成方法、装置、设备及介质。

技术介绍

[0002]当前,随着信息技术和人工智能技术的高速发展,相关的应用已经逐步融入到人们的生活中,为人们提供了各式各样的服务。例如,在音频处理
内,存在有Text
‑2‑
Music(文本到音乐)的应用,该应用能够使用音乐生成模型,根据目标对象的描述信息生成一段音频数据,可以有效提高目标对象的音乐聆听体验。
[0003]相关技术中,为了使得生成的音频数据尽可能满足目标对象的需求,需要对音乐生成模型进行训练。训练音乐生成模型时需要使用到描述信息,一般情况下,往往收集现有音乐对应的评论信息来作为描述信息。但是,在实际应用中发现,使用评论信息作为音乐的描述信息存在有噪声偏大的情况,比如说一些音乐的评论信息往往和音乐本身无关,属于闲聊语料,导致训练得到的音乐生成模型应用效果较差;而如果由人工筛选或者编辑描述信息,又会增加收集训练数据的耗时和人力负担,实现成本较高。
[0004]综上,相关技术中存在的技术问题有待得到改善。

技术实现思路

[0005]本申请实施例提供了一种音乐生成模型的训练数据生成方法、装置、设备及介质,能够高效、低成本地构造用于训练音乐生成模型的训练数据,便于训练得到准确度较高的音乐生成模型,有利于提高目标对象的音乐聆听体验。
[0006]本申请实施例的一方面提供了一种音乐生成模型的训练数据生成方法,所述方法包括:获取第一样本音乐的第一音频数据和预先设定的生成指令信息;所述生成指令信息用于指示目标语言模型生成针对所述第一音频数据的第一描述信息;通过音乐理解模型对所述第一音频数据进行分析处理,得到所述第一音频数据对应的第一预测结果;其中,所述第一预测结果用于表征所述第一音频数据在至少两个不同维度上的预测类别信息;将所述第一预测结果和所述生成指令信息输入到所述目标语言模型中,通过所述目标语言模型生成所述第一音频数据对应的第一描述信息;根据各个所述第一音频数据以及所述第一音频数据对应的第一描述信息,构造得到用于训练音乐生成模型的第一训练数据集。
[0007]另一方面,本申请实施例提供了一种音乐生成模型的训练方法,所述方法包括:获取通过前述的音乐生成模型的训练数据生成方法处理得到的第一训练数据集;所述第一训练数据集包括多个第一音频数据以及所述第一音频数据对应的第一描述信息;将所述第一描述信息输入到待优化的音乐生成模型中,通过所述待优化的音乐生
成模型预测生成第三音频数据;根据所述第一音频数据和所述第三音频数据,确定预测的第二损失值;根据所述第二损失值,对所述待优化的音乐生成模型进行参数更新,得到训练好的音乐生成模型。
[0008]另一方面,本申请实施例提供了一种音乐生成方法,所述方法包括:获取目标对象输入的第二描述信息;将所述第二描述信息输入到通过前述的音乐生成模型的训练方法训练得到的音乐生成模型中,通过所述音乐生成模型预测生成第四音频数据;将所述第四音频数据反馈给所述目标对象。
[0009]另一方面,本申请实施例提供了一种音乐生成模型的训练数据生成装置,所述装置包括:获取单元,用于获取第一样本音乐的第一音频数据和预先设定的生成指令信息;所述生成指令信息用于指示目标语言模型生成针对所述第一音频数据的第一描述信息;处理单元,用于通过音乐理解模型对所述第一音频数据进行分析处理,得到所述第一音频数据对应的第一预测结果;其中,所述第一预测结果用于表征所述第一音频数据在至少两个不同维度上的预测类别信息;生成单元,用于将所述第一预测结果和所述生成指令信息输入到所述目标语言模型中,通过所述目标语言模型生成所述第一音频数据对应的第一描述信息;构造单元,用于根据各个所述第一音频数据以及所述第一音频数据对应的第一描述信息,构造得到用于训练音乐生成模型的第一训练数据集。
[0010]可选地,所述装置还包括筛选单元,所述筛选单元具体用于:检测所述第一音频数据中是否包含人声成分,若所述第一音频数据中包含人声成分,删除所述第一音频数据;或者,对所述第一音频数据进行音质检测,得到所述第一音频数据对应的音质评分,将所述音质评分和预设的评分阈值进行比较,若所述音质评分小于或者等于所述评分阈值,删除所述音质评分对应的第一音频数据。
[0011]可选地,所述筛选单元具体用于:对所述第一音频数据进行音质检测,得到所述第一音频数据对应的采样率数据和噪声含量数据;根据所述采样率数据和所述噪声含量数据,得到所述第一音频数据对应的音质评分;其中,所述第一音频数据对应的音质评分和所述采样率数据正相关,所述第一音频数据对应的音质评分和所述噪声含量数据负相关。
[0012]可选地,所述装置还包括截断单元,所述截断单元具体用于:检测所述第一音频数据的播放时长;将所述播放时长和预设的时长阈值进行比较;若所述播放时长大于或者等于所述时长阈值,对所述第一音频数据进行截断处理,得到至少两个新的第一音频数据。
[0013]可选地,所述装置还包括训练单元,所述训练单元具体用于:
获取第二训练数据集;所述第二训练数据集包括批量的第二样本音乐的第二音频数据和各个所述第二音频数据对应的第一标签信息;其中,所述第一标签信息用于表征所述第二音频数据在至少两个不同维度上的真实类别信息;提取所述第二音频数据的第一特征信息;将所述第一特征信息输入到待优化的音乐理解模型中,通过所述待优化的音乐理解模型预测得到所述第二音频数据对应的第二预测结果;所述第二预测结果用于表征所述第二音频数据在至少两个不同维度上的预测类别信息;根据所述第一标签信息和所述第二预测结果,确定预测的第一损失值;根据所述第一损失值,对所述待优化的音乐理解模型进行参数更新,得到训练好的音乐理解模型。
[0014]可选地,所述维度包括类型维度、速度维度、情绪维度和配器维度;所述训练单元具体用于:将所述第一特征信息输入到待优化的音乐理解模型中;通过所述待优化的音乐理解模型对所述第一特征信息进行编码处理,映射得到预测输出向量;所述预测输出向量中包括第一元素、第二元素、第三元素和第四元素,其中,所述第一元素用于表征所述第二音频数据在所述类型维度上的预测类别信息,所述第二元素用于表征所述第二音频数据在所述速度维度上的预测类别信息,所述第三元素用于表征所述第二音频数据在所述情绪维度上的预测类别信息,所述第四元素用于表征所述第二音频数据在所述配器维度上的预测类别信息。
[0015]可选地,所述训练单元具体用于:根据所述第一标签信息和所述预测输出向量,确定在所述类型维度上预测的第一子损失值、在所述速度维度上预测的第二子损失值、在所述情绪维度上预测的第三子损失值以及在所述配器维度上预测的第四子损失值;对所述第一子损失值、所述第二子损失值、所述第三子损失值和所述第四子损失值进行加权求和,得到预测的第一损失值。
[0016]可选地,所述装置还包括添加单元,所述添加单元具体用于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音乐生成模型的训练数据生成方法,其特征在于,所述方法包括:获取第一样本音乐的第一音频数据和预先设定的生成指令信息;所述生成指令信息用于指示目标语言模型生成针对所述第一音频数据的第一描述信息;通过音乐理解模型对所述第一音频数据进行分析处理,得到所述第一音频数据对应的第一预测结果;其中,所述第一预测结果用于表征所述第一音频数据在至少两个不同维度上的预测类别信息;将所述第一预测结果和所述生成指令信息输入到所述目标语言模型中,通过所述目标语言模型生成所述第一音频数据对应的第一描述信息;根据各个所述第一音频数据以及所述第一音频数据对应的第一描述信息,构造得到用于训练音乐生成模型的第一训练数据集。2.根据权利要求1所述的音乐生成模型的训练数据生成方法,其特征在于,所述获取第一样本音乐的第一音频数据的步骤之后,所述方法还包括筛选流程;所述筛选流程包括以下步骤中的至少一者:检测所述第一音频数据中是否包含人声成分,若所述第一音频数据中包含人声成分,删除所述第一音频数据;或者,对所述第一音频数据进行音质检测,得到所述第一音频数据对应的音质评分,将所述音质评分和预设的评分阈值进行比较,若所述音质评分小于或者等于所述评分阈值,删除所述音质评分对应的第一音频数据。3.根据权利要求2所述的音乐生成模型的训练数据生成方法,其特征在于,所述对所述第一音频数据进行音质检测,得到所述第一音频数据对应的音质评分,包括:对所述第一音频数据进行音质检测,得到所述第一音频数据对应的采样率数据和噪声含量数据;根据所述采样率数据和所述噪声含量数据,得到所述第一音频数据对应的音质评分;其中,所述第一音频数据对应的音质评分和所述采样率数据正相关,所述第一音频数据对应的音质评分和所述噪声含量数据负相关。4.根据权利要求1所述的音乐生成模型的训练数据生成方法,其特征在于,所述获取第一样本音乐的第一音频数据的步骤之后,所述方法还包括:检测所述第一音频数据的播放时长;将所述播放时长和预设的时长阈值进行比较;若所述播放时长大于或者等于所述时长阈值,对所述第一音频数据进行截断处理,得到至少两个新的第一音频数据。5.根据权利要求1

4中任一项所述的音乐生成模型的训练数据生成方法,其特征在于,所述音乐理解模型通过以下步骤训练得到:获取第二训练数据集;所述第二训练数据集包括批量的第二样本音乐的第二音频数据和各个所述第二音频数据对应的第一标签信息;其中,所述第一标签信息用于表征所述第二音频数据在至少两个不同维度上的真实类别信息;提取所述第二音频数据的第一特征信息;将所述第一特征信息输入到待优化的音乐理解模型中,通过所述待优化的音乐理解模型预测得到所述第二音频数据对应的第二预测结果;所述第二预测结果用于表征所述第二
音频数据在至少两个不同维度上的预测类别信息;根据所述第一标签信息和所述第二预测结果,确定预测的第一损失值;根据所述第一损失值,对所述待优化的音乐理解模型进行参数更新,得到训练好的音乐理解模型。6.根据权利要求5所述的音乐生成模型的训练数据生成方法,其特征在于,所述维度包括类型维度、速度维度、情绪维度和配器维度;所述将所述第一特征信息输入到待优化的音乐理解模型中,通过所述待优化的音乐理解模型预测得到所述第二音频数据对应的第二预测结果,包括:将所述第一特征信息输入到待优化的音乐理解模型中;通过所述待优化的音乐理解模型对所述第一特征信息进行编码处理,映射得到预测输出向量;所述预测输出向量中包括第一元素、第二元素、第三元素和第四元素,其中,所述第一元素用于表征所述第二音频数据在所述类型维度上的预测类别信息,所述第二...

【专利技术属性】
技术研发人员:邱耀
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1