模型的生成方法、音乐合成的方法、系统、设备及介质技术方案

技术编号:28678325 阅读:23 留言:0更新日期:2021-06-02 02:55
本发明专利技术公开了一种模型的生成方法、音乐合成的方法、系统、设备及介质,其中,模型的生成方法,包括:将音乐片段拆分成为时序上连续的多个音符;对音乐片段进行处理,以获取每个音符对应的基频矩阵以及音符密度矩阵;将基频矩阵和音符密度矩阵拼接生成第一拼接矩阵;将第一拼接矩阵输入包含多个循环神经网络层和多个线性层的模型中进行训练,以生成音符预测模型。本发明专利技术提供的模型的生成方法基于基频矩阵以及音符密度矩阵作为特征数据,输入包括循环神经网络层和线性层构建的模型中进行训练,该模型结构简单、训练难度小,提高了模型的训练速度,减少了训练时间。

【技术实现步骤摘要】
模型的生成方法、音乐合成的方法、系统、设备及介质
本专利技术涉及计算机音乐合成领域,具体涉及一种模型的生成方法、音乐合成的方法、系统、设备及介质。
技术介绍
随着深度学习的不断发展,其在图像、文本、语言各个方面具有广泛的应用。近几年,直播行业的快速兴起,各行各业都在进行直播“带货”,互联网公司也在大力发展直播行业。互联网公司进行酒店介绍时需要配合背景音乐,但是现有的背景音乐都是通过音乐艺术家进行音乐创造而生成的。艺术家数量有限,每年创作的作品较少,无法满足市场需求,并且需要购买版权,成本较高。因此,利用人工智能生成音乐受到广泛的关注。在人工智能领域,通常采用生成模型合成音乐,现有的模型结构复杂、训练难度大,且合成的音符不流畅、音乐片段效果差。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中利用生成模型合成音乐时,模型结构复杂、训练难度大,且合成的音符不流畅、音乐片段效果差的缺陷,提供一种模型的生成方法、音乐合成的方法、系统、设备及介质。本专利技术是通过下述技术方案来解决上述技术问题:第一方面,本专利技术提供一种模型的生成方法,所述方法包括:将音乐片段拆分成为时序上连续的多个音符;对所述音乐片段进行处理,以获取每个音符对应的基频矩阵以及音符密度矩阵;其中,所述音符密度矩阵用于表征所对应的所述音符的触发和截至的时间;将所述基频矩阵和所述音符密度矩阵拼接生成第一拼接矩阵;将所述第一拼接矩阵输入包含多个循环神经网络层和多个线性层的模型中进行训练,以生成音符预测模型;其中,所述线性层用于提取所述音符对应的音乐特征,所述循环神经网络层用于确定相邻音符之间的关联性,所述音符预测模型用于音符识别。较佳地,所述包含多个循环神经网络层和多个线性层的模型包括依次连接的第一线性层、第二线性层、第一循环神经网络层、第二循环神经网络层、第三线性层以及分类层;所述第一线性层的输入包括所述第一拼接矩阵;所述第二线性层的输入包括所述第一线性层的输出,所述第二线性层将所述第一线性层的输出利用激活函数,生成所述第一拼接矩阵对应的所述音乐特征;所述第一循环神经网络层的输入包括所述音乐特征;所述第二循环神经网络层的输入包括所述第一循环神经网络层的输出,所述第二循环神经网络层的输出包括相邻音符之间的关联信息;所述第三线性层的输入包括所述关联信息;所述分类层的输入包括所述第二循环神经网络层的输出,所述分类层的输出包括所述第一拼接矩阵对应的音符识别结果。较佳地,所述包含多个循环神经网络层和多个线性层的模型使用的损失函数为交叉熵损失函数,所述处理包括Embedding处理。较佳地,所述循环神经网络层为双向长短记忆LSTM(LongShort-TermMemory,长短期记忆人工神经网络)网络层。第二方面,本专利技术提供一种音乐合成的方法,所述方法包括:利用如第一方面所述的模型的生成方法训练生成音符预测模型;获取待合成音乐包含的预设音符数以及每个预设音符所对应的目标基频矩阵和目标音符密度矩阵;其中,每个所述预设音符具有音符位置标签;将所述目标基频矩阵和所述目标音符密度矩阵拼接生成目标拼接矩阵;将所有所述预设音符对应的所述目标拼接矩阵按照预设的时序上的音符排列顺序依次输入至所述音符预测模型,以获取每个所述预设音符对应的目标音符;按照所述音符位置标签将所有的所述目标音符进行拼接,以生成目标音乐片段。第三方面,本专利技术提供一种模型的生成系统,所述生成系统包括:拆分模块,用于将音乐片段拆分成为时序上连续的多个音符;处理模块,用于对所述音乐片段进行处理,以获取每个音符对应的基频矩阵以及音符密度矩阵;其中,所述音符密度矩阵用于表征所对应的所述音符的触发和截至的时间;第一拼接模块,用于将所述基频矩阵和所述音符密度矩阵拼接生成第一拼接矩阵;训练模块,用于将所述第一拼接矩阵输入包含多个循环神经网络层和多个线性层的模型中进行训练,以生成音符预测模型;其中,所述线性层用于提取所述音符对应的音乐特征,所述循环神经网络层用于确定相邻音符之间的关联性,所述音符预测模型用于音符识别。较佳地,所述包含多个循环神经网络层和多个线性层的模型包括依次连接的第一线性层、第二线性层、第一循环神经网络层、第二循环神经网络层、第三线性层以及分类层;所述第一线性层的输入包括所述第一拼接矩阵;所述第二线性层的输入包括所述第一线性层的输出,所述第二线性层将所述第一线性层的输出利用激活函数,生成所述第一拼接矩阵对应的所述音乐特征;所述第一循环神经网络层的输入包括所述音乐特征;所述第二循环神经网络层的输入包括所述第一循环神经网络层的输出,所述第二循环神经网络层的输出包括相邻音符之间的关联信息;所述第三线性层的输入包括所述关联信息;所述分类层的输入包括所述第二循环神经网络层的输出,所述分类层的输出包括所述第一拼接矩阵对应的音符识别结果。较佳地,所述包含多个循环神经网络层和多个线性层的模型使用的损失函数为交叉熵损失函数,所述处理包括Embedding处理。较佳地,所述循环神经网络层为双向长短记忆LSTM网络层。第四方面,本专利技术提供一种音乐合成的系统,所述系统包括:模型训练模块,用于利用如第三方面所述的模型的生成系统,训练生成音符预测模型;获取模块,用于获取待合成音乐包含的预设音符数以及每个预设音符所对应的目标基频矩阵和目标音符密度矩阵;其中,每个所述预设音符具有音符位置标签;第二拼接模块,用于将所述目标基频矩阵和所述目标音符密度矩阵拼接生成目标拼接矩阵;输入模块,用于将所有所述预设音符对应的所述目标拼接矩阵按照预设的时序上的音符排列顺序依次输入至所述音符预测模型,以获取每个所述预设音符对应的目标音符;音乐生成模块,用于按照所述音符位置标签将所有的所述目标音符进行拼接,以生成目标音乐片段。第五方面,本专利技术还提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的一种模型的生成方法,或者实现如第二方面所述的音乐合成的方法。第六方面,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的一种模型的生成方法的步骤,或者实现如第二方面所述的音乐合成的方法的步骤。本专利技术的积极进步效果在于:提供一种模型的生成方法、音乐合成的方法、系统、设备及介质,本专利技术提供的模型的生成方法基于基频矩阵以及音符密度矩阵作为特征数据,输入包括循环神经网络层和线性层构建的模型中进行训练,该模型结构简单、训练难度小,提高了模型的训练速度,减少了训练时间;本专利技术提供的音乐合成的方法利用训练好的模型生成多个预测音符,在时序上将所有预测音符进行拼接,合成最终的音乐片段,增强了音乐合本文档来自技高网...

【技术保护点】
1.一种模型的生成方法,其特征在于,所述生成方法包括:/n将音乐片段拆分成为时序上连续的多个音符;/n对所述音乐片段进行处理,以获取每个音符对应的基频矩阵以及音符密度矩阵;其中,所述音符密度矩阵用于表征所对应的音符的触发和截至的时间;/n将所述基频矩阵和所述音符密度矩阵拼接生成第一拼接矩阵;/n将所述第一拼接矩阵输入包含多个循环神经网络层和多个线性层的模型中进行训练,以生成音符预测模型;其中,所述线性层用于提取所述音符对应的音乐特征,所述循环神经网络层用于确定相邻音符之间的关联性,所述音符预测模型用于音符识别。/n

【技术特征摘要】
1.一种模型的生成方法,其特征在于,所述生成方法包括:
将音乐片段拆分成为时序上连续的多个音符;
对所述音乐片段进行处理,以获取每个音符对应的基频矩阵以及音符密度矩阵;其中,所述音符密度矩阵用于表征所对应的音符的触发和截至的时间;
将所述基频矩阵和所述音符密度矩阵拼接生成第一拼接矩阵;
将所述第一拼接矩阵输入包含多个循环神经网络层和多个线性层的模型中进行训练,以生成音符预测模型;其中,所述线性层用于提取所述音符对应的音乐特征,所述循环神经网络层用于确定相邻音符之间的关联性,所述音符预测模型用于音符识别。


2.如权利要求1所述的模型的生成方法,其特征在于,所述包含多个循环神经网络层和多个线性层的模型包括依次连接的第一线性层、第二线性层、第一循环神经网络层、第二循环神经网络层、第三线性层以及分类层;
所述第一线性层的输入包括所述第一拼接矩阵;
所述第二线性层的输入包括所述第一线性层的输出,所述第二线性层将所述第一线性层的输出利用激活函数,生成所述第一拼接矩阵对应的所述音乐特征;
所述第一循环神经网络层的输入包括所述音乐特征;
所述第二循环神经网络层的输入包括所述第一循环神经网络层的输出,所述第二循环神经网络层的输出包括相邻音符之间的关联信息;
所述第三线性层的输入包括所述关联信息;
所述分类层的输入包括所述第二循环神经网络层的输出,所述分类层的输出包括所述第一拼接矩阵对应的音符识别结果。


3.如权利要求2所述的模型的生成方法,其特征在于,所述包含多个循环神经网络层和多个线性层的模型使用的损失函数为交叉熵损失函数,所述处理包括Embedding处理。


4.如权利要求1-3任意一项所述的模型的生成方法,其特征在于,所述循环神经网络层为双向长短记忆LSTM网络层。


5.一种音乐合成的方法,其特征在于,所述方法包括:
利用如权利要求1至4任一项所述的模型的生成方法训练生成音符预测模型;
获取待合成音乐包含的预设音符数以及每个预设音符所对应的目标基频矩阵和目标音符密度矩阵;其中,每个所述预设音符具有音符位置标签;
将所述目标基频矩阵和所述目标音符密度矩阵拼接生成目标拼接矩阵;
将所有所述预设音符对应的所述目标拼接矩阵按照预设的时序上的音符排列顺序依次输入至所述音符预测模型,以获取每个所述预设音符对应的目标音符;
按照所述音符位置标签将所有的所述目标音符进行拼接,以生成目标音乐片段。


6.一种模型的生成系统,其特征在于,所述生成系统包括:
拆分模块,用于将音乐片段拆分成为时序上连续的多个音符;
处理模块,用于对所述音乐片段进行处理,以获取每个音符对应的基频矩阵以及音符密度矩阵;其中,所述音符密度矩阵用于表征所对应的音符的触发和截至的时间;
第一拼接模块,用于将所述...

【专利技术属性】
技术研发人员:周明康罗超邹宇胡泓
申请(专利权)人:携程旅游信息技术上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1