一种基于语言模型的音乐创作辅助方法技术

技术编号:37469114 阅读:10 留言:0更新日期:2023-05-06 09:47
本发明专利技术是一种基于语言模型的音乐创作辅助方法。本发明专利技术涉及人工智能技术领域,本发明专利技术基于WEB端实现,能够在各种平台,随时随地为用户的创作热情提供辅助,极大的避免了因为软硬件问题,导致错过了记录和创作的机会。同时还可以作为插件接入任何需要音乐设计和生成的地方,例如短视频平台,本发明专利技术了解到,目前短视频平台的音乐推荐基本是已有音乐和视频内容的推荐,而本发明专利技术的系统可以作为生成式的音乐设计与推荐,充分填补市场空白,满足不同类型的用户对音乐创作的需求。的用户对音乐创作的需求。的用户对音乐创作的需求。

【技术实现步骤摘要】
一种基于语言模型的音乐创作辅助方法


[0001]本专利技术涉及人工智能
,是一种基于语言模型的音乐创作辅助方法。

技术介绍

[0002]音乐创作和设计在大众眼中往往是高不可及的存在,甚至对从事音乐工作的专业人士来说,也会有灵感不足等原因导致创作困难的时刻。音乐的设计和创作不仅需要大量的时间成本,更重要的是需要长时间的专业基础知识积累。这使得音乐的设计创作变成了意见曲高和寡的事情。
[0003]当今时代人工智能的发展十分迅速,在风格识别、音频处理与生成领域的许多任务上接近甚至是超过人工水平。如何利用这些技术,惠及大众生活,是计算机业界需要考虑的问题。市面上不乏一些专业音乐创作软件,但这些软件大部分只是降低了音乐创作的繁琐程度,提供一些仿真乐器辅助创作者进行创作。本专利技术从自动化音乐创作入手,利用人工智能在语音处理与自然语言处理领域的最新进展构建了能够辅助创作者智能创作乐曲的模型。同时,本着希望降低业余大众创作音乐的门槛、促进专业音乐制作人灵感的出发点,本专利技术设计并开发了一种基于语言模型的音乐创作辅助系统。

技术实现思路

[0004]本专利技术为克服现有技术的不足,本专利技术实现了个性化多风格的歌词和乐曲生成算法,可以根据用户提供的和对应歌词歌曲生成用户歌唱的音乐。旨在用户以尽可能少的输入,选定需要的风格,本专利技术将通过多风格曲目生成和多风格歌词生成提供多种不同曲目和歌词的组合,同时,用户只需要上传他本人声音的文件,本专利技术就可以根据他的音色生成出他唱的歌曲组合。
[0005]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0006]本专利技术提供了一种基于语言模型的音乐创作辅助方法,本专利技术提供了以下技术方案:
[0007]一种基于语言模型的音乐创作辅助方法,所述方法包括以下步骤:
[0008]步骤1:对歌曲数据进行特征提取,在不同的时间尺度下生成二维的表征,得到乐曲不同级别的特征,再利用ResNet进行二维卷积学习,进行风格标签的分类;
[0009]步骤2:建立预训练乐曲模型,并进行位置编码,区分序列中的不同位置;
[0010]步骤3:进行多音轨协同学习,生成音乐文件。
[0011]优选地,所述步骤1具体为:
[0012]输入的歌曲数据数据分为音符、音频与歌词三部分,提取这三类输入数据中的特征,用于模型的训练;对于音符数据,利用人工标注的方式识别歌曲的和弦与节奏,并将多音轨乐曲根据音轨生成多个音符序列;
[0013]对于歌词数据,利用基于Transformer的预训练语言模型提取其中的语义与情感特征;
[0014]对于音频数据,使用人工标注的方式或者利用MS

SincResNet提取风格特征。
[0015]优选地,音频数据标注时利用SincNet进行一维的卷积学习,在不同的时间尺度下生成二维的表征,从而学习到乐曲不同级别的特征,再利用ResNet进行二维卷积学习,最终进行风格标签的分类。
[0016]优选地,所述步骤2具体为:
[0017]步骤2.1:建立预训练乐曲模型采用Transformer的编解码器结构,输入数据是歌曲的和弦、节奏、风格标签以及经过对齐的音符和歌词文本,将歌曲每个时刻的音符及其对应的歌词和拼音看作一个元组,预训练模型的输入为元组序列,并采用词嵌入技术,将风格、节奏、和弦、音符和歌词利用稠密向量表示;
[0018]步骤2.2:将已有音符、歌词、和弦和节奏序列以及拼接的位置编码和风格标签向量作为输入,经过N层Transformer的编码器然后将最后一层编码器的输出作为解码器的一部分特征输入,再经过N层Transformer解码器得到输出,最后利用多层感知机和softmax激活函数得到输出的概率分布,从而确定接下来的音符、歌词、和弦和节奏;
[0019]步骤2.3:使用了三角函数式的绝对位置编码,模型会训练每一小节的位置编码,并在输入时将这些位置编码根据歌曲的小节数重复若干次,以达到令模型保留小节内每个音符的位置信息而忽略不同小节间对应位置音符的位置信息的目的。
[0020]优选地,采用预训练语言模型训练中的MLM和NSP任务来训练,NSP任务是通过已有的元组序列生成下一个元组;MLM任务则是随机删除序列中的一些元组或元组中的某一个元素,令模型对被删除的数据进行预测。
[0021]优选地,所述步骤3具体为:
[0022]针对每种乐器都单独训练了一个预训练乐曲模型,并修改了self

attention的机制,让不同乐器模型之间的Transformer层相互耦合,从而组成一个更大的多乐器预训练模型,训练目标为每个模型损失函数的求和;
[0023]修改前的self

attention机制部分公式如下:
[0024][0025][0026]修改后的通过下式表示:
[0027][0028][0029]其中,与是与第k种乐器相关的可学习的矩阵,用于在self

attention中引入其他乐器的信息;x
j;k
表示的是第k种乐器的输入数据;x
j
则表示的是当前乐器的输入数据。
[0030]优选地,所述步骤5具体为:
[0031]当用户输入了和弦、节奏和音符序列,模型输出歌词序列;或者用户输入和弦、节奏和歌词序列,模型输出音符序列;由用户输入连续的或者间断的若干节歌曲信息,由模型补全完整的歌曲内容。
[0032]一种基于语言模型的音乐创作辅助系统,所述系统包括:
[0033]特征提取模块,所述特征提取模块对歌曲数据进行特征提取,在不同的时间尺度下生成二维的表征,得到乐曲不同级别的特征,再利用ResNet进行二维卷积学习,进行风格标签的分类;
[0034]模型训练模块,所述模型训练模块建立预训练乐曲模型,并进行位置编码,区分序列中的不同位置;
[0035]音乐文件生成模块,所述音乐文件生成模块进行多音轨协同学习,生成音乐文件。
[0036]一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现一种基于语言模型的音乐创作辅助方法。
[0037]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现一种基于语言模型的音乐创作辅助方法。
[0038]本专利技术具有以下有益效果:
[0039]本专利技术与现有技术相比:
[0040]本专利技术基于WEB端实现,能够在各种平台,随时随本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语言模型的音乐创作辅助方法,其特征是:所述方法包括以下步骤:步骤1:对歌曲数据进行特征提取,在不同的时间尺度下生成二维的表征,得到乐曲不同级别的特征,再利用ResNet进行二维卷积学习,进行风格标签的分类;步骤2:建立预训练乐曲模型,并进行位置编码,区分序列中的不同位置;步骤3:进行多音轨协同学习,生成音乐文件。2.根据权利要求1所述的方法,其特征是:所述步骤1具体为:输入的歌曲数据数据分为音符、音频与歌词三部分,提取这三类输入数据中的特征,用于模型的训练;对于音符数据,利用人工标注的方式识别歌曲的和弦与节奏,并将多音轨乐曲根据音轨生成多个音符序列;对于歌词数据,利用基于Transformer的预训练语言模型提取其中的语义与情感特征;对于音频数据,使用人工标注的方式或者利用MS

SincResNet提取风格特征。3.根据权利要求2所述的方法,其特征是:音频数据标注时利用SincNet进行一维的卷积学习,在不同的时间尺度下生成二维的表征,从而学习到乐曲不同级别的特征,再利用ResNet进行二维卷积学习,最终进行风格标签的分类。4.根据权利要求3所述的方法,其特征是:所述步骤2具体为:步骤2.1:建立预训练乐曲模型采用Transformer的编解码器结构,输入数据是歌曲的和弦、节奏、风格标签以及经过对齐的音符和歌词文本,将歌曲每个时刻的音符及其对应的歌词和拼音看作一个元组,预训练模型的输入为元组序列,并采用词嵌入技术,将风格、节奏、和弦、音符和歌词利用稠密向量表示;步骤2.2:将已有音符、歌词、和弦和节奏序列以及拼接的位置编码和风格标签向量作为输入,经过N层Transformer的编码器然后将最后一层编码器的输出作为解码器的一部分特征输入,再经过N层Transformer解码器得到输出,最后利用多层感知机和softmax激活函数得到输出的概率分布,从而确定接下来的音符、歌词、和弦和节奏;步骤2.3:使用了三角函数式的绝对位置编码,模型会训练每一小节的位置编码,并在输入时将这些位置编码根据歌曲的小节数重复若干次,以达到令模型保留小节内每个音符的位置信息而忽略不同小节间对应位置音符的位置信息的目的。...

【专利技术属性】
技术研发人员:张宇宋岩奇杨昕崔涵
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1