一种基于歌词和旋律的端到端音乐音频生成的方法技术

技术编号:39734281 阅读:8 留言:0更新日期:2023-12-17 23:36
本发明专利技术公开了一种基于歌词和旋律的端到端音乐音频生成的方法,涉及多媒体内容处理技术领域

【技术实现步骤摘要】
一种基于歌词和旋律的端到端音乐音频生成的方法


[0001]本专利技术涉及多媒体内容处理
,具体涉及一种基于歌词和旋律的端到端音乐音频生成的方法


技术介绍

[0002]现在有很多通过训练
AI
模型自动生成音乐的技术

这些技术通常使用深度学习模型,例如卷积神经网络
(CNN)
和循环神经网络
(RNN)
,以及自然语言处理
(NLP)
技术

[0003]谷歌的开发团队推出了一款名为
MusicLM

AI
音乐生成工具,它是基于一个语言模型,通过大量的音乐数据进行训练的,以便它能够学习音乐的规律和特征,简单来说
MusicLM
工具通过语义建模以及声学建模两个阶段对模型进行训练,
MusicLM
通过将条件音乐生成视为一个分层序列到序列建模任务,利用
AudioLM
的多阶段自回归模型作为生成组件,并将其扩展以包括文本条件,然而创建描述一般音频的文本比描述图像要困难得多,同时其由3个自回归模型组成,导致模型速度很慢

[0004]现有音频生成方法中至少还存在以下不足之处:目前常见的直接生成音乐的模型,生成结果不可控,无法生成带人声的音乐,音质差


技术实现思路

[0005]本专利技术的主要目的在于提供一种基于歌词和旋律的端到端音乐音频生成的方法,优化了现有直接生成音频的音乐生成模型的输入端,采用更精细的数据处理方式,让数据的分布尽量集中,从而使得模型更容易收敛

[0006]为实现上述目的,本专利技术采取的技术方案为:
[0007]一种基于歌词和旋律的端到端音乐音频生成的方法,包括:
[0008]对音频文件

音乐的原始信息以及音乐评论信息进行处理;
[0009]提取音频文件中的歌词和旋律并将信息进行合并;
[0010]将处理后的音乐原始信息

合并后的音频信息和音乐评论信息进行特征融合;
[0011]将特征融合后的信息输入模型进行训练;
[0012]输出特征融合后经模型的隐层特征,将隐层特征经声音信号模型语音分析合成系统后输出
wav
格式音频

[0013]具体的,所述对音频文件的处理包括去除音频中过长过短音频

进行语种单一化

进行音频指纹去重以及音量归一化;对音乐原始信息的处理包括提取音乐的元信息,每分钟节拍数识别提取,乐器识别提取

[0014]具体的,所述提取音频文件中的歌词和旋律并将信息合并可通过人工用处理音频和文本数据的工具进行标注,或采用节奏建模进行旋律对齐和音素对齐,得到音符级别带词的乐器数字化信息

[0015]具体的,所述通过旋律对齐和音素对齐旋律构造输入时要在输入上加入目标音频的起始时间点

[0016]具体的,所述将特征融合后的信息输入模型训练的模型训练时可采用普通生成类模型,训练模型的损失函数可采用深度生成模型
(
无监督生成模型
)
类的损失函数或神经网络中的自回归损失函数

[0017]一种基于歌词和旋律的端到端音乐音频生成的装置,包括:
[0018]存储器1,用于存储包含权利1至5中任一项所述方法的计算机程序;
[0019]处理器2,用于调用并执行所述存储器中包含权利1至5中任一项所述的方法

[0020]与现有技术相比,本专利技术具有如下有益效果:
[0021]该方法主要优化了现有直接生成音频的音乐生成模型的输入端,用音符级别的将歌词和旋律合并数据作为输入,而不是宽泛的描述;将文本转语音或者歌声合成的思想用到了音乐生成领域;采用更精细的数据处理方式,让数据的分布尽量集中,从而使得模型更容易收敛

附图说明
[0022]图1为本专利技术音乐生成方法流程图;
[0023]图2为本专利技术实现音乐生成的装置逻辑结构示意图

[0024]图中:
1、
存储器;
2、
处理器

具体实施方式
[0025]为使本专利技术实现的技术手段

创作特征

达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本专利技术

[0026]在本专利技术的描述中,需要说明的是,术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位

以特定的方位构造和操作,因此不能理解为对本专利技术的限制

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性

[0027]在本专利技术的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通

对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义

[0028]实施例
[0029]请参阅图1,本专利技术提供一种技术方案:
[0030]一种基于歌词和旋律的端到端音乐音频生成的方法,包括:
[0031]对音频文件

音乐的原始信息以及音乐评论信息进行处理,所述对音频文件的处理包括去除音频中过长过短音频

进行语种单一化

进行音频指纹去重以及音量归一化;对音乐原始信息的处理包括提取音乐的元信息,每分钟节拍数识别提取,乐器识别提取;
[0032]提取音频文件中的歌词和旋律并将信息进行合并,所述提取音频文件中的歌词和旋律并将信息合并可通过人工用处理音频和文本数据的工具进行标注,或采用节奏建模进行旋律对齐和音素对齐,得到音符级别带词的乐器数字化信息;
[0033]将处理后的音乐原始信息

合并后的音频信息和音乐评论信息进行特征融合,所述通过旋律对齐和音素对齐旋律构造输入时要在输入上加入目标音频的起始时间点;
[0034]将特征融合后的信息输入模型进行训练,所述将特征融合后的信息输入模型训练的模型训练时可采用普通生成类模型,训练模型的损失函数可采用深度生成模型
(
无监督生成模型
)
类的损失函数或神经网络中的自回归损失函数;
[0035]输出特征融合后经模型的隐层特征,将隐层本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于歌词和旋律的端到端音乐音频生成的方法,其特征在于,包括:对音频文件

音乐的原始信息以及音乐评论信息进行处理;提取音频文件中的歌词和旋律并将信息进行合并;将处理后的音乐原始信息

合并后的音频信息和音乐评论信息进行特征融合;将特征融合后的信息输入模型进行训练;输出特征融合后经模型的隐层特征,将隐层特征经声音信号模型语音分析合成系统后输出
wav
格式音频
。2.
根据权利要求1所述的端到端音乐音频生成的方法,其特征在于:所述对音频文件的处理包括去除音频中过长过短音频

进行语种单一化

进行音频指纹去重以及音量归一化;对音乐原始信息的处理包括提取音乐的元信息,每分钟节拍数识别提取,乐器识别提取
。3.
根据权利要求1所述的端到端音乐音频生成的方法,其特征在于:所述提取...

【专利技术属性】
技术研发人员:马星宇
申请(专利权)人:成都开心音符科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1