一种基于歌词和旋律的端到端音乐音频生成的方法技术

技术编号：39734281 阅读：8 留言：0更新日期：2023-12-17 23:36

本发明专利技术公开了一种基于歌词和旋律的端到端音乐音频生成的方法，涉及多媒体内容处理技术领域

全部详细技术资料下载

【技术实现步骤摘要】
一种基于歌词和旋律的端到端音乐音频生成的方法

[0001]本专利技术涉及多媒体内容处理
，具体涉及一种基于歌词和旋律的端到端音乐音频生成的方法
。

技术介绍

[0002]现在有很多通过训练
AI
模型自动生成音乐的技术
。
这些技术通常使用深度学习模型，例如卷积神经网络
(CNN)
和循环神经网络
(RNN)
，以及自然语言处理
(NLP)
技术
。
[0003]谷歌的开发团队推出了一款名为
MusicLM
的
AI
音乐生成工具，它是基于一个语言模型，通过大量的音乐数据进行训练的，以便它能够学习音乐的规律和特征，简单来说
MusicLM
工具通过语义建模以及声学建模两个阶段对模型进行训练，
MusicLM
通过将条件音乐生成视为一个分层序列到序列建模任务，利用
AudioLM
的多阶段自回归模型作为生成组件，并将其扩展以包括文本条件，然而创建描述一般音频的文本比描述图像要困难得多，同时其由3个自回归模型组成，导致模型速度很慢
。
[0004]现有音频生成方法中至少还存在以下不足之处：目前常见的直接生成音乐的模型，生成结果不可控，无法生成带人声的音乐，音质差
。

技术实现思路

[0005]本专利技术的主要目的在于提供一种基于歌词和旋律的端到端音乐音频生成的方法，优化了现有直接生成音频的音乐生...

【技术保护点】

【技术特征摘要】
1.
一种基于歌词和旋律的端到端音乐音频生成的方法，其特征在于，包括：对音频文件
、
音乐的原始信息以及音乐评论信息进行处理；提取音频文件中的歌词和旋律并将信息进行合并；将处理后的音乐原始信息
、
合并后的音频信息和音乐评论信息进行特征融合；将特征融合后的信息输入模型进行训练；输出特征融合后经模型的隐层特征，将隐层特征经声音信号模型语音分析合成系统后输出
wav
格式音频
。2.
根据权利要求1所述的端到端音乐音频生成的方法，其特征在于：所述对音频文件的处理包括去除音频中过长过短音频
、
进行语种单一化
、
进行音频指纹去重以及音量归一化；对音乐原始信息的处理包括提取音乐的元信息，每分钟节拍数识别提取，乐器识别提取
。3.
根据权利要求1所述的端到端音乐音频生成的方法，其特征在于：所述提取...

【专利技术属性】
技术研发人员：马星宇，
申请(专利权)人：成都开心音符科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人