一种基于音频、图像和文本的多模态音乐短片生成方法技术

技术编号：40103900 阅读：19 留言：0更新日期：2024-01-23 18:07

本发明专利技术属于音乐短片生成应用技术领域，尤其涉及一种基于音频、图像和文本的多模态音乐短片生成方法。本发明专利技术提供一种基于音频、图像、文本多模态的音乐短片生成方法，构建了文本编码结构、音频编码结构、TS模型、MV diffusion模型训练架构以及MV diffusion模型测试架构。通过搭建的多模态深度学习模型，实现更全面、综合的多模态音乐短片生成能力，保证了各个模态之间的一致性和同步性，能够同时处理音频、图像和文本等多个相关任务，从而提高对音乐短片的全面理解和创造能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于音乐短片生成应用，尤其涉及一种基于音频、图像和文本的多模态音乐短片生成方法。

技术介绍

1、在当今社会，音频处理、图像处理和自然语言处理等各个领域取得显著的进展，主要归功于计算能力的提高和深度学习技术的广泛应用。目前，深度学习技术，特别是transformer网络网络模块，已经成为多模态生成的主流方法，为各种音频、图像和文本理解任务带来了突破性的性能提升。这些任务包括音频特征提取、图像生成、歌词分析等，它融合了文本、图像、音频等类型数据的处理和分析。在多模态
技术介绍
中，不同模态的数据能够相互影响，提供更全面、更精确的信息，使得系统能够更好地模拟人类感知和认知的多样性。尽管深度学习技术在多模态生成领域取得了巨大成功，但目前的研究主要集中在解决双模态的生成任务，对于三模态及以上的研究还存在局限，无法保证各个模态之间的一致性和同步性，且创造能力和全面理解能力都有待提高。

技术实现思路

1、本专利技术针对多模态音乐短片生成中所存在的技术问题，提出一种设计合理、方法简单、理论性强且能够实现实现保证各个模态之间的一致性和同步性和更全面、更综合的一种基于音频、图像和文本的多模态音乐短片生成方法。

2、为了达到上述目的，本专利技术采用的技术方案为：一种基于音频、图像和文本的多模态音乐短片生成方法，包括如下步骤：

3、s1、数据获取，获取音乐短片数据集，依照时间关系，将数据集切分为图像数据集、文本数据集、音频数据集，三种模态数据对的形式；

4、s2、

5、s3、训练、测试ts模型，验证文本和音频隐空间映射准确度，得到音频编码器；

6、s4、搭建mv diffusion模型，音频编码部分采用s3获得的音频编码器，图像编码部分采用vae编码器，文本编码部分采用clip文本编码器，解码器采用扩散模型，最终得到音频、文本、图像多模态扩散模型；

7、s5、训练、测试mv diffusion模型，仿真实验验证图像音频、文本、图像三模态的对齐准确率，及音乐短片的丰富、多样化性。

8、作为优选，所述步骤s1的具体操作方法为：

9、s1-1、获取开源的音乐短片数据，依据时间将每句音乐文及其配乐配图进行分割，得到文本、音频和图像数据，同时保证文本、音频和图像三者间的对其关系；

10、s1-2、选取s1-1中的文本、音频数据，构建数据集dts＝[text,sound]，将数据集dts以8:2的比例划分，用于训练、测试ts模型，选取s1-1中的音频、文本、图像数据，构建数据集d＝[text,sound,img]，将数据集d以8:2的比例划分，用于训练、测试mv diffusion模型。

11、作为优选，所述步骤s2的具体操作方法为：

12、s2-1、搭建文本编码部分，对文本描述进行token分词，后对其进行token编码和位置编码，采用clip文本编码器作为主体，同时冻结clip文本编码器中的预训练权重，最终得到文本的隐空间特征向量vt，t表示向量维度；

13、s2-2、搭建音频编码部分，对音频进行patch音频切片，后对其进行patch编码和位置编码，采用4个transformer encode构建图像编码器核心，最终得到图像的隐空间特征向量vs，s表示向量维度；

14、s2-3、同时，保证图像和文本编码器输出的隐空间特征向量vs和vt的维度相同，即s＝t；

15、s2-4、分别对音频和文本编码器输出的隐空间特征向量进行正则化，定义为：

16、

17、

18、其中，lvs为音频的正则化特征向量，lvt为文本的正则化特征向量，为vs的转置，为vt的转置，将两者对数转化后的余弦相似度作为ts模型损失函数，公式为：

19、loss＝log(lvs×lvt) (2)

20、其中，lvs为音频的正则化特征向量，lvt为文本的正则化特征向量。

21、作为优选，所述s3步骤的具体操作方法为：

22、s3-1、将dts数据中的训练集送入模型，训练方式学习率变化策略采用warmup，训练100个轮次，最终获得音频与文本之间的映射关系，得到训练好的音频文本隐空间映射模型；

23、s3-2、将dts数据数据中的测试集送入模型，验证音频与文本之间的映射关系准确性，将符合要求的音频编码权重进行保存，得到通用的音频编码器。

24、作为优选，所述s4步骤的具体操作方法为：

25、s4-1、构建mv diffusion训练阶段模型，对音频、图像、文本数据进行向量化处理，音频经由音频编码器得到音频向量，图像经由vae编码器得到图像潜空间向量，文本经由clip文本编码器得到文本向量；

26、s4-2、向s4-1所述图像潜空间向量添加噪声，噪声需要符合高斯分布，用于构建扩散模型所需数据，后将三模态向量送入unet进行训练，预测噪声分布；

27、s4-3、将预测得到的噪声与真实噪声进行对比，采用加权kl散度和mse作为损失函数，用于衡量生成样本分布与真实数据分布之间的差异，衡量生成样本与真实数据之间的差异，损失函数公式为：

28、

29、其中，yi为真实样本数据，为生成样本数据，n为样本数据总量，i为样本标号，i∈[1,n]，β为动态权重，β∈[0,1]；

30、s4-4、构建mv diffusion测试阶段模型，与训练阶段模型的区别在于unet的图像潜空间向量替换为噪声，unet可以进行多次迭代，同时输出的潜空间向量需要通过vae解码器进行图像还原，最终得到mv diffusion测试阶段模型。

31、作为优选，所述步骤5的具体操作方法为：

32、s5-1、训练阶段采用mv diffusion训练阶段模型，冻结模型中vae编码器、图像编码器、音频编码器中的预训练权重，只训练unet模型部分，采用s4-3中的加权kl散度和mse作为损失函数，将数据d中的训练集送入模型，训练方式学习率变化策略采用warmup，训练100个轮次；

33、s5-2、测试阶段采用mv diffusion测试阶段模型，冻结模型中所有权重进行推理，采用仿真实验验证图像音频、文本、图像三模态的对齐准确率，及音乐短片的丰富、多样化性。

34、与现有技术相比，本专利技术的优点和积极效果在于：

35、本专利技术提供一种基于音频、图像、文本多模态的音乐短片生成方法，构建了文本编码结构、音频编码结构、ts模型、mv diffusion模型训练架构以及mv diffusion模型测试架构。通过搭建的多模态深度学习模型，实现更全面、综合的多模态音乐短片生成能力，保证了各个模态之间的一致性和同步性，能够同时处理音频、图像和文本等多个相关任务，从而提高对音乐短片本文档来自技高网...

【技术保护点】

1.一种基于音频、图像和文本的多模态音乐短片生成方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于音频、图像和文本的多模态音乐短片生成方法，其特征在于，所述步骤S1的具体操作方法为：

3.根据权利要求1所述的一种基于音频、图像和文本的多模态音乐短片生成方法，其特征在于，所述步骤S2的具体操作方法为：

4.根据权利要求1所述的一种基于音频、图像和文本的多模态音乐短片生成方法，其特征在于，所述S3步骤的具体操作方法为：

5.根据权利要求1所述的一种基于音频、图像和文本的多模态音乐短片生成方法，其特征在于，所述S4步骤的具体操作方法为：

6.根据权利要求1所述的一种基于音频、图像和文本的多模态音乐短片生成方法，其特征在于，所述步骤5的具体操作方法为：

【技术特征摘要】

1.一种基于音频、图像和文本的多模态音乐短片生成方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于音频、图像和文本的多模态音乐短片生成方法，其特征在于，所述步骤s1的具体操作方法为：

3.根据权利要求1所述的一种基于音频、图像和文本的多模态音乐短片生成方法，其特征在于，所述步骤s2的具体操作方法为：

4.根据权...

【专利技术属性】
技术研发人员：郑伟，董文轩，陈亮，陈彦彬，姚玉兵，郭盛，费立伟，
申请(专利权)人：中兴协力山东数字科技集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人