基于自监督跨模态感知损失的乐队指挥动作生成方法技术

技术编号：31491810 阅读：27 留言：0更新日期：2021-12-18 12:28

本发明专利技术涉及人工智能技术领域，公开了一种基于自监督跨模态感知损失的乐队指挥动作生成方法。该方法首先进行自监督学的音频

全部详细技术资料下载

【技术实现步骤摘要】
基于自监督跨模态感知损失的乐队指挥动作生成方法

[0001]本专利技术基于自监督跨模态感知损失的乐队指挥动作生成方法涉及乐队指挥动作生成方法，特别是涉及以音乐为条件控制信号、生成与之节奏同步且语义相关的指挥动作的乐队指挥动作生成方法，属于人体动作条件生成领域。

技术介绍

[0002]指挥是交响乐团的灵魂。自中世纪欧洲教堂唱诗班到二十一世纪的现代音乐，指挥技术与艺术不断发展，已经成为一门内容丰富的学科。指挥的肢体语言复杂多变，需要在乐团演奏时实时地传达节拍、力度、情感、演奏法等多种信息，且同时保持一定的风格与美感。近年来,随着深度学习算法理论的发展与计算性能的飞速提升，人工智能领域的学者已经成功地对多种人类艺术进行建模与学习。深度学习已经能生成包括诗歌艺术、绘画艺术、音乐艺术、舞蹈艺术在内的多种人类艺术形式。
[0003]然而，学界对于指挥艺术的建模研究还比较初步，且主要面向判别类的任务，例如节拍跟踪、拍式识别、演奏法识别、情感识别等。对于生成式任务，即音乐驱动的指挥动作生成任务，Wang等人(T. Wang,N.Zheng,Y.Li,Y.
‑
Q.Xu,and H.
‑
Y.Shum,“Learning kernel
‑
basedHMMs for dynamic sequence synthesis,”Graph.Model.,vol.65,no.4, Art.no.4,2003.)在2003年提出了首个指挥动作生成方法。随后，几种基

【技术保护点】

【技术特征摘要】
1.一种基于自监督跨模态感知损失的乐队指挥动作生成方法，其特征在于，该方法包括如下步骤：步骤1，构建数据集，提取音乐会演出录像视频中的指挥动作，并计算对应音乐的梅尔频谱图；步骤2，进行自监督的音乐
‑
动作同步性学习，训练时自动地采样同步的正样本对与错位的负样本对，训练带有一个音乐编码器与一个动作编码器的两分支神经网络模型；步骤3，将步骤2得到的音乐编码器与动作编码器分别用于为生成器提取语义特征与计算生成动作的感知损失，使用对抗
‑
感知损失训练生成器；步骤4，在开发集上根据生成结果的标准差大小确定两项损失的最佳权重比；步骤5，使用步骤4中得到的最佳权重比下训练的模型进行实际应用，从给定音乐中生成指挥动作并可视化。2.根据权利要求1所述的基于自监督跨模态感知损失的乐队指挥动作生成方法，其特征在于，所述步骤1的具体过程为：1
‑
1、指挥动作提取，从网络视频平台中收集音乐会的指挥视角演出录像指挥动作的视频，在收集到的视频上进行基于迁移学习的指挥检测，并提取检测到的指挥的2维动作序列；1
‑
2、音频特征提取，提取视频中对应的梅尔频谱图；1
‑
3、数据集准备，将提取到的指挥动作与音频特征归一化并处理成一个N个样本的数据集其中与与为时长为T的音频特征序列与指挥动作序列，x
t
和y
t
分别为第t个时间步上的p维音频特征x
t
∈R
p
和q个关键点的2维骨架坐标y
t
∈R
2q
。3.根据权利要求1所述的基于自监督跨模态感知损失的乐队指挥动作生成方法，其特征在于，所述步骤2的具体过程为：2
‑
1、构建神经网络结构；使用一个基于卷积神经网络的音乐编码器E
music
(X)从梅尔频谱图中提取音乐特征，使用一个基于时空图卷积神经网络的动作编码器E
motion
从指挥动作中提取动作特征E
motion
(Y)，将得到的两个特征拼接并输入全连接层f混合，并在最后经是sigmoid激活函数输出一个(0，1)之间的标量f[E
music
(X)，E
motion
(Y)]；2
‑
2、采样正样本对和负样本对；正样本对是同步的音乐和动作序列，负样本对是不匹配的音乐和动作序列；从同一乐曲中选取负样本，其错位距离至少为10秒；2
‑
3、计算交叉熵损失L
CE
和对比损失L
CT
，两个损失函数的定义如下，其中，(X
i
，Y
i
)是从数据集D中采样得到的第i个样本对，l
i
是该样本对的标签，当为正样本对时l
i
＝1，负样本对时l
i
＝0：
2
‑
4、训练模型，使用交叉熵损失与对比损失之和L＝L
CE
+L
CT
训练步骤2
‑
1中构建的两分支神经网络模型，直至模型收敛；在损失函数中，交叉熵损失使网络具备预测给定样本正负的能力，对比损失将两个编码器提取的特征嵌入到一个共享的特征空间中；在训练好的网络模型中，音乐编码器可以提取预测动作所需的语义性音乐特征，动作编码器可以提取音乐相关的动作特征。4.据权利要求1所述的基于自监督跨模态感知损失的乐队指挥动作生成方法，其特征在于，所述步骤3的具体过程为：3
‑
1、构建网络结构，构建一个带有四个模块的网络...

【专利技术属性】
技术研发人员：刘凡，陈德龙，潘艳玲，周睿志，许峰，
申请(专利权)人：河海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人