当前位置: 首页 > 专利查询>河海大学专利>正文

基于自监督跨模态感知损失的乐队指挥动作生成方法技术

技术编号:31491810 阅读:27 留言:0更新日期:2021-12-18 12:28
本发明专利技术涉及人工智能技术领域,公开了一种基于自监督跨模态感知损失的乐队指挥动作生成方法。该方法首先进行自监督学的音频

【技术实现步骤摘要】
基于自监督跨模态感知损失的乐队指挥动作生成方法


[0001]本专利技术基于自监督跨模态感知损失的乐队指挥动作生成方法涉 及乐队指挥动作生成方法,特别是涉及以音乐为条件控制信号、生成 与之节奏同步且语义相关的指挥动作的乐队指挥动作生成方法,属于 人体动作条件生成领域。

技术介绍

[0002]指挥是交响乐团的灵魂。自中世纪欧洲教堂唱诗班到二十一世纪 的现代音乐,指挥技术与艺术不断发展,已经成为一门内容丰富的学 科。指挥的肢体语言复杂多变,需要在乐团演奏时实时地传达节拍、 力度、情感、演奏法等多种信息,且同时保持一定的风格与美感。近 年来,随着深度学习算法理论的发展与计算性能的飞速提升,人工智 能领域的学者已经成功地对多种人类艺术进行建模与学习。深度学习 已经能生成包括诗歌艺术、绘画艺术、音乐艺术、舞蹈艺术在内的多 种人类艺术形式。
[0003]然而,学界对于指挥艺术的建模研究还比较初步,且主要面向判 别类的任务,例如节拍跟踪、拍式识别、演奏法识别、情感识别等。 对于生成式任务,即音乐驱动的指挥动作生成任务,Wang等人(T. Wang,N.Zheng,Y.Li,Y.

Q.Xu,and H.

Y.Shum,“Learning kernel

basedHMMs for dynamic sequence synthesis,”Graph.Model.,vol.65,no.4, Art.no.4,2003.)在2003年提出了首个指挥动作生成方法。随后,几 种基于规则的生成方法陆续被提出,但这些方法无法灵活地学习真实 指挥动作的内在规律,导致生成动作重复性强,多样性差。Dansereau 等人(D.G.Dansereau,N.Brock,and J.R.Cooperstock,“Predicting an Orchestral Conductor

s Baton Movements Using Machine Learning,
”ꢀ
Comput.Music.J.,vol.37,no.2,Art.no.2,2013.)在2013年提出了一 种基于机器学习的指挥动作预测方法以应对云合奏中的网络延迟问 题,但该方法仅能向前预测很短的时间,目前,尚没有基于深度学习 的指挥动作生成方法被提出。
[0004]感知损失于2016年被Johnson等人提出(J.Johnson,A.Alahi,andL.Fei

Fei,“Perceptual Losses for Real

Time Style Transfer andSuper

Resolution,”in Computer Vision

ECCV 2016,Cham,2016,pp. 694

711.),是面向生成任务的一种损失函数。与传统的在样本空间 进行欧式距离度量的或损失不同,感知损失度量的是生成样本与真实 样本在特征空间中的距离。这一特征空间是通过预训练的卷积神经网 络所得到的,该网络也被称为感知损失网络。但是,现有的感知损失 网络都有着各自的局限性。有学者指出,在使用传统的基于ImageNet 预训练VGGNet的感知损失进行图像超分辨率时,会导致出现不自然 的图像细节。类似地,面向低剂量CT去噪问题,在自然场景的图像 分类数据集ImageNet上训练的网络不适合提取CT图像中的语义信息, 因此,也有学者在CT数据集上训练了一个自编码器作为感知损失网 络。本专利技术与传统的分类任务、判别任务、重建任务不同,将跨模态 的自监督学习任务作为感知损失网络的预训练任务。

技术实现思路

[0005]本专利技术所要解决的技术问题是:以音乐为条件作为控制信号,如 何生成与之节奏同步且语义相关的乐队指挥动作生成方法的问题。
[0006]本专利技术为解决上述技术问题采用以下技术方案:
[0007]一种基于自监督跨模态感知损失的乐队指挥动作生成方法,包括 如下步骤:
[0008]步骤1,构建数据集,提取音乐会演出录像视频中的指挥动作, 并计算对应音乐的梅尔频谱图;
[0009]步骤2,进行自监督的音乐

动作同步性学习,训练时自动地采样 同步的正样本对与错位的负样本对,训练带有一个音乐编码器与一个 动作编码器的两分支神经网络模型;
[0010]步骤3,将步骤2得到的音乐编码器与动作编码器分别用于为生 成器提取语义特征与计算生成动作的感知损失,使用对抗

感知损失 训练生成器;
[0011]步骤4,在开发集上根据生成结果的平均标准差大小确定两项损 失的最佳权重比;
[0012]步骤5,使用步骤4中得到的最佳权重比下训练的模型进行实际 应用,从给定音乐中生成指挥动作并可视化。
[0013]作为本专利技术的一种优选方案,所述步骤1的具体过程为:
[0014]1‑
1、指挥动作提取,从网络视频平台中收集音乐会的指挥视角 演出录像指挥动作的视频,在收集到的视频上进行基于迁移学习的指 挥检测,并提取检测到的指挥的2维动作序列。
[0015]1‑
2、音频特征提取,提取视频中对应的梅尔频谱图。
[0016]1‑
3、数据集准备,将提取到的指挥动作与音频特征归一化并处 理成一个N个样本的数据集其中与与为时长为T的音频特征序列与指挥动作序列,x
t
和y
t
分别为第t 个时间步上的p维音频特征x
t
∈R
p
和q个关键点的2维骨架坐标y
t
∈ R
2q

[0017]作为本专利技术的一种优选方案,所述步骤2的具体过程为:
[0018]2‑
1、构建神经网络结构。使用一个基于卷积神经网络的音乐编码 器E
music
(X)从梅尔频谱图中提取音乐特征,使用一个基于时空图卷积 神经网络的动作编码器E
motion
从指挥动作中提取动作特征E
motion
(Y), 将得到的两个特征拼接并输入全连接层f混合,并在最后经是sigmoid 激活函数输出一个(0,1)之间的标量f[E
music
(X),E
motion
(Y)]。
[0019]2‑
2、采样正样本对和负样本对。正样本对是同步的音乐和动作序 列,负样本对是不匹配的音乐和动作序列。从同一乐曲中选取负样本, 其错位距离至少为10秒。
[0020]2‑
3、计算交叉熵损失L
CE
和对比损失L
CT
,两个损失函数的定义 如下,其中,(X
i
,Y
i
)是从数据集D中采样得到的第i个样本对,l
i
是该 样本对的标签,当为正样本对时l...

【技术保护点】

【技术特征摘要】
1.一种基于自监督跨模态感知损失的乐队指挥动作生成方法,其特征在于,该方法包括如下步骤:步骤1,构建数据集,提取音乐会演出录像视频中的指挥动作,并计算对应音乐的梅尔频谱图;步骤2,进行自监督的音乐

动作同步性学习,训练时自动地采样同步的正样本对与错位的负样本对,训练带有一个音乐编码器与一个动作编码器的两分支神经网络模型;步骤3,将步骤2得到的音乐编码器与动作编码器分别用于为生成器提取语义特征与计算生成动作的感知损失,使用对抗

感知损失训练生成器;步骤4,在开发集上根据生成结果的标准差大小确定两项损失的最佳权重比;步骤5,使用步骤4中得到的最佳权重比下训练的模型进行实际应用,从给定音乐中生成指挥动作并可视化。2.根据权利要求1所述的基于自监督跨模态感知损失的乐队指挥动作生成方法,其特征在于,所述步骤1的具体过程为:1

1、指挥动作提取,从网络视频平台中收集音乐会的指挥视角演出录像指挥动作的视频,在收集到的视频上进行基于迁移学习的指挥检测,并提取检测到的指挥的2维动作序列;1

2、音频特征提取,提取视频中对应的梅尔频谱图;1

3、数据集准备,将提取到的指挥动作与音频特征归一化并处理成一个N个样本的数据集其中与与为时长为T的音频特征序列与指挥动作序列,x
t
和y
t
分别为第t个时间步上的p维音频特征x
t
∈R
p
和q个关键点的2维骨架坐标y
t
∈R
2q
。3.根据权利要求1所述的基于自监督跨模态感知损失的乐队指挥动作生成方法,其特征在于,所述步骤2的具体过程为:2

1、构建神经网络结构;使用一个基于卷积神经网络的音乐编码器E
music
(X)从梅尔频谱图中提取音乐特征,使用一个基于时空图卷积神经网络的动作编码器E
motion
从指挥动作中提取动作特征E
motion
(Y),将得到的两个特征拼接并输入全连接层f混合,并在最后经是sigmoid激活函数输出一个(0,1)之间的标量f[E
music
(X),E
motion
(Y)];2

2、采样正样本对和负样本对;正样本对是同步的音乐和动作序列,负样本对是不匹配的音乐和动作序列;从同一乐曲中选取负样本,其错位距离至少为10秒;2

3、计算交叉熵损失L
CE
和对比损失L
CT
,两个损失函数的定义如下,其中,(X
i
,Y
i
)是从数据集D中采样得到的第i个样本对,l
i
是该样本对的标签,当为正样本对时l
i
=1,负样本对时l
i
=0:
2

4、训练模型,使用交叉熵损失与对比损失之和L=L
CE
+L
CT
训练步骤2

1中构建的两分支神经网络模型,直至模型收敛;在损失函数中,交叉熵损失使网络具备预测给定样本正负的能力,对比损失将两个编码器提取的特征嵌入到一个共享的特征空间中;在训练好的网络模型中,音乐编码器可以提取预测动作所需的语义性音乐特征,动作编码器可以提取音乐相关的动作特征。4.据权利要求1所述的基于自监督跨模态感知损失的乐队指挥动作生成方法,其特征在于,所述步骤3的具体过程为:3

1、构建网络结构,构建一个带有四个模块的网络...

【专利技术属性】
技术研发人员:刘凡陈德龙潘艳玲周睿志许峰
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1