一种识别弹奏乐中错误动作的方法技术

技术编号:38821031 阅读:15 留言:0更新日期:2023-09-15 20:00
本申请公开了一种识别弹奏乐中错误动作的方法,包括如下步骤:步骤1,采集弹奏错误的音视频原始数据集。步骤2,对原始样本进行数据增强;步骤3,构建对比学习模型;对原始样本和增加后的数据输入到对比学习模型进行特征提取,同时,实现内插值操作,获得正样品对;步骤4,将原始数据集、进行数据增强后的数据集输入到对比学习模型,对模型进行训练,得到训练好的对比学习模型,基于插值的方法构造更加可靠的正样本对,通过对动作序列的插值扩充,将错误动作的持续时间拉长,更容易捕捉到错误动作。提出一种新的对比损失函数掩盖相同聚类中实例,并设计实例权重避免无效样本对对比学习的干扰。的干扰。的干扰。

【技术实现步骤摘要】
一种识别弹奏乐中错误动作的方法


[0001]本专利技术涉及基于插值的跨模态的对比学习算法,具体来讲,是使用了基于动量编码的对比学习框架,设计了一种内插值和外插值的方法用做数据增强,并且设计了一种重构对比学习中负样本的方法。可以实现动作与音频双模态的输入下对人们弹奏音乐过程中的动作失误进行识别。

技术介绍

[0002]弹奏音乐已经成为许多人的爱好和职业。在弹奏音乐的过程中很容易出现一些难以察觉的错误习惯。比如,不准确的手指摆放位置、错误的高低音等。这些错误靠学者自身或者老师进行纠错是比较困难的。这种潜在的错误的弹奏习惯会影响演奏的质量,还会一定程度上对手关节造成伤害。
[0003]在技术层面,对手部的动作识别的常用的方法是在标注的数据集上进行监督学习,但这需要大量的标注数据和人工劳动力,而且标注过程很繁琐,也容易出现主观性问题。而自监督学习是一种通过学习数据本身的特征而不是标签进行学习的方法,能够有效减少标注数据的需求。因此,不充分的数据标签成为了动作识别的主要挑战。为了减少对标签的依赖,研究人员开发了一种称为对比学习的自监督范式,并且的确可以在计算机视觉任务中获得优异的性能。
[0004]对比学习的主要过程就是在预训练过程中通过数据增强来获得大量的伪标签,使模型能够区分哪些增强的实例是正对、哪些是负对。通过预训练之后,模型可以使用少量的标记数据在下游任务中进行微调,并且可以获得与监督学习同等的竞争力。其中有许多类型的对比学习用于预训练任务,包括MoCo(Momentum Contrast,动量对比)、MoCo.V2和SimCLR(Simple Framework for Contrastive Learning of Visual Representations,对比学习视觉表示的简单框架)是使用示例判别作为任务,NNCLR(Nearest

Neighbor Contrastive Learning of Visual Representations,最近邻对比学习视觉表示)、MSF(Mean Shift Feature,均值漂移特征)使用基于正负样本重定义的方法。
[0005]数据增强在对比学习中被认为是非常关键的,它可以为同一个语义表示设计各种运动模式,并且直接影响模型学习的特征表示的质量,不同于RGB的人体动作识别,3D骨架数据具有更复杂的模态表示,对形态变化更加敏感,所以对于增强方法的设计更为困难。对比学习用于骨架动作识别的核心内容在于数据增强的设计以及正负样本的构建方法。并且在数据集构建的过程中,采集弹奏音乐时,人手错误习惯弹奏的数据比采集基于类的动作识别的动作数据更加困难。

技术实现思路

[0006]本专利技术基于现有深度学习技术,提出了一种识别弹奏乐中错误动作的方法,基于动量编码的对比学习框架,设计了一种内插值和外插值的方法用做数据增强,并且设计了一种重构对比学习中负样本的方法。可以实现动作与音频双模态的输入下对人们弹奏音乐
过程中的动作失误进行自动纠正。
[0007]本专利技术的一种识别弹奏乐中错误动作的方法,包括如下步骤:
[0008]步骤1,采集弹奏错误的音视频原始数据集HM(b,n)和AS(b,n),其中HM(b,n)是手部动作数据集,AS(b,n)是对应的音频数据集,原始数据集包括原始样本x,包括原始的手部动作数据和对应的音频数据。
[0009]步骤2,对原始样本进行数据增强;
[0010]步骤3,构建对比学习模型;
[0011]在进入编码器后进行内插值计算。特别在外插值过程中使用了帧间和帧内插值,减少了本专利技术数据采集,提高了数据质量。
[0012]步骤4,将原始数据集、进行数据增强后的数据集输入到对比学习模型,对模型进行训练,得到训练好的对比学习模型。
[0013]进一步的,步骤2中对原始样本进行数据增强,具体包括如下:
[0014]对原始动作数据集HM(b,n)中的原始样本x进行翻转、旋转和随机遮掩得到普通增强数据x
en

[0015]再对普通增强数据x
en
进行外插值增加,得到外插值增强数据x
ex

[0016]进一步的,本专利技术使用原始样本和弱增强数据在进入编码器前进行外插值计算,所述外插值增加包括两个步骤,帧内插值和帧间插值:
[0017](2)帧内插值:
[0018]将原始样本x和样本增强数据x
en
进行逐帧融合;融合后进行帧间插值,融合数据长度扩充到原来的m倍;
[0019]经过帧内插值生成的帧内插值序列M:
[0020][0021][0022]其中,N为原始样本x的时序长度,设置为50,i表示第i帧。
[0023](2)使用帧内插值生成序列M做帧间插值,即在帧与帧之间在生成几帧,以扩充数据,最后得到外插值的增强数据。
[0024]具体为,对序列M进行时域上的帧间插值:
[0025][0026][0027]序列M的第i帧映射到最终序列x
ex
的第m*i帧中,对于第i帧和i+1帧之间的插值帧依次映射到第m*i+1,m*i+2,
……
,m*i+m

1,式中j=m

1;
[0028]进一步,使用一阶马尔科夫链描述骨架数据的状态转移对生成的序列x
ex
进行平滑处理,如下:
[0029][0030][0031]其中,delta(i,j)是克罗内克δ函数,i表示第i帧,p是控制平滑程度的参数,d为相邻帧之间的时间间隔;
[0032]进一步的,所述对比学习模型包括第一查询编码器第二查询编码器第三查询编码器以及每个查询编码器后会设置一个MLP投影头g(.);
[0033]还包括第一键值编码器和第一动量编码器;
[0034]所述第一查询编码器f(.)、第二查询编码器f(.)、第三查询编码器f(.)均为ST

GCN查询编码器f(.);
[0035]将原始样本x、增强数据x
en
和外插值数据x
ex
分别输入到第一查询编码器f(.)、第二查询编码器f(.)、第三查询编码器f(.),第一查询编码器f(.)、第二查询编码器f(.)、第三查询编码器f(.)分别输出原始样本x、增强数据x
en
和外插值数据x
ex
对应的编码特征z、z
en
、z
ex
;通过查询编码器和mlp投影头g(.)提取表示,其中查询编码器f(.)和mlp投影头g(.)是用于提取特征向量和将特征向量映射到低维空间的两个关键组件,以便计算相似度和进行后续的对比学习。
[0036]即,第一查询编码器f(.)输出编码特征z;
[0037]第二查询编码器f(.)输出编码特征z
en

[0038]第三查询编码器f(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别弹奏乐中错误动作的方法,其特征在于,包括如下步骤:步骤1,采集弹奏错误的音视频原始数据集,每个原始样本x中包括手部动作数据和对应的音频数据;步骤2,对原始样本进行数据增强;步骤3,构建对比学习模型;对原始样本和增加后的数据输入到对比学习模型进行特征提取,同时,实现内插值操作,获得正样品对;步骤4,将原始数据集、进行数据增强后的数据集输入到对比学习模型,对模型进行训练,得到训练好的对比学习模型。2.根据权利要求1所述一种识别弹奏乐中错误动作的方法,其特征在于,步骤2中对原始样本进行数据增强,具体包括如下:对原始样本x进行翻转、旋转和随机遮掩得到普通增强数据x
en
;再对普通增强数据x
en
进行外插值增加,得到外插值增加数据x
ex
。3.根据权利要求2所述一种识别弹奏乐中错误动作的方法,其特征在于,所述外插值增加包括两个步骤,帧内插值和帧间插值:(1)帧内插值:将原始样本x和样本增强数据x
en
进行逐帧融合;融合后进行帧间插值,融合数据长度扩充到原来的m倍;经过帧内插值生成的帧内插值序列M:经过帧内插值生成的帧内插值序列M:其中,N为原始样本x的时序长度,设置为50,i表示第i帧;(2)使用帧内插值生成序列M做帧间插值,即在帧与帧之间在生成几帧,以扩充数据,最后得到外插值的增强数据;具体为,对序列M进行时域上的帧间插值:具体为,对序列M进行时域上的帧间插值:序列M的第i帧映射到最终序列x
ex
的第m*i帧中,对于第i帧和i+1帧之间的插值帧依次映射到第m*i+1,m*i+2,
……
,m*i+m

1,式中j=m

1。4.根据权利要求2或3所述一种识别弹奏乐中错误动作的方法,其特征在于,使用一阶马尔科夫链描述骨架数据的状态转移对生成的序列x
ex
进行平滑处理,如下:进行平滑处理,如下:其中,delta(i,j)是克罗内克δ函数,p是控制平滑程度的参数,d为相邻帧之间的时间
间隔。5.根据权利要求1所述一种识别弹奏乐中错误动作的方法,其特征在于,所述对比学习模型包括第一查询编码器第二查询编码器第三查询编码器以及每个查询编码器后设置一个MLP投影头g(.);还包括第一键值编码器和第一动量编码器;所述第一查询编码器第二查询编码器第三查询编码器均为ST

GCN查询编码器将原始样本x、增强数据x
en
和外插值数据x
ex
分别输入到第一查询编码器第二查询编码器第三查询编码器第一查询编码器第二查询编码器f(.)、第...

【专利技术属性】
技术研发人员:陈森霖沈玉龙袁博胡凯
申请(专利权)人:南京栢拓视觉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1