一种识别弹奏乐中错误动作的方法技术

技术编号：38821031 阅读：15 留言：0更新日期：2023-09-15 20:00

本申请公开了一种识别弹奏乐中错误动作的方法，包括如下步骤：步骤1，采集弹奏错误的音视频原始数据集。步骤2，对原始样本进行数据增强；步骤3，构建对比学习模型；对原始样本和增加后的数据输入到对比学习模型进行特征提取，同时，实现内插值操作，获得正样品对；步骤4，将原始数据集、进行数据增强后的数据集输入到对比学习模型，对模型进行训练，得到训练好的对比学习模型，基于插值的方法构造更加可靠的正样本对，通过对动作序列的插值扩充，将错误动作的持续时间拉长，更容易捕捉到错误动作。提出一种新的对比损失函数掩盖相同聚类中实例，并设计实例权重避免无效样本对对比学习的干扰。的干扰。的干扰。

全部详细技术资料下载

【技术实现步骤摘要】
一种识别弹奏乐中错误动作的方法

[0001]本专利技术涉及基于插值的跨模态的对比学习算法，具体来讲，是使用了基于动量编码的对比学习框架，设计了一种内插值和外插值的方法用做数据增强，并且设计了一种重构对比学习中负样本的方法。可以实现动作与音频双模态的输入下对人们弹奏音乐过程中的动作失误进行识别。

技术介绍

[0002]弹奏音乐已经成为许多人的爱好和职业。在弹奏音乐的过程中很容易出现一些难以察觉的错误习惯。比如，不准确的手指摆放位置、错误的高低音等。这些错误靠学者自身或者老师进行纠错是比较困难的。这种潜在的错误的弹奏习惯会影响演奏的质量，还会一定程度上对手关节造成伤害。
[0003]在技术层面，对手部的动作识别的常用的方法是在标注的数据集上进行监督学习，但这需要大量的标注数据和人工劳动力，而且标注过程很繁琐，也容易出现主观性问题。而自监督学习是一种通过学习数据本身的特征而不是标签进行学习的方法，能够有效减少标注数据的需求。因此，不充分的数据标签成为了动作识别的主要挑战。为了减少对标签的依赖，研究人员开发了一种称为对比学习的自监督范式，并且的确可以在计算机视觉任务中获得优异的性能。
[0004]对比学习的主要过程就是在预训练过程中通过数据增强来获得大量的伪标签，使模型能够区分哪些增强的实例是正对、哪些是负对。通过预训练之后，模型可以使用少量的标记数据在下游任务中进行微调，并且可以获得与监督学习同等的竞争力。其中有许多类型的对比学习用于预训练任务，包括MoCo(Momentum Contrast,动量对比)、...

【技术保护点】

【技术特征摘要】
1.一种识别弹奏乐中错误动作的方法，其特征在于，包括如下步骤：步骤1，采集弹奏错误的音视频原始数据集，每个原始样本x中包括手部动作数据和对应的音频数据；步骤2，对原始样本进行数据增强；步骤3，构建对比学习模型；对原始样本和增加后的数据输入到对比学习模型进行特征提取，同时，实现内插值操作，获得正样品对；步骤4，将原始数据集、进行数据增强后的数据集输入到对比学习模型，对模型进行训练，得到训练好的对比学习模型。2.根据权利要求1所述一种识别弹奏乐中错误动作的方法，其特征在于，步骤2中对原始样本进行数据增强，具体包括如下：对原始样本x进行翻转、旋转和随机遮掩得到普通增强数据x
en
；再对普通增强数据x
en
进行外插值增加，得到外插值增加数据x
ex
。3.根据权利要求2所述一种识别弹奏乐中错误动作的方法，其特征在于，所述外插值增加包括两个步骤，帧内插值和帧间插值：(1)帧内插值：将原始样本x和样本增强数据x
en
进行逐帧融合；融合后进行帧间插值，融合数据长度扩充到原来的m倍；经过帧内插值生成的帧内插值序列M：经过帧内插值生成的帧内插值序列M：其中，N为原始样本x的时序长度，设置为50，i表示第i帧；(2)使用帧内插值生成序列M做帧间插值，即在帧与帧之间在生成几帧，以扩充数据，最后得到外插值的增强数据；具体为，对序列M进行时域上的帧间插值：具体为，对序列M进行时域上的帧间插值：序列M的第i帧映射到最终序列x
ex
的第m*i帧中，对于第i帧和i+1帧之间的插值帧依次映射到第m*i+1，m*i+2,
……
,m*i+m
‑
1，式中j＝m
‑
1。4.根据权利要求2或3所述一种识别弹奏乐中错误动作的方法，其特征在于，使用一阶马尔科夫链描述骨架数据的状态转移对生成的序列x
ex
进行平滑处理，如下：进行平滑处理，如下：其中，delta(i,j)是克罗内克δ函数，p是控制平滑程度的参数，d为相邻帧之间的时间
间隔。5.根据权利要求1所述一种识别弹奏乐中错误动作的方法，其特征在于，所述对比学习模型包括第一查询编码器第二查询编码器第三查询编码器以及每个查询编码器后设置一个MLP投影头g(.)；还包括第一键值编码器和第一动量编码器；所述第一查询编码器第二查询编码器第三查询编码器均为ST
‑
GCN查询编码器将原始样本x、增强数据x
en
和外插值数据x
ex
分别输入到第一查询编码器第二查询编码器第三查询编码器第一查询编码器第二查询编码器f(.)、第...

【专利技术属性】
技术研发人员：陈森霖，沈玉龙，袁博，胡凯，
申请(专利权)人：南京栢拓视觉科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人