【技术实现步骤摘要】
一种基于手势动作识别的音乐演奏系统及方法
[0001]本专利技术涉及视频手势动作识别与音乐演奏领域,具体涉及一种基于骨架关键点序列的手势动作识别的音乐演奏系统及方法。
技术介绍
[0002]音乐演奏通常以演奏实体乐器的方式进行,而利用手势动作进行音乐演奏是指仅通过手部运动、手势变换,达到和真实乐器一样精确流畅演奏音乐的目的。与前者相比,利用手势动作进行音乐演奏具有很大的潜力,一方面可以节省购买乐器的成本,另一方面可以通过自定义简单的手势动作替代原本真实乐器复杂的演奏技巧和动作,使得音乐演奏更加简单甚至丰富。
[0003]目前基于手势动作识别的音乐演奏系统的相关技术包括:申请公布号为CN105389013、CN107248407的专利技术专利。其中前者需要演奏者穿戴特制的手套或戒指,由设备中内部加速度传感器、陀螺仪获取手部运动信息作为不同手势的判别依据,最终达到控制音频信号的目的。该技术可以通过手势对一段已有音乐音频播放时的音效进行辅助控制,但没有达到通过手势直接演奏音乐的目的。后者将采集到的图像预处理为灰度图像,对其 ...
【技术保护点】
【技术特征摘要】
1.一种基于手势动作识别的音乐演奏系统,其特征在于,包括:摄像头模块、识别模块、分析计算模块、播放模块以及存储模块;所述摄像头模块获取演奏视频并发送给所述识别模块,同时将演奏视频保存至所述存储模块作为视频文件;所述识别模块对所述演奏视频进行处理,得到包含手势动作类别的识别结果并发送给所述分析计算模块;所述分析计算模块对所述识别结果进行处理,得到音乐演奏属性并发送给所述播放模块;所述播放模块将所述音乐演奏属性实时转换为音乐指令和声音,并将所述音乐指令保存在存储模块中作为音乐信息文件。2.根据权利要求1所述的一种基于手势动作识别的音乐演奏系统,其特征在于,所述识别模块包含静态手势识别器和动态手势识别器;所述静态手势识别器对所述摄像头模块获取的演奏视频中的每一帧图像单独处理,得到静态手势识别结果;所述动态手势识别器对所述摄像头模块获取的演奏视频中的一组连续图像帧进行处理,得到动态手势识别结果。3.根据权利要求1所述的一种基于手势动作识别的音乐演奏系统,其特征在于,所述分析计算模块是根据所述识别模块的识别结果来设置音乐演奏属性,所述音乐演奏属性由音符属性和系统属性组成,并且均通过手势动作进行控制;所述音符属性包含:音名、响度、八度组别、升降记号、音色、颤音力度、延时、频率均衡、保持状态;所述系统属性包含:演奏识别状态、录制状态、音轨号、音轨状态。4.根据权利要求1所述的一种基于手势动作识别的音乐演奏系统,其特征在于,所述播放模块是将音乐演奏属性实时转换为音乐指令,并使用音色库将音乐指令转换为实际演奏的乐音后通过扬声器进行播放。5.根据权利要求1所述的一种基于手势动作识别的音乐演奏系统,其特征在于,所述存储模块是根据系统属性中“录制状态”的参数值对所述摄像头模块获取的演奏视频和所述播放模块实时生成的音乐指令分别进行保存,用于实现对即兴演奏过程的真实记录。6.一种基于手势动作识别的音乐演奏方法,其特征在于:步骤1、采集控制音乐的手势动作视频并设置对应的手势类别标签,从而建立手势动作识别数据集:所述手势类别包括静态手势和动态手势;所述静态手势的类型包括4种:拳头、手掌、数字、竖拇指;其中,任意第i种静态手势包含m
i
种子类别,i∈[1,4];且静态手势的类别标签标注在每一帧上;所述动态手势的类型包括6种:张开手掌、摇动手掌、比划字母、划动手掌、手指下按、手指抬起;其中,任意第j种动态手势包含n
j
种子类别,j∈[1,6];且动态手势的类别标签仅标注在开始帧和结束帧上;步骤2、构建手势动作识别网络,包括静态手势识别网络和动态手势识别网络:所述静态手势识别网络,依次包括:N
s
个使用relu激活函数的全连接层,一个softmax激活函数;所述动态手势识别网络包含:序列编码模块Encoder、注意力模块Attn和分类模块Class;
所述序列编码模块Encoder包含:N
g
个堆叠的单向GRU模块;所述注意力模块Attn包括:相关度计算模块、融合模块;所述分类模块Class依次包括:N
m
个使用relu激活函数的全连接层,一个softmax激活函数;步骤3、从所述手势动作识别数据集中选取一段视频片段,所述视频片段包含一组连续的L帧图像,计算所述视频片段的损失函数并训练网络:步骤3.1、静态手势识别网络的训练:使用openpose算法提取所述视频片段中任意一帧图像对应的H个手部关键点向量x,并输入至所述静态手势识别网络中,依次经过N
s
个全连接层映射为长度为l
s
的隐向量,再经过softmax函数激活后得到该帧图像在每种手势类别的概率值;根据每种手势类别的概率值及其真实标签,计算交叉熵损失函数,从而训练静态手势识别网络,直至交叉熵损失收敛为止,得到训练好的静态手势识别网络;步骤3.2、动态手势识别网络的训练:使用openpose算法提取所述视频片段中每一帧图像对应的H个手部关键点向量,从而得到所述视频片段中L个时间步的手部关键点序列X=[x1;
…
;x
t
;
…
;x
L
];其中,x
t
表示第t个时间步的H个手部关键点向量;将所述手部关键点序列X输入所述动态手势识别网络中,依次经过N
g
个单向GRU模块后输出L个时间步的编码信息h=[h1;
…
;h
t
;
…
;h
L
];其中,h
t
表示第t个时间步的编码向量;所述注意力模块根据所述编码信息h计算注意力分数其中,W是训练过程中可学习的权重矩阵;T表示转置;所述融合模块根据所述注意力分数α计算融合信息c=αh
T
;将所述融合信息c输入所述分类模块Class中,并依次经过N
m
个全连接层的映射,得到长度为l
m
的隐向量,再经过softmax函数激活后得到所述视频片段在每种手势类别的概率值;根据所述视频片段在每个手势类别的概率值及其真实标签,计算交叉熵损失函数,从而训练动态手势识别网络,直至交叉熵损失收敛为止,得到训练好的动态手势识别网络;步骤4、利用训练好的手势识别网络对演奏动作进行实时识别:使用ope...
【专利技术属性】
技术研发人员:汪增福,商珂瑀,
申请(专利权)人:中国科学院合肥物质科学研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。