一种基于视觉的动态手势识别与移动机器人控制方法技术

技术编号:39331824 阅读:8 留言:0更新日期:2023-11-12 16:07
本发明专利技术公开了一种基于视觉的动态手势识别与移动机器人控制方法,采用经过调整的3DCNN模型作为动态手势识别模型,通过将主干网络改进为ResNetxt

【技术实现步骤摘要】
一种基于视觉的动态手势识别与移动机器人控制方法


[0001]本专利技术属于人机交互领域,具体涉及一种基于视觉的动态手势识别与移动机器人控制方法。

技术介绍

[0002]随着社会的不断发展与进步,人类与机器人在各个方面也在不断地融合,机器人逐渐融入到了人类的生产制造过程和生活中。人类与机器人的关系日益密切,比如制造业的工业机器人、码头的无人运输车和家庭用的各种机器人等。这就迫切地需要人类与机器人进行交互,从而能够比较顺利地实现人机合作与人机共融。可以说,人机交互是人类与机器人进行合作的基础。虽然人与机器人的交互发展起步较晚,但是人机交互领域已呈现出高速发展的态势,逐渐成为机器人领域的一个重要方面。
[0003]目前的人机交互方式众多,利用语音与手势进行人机交互逐渐成为研究热点。但是基于语音的交互方式存在应用场所噪音不宜过大,使用环境较为苛刻且声音在某些特殊情况下不易隐藏等局限性。而手势是人与人之间非语言交流的最重要方式也是人与机器人交互的重要方式之一,因为手势所能表达的信息含义丰富,且不同手势之间易于区分,更符合人类交流习惯,且对某些特定人群(聋哑人)具有非常重要的意义,所以利用手势进行交互具有广泛的应用前景。
[0004]因为手势语言可以分为静止的手势与运动的手势,所以基于视觉的手势识别又可以分为静态手势识别和动态手势识别,其中静态手势识别是一种对处于静止状态的手势进行识别的技术,如对他人做出一个“OK”的手势。静态手势识别能表达的含义有限,而且处理的数据是静止的图片,识别技术难度相对于动态手势来说是比较低的。动态手势识别是对一个完整手势动作进行识别的技术,处理的对象是一个视频序列。动态手势表达的语义更加丰富,识别难度更高,对设备要求也更高。

技术实现思路

[0005]本专利技术的目的在于提供一种移动机器人基于手势识别的人机交互算法。
[0006]本专利技术的目的通过如下技术方案来实现:
[0007]一种基于视觉的动态手势识别与移动机器人控制方法,包括如下步骤:
[0008]步骤1:改进3DCNN算法;
[0009]步骤1.1:引入ResNetxt网络,使用ResNetxt

50残差网络作为算法的主干网络;
[0010]步骤1.2:加入CBAM注意力模块,注意力方式会沿着通道和空间两个不同维度依次推断注意力图,最后将注意力图和原始图相乘进行特征优化;
[0011]步骤1.3:采用Mish激活函数,使其在负半轴的时候,避免神经元坏死,允许较小的负梯度流入;
[0012]步骤2:采集手势数据集,动态手势数据对模型进行训练;
[0013]步骤3:训练基于改进3DCNN的动态手势识别模型;
[0014]步骤4:使用基于改进3DCNN的动态手势识别算法的输出结果,实现人机交互功能,用手势识别的结果控制移动机器人运动。
[0015]进一步地,步骤1具体如下:
[0016]步骤1.1:将卷积核按照通道分组,形成32组并行分支;将ResNet网络中(256,1
×
1,64)、(64,3
×
3,64)、(64,1
×
1,256)的卷积核分别转换成(256,1
×
1,4)、(4,3
×
3,4)、(4,1
×
1,256)的卷积核;将32组并行分支的堆叠卷积块分别进行特征信息提取;将32组的分支提取的特征信息融合得到新的特征图;将融合后的特征图传递给下一层;
[0017]步骤1.2:CBAM由两部分构成:通道注意力模块以及空间注意力模块;将原始特征图送入通道注意力模块,然后将得到的新的特征在传入空间注意力模块,相当于使原始的特征图在通道和空间两个维度上都得到了注意力加权,从而使得网络重点关注区域的信息;
[0018]通道注意力模块的权重表达式:
[0019]W
C
(F)=δ(MLP(AvgPool(F))+MLP(MaxPool(F)))
[0020]其中,δ表示Sigmod激活函数,MLP表示多层感知机,AvgPool(F)和MaxPool(F)的张量皆为(1,1,C),W
C
(F)表示经过通道注意模块得到的权重向量;
[0021]空间注意力模块的权重表达式:
[0022]W
S
(S)=δ(Conv([AvgPool(S);MaxPool(S)]))
[0023]其中,δ表示Sigmod激活函数,Conv表示卷积操作,AvgPool(S)和MaxPool(S)的张量皆为(H,W,1),W
S
(S)表示经过空间注意力模块得到的权重向量;
[0024]步骤1.3:Mish激活函数表示式:
[0025]f(x)=xtanh(ln(1+e
x
))
[0026]式中,f(x)表示激活函数的输出值,x表示输入值。
[0027]进一步地,步骤3具体如下:
[0028]步骤3.1:利用建成的动态手势数据集对模型进行训练,对输入数据进行处理,对数据集视频进行关键帧提取,将视频数据按照等时间比例裁剪划分成图片,并且要保证至少拥有16帧图像表达一个视频信息;将所得到的图片通过初始化操作缩放至规定尺寸;
[0029]步骤3.2:特征提取,首先将图片数据按照16帧一组送入特征提取网络中,整个特征提取网络经过多个瓶颈层堆叠结构提取网络的浅层信息和深层语义信息,其中第一个瓶颈层采用3组残差单元构成,输出特征图的维度为256;第二个瓶颈层由4组残差单元构成,输出特征图的维度为512;第三个瓶颈层由6组残差单元构成,输出特征图的维度达到1024;第四个瓶颈层由3组残差单元构成,输出特征图的维度为2048;
[0030]步骤3.3:输出结果分类,通过前期特征提取得到高维的特征信息,然后使用两个全连接层将高维特征信息转化至一维特征,最后结合Softmax分类器预测手势的类别信息。通过对整个训练流程不断地迭代学习,使得网络可以预测出动态手势的准确标签。
[0031]本专利技术的有益效果在于:
[0032]本专利技术一种基于视觉的动态手势识别与移动机器人控制方法,主要包括改进3DCNN动态手势识别模型的建立、采集动态手势数据集、训练改进3DCNN动态手势检测模型以及实现人机交互功能。本专利技术是为了解决人与机器人的交互,无需穿戴特定的设备,只需通过摄像头或者传感器等设备捕捉人体手势动作并利用计算机分析手型含义或手势动作
含义,具有自然性和直观性以及便利性等特点。现在提供一种移动机器人基于手势识别的人机交互算法。
附图说明
[0033]图1为本专利技术的一种移动机器人基于手势识别的人机交互算法;
[0034]图2为ResNetxt残差结构。
具体实施方式
[0035]下面结合附图对本专利技术做进一步描述。
[0036]根据图1本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视觉的动态手势识别与移动机器人控制方法,其特征在于:包括如下步骤:步骤1:改进3DCNN算法;步骤1.1:引入ResNetxt网络,使用ResNetxt

50残差网络作为算法的主干网络;步骤1.2:加入CBAM注意力模块,注意力方式会沿着通道和空间两个不同维度依次推断注意力图,最后将注意力图和原始图相乘进行特征优化;步骤1.3:采用Mish激活函数,使其在负半轴的时候,避免神经元坏死,允许较小的负梯度流入;步骤2:采集手势数据集,动态手势数据对模型进行训练;步骤3:训练基于改进3DCNN的动态手势识别模型;步骤4:使用基于改进3DCNN的动态手势识别算法的输出结果,实现人机交互功能,用手势识别的结果控制移动机器人运动。2.根据权利要求1所述的一种基于视觉的动态手势识别与移动机器人控制方法,其特征在于:步骤1具体如下:步骤1.1:将卷积核按照通道分组,形成32组并行分支;将ResNet网络中(256,1
×
1,64)、(64,3
×
3,64)、(64,1
×
1,256)的卷积核分别转换成(256,1
×
1,4)、(4,3
×
3,4)、(4,1
×
1,256)的卷积核;将32组并行分支的堆叠卷积块分别进行特征信息提取;将32组的分支提取的特征信息融合得到新的特征图;将融合后的特征图传递给下一层;步骤1.2:CBAM由两部分构成:通道注意力模块以及空间注意力模块;将原始特征图送入通道注意力模块,然后将得到的新的特征在传入空间注意力模块,相当于使原始的特征图在通道和空间两个维度上都得到了注意力加权,从而使得网络重点关注区域的信息;通道注意力模块的权重表达式:W
C
(F)=δ(MLP(AvgPool(F))+MLP(MaxPool(...

【专利技术属性】
技术研发人员:莫宏伟才鑫源徐立芳闫景运张骞
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1