一种基于深度学习的动态手势动作识别方法技术

技术编号：24331756 阅读：48 留言：0更新日期：2020-05-29 19:56

一种基于深度学习的动态手势动作识别方法，包括：步骤一，构建手势关节点坐标识别网络，利用改进的CPM模型对手势视频进行处理，输出单视点下的手势关节点坐标；步骤二，采集单视点视频数据；以单视点的形式对手势视频样本进行采集，即用一个普通的网络摄像头从多个角度捕捉用户的手势数据，其中包括：(2.1)定义基本手势元素；(2.2)选取手势关节点；(3)准备训练样本数据集；步骤三，输出手势高斯热图和手势关节点坐标；步骤四，构造手势序列识别网络，网络模型构造的具体流程如下：(4.1)定义激活函数；(4.2)选择损失函数；(4.3)建立模型；最后，将步骤三得到的关节点坐标输入标准手势序列识别网络，得到手势动作序列。

A dynamic gesture recognition method based on deep learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的动态手势动作识别方法
本专利技术涉及一种基于深度学习的动态手势动作识别方法。技术背景在计算机视觉的发展浪潮下，利用卷积神经网络对人体手势动作进行识别已经成为新的研究方向。在手势动作识别方面，基于卷积神经网络的方法与传统方法相比，具有成本和耗时更低、识别效率更高的优点，省下了手势分割、人工提取特征和模板匹配的步骤，降低了模型的复杂度。但目前的手势识别方法仅仅是识别静态手势或动态手势是属于哪一类手势，属于对单个手势进行识别，没有对连续且有时间上的重叠的动态手势进行识别，究其原因就是因为没有一套针对组合的连续动作的识别框架，这也就导致此类手势识别无法在实际生产应用中发挥作用。
技术实现思路
本专利技术要克服现有技术的上述缺点，提出一种基于计算机视觉的手势动作识别方法。本专利技术首先对CPM模型进行改进，以构建手势关节点坐标识别网络模型，然后在单视点下采集手势视频，接着将采集到的视频传入标准手势关节点坐标识别网络，得到手势高斯热图和关节点坐标。再把关节点坐标输入标准手势序列识别网络，得到手势动作序列，最终实现对连续动作的识别。为实现上述目的，本专利技术采用以下技术方案：一种基于深度学习的动态手势动作识别方法，包括如下步骤：步骤一，构建手势关节点坐标识别网络；本专利技术利用改进的CPM模型对手势视频进行处理，输出单视点下的手势关节点坐标，其实现流程如下：(1)选择手势关节点估计的基础网络模型；本专利技术选择VGG-13作为手势关节...

【技术保护点】
1.一种基于深度学习的动态手势动作识别方法，包括下列步骤：/n步骤一，构建手势关节点坐标识别网络；/n利用改进的CPM模型对手势视频进行处理，输出单视点下的手势关节点坐标，其实现流程如下：/n(1.1)选择手势关节点估计的基础网络模型；/n选择VGG-13作为手势关节点估计的基础网络模型；/n(1.2)设置感受野；/n感受野的大小与卷积或池化的滑动窗口有关，将两者看成是一个映射，将n层特征图上的k×k范围的像素值压缩到n+1层特征图上的一个像素内，表示为f

【技术特征摘要】
1.一种基于深度学习的动态手势动作识别方法，包括下列步骤：
步骤一，构建手势关节点坐标识别网络；
利用改进的CPM模型对手势视频进行处理，输出单视点下的手势关节点坐标，其实现流程如下：
(1.1)选择手势关节点估计的基础网络模型；
选择VGG-13作为手势关节点估计的基础网络模型；
(1.2)设置感受野；
感受野的大小与卷积或池化的滑动窗口有关，将两者看成是一个映射，将n层特征图上的k×k范围的像素值压缩到n+1层特征图上的一个像素内，表示为fks，其中s表示滑动窗口的步长，k表示卷积核或池化核的大小，其映射关系为：

其中：xn，xn+1为第n层和第n+1层的特征图；
基本网络结构基于VGG-13，对于VGG-13的第一个部分，包含了两个卷积和一个池化，这三个结构形成了一个级联，因此映射过程在网络中多次重复，形成一个多级映射；各环节的感受野与卷积核或池化核的参数如表1所示：
表1级联下各层特征图对应的感受野和卷积核参数

记RFn为第n个特征图的感受野，Kn为第n个卷积层的卷积核或池化核的大小，Sn为Kn的步长，由表1中的感受野规律，可以归纳推导出感受野与步长以及卷积核大小的关系；
在第一层卷积后特征图的感受野大小为卷积核的大小：
RF1＝K1(2)
当步长为1时，第n≥2个特征图的感受野大小为：
RFn＝RFn-1+(Kn-1)(3)
对于步长不为1的情况，有n≥2：
RFn＝RFn-1+(Kn-1)×Sn(4)
(1.3)提取特征；
利用基础网络模型VGG-13对图像进行特征提取；
首先定义第p个关节在图像像素中的位置坐标为Yp，则有，

其中集合Z代表图像中所有像素的位置；
设有P个需要预测的关节点，目标是得到所有P个关节点坐标Y：
Y＝(Y1,Y2,…,Yp)(6)
由以上关系可知，Y是Z的子集；
接着定义一个多阶段的预测分类器gt(x)，用于预测每个阶段中每个关节点所在位置；在每个阶段t∈{1,2,…T}，预测分类器都会将图像中的一点z赋给Yp，并在每个阶段都会给每个手势关节点生成一个热图，具体的表达式为：

当分类器在第一阶段预测手势关节点位置时，会产生一个热图和相对应的手势关节点置信得分：

其中b1p(Yp＝z)是分类器在第一阶段预测第p个手势关节点在z位置处时的手势关节点置信得分；
对于接下来的每一个阶段，第p个手势关节点在z位置处的置信得分可以表示为：

其中，u，v代表图像中某一处位置z的坐标值；
在后续阶段t(t≥2)，基于前一阶段的热图和手势关节点的置信得分，继续为每个手势关节点赋更加精确的位置坐标z，这个更加精确的位置z是基于第一阶段分类器所提取的图像特征和前一阶段的分类器所提取到的图片上下文信息共同决定的，同样的，后续每个阶段的预测分类器仍然产生属于每个阶段的手势关节点热图对应的手势关节点置信得分：

其中，ψt(z,bt-1)表示一种置信得分与图像上下文信息之间的映射，X′z表示上一阶段在位置z周边所提取到的图像特征；
在以上过程的不断重复下，每个阶段都基于前一阶段的图像上下文信息和第一阶段提取到的图像特征对第p个手势关节点的位置做出修正，这种逐渐微调的过程使得模型最终估计出较为准确的手势关节点坐标位置；
步骤二，采集单视点视频数据；
以单视点的形式对手势视频样本进行采集，即用一个普通的网络摄像头从多个角度捕捉用户的手势数据，其中：
(2.1)定义基本手势元素；
重新定义了对视觉识别的基本动作元素，并将确定的具体可识别的基本动作元素，称为基本手势元素，并对其符号进行了定义；
(2.2)选取手势关节点；
通过对手势关节点进行识别，将识别的关节点按照顺序进行连线、标号，形成一个手姿势的骨架，通过对手骨架姿势的识别实现对手的姿势的识别，且将此过程定义为手势估计；手指弯曲时，手指通常分为三小段，使手指呈现不同的弯曲程度，这三段之间的连接点恰好是手指的关节点，因此，选取每个手指的指尖部位的点作为手指的起始关节点，然后连接各自手指上三小段之间上的关节点，接着每根手指上的末尾关节点都与手腕处的一个关节点相连，选定了模型的关节点之后，将模型的关节点按照一定的顺序标号、连接，以形成手势骨架；
(3)准备训练样本数据集；
基于卷积神经网络对图像或视频内容识别的基础是有标准的数据集；因此在单视点下对基本手势元素进行视频采集，以建立基本手势元素数据库；
同时，对于已有的一个大数据集，通常将其划分为训练集、验证集、测试集；三个子集两两之间无交集，三者的并集为全集，由于来自同一个数据集，因此三个子集是独立同分布的；验证集和测试集均用于测试模型的准确率，且两者均与模型训练时的梯度下降过程无关，但由于验证集的参与，其验证结果调节了模型迭代数和学习率，即模型有了一个参数调整的过程，因此认为验证集参与了模型的训练；
步骤三，输出手势高斯热图和手势关节点坐标；
采用热图的形式对手势关节点的真实...

【专利技术属性】
技术研发人员：张烨，陈威慧，樊一超，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人