一种多视点下提高动态手势动作识别准确率的方法技术

技术编号:24252175 阅读:59 留言:0更新日期:2020-05-22 23:53
一种提高动态手势动作识别准确率的方法,包括:步骤一,构建手势关节点坐标识别网络,利用改进的CPM模型对手势视频进行处理,输出双视点下的手势关节点坐标;步骤二,采集双视点视频数据,包括(2.1)定义基本手势元素,(2.2)选取手势关节点,(2.3)准备训练样本数据集;步骤三,对基本手势元素视频样本进行卡尔曼滤波处理;步骤四,输出手势高斯热图和手势关节点坐标;步骤五,构造手势序列识别网络,网络模型构造的具体流程如下:(5.1)定义激活函数,(5.2)选择损失函数,(5.3)建立模型;最后,将步骤四得到的关节点坐标输入标准手势序列识别网络,就可以得到手势动作序列。本发明专利技术能够提高对连续动作的识别准确率。

A method to improve the accuracy of dynamic gesture recognition from multiple viewpoints

【技术实现步骤摘要】
一种多视点下提高动态手势动作识别准确率的方法
本专利技术涉及一种多视点下改善动态手势动作识别准确率的方法。技术背景在计算机视觉的发展浪潮下,利用卷积神经网络对人体手势动作进行识别已经成为新的研究方向。在手势动作识别方面,基于卷积神经网络的方法与传统方法相比,具有成本和耗时更低、识别效率更高的优点,省下了手势分割、人工提取特征和模板匹配的步骤,降低了模型的复杂度。但目前的手势识别方法仅仅是识别静态手势或动态手势是属于哪一类手势,属于对单个手势进行识别,没有对连续且有时间上的重叠的动态手势进行识别,究其原因就是因为没有一套针对组合的连续动作的识别框架,这也就导致此类手势识别无法在实际生产应用中发挥作用。
技术实现思路
本专利技术要克服现有技术的上述缺点,提出一种基于计算机视觉的手势动作识别方法。本专利技术首先对CPM模型进行改进,以构建手势关节点坐标识别网络模型,然后对双视点下采集到的视频进行归一化和卡尔曼滤波处理,接着将预处理后的视频传入标准手势关节点坐标识别网络,得到手势高斯热图和关节点坐标。再把关节点坐标输入标本文档来自技高网...

【技术保护点】
1.一种提高动态手势动作识别准确率的方法,包括如下步骤:/n步骤一,构建手势关节点坐标识别网络;/n利用改进的CPM模型对手势视频进行处理,输出双视点下的手势关节点坐标,其实现流程如下:/n(1.1)选择手势关节点估计的基础网络模型;/n选择VGG-13作为手势关节点估计的基础网络模型;/n(1.2)设置感受野;/n感受野的大小与卷积或池化的滑动窗口有关,将两者看成是一个映射,将n层特征图上的k×k范围的像素值压缩到n+1层特征图上的一个像素内,表示为f

【技术特征摘要】
1.一种提高动态手势动作识别准确率的方法,包括如下步骤:
步骤一,构建手势关节点坐标识别网络;
利用改进的CPM模型对手势视频进行处理,输出双视点下的手势关节点坐标,其实现流程如下:
(1.1)选择手势关节点估计的基础网络模型;
选择VGG-13作为手势关节点估计的基础网络模型;
(1.2)设置感受野;
感受野的大小与卷积或池化的滑动窗口有关,将两者看成是一个映射,将n层特征图上的k×k范围的像素值压缩到n+1层特征图上的一个像素内,表示为fks,其中s表示滑动窗口的步长,k表示卷积核或池化核的大小,其映射关系为:



其中:xn,xn+1为第n层和第n+1层的特征图;
基本网络结构基于VGG-13,对于VGG-13的第一个部分,包含了两个卷积和一个池化,这三个结构形成了一个级联,因此映射过程在网络中多次重复,形成一个多级映射;各环节的感受野与卷积核或池化核的参数如表1所示:
表1级联下各层特征图对应的感受野和卷积核参数



记RFn为第n个特征图的感受野,Kn为第n个卷积层的卷积核或池化核的大小,Sn为Kn的步长,由表1中的感受野规律,可以归纳推导出感受野与步长以及卷积核大小的关系;
在第一层卷积后特征图的感受野大小为卷积核的大小:
RF1=K1(2)
当步长为1时,第n≥2个特征图的感受野大小为:
RFn=RFn-1+(Kn-1)(3)
对于步长不为1的情况,有n≥2:
RFn=RFn-1+(Kn-1)×Sn(4)
(1.3)提取特征;
利用基础网络模型VGG-13对图像进行特征提取;
首先定义第p个关节在图像像素中的位置坐标为Yp,则有,



其中集合Z代表图像中所有像素的位置;
设有P个需要预测的关节点,目标是得到所有P个关节点坐标Y:
Y=(Y1,Y2,…,Yp)(6)
由以上关系可知,Y是Z的子集;
接着定义一个多阶段的预测分类器gt(x),用于预测每个阶段中每个关节点所在位置;在每个阶段t∈{1,2,…T},预测分类器都会将图像中的一点z赋给Yp,并在每个阶段都会给每个手势关节点生成一个热图,具体的表达式为:



当分类器在第一阶段预测手势关节点位置时,会产生一个热图和相对应的手势关节点置信得分:



其中b1p(Yp=z)是分类器在第一阶段预测第p个手势关节点在z位置处时的手势关节点置信得分;
对于接下来的每一个阶段,第p个手势关节点在z位置处的置信得分可以表示为:



其中,u,v代表图像中某一处位置z的坐标值;
在后续阶段t(t≥2),基于前一阶段的热图和手势关节点的置信得分,继续为每个手势关节点赋更加精确的位置坐标z,这个更加精确的位置z是基于第一阶段分类器所提取的图像特征和前一阶段的分类器所提取到的图片上下文信息共同决定的,同样的,后续每个阶段的预测分类器仍然产生属于每个阶段的手势关节点热图对应的手势关节点置信得分:



其中,ψt(z,bt-1)表示一种置信得分与图像上下文信息之间的映射,Xz′表示上一阶段在位置z周边所提取到的图像特征;
在以上过程的不断重复下,每个阶段都基于前一阶段的图像上下文信息和第一阶段提取到的图像特征对第p个手势关节点的位置做出修正,这种逐渐微调的过程使得模型最终估计出较为准确的手势关节点坐标位置;
步骤二,采集双视点视频数据;
考虑到目前的单目摄像头是不含深度信息的,并且在单视点下存在着手势的遮挡和自遮挡引起的手势关节点信息缺失以及手势沿着摄像头法向运动时引起的关节点位置坐标难以变化的问题,以双视点的形式对手势视频样本进行采集;为了增强样本数据的多样性,设计了两种视点角度,第一种的两个摄像头角度呈180°,第二种的摄像头角度呈90°;
(2.1)定义基本手势元素;
重新定义了对视觉识别的基本动作元素,并将确定的具体可识别的基本动作元素,称为基本手势元素,并对其符号进行了定义;
(2.2)选取手势关节点;
通过对手势关节点进行识别,将识别的关节点按照顺序进行连线、标号,形成一个手姿势的骨架,通过对手骨架姿势的识别实现对手的姿势的识别,且将此过程定义为手势估计;手指弯曲时,手指通常分为三小段,使手指呈现不同的弯曲程度,这三段之间的连接点恰好是手指的关节点,因此,选取每个手指的指尖部位的点作为手指的起始关节点,然后连接各自手指上三小段之间上的关节点,接着每根手指上的末尾关节点都与手腕处的一个关节点相连,选定了模型的关节点之后,将模型的关节点按照一定的顺序标号、连接,以形成手势骨架;
(2.3)准备训练样本数据集;
基于卷积神经网络对图像或视频内容识别的基础是有标准的数据集;考虑到手势在运动变化的过程中存在关节的自遮挡问题,因此采用双视点对手势视频进行采集,以建立基本手势元素数据库;
同时,对于已有的一个大数据集,通常将其划分为训练集、验证集、测试集;三个子集两两之间无交集,三者的并集为全集,由于来自同一个数据集,因此三个子集是独立同分布的;验证集和测试集均用于测试模型的准确率,且两者均与模型训练时的梯度下降过程无关,但由于验证集的参与,其验证结果调节了模型迭代数和学习率,即模型有了一个参数调整的过程,因此认为验证集参与了模型的训练;
步骤三,对基本手势元素视频样本进行卡尔曼滤波处理;
在图像滤波开始之前,首先任意选择图像中的一个像素点,按照水平或者垂直的方向依次对接下来的点进行卡尔曼滤波,通过预测和更新像素值,实现图像的去噪;
图像在第k个状态的估计值xk为:
xk=Fkxk-1+Bkuk+wk(11)
式中:Fk为第k个状态时的增益矩阵;Bk为输入控制矩阵;uk为控制向量;wk为白噪声,服从高斯分布,wk~N(0,Qk);
对第k个状态的观测值zk为:
zk=Hkxk+vk(12)
式中:Hk为观测矩阵;vk为观测噪声,服从高斯分布,vk~N(0,Rk);
上述初始状态x0与白噪声wk,观测噪声vk相互独立;
有了上一个状态的估计值和当前状态的观测值,就需要对当前状态的估计值进行预测,计算当前状态的估计值包括预测和更新两个步骤;对于预测过程,首先获取上一个状态k-1的估计值xk-1,利用上述公式(11)预测当前状态k的估计值xk;对于更新过程,则将预测好的k状态下的估计值代入公式(12),得到当前k状态的估计值zk,则有公式(13)可以描述一个离散时间线性随机动态系统:

...

【专利技术属性】
技术研发人员:张烨陈威慧樊一超
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1