当前位置: 首页 > 专利查询>陈伟专利>正文

一种基于视觉和算法的人机交互系统技术方案

技术编号:36695390 阅读:32 留言:0更新日期:2023-02-27 20:06
一种基于视觉和算法的人机交互系统,包括手势数据采集模块、手势数据标注模块、手势识别算法模块和交互模块;所述手势数据采集模块用于采集手部动作视频;所述手势数据标注模块用于检测出手部位置,并对手部的位置的坐标进行标注;所述手势识别算法模块用于跟踪定位手部并识别手势;所述交互模块用于将识别的手势转换为相对应的指令输出;在所述跟踪定位手部时,利用了设计的目标记忆及时空上下文引导的目标跟踪方法,该跟踪方法设计了一种平衡长短时记忆器评估跟踪结果的可靠性用于更新跟踪模板,提高了跟踪器适应目标外观变化的能力,此外,引入了时空上下文用于提高跟踪的准确性,即进一步提高了人机交互系统的可靠性。即进一步提高了人机交互系统的可靠性。即进一步提高了人机交互系统的可靠性。

【技术实现步骤摘要】
一种基于视觉和算法的人机交互系统


[0001]本专利技术涉及人机交互领域,具体涉及一种基于视觉和算法的人机交互系统。

技术介绍

[0002]人机交互是指人与计算机之间相互交流和通信的方式,主要研究的是如何高效便利的实现人与计算机的交互,随着计算机技术的飞速发展,人机交互方式也从最初的语言命令的方式发展为基于鼠标、键盘的交互方式;与此同时,基于鼠标、键盘的交互方式的局限性也越来越突显出来,尤其是在虚拟现实、可穿戴计算机等应用领域之中更加明显;基于视觉的人机交互方式可直接通过人的动作作为人机交互的输入,无需中间媒介即可实现更高效便捷的人机交互,其中基于手势识别的人机交互方式有简便易行、适应性强的有点;基于手势识别的人机交互方式需要对利用计算机视觉对手势进行检测、跟踪与识别等。
[0003]在对手部进行跟踪定位时,常见的跟踪方法多是粒子滤波这种传统的跟踪方法,没有从现如今前沿的深度学习技术中收益;目前,基于深度学习的跟踪方法不仅实时性搞,而且具有不错的鲁棒性,因此对于人机交互中的跟踪具有良好的适配性;然而,基于孪生网络的跟踪方法具有一些局限性需要继续改进以更加适应人机交互任务中的跟踪需求,一是基于孪生网络的跟踪方法在跟踪的过程中仅使用了从第一帧提取的目标模板,没有更新目标模板以适应跟踪目标的变化,在人机交互中,要跟踪的目标往往变形较大,因此难以适应目标变化的基于孪生网络的跟踪方法需要改进以更新跟踪模板;二是基于孪生网络的跟踪方法在跟踪的过程各种没有考虑到时空上下文信息辅助跟踪,在要跟踪的目标变形较大时可以通过时空上下文信息辅助定位,这两个局限性与人机交互任务需求有着重要的联系,因此如何高效可靠的更新跟踪所需的目标模板以及引入时空上下文信息以已提高跟踪的准确性,进而进一步提高人机交互的高效及可靠性十分重要。

技术实现思路

[0004]本专利技术针对上述问题,提出了一种基于视觉的人机交互系统,设计了一种目标记忆及时空上下文引导的目标跟踪方法,通过记忆器评估跟踪结果的可靠性来更新跟踪模板,以提高跟踪器适应外观变化的能力,此外引入了时空上下文以进一步提高跟踪准确性,通过该跟踪方法可以准确高效的定位目标,进而提高了人机交互系统的高效性与可靠性。
[0005]为了解决上述技术问题,本专利技术提供如下技术方案:
[0006]本专利技术的一种基于视觉的人机交互系统,包括手势数据采集模块、手势数据标注模块、手势识别算法模块和交互模块;
[0007]手势数据采集模块用于调用设备上的摄像头拍摄手部动作视频数据,并将这些视频传输给手势数据标注模块用于进一步处理;
[0008]手势数据标注模块用于将视频数据处理成一帧一帧的按时序排列的图片,然后在第一帧图片上提取感兴趣区域,然后利用提取的感兴趣区域确定手部所在位置,并将手部位置的坐标数据及处理后的视频数据传输给手势识别算法模块;
[0009]手势识别算法模块包含图像预处理算法、手势跟踪算法和手势识别算法,图像预处理算法对视频数据进行预处理以便后续算法的运行,手势跟踪算法是在已知手势数据标注模块给出的手部位置数据后,利用设计的目标记忆及时空上下文引导的目标跟踪方法跟踪不断运动的手部,手势识别算法是在手部不再运动后识别出当前手势;
[0010]交互模块用于根据识别出的手势找到其相对应的指令进行输出。
[0011]进一步地,设计的目标记忆及时空上下文引导的目标跟踪方法的主干网络是带有分类分支与回归分支的孪生网络,即SiamRPN跟踪器的主干网络。
[0012]所述设计的目标记忆及时空上下文引导的目标跟踪方法包括离线训练主干网络和更新两个阶段。
[0013]进一步地,目标记忆及时空上下文引导的目标跟踪方法的离线训练主干网络阶段,使用的数据集是由手势数据采集模块采集到的数据制成的数据集,将手势数据采集模块采集到的数据分解成一系列图像,人工标注出手部的位置数据并设置标签即完成了数据集的制作,再利用该数据集离线训练主干网络。
[0014]进一步地,目标记忆及时空上下文引导的目标跟踪方法的在线跟踪阶段的在线跟踪流程如下:
[0015]步骤一:利用手势数据标注模块所给出的手部位置的坐标数据,以及图像预处理算法处理后的一帧一帧的按时序排列的视频图像,在第一帧视频图像中裁剪出目标图像作为目标模板Z1,并学习了一种平衡长短时记忆器;
[0016]步骤二:在后续第t帧的视频图像序列中以第t

1帧中目标中心位置为中心裁剪出一个三倍于目标大小的搜索区域图像X
t
;将目标模板Z1和搜索区域图像X
t
送入主干网络;
[0017]步骤三:网络前向运算,网络尾部的分类分支输出初始分类得分图,然后利用设计的空间上下文置信度图与初始分类得分图相结合得到最终的空间上下文约束的分类得分图,将分类得分图与回归得分图相结合找到目标最终位置;
[0018]步骤四:利用平衡长短时记忆器评估跟踪结果的可靠性,根据可靠性的大小更新目标模板,获得新的目标模板Z
t
代替原本的目标模板Z1。
[0019]进一步地,平衡长短时记忆器由长时记忆器与短时记忆器构成,长时记忆器用于保存跟踪目标长时间跨度的外观信息,短时记忆器用于保存目标当前的外观信息;
[0020]进一步地,平衡长短时记忆器的构建过程如下:
[0021]步骤一:视频的第一帧提取目标模板Z1的颜色直方图和HOG特征,将颜色直方图和HOG 特征融合获得最终的目标模板Z1的特征z1;
[0022]步骤二:利用目标模板特征与长时记忆器的目标函数求解得到一个相关滤波器W
l
即为长时记忆器,同时利用目标模板特征与短时记忆器的目标函数求解得到一个相关滤波器W
s
即为短时记忆器,将短时记忆器W
s
与长时记忆器W
I
加权相加,得到了平衡长短时记忆器W
Is

[0023]步骤三:在后续跟踪过程中,利用平衡长短时记忆器W
Is
评估跟踪结果的可靠性,在评估得到跟踪结果的可靠性较高时,分别更新短时记忆器W
s
与长时记忆器W
I
将更新后的短时记忆器W
s
与长时记忆器W
I
加权相加,得到了更新后的平衡长短时记忆器W
Is

[0024]进一步地,长时记忆器W
I
的目标函数定义如下:
[0025][0026]其中W是要学习的记忆器,λ1和λ2是正则化参数,y是高斯标签,z1是第一帧视频图像中截取出来的目标图像Z1的颜色直方图和HOG融合后的特征,z
t
是根据经评估后可靠性较高的第t帧跟踪结果截取出来的目标图像Z
t
的颜色直方图和HOG融合后的特征,通过快速傅里叶变换对算法进行加速计算可求得:
[0027][0028]其中

是元素积,符号F表示傅本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视觉的人机交互系统,其特征在于,包括手势数据采集模块、手势数据标注模块、手势识别算法模块和交互模块;手势数据采集模块用于调用设备上的摄像头拍摄手部动作视频数据,并将这些视频传输给手势数据标注模块用于进一步处理;手势数据标注模块用于将视频数据处理成一帧一帧的按时序排列的图片,然后在第一帧图片上提取感兴趣区域,然后利用提取的感兴趣区域确定手部所在位置,并将手部位置的坐标数据及处理后的视频数据传输给手势识别算法模块;手势识别算法模块包含图像预处理算法、手势跟踪算法和手势识别算法,图像预处理算法对视频数据进行预处理以便后续算法的运行,手势跟踪算法是在已知手势数据标注模块给出的手部位置数据后,利用设计的目标记忆及时空上下文引导的目标跟踪方法跟踪不断运动的手部,手势识别算法是在手部不再运动后识别出当前手势;交互模块用于根据识别出的手势找到其相对应的指令进行输出;所述设计的目标记忆及时空上下文引导的目标跟踪方法包括离线训练主干网络和更新两个阶段;目标记忆及时空上下文引导的目标跟踪方法的在线跟踪阶段的在线跟踪流程如下:S51:利用手势数据标注模块所给出的手部位置的坐标数据,以及图像预处理算法处理后的一帧一帧的按时序排列的视频图像,在第一帧视频图像中裁剪出目标图像作为目标模板Z1,并学习了一个平衡长短时记忆器;S52:在后续第t帧的视频图像序列中以第t

1帧中目标中心位置为中心裁剪出一个三倍于目标大小的搜索区域图像X
t
;将目标模板Z1和搜索区域图像X
t
送入主干网络;S53:网络前向运算,网络尾部的分类分支输出初始分类得分图,然后利用设计的空间上下文置信度图与初始分类得分图相结合得到最终的空间上下文约束的分类得分图,将分类得分图与回归得分图相结合找到目标最终位置;S54:利用平衡长短时记忆器评估跟踪结果的可靠性,根据可靠性的大小更新目标模板,获得新的目标模板Z
t
代替原本的目标模板Z1;所述设计的空间上下文置信度图由空间上下文模型计算得到。2.根据权利要求1所述的一种基于视觉的人机交互系统,其特征在于,空间上下文模型的构建过程如下:已知跟踪第t帧跟踪结果,以目标中心位置为中心截取向外拓展两倍于的目标大小的目标上下文区域图像Ω
c
(x

),空间上下文置信度图定义为:其中x是搜索区域图像上任何一点的位置,x

是已知的目标位置,o表示上下文区域图像Ω
c
(x

)中出现的目标,是在已知目标位置时设定的空间上下文置信度图,b、α和β是超参数,p(x|o)是利用空间上下文信息计算得到的空间上下文置信度图,定义为:其中X
c
是上下文特征,这里使用的是灰度特征,X
c
={c(z...

【专利技术属性】
技术研发人员:陈伟
申请(专利权)人:陈伟
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1