当前位置: 首页 > 专利查询>陈伟专利>正文

一种基于视觉和算法的人机交互系统技术方案

技术编号：36695390 阅读：32 留言：0更新日期：2023-02-27 20:06

一种基于视觉和算法的人机交互系统，包括手势数据采集模块、手势数据标注模块、手势识别算法模块和交互模块；所述手势数据采集模块用于采集手部动作视频；所述手势数据标注模块用于检测出手部位置，并对手部的位置的坐标进行标注；所述手势识别算法模块用于跟踪定位手部并识别手势；所述交互模块用于将识别的手势转换为相对应的指令输出；在所述跟踪定位手部时，利用了设计的目标记忆及时空上下文引导的目标跟踪方法，该跟踪方法设计了一种平衡长短时记忆器评估跟踪结果的可靠性用于更新跟踪模板，提高了跟踪器适应目标外观变化的能力，此外，引入了时空上下文用于提高跟踪的准确性，即进一步提高了人机交互系统的可靠性。即进一步提高了人机交互系统的可靠性。即进一步提高了人机交互系统的可靠性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于视觉和算法的人机交互系统

[0001]本专利技术涉及人机交互领域，具体涉及一种基于视觉和算法的人机交互系统。

技术介绍

[0002]人机交互是指人与计算机之间相互交流和通信的方式，主要研究的是如何高效便利的实现人与计算机的交互，随着计算机技术的飞速发展，人机交互方式也从最初的语言命令的方式发展为基于鼠标、键盘的交互方式；与此同时，基于鼠标、键盘的交互方式的局限性也越来越突显出来，尤其是在虚拟现实、可穿戴计算机等应用领域之中更加明显；基于视觉的人机交互方式可直接通过人的动作作为人机交互的输入，无需中间媒介即可实现更高效便捷的人机交互，其中基于手势识别的人机交互方式有简便易行、适应性强的有点；基于手势识别的人机交互方式需要对利用计算机视觉对手势进行检测、跟踪与识别等。
[0003]在对手部进行跟踪定位时，常见的跟踪方法多是粒子滤波这种传统的跟踪方法，没有从现如今前沿的深度学习技术中收益；目前，基于深度学习的跟踪方法不仅实时性搞，而且具有不错的鲁棒性，因此对于人机交互中的跟踪具有良好的适配性；然而，基于孪生网络的跟踪方法具有一些局限性需要继续改进以更加适应人机交互任务中的跟踪需求，一是基于孪生网络的跟踪方法在跟踪的过程中仅使用了从第一帧提取的目标模板，没有更新目标模板以适应跟踪目标的变化，在人机交互中，要跟踪的目标往往变形较大，因此难以适应目标变化的基于孪生网络的跟踪方法需要改进以更新跟踪模板；二是基于孪生网络的跟踪方法在跟踪的过程各种没有考虑到时空上下文信息辅助跟踪，在要跟踪的目标变形较大时可以通过时空上...

【技术保护点】

【技术特征摘要】
1.一种基于视觉的人机交互系统，其特征在于，包括手势数据采集模块、手势数据标注模块、手势识别算法模块和交互模块；手势数据采集模块用于调用设备上的摄像头拍摄手部动作视频数据，并将这些视频传输给手势数据标注模块用于进一步处理；手势数据标注模块用于将视频数据处理成一帧一帧的按时序排列的图片，然后在第一帧图片上提取感兴趣区域，然后利用提取的感兴趣区域确定手部所在位置，并将手部位置的坐标数据及处理后的视频数据传输给手势识别算法模块；手势识别算法模块包含图像预处理算法、手势跟踪算法和手势识别算法，图像预处理算法对视频数据进行预处理以便后续算法的运行，手势跟踪算法是在已知手势数据标注模块给出的手部位置数据后，利用设计的目标记忆及时空上下文引导的目标跟踪方法跟踪不断运动的手部，手势识别算法是在手部不再运动后识别出当前手势；交互模块用于根据识别出的手势找到其相对应的指令进行输出；所述设计的目标记忆及时空上下文引导的目标跟踪方法包括离线训练主干网络和更新两个阶段；目标记忆及时空上下文引导的目标跟踪方法的在线跟踪阶段的在线跟踪流程如下：S51：利用手势数据标注模块所给出的手部位置的坐标数据，以及图像预处理算法处理后的一帧一帧的按时序排列的视频图像，在第一帧视频图像中裁剪出目标图像作为目标模板Z1，并学习了一个平衡长短时记忆器；S52：在后续第t帧的视频图像序列中以第t
‑
1帧中目标中心位置为中心裁剪出一个三倍于目标大小的搜索区域图像X
t
；将目标模板Z1和搜索区域图像X
t
送入主干网络；S53：网络前向运算，网络尾部的分类分支输出初始分类得分图，然后利用设计的空间上下文置信度图与初始分类得分图相结合得到最终的空间上下文约束的分类得分图，将分类得分图与回归得分图相结合找到目标最终位置；S54：利用平衡长短时记忆器评估跟踪结果的可靠性，根据可靠性的大小更新目标模板，获得新的目标模板Z
t
代替原本的目标模板Z1；所述设计的空间上下文置信度图由空间上下文模型计算得到。2.根据权利要求1所述的一种基于视觉的人机交互系统，其特征在于，空间上下文模型的构建过程如下：已知跟踪第t帧跟踪结果，以目标中心位置为中心截取向外拓展两倍于的目标大小的目标上下文区域图像Ω
c
(x
′
)，空间上下文置信度图定义为：其中x是搜索区域图像上任何一点的位置，x
′
是已知的目标位置，o表示上下文区域图像Ω
c
(x
′
)中出现的目标，是在已知目标位置时设定的空间上下文置信度图，b、α和β是超参数，p(x|o)是利用空间上下文信息计算得到的空间上下文置信度图，定义为：其中X
c
是上下文特征，这里使用的是灰度特征，X
c
＝{c(z...

【专利技术属性】
技术研发人员：陈伟，
申请(专利权)人：陈伟，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人