一种基于注意力机制的手势位置预估方法及相关装置制造方法及图纸

技术编号:26731343 阅读:15 留言:0更新日期:2020-12-15 14:33
本申请公开了一种基于注意力机制的手势位置预估方法及相关装置,方法包括:获取第一时间的第一手势图像;采用预置RNN隐含层处理第一手势图像,得到隐含向量,并根据隐含向量和预置初始位置计算得到注意力分配系数;根据隐含向量和注意力分配系数计算手势隐含状态分布规律;采用预置全连接层处理手势隐含状态分布规律,得到手势预估位置;获取第二时间的第二手势图像,将第二手势图像代替第一手势图像,将手势预估位置代替预置初始位置,返回采用预置RNN隐含层处理第一手势图像的步骤,直至得到所有手势预估位置。本申请能够解决现有技术存在大量白噪声,导致手势位置显示效果较差的技术问题。

【技术实现步骤摘要】
一种基于注意力机制的手势位置预估方法及相关装置
本申请涉及图像处理
,尤其涉及一种基于注意力机制的手势位置预估方法及相关装置。
技术介绍
在远程维修中经常需要对工人的手部动作进行实时跟踪,从而确保维修操作动作的准确性,而手势动作的实时跟踪对图像的处理和手势的预估要求较高,由于人眼在屏幕上不同区域的注视特性不同,因此,不能用简单的映射关系来描述屏幕上的位置与人眼位置的关系,一般采用的是将笛卡尔坐标系转化为世界坐标系来实现位置的映射,但是该方法的映射过程会存在大量白噪声,影响实际效果。
技术实现思路
本申请提供了一种基于注意力机制的手势位置预估方法及相关装置,用于解决现有技术存在大量白噪声,导致手势位置显示效果较差的技术问题。有鉴于此,本申请第一方面提供了一种基于注意力机制的手势位置预估方法,包括:获取第一时间的第一手势图像,所述第一时间包括连续的多个时刻;采用预置RNN隐含层处理所述第一手势图像,得到隐含向量,并根据所述隐含向量和预置初始位置计算得到注意力分配系数;根据所述隐含向量和所述注意力分配系数计算手势隐含状态分布规律;采用预置全连接层处理所述手势隐含状态分布规律,得到手势预估位置;获取第二时间的第二手势图像,将所述第二手势图像代替所述第一手势图像,将所述手势预估位置代替所述预置初始位置,返回所述采用预置RNN隐含层处理所述第一手势图像的步骤,直至得到所有所述手势预估位置。可选的,所述获取第一时间的第一手势图像,所述第一时间包括连续的多个时刻,包括:在预置视频素材的每一秒处获取预置数量的初始手势图像;从所述初始手势图像中选取一张最优手势图像作为对应时刻的预置手势图像;获取连续预置秒对应的所述预置手势图像作为所述第一手势图像,所述预置秒为所述第一时间,其中一秒为一个时刻。可选的,所述根据所述隐含向量和所述注意力分配系数计算手势隐含状态分布规律,包括:采用预置公式根据所述隐含向量和所述注意力分配系数计算手势隐含状态分布规律,所述预置公式为:其中,ct为t时刻的手势隐含状态分布规律,Tx为选取手势图像的数量,αt,i为t时刻第i张图像对应的注意力分配系数,为第i张图像对应的隐含向量。可选的,所述获取第二时间的第二手势图像,将所述第二手势图像代替所述第一手势图像,将所述手势预估位置代替所述预置初始位置,返回所述采用预置RNN隐含层处理所述第一手势图像的步骤,直至得到所有所述手势预估位置,之后还包括:根据所述手势预估位置在显示器上进行预估手势位置显示操作。本申请第二方面提供了一种基于注意力机制的手势位置预估装置,包括:获取模块,用于获取第一时间的第一手势图像,所述第一时间包括连续的多个时刻;隐含处理模块,用于采用预置RNN隐含层处理所述第一手势图像,得到隐含向量,并根据所述隐含向量和预置初始位置计算得到注意力分配系数;状态计算模块,用于根据所述隐含向量和所述注意力分配系数计算手势隐含状态分布规律;预估模块,用于采用预置全连接层处理所述手势隐含状态分布规律,得到手势预估位置;迭代模块,用于获取第二时间的第二手势图像,将所述第二手势图像代替所述第一手势图像,将所述手势预估位置代替所述预置初始位置,返回所述采用预置RNN隐含层处理所述第一手势图像的步骤,直至得到所有所述手势预估位置。可选的,所述获取模块具体用于:在预置视频素材的每一秒处获取预置数量的初始手势图像;从所述初始手势图像中选取一张最优手势图像作为对应时刻的预置手势图像;获取连续预置秒对应的所述预置手势图像作为所述第一手势图像,所述预置秒为所述第一时间,其中一秒为一个时刻。可选的,所述状态计算模块具体用于:采用预置公式根据所述隐含向量和所述注意力分配系数计算手势隐含状态分布规律,所述预置公式为:其中,ct为t时刻的手势隐含状态分布规律,Tx为选取手势图像的数量,αt,i为t时刻第i张图像对应的注意力分配系数,为第i张图像对应的隐含向量。可选的,还包括:显示模块,用于根据所述手势预估位置在显示器上进行预估手势位置显示操作。本申请第三方面提供了一种基于注意力机制的手势位置预估设备,所述设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行第一方面的基于注意力机制的手势位置预估方法。本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面的基于注意力机制的手势位置预估方法。从以上技术方案可以看出,本申请实施例具有以下优点:本申请中,提供了一种基于注意力机制的手势位置预估方法,包括:获取第一时间的第一手势图像,第一时间包括连续的多个时刻;采用预置RNN隐含层处理第一手势图像,得到隐含向量,并根据隐含向量和预置初始位置计算得到注意力分配系数;根据隐含向量和注意力分配系数计算手势隐含状态分布规律;采用预置全连接层处理手势隐含状态分布规律,得到手势预估位置;获取第二时间的第二手势图像,将第二手势图像代替第一手势图像,将手势预估位置代替预置初始位置,返回采用预置RNN隐含层处理第一手势图像的步骤,直至得到所有手势预估位置。本申请提供的基于注意力机制的手势位置预估方法,通过在RNN网络中加入注意力机制对手势位置进行预估,得到更加准确的估计结果,由于实际情况下的手势是动态的,也就是说,手势具有时间关联性,获取单个时刻的图像进行位置估计会带来大量的白噪声,所以选取多个时刻的手势图像进行手势位置的预估操作,使得每个时刻的手势预估结果都受到前后时刻的牵制,不会出现较大误差的情况。因此,本申请能够解决现有技术存在大量白噪声,导致手势位置显示效果较差的技术问题。附图说明图1为本申请实施例提供的一种基于注意力机制的手势位置预估方法的流程示意图;图2为本申请实施例提供的一种基于注意力机制的手势位置预估装置的结构示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。为了便于理解,请参阅图1,本申请提供的一种基于注意力机制的手势位置预估方法的实施例,包括:步骤101、获取第一时间的第一手势图像,第一时间包括连续的多个时刻。需要说明的是,第一时间是以秒为单位的时间段,一秒为一个时刻,因此,第一时间由多个时刻构成,且为连续的时刻,每个时刻对应一个高质量的手势图像,共同构成了第一手势图像。进一步地,获取第一手势图像的具体过程为:在预置本文档来自技高网
...

【技术保护点】
1.一种基于注意力机制的手势位置预估方法,其特征在于,包括:/n获取第一时间的第一手势图像,所述第一时间包括连续的多个时刻;/n采用预置RNN隐含层处理所述第一手势图像,得到隐含向量,并根据所述隐含向量和预置初始位置计算得到注意力分配系数;/n根据所述隐含向量和所述注意力分配系数计算手势隐含状态分布规律;/n采用预置全连接层处理所述手势隐含状态分布规律,得到手势预估位置;/n获取第二时间的第二手势图像,将所述第二手势图像代替所述第一手势图像,将所述手势预估位置代替所述预置初始位置,返回所述采用预置RNN隐含层处理所述第一手势图像的步骤,直至得到所有所述手势预估位置。/n

【技术特征摘要】
1.一种基于注意力机制的手势位置预估方法,其特征在于,包括:
获取第一时间的第一手势图像,所述第一时间包括连续的多个时刻;
采用预置RNN隐含层处理所述第一手势图像,得到隐含向量,并根据所述隐含向量和预置初始位置计算得到注意力分配系数;
根据所述隐含向量和所述注意力分配系数计算手势隐含状态分布规律;
采用预置全连接层处理所述手势隐含状态分布规律,得到手势预估位置;
获取第二时间的第二手势图像,将所述第二手势图像代替所述第一手势图像,将所述手势预估位置代替所述预置初始位置,返回所述采用预置RNN隐含层处理所述第一手势图像的步骤,直至得到所有所述手势预估位置。


2.根据权利要求1所述的基于注意力机制的手势位置预估方法,其特征在于,所述获取第一时间的第一手势图像,所述第一时间包括连续的多个时刻,包括:
在预置视频素材的每一秒处获取预置数量的初始手势图像;
从所述初始手势图像中选取一张最优手势图像作为对应时刻的预置手势图像;
获取连续预置秒对应的所述预置手势图像作为所述第一手势图像,所述预置秒为所述第一时间,其中一秒为一个时刻。


3.根据权利要求1所述的基于注意力机制的手势位置预估方法,其特征在于,所述根据所述隐含向量和所述注意力分配系数计算手势隐含状态分布规律,包括:
采用预置公式根据所述隐含向量和所述注意力分配系数计算手势隐含状态分布规律,所述预置公式为:



其中,ct为t时刻的手势隐含状态分布规律,Tx为选取手势图像的数量,αt,i为t时刻第i张图像对应的注意力分配系数,为第i张图像对应的隐含向量。


4.根据权利要求1所述的基于注意力机制的手势位置预估方法,其特征在于,所述获取第二时间的第二手势图像,将所述第二手势图像代替所述第一手势图像,将所述手势预估位置代替所述预置初始位置,返回所述采用预置RNN隐含层处理所述第一手势图像的步骤,直至得到所有所述手势预估位置,之后还包括:
根据所述手势预估位置在显示器上进行预估手势位置显示操作。


5.一种基于注意力机制的手势位置预估装置,其特征在于,包括:
获取模块,用于获取第一时间的第一手势图像,所述第一时间...

【专利技术属性】
技术研发人员:房小兆韩娜周郭许谢胜利滕少华
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1