【技术实现步骤摘要】
一种基于深度学习的手姿估计与识别的方法、设备及介质
[0001]本申请涉及视觉识别领域,具体涉及一种基于深度学习的手姿估计与识别的方法、设备及介质。
技术介绍
[0002]手势识别是指通过计算机视觉技术,从图像或视频流中提取手部、身体姿态等信息,识别出用户的手势行为。早期的手势识别方法主要依赖于手势的形状和动作等人工提取的特征,需要手动设计特征提取算法,并且根据规则进行分类,但是由于手工设计的特征可能不够全面,而且无法适应复杂场景,所以准确率和鲁棒性较差。
[0003]手势姿态估计是指通过计算机视觉技术,从图像或视频中检测并估计人手的姿态,该技术主要依赖于从单个或多个传感器中获取的深度图像或RGB图像,并通过机器学习或计算机视觉算法进行处理,以获取手部姿态信息。早期的手势估计方法主要基于传感器,这种方法有一定的局限性,例如精度有限、舒适度较差等问题。这些传感器设备需要与人体接触或者紧密贴合,可能会影响使用者的舒适度和自然行为,因此在长时间的使用过程中可能会引起不适感。此外,传感器设备需要进行校准,才能得到准确的姿态估计结果,也会增加使用的难度和时间成本,这对于一些普通用户而言不太友好。
[0004]手势识别和手势姿态估计是计算机视觉领域中的两个重要问题,而在手部交互场景中,由于手部经常会被物体遮挡,因此利用单目RGB图像来实现手势识别和手势姿态估计仍然具有很大的挑战。
技术实现思路
[0005]为了解决上述问题,本申请提出了一种方法、设备及介质,其中方法包括:
[0006]获取 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的手姿估计与识别的方法,其特征在于,包括:获取目标图像,对所述目标图像进行预处理,以得到中间图像;将所述中间图像输入至预设特征提取模块,以得到所述目标图像对应的第一手部特征以及物体特征;通过手物交互模块对所述第一手部特征以及所述物体特征进行上下文推理,以增强所述第一手部特征,得到第二手部特征;通过将所述第二手部特征输入至多任务联合学习模块,以得到所述目标图像对应的手姿识别结果以及手势识别结果。2.根据权利要求1所述的方法,其特征在于,所述对所述目标图像进行预处理,具体包括:根据预设感兴趣特征,提取所述目标图片中的感兴趣区域图片;对所述感兴趣区域图片进行切割,以得到第一预设尺寸的所述中间图像。3.根据权利要求1所述的方法,其特征在于,所述预设特征提取模块由具有残差神经网路的编码器和RoiAlign算法组成;所述特征提取器采用具有残差连接结构的ResNet
‑
50网络;所述将所述中间图像输入至预设特征提取模块,以得到所述目标图像对应的第一手部特征以及物体特征,具体包括:将第一预设尺寸的所述中间图像传入所述特征提取器,以得到第二预设尺寸的中间特征图;使用RoI Align算法处理所述中间特征图,以在所述中间特征图中分别提取手和物体的特征图,以得到第三预设尺寸下的所述第一手部特征以及所述物体特征。4.根据权利要求1所述的方法,其特征在于,所述通过手物交互模块对所述第一手部特征以及所述物体特征进行上下文推理,以增强所述第一手部特征,得到第二手部特征,具体包括:通过预设的第一参数矩阵将所述第一手部特征转化为键嵌入,通过第二参数矩阵、第三参数矩阵将所述物体特征转化为查询嵌入和值嵌入;改进Transformer模型中的自注意力机制,以提高改进后的Transformer模型的特征表征能力;通过改进后的Transformer模型,对所述第一手部特征以及所述物体特征进行上下文推理,以增强所述第一手部特征,得到第二手部特征。5.根据权利要求4所述的方法,其特征在于,所述通过改进后的Transformer模型,对所述第一手部特征以及所述物体特征进行上下文推理,以增强所述第一手部特征,得到第二手部特征,具体包括:使用k
×
k组卷积,对空间上k
×
k网格内的所有相邻键嵌入进行上下文编码,以使编码后的键嵌入具备上下文信息,并通过1
×
1卷积对值嵌入进行编码;将编码后的所述键嵌入与的哈巡检如拼接,然后通过两个1
×
1卷积和softmax激活函数来生成注意力矩阵;利用深度可分离卷积,捕捉所述第一手部特征的局部特征,然后将所述局部特征与注意力模块输出值进行拼接,以得到键嵌入特征;
将所述键嵌入特征送入由多层感知机和层归一化组成的前馈网络中;将所述前馈网络的输出和键嵌入特征融合,得到所述第二手部特征。6....
【专利技术属性】
技术研发人员:尹青山,冯落落,高岩,
申请(专利权)人:山东新一代信息产业技术研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。