一种结合多模态帧间运动和共享注意力权重的动态手势识别方法技术

技术编号：41460296 阅读：16 留言：0更新日期：2024-05-28 20:45

本发明专利技术公开了一种结合多模态帧间运动和共享注意力权重的动态手势识别方法，旨在解决现有技术中视频存在冗余信息，对运动手部特征难以进行准确捕捉等问题，其包括获取动态手势视频；对动态手势视频进行预处理，得到动态手势视频帧序列；根据动态手势视频帧序列，基于预训练的动态手势识别模型，对动态手势进行识别，得到动态手势含义类别等步骤，所述动态手势识别模型包括依次连接的嵌入模块、特征提取模块、帧间运动注意力模块、自适应融合下采样模块以及全连接层。本发明专利技术能够将时空维度的搜索区域减少为与手部相关的区域，在减少计算量的同时可以提升动态手势识别精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种结合多模态帧间运动和共享注意力权重的动态手势识别方法，属于手势识别。

技术介绍

1、在许多场景下，手势是一种基本的交流方式，比如日常的打招呼、交警的指挥手势，更加典型的有聋哑人使用的手语。手势本质上是一种语言类型，在现实生活中，它和口语表达一样是连续和动态的，通过随着时间变化和运动的手部姿态来表达含义。手势识别是让计算机理解目标手势的含义，而基于计算机视觉的动态手势识别是指通过特定算法对摄像头捕获的视频进行解析，进而对手势进行分类，它在人机交互方面有非常多的应用场景，比如虚拟现实、手语翻译、临床医疗等。

2、在动态手势识别中，复杂的背景往往是静止不动或者是小幅运动的，也就是说在手势数据中，手部是最主要的运动物体，而这种运动明显的特性恰好能够帮助模型将与手部不相关的冗余信息排除在外，实现对运动手部特征的准确提取，提高手势识别准确性。

3、随着深度学习的兴起，越来越多视频理解方面的神经网络被创建出来，但动态手势识别相比其他视频理解领域更加关注手部动作，它主要依靠每一帧中手部的信息以及帧与帧之间手部的...

【技术保护点】

1.一种结合多模态帧间运动和共享注意力权重的动态手势识别方法，其特征在于，包括：

2.根据权利要求1所述的结合多模态帧间运动和共享注意力权重的动态手势识别方法，其特征在于，对动态手势视频进行预处理，得到动态手势视频帧序列，包括：将动态手势视频处理为多帧图像；

3.根据权利要求1所述的结合多模态帧间运动和共享注意力权重的动态手势识别方法，其特征在于，所述嵌入模块由步长为(2,4,4)的3D卷积层和位置编码层组成，所述3D卷积层用于对动态手势视频数据进行局部特征提取的同时扩展通道维数，使得视频帧序列映射到高维度向量空间，所述位置编码层采用可学习参数矩阵，其用于将视频帧...

【技术特征摘要】

1.一种结合多模态帧间运动和共享注意力权重的动态手势识别方法，其特征在于，包括：

3.根据权利要求1所述的结合多模态帧间运动和共享注意力权重的动态手势识别方法，其特征在于，所述嵌入模块由步长为(2,4,4)的3d卷积层和位置编码层组成，所述3d卷积层用于对动态手势视频数据进行局部特征提取的同时扩展通道维数，使得视频帧序列映射到高维度向量空间，所述位置编码层采用可学习参数矩阵，其用于将视频帧序列的维度由b×3×l×h×w转换为b×c×l×h×w，其中，b为批量数，c为嵌入维度，l为帧数，h为帧高，w为帧宽，得到初始特征xraw。

4.根据权利要求1所述的结合多模态帧间运动和共享注意力权重的动态手势识别方法，其特征在于，所述特征提取模块由依次连接的步长为(2,h,w)的3d滑动窗口层、3个卷积层、1个首尾相连的残差连接层以及2个线性层组成，其中h和w为滑...

【专利技术属性】
技术研发人员：张小瑞，曾祥龙，孙伟，陈春辉，黄志文，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人