【技术实现步骤摘要】
基于视觉和骨架信息融合的手语识别方法、装置及系统
[0001]本专利技术属于手语识别
,具体涉及一种基于视觉和骨架信息融合的手语识别方法、装置及系统。
技术介绍
[0002]随着视频采集、人机交互以及虚拟现实技术的快速发展,基于视频图像的手语识别研究在国际上受到了越来越多的关注。手语实时通信已成为当前计算机视觉与模式识别领域的一个重要课题。由于人的骨架中包含丰富的动作特征信息,以及RGB图像数据中含有重要的人体表观纹理信息,为此,可以通过分析动态骨架模态与运动模式的关系,或者分析动态RGB图像表观与运动模式的关系,实现手语识别。
[0003]尽管基于RGB图像的手语识别方法和基于骨架的手语识别方法在端到端手语识别方面取得了不错的成就,但是,这些研究主要集中在特定的单一模态,往往导致解决手语识别方案的泛化能力有限。例如:RGB图像容易受光线、角度等的影响,而骨架中的骨骼点数据多指人体关键点序列(如手肘、手腕、膝盖等关键点),但是在难以获取高质量关键点的情况下,手语识别的性能会受到较大影响。因此,这就提出了一些重要 ...
【技术保护点】
【技术特征摘要】
1.一种基于视觉和骨架信息融合的手语识别方法,其特征在于,包括:将获取到的手语视频图像数据和手语骨架热图数据分别输入至由3D卷积构成的第一采样层和第二采样层,获得第一特征图数据和第二特征图数据;将所述第一特征图数据和第二特征图数据分别输入至预设的基于多维度注意力增强的3D残差卷积神经网络,获得手语视频图像时空特征和手语骨架热图的时空特征;其中,所述3D残差卷积神经网络包括两个结构相同的子网络,各子网络均包括顺次设置的第一残差模块、第二残差模块和第三残差模块,且各残差模块分别连接多维度注意力增强模块;基于所述视频图像特征和骨架热图特征分别进行多模态手语动作预测,并对这两种模态的预测输出进行晚融合,完成基于视觉和骨架信息融合的手语识别。2.根据权利要求1所述的一种基于视觉和骨架信息融合的手语识别方法,其特征在于:所述手语视频图像数据的获取方法包括:将获取到的手语视频转化成图像数据,得到所述的手语视频图像数据;所述手语骨架热图数据的获取方法包括:利用OpenPose库从所述手语视频图像数据中获取手语相关的骨架信息,然后转化成所述手语骨架热图数据。3.根据权利要求1所述的一种基于视觉和骨架信息融合的手语识别方法,其特征在于:所述第一残差模块由L个卷积核组成,L为控制残差块层数的系数;所述第二残差模块由L个卷积核构成;所述第三残差模块由L个卷积核构成。4.根据权利要求1所述的一种基于视觉和骨架信息融合的手语识别方法,其特征在于:所述多维度注意力增强模块包括顺次设置的空间注意模块、时间注意模块和通道注意模块;将残差模块输出的特征图数据x输入至空间注意模块中,由所述空间注意模块沿着空间维度生成空间注意力图将所述空间注意力图以残差方式点乘到输入的特征图数据χ,生成特征图数据χ
s
;将所述特征图数据χ
s
与特征图数据χ进行残差连接,生成特征图数据χ
s
′
;将特征图数据x
s
′
输入至时间注意模块中,由所述时间注意模块沿着时间维度生成时间注意力图将所述时间注意力图以残差方式点乘到输入的特征图数据x
s
′
,生成特征图数据χ
t
;将所述特征图数据χ
t
与特征图数据χ
s
′
进行残差连接,生成特征图数据χ
t
′
;将特征图数据χ
t
′
输入至通道注意模块中,由所述通道注意模块沿着通道维度生成通道注意力图将所述通道注意力图以残差方式点乘到输入的特征图数据χ
t
′
,生成特征图数据χ
c
;
将所述特征图数据χ
t
与特征图数据χ
t
′
进行残差连接,生成特征图数据χ
′
c
。5.根据权利要求4所述的一种基于视觉和骨架信息融合的手语识别方法,其特征在于:所述空间注意力图的表达式为:其中,表示残差模块输出的特...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。