System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于智能座舱的多模态手势识别方法技术_技高网

一种基于智能座舱的多模态手势识别方法技术

技术编号:40198372 阅读:11 留言:0更新日期:2024-01-27 00:02
本申请提供一种基于智能座舱的多模态手势识别方法,包括:采集车内驾驶员姿态和手势信息,以视频帧的形式传递给后台服务器处理;通过预先设置的多模态网络模型分别对人体姿态和手部深度图像进行识别,两者经由多模态网络处理得到相应识别结果并送入前端界面;根据识别到的手部动作车内进行相应反馈。相比于现有技术,本申请通过结合人体姿态信息和手部深度图像信息,在车内环境中有效利用了人体姿态信息,增强对于手部信息的收集和识别,并解决了在异常环境下手部识别准确率较低,反馈慢的缺点。本申请还制作了可交互的前端界面,方便驾驶员通过手部动作控制车辆的目的,提升了智能座舱的可交互性和便捷性。

【技术实现步骤摘要】

本专利技术涉及机器视觉图像处理领域,尤其涉及一种基于智能座舱的多模态手势识别方法


技术介绍

1、近年来,随着传统车内交互设备受到车内硬件设备的限制,能够实现便捷人机交互无意识当下的热门发展方向。而智能座舱作为集成了多种便捷交互的新宠,成为了发展的主流方向之一。我国在智能汽车的大力投入,无疑证明了该赛道有着广阔的发展空间。智能座舱作为智能汽车主要的组成部分,能够很多程度上决定了驾驶员的驾驶体验。手势识别作为人机交互领域的主要领域之一,在智能座舱中无疑是不可取代的重要一员。

2、传统的手势识别存在诸多问题,就车内的复杂环境而言,相较于一般环境的广阔视野,无遮挡物等情况,车内具有较强的对于光线的依赖、有多种遮挡、存在多个识别目标、无法搭载服务器等特点。这些特点使得传统手势识别无法做到准确的识别,受到较为严重的环境影响,受到干扰后无法准确识别,且识别速度较慢。

3、而利用深度学习的方法进行车内驾驶员手势识别固然相较于传统方式能够摆脱受干扰的影响,但是深度学习依赖模型的结构和服务器算力,而车内无法构建服务器使得无法达到实时识别的效果,也就失去了其使用价值。单一深度学习的手部识别方法已经无法满足智能座舱的复杂需求。

4、故而随着科技的发展,多种模态相结合的识别模式成为了更合适的研究方向。


技术实现思路

1、为克服现有的手势识别存在的不足,本专利技术主要提供了一种基于智能座舱的多模态手势识别方法,在服务器端部署多模态网络模型,通过车内摄像头将视频帧通过网络传送到服务器端,经过识别后发送回前端界面,通过本地接受相关结果,执行预先设置的用户指令,实现智能座舱内的实时人机交互,提高驾驶员的驾驶体验。

2、根据本申请的一个方面,提供了一种基于智能座舱的多模态手势识别方法,包括以下步骤:

3、采集车内驾驶员姿态和手势信息,以视频帧的形式传递给后台服务器处理;

4、通过预先设置的多模态网络模型分别对人体姿态和手部深度图像进行识别,两者经由多模态网络处理得到相应识别结果并送入前端界面;

5、根据识别到的手部动作车内进行相应反馈。

6、在其中的一实施例,该方法还包括:

7、步骤1:收集车内人体姿态和手部动作图像,结合chalearn congd数据集和kinect数据集,构建所需数据集;

8、步骤2:将步骤1得到的目标数据集进行数据预处理,对人体姿态图像使用轻量化的时空图卷积进行训练,得到目标人体姿态特征信息,获得能够识别车内驾驶员人体姿态信息的网络模型,并得到初步的手部姿态结果;

9、步骤3:将步骤2得到的目标数据集进行数据预处理,去除重复帧和无法识别项,对手部图像提取深度图像,获得能够识别车内驾驶员手部指令的网络模型;

10、步骤4:将步骤2,步骤3中获得的两个网络模型处理过的图像特征送入到多模态网络中,使用人体姿态特征辅助手部深度图像进行手部姿态识别,将结果与步骤2得到的结果相比较,得到目标手部动作;

11、步骤5:通过react框架搭建用户界面,使用nginx作为后端服务器,使用python中flask框架搭建后端界面,通过视频流推送实现客户端和后台服务器的互联,同时传送识别结果。

12、步骤6:基于步骤2至步骤5得到的驾驶员动作识别结果,客户端及时对结果进行处理,并执行相应设置好的行为。

13、在其中的一实施例,上述步骤2还包括:

14、步骤2-1:使用轻量化的时空图卷积在骨架序列上构建了无向时空图:

15、g=(v,e)                    (1)

16、其中v为节点特征,e为边特征,为获得节点特征,可以通过:

17、

18、其中表示不同节点特征,t表示不同帧的节点,即时间域,i表示同一帧中不同人体节点,t为骨架序列中的帧数,n为骨架序列中关节点数。

19、步骤2-2:使用lstm网络对时空图卷积提取的特征进行训练,可以得到初步的手部动作类型。

20、在其中的一实施例,上述步骤4还包括:

21、步骤4-1:多模态网络采用交叉注意力机制,利用人体姿态特征信息辅助手部姿态信息的识别。利用手部深度图像的特征,强化人体姿态信息中的手部关节点信息,弱化其他次要信息对于主要识别目标的影响;同时又通过人体姿态信息辅助深度图像,强化其中的手部关节点信息,从而利于最后信息融合时达到较好的融合效果。该机制使用从模态中提取的多维特征映射,并将其表示为x,尺寸为(c,h,w),即:

22、x∈rc×h×w=[x1x2…xc],xc∈rh×w(3)

23、为了挖掘利用通道之间的依赖关系,该机制对特征图从其每个通道的维度大小为(h×w)的特征上进行压缩,并根据公式(4)使用全局平均池化操作获取压缩模态特征的通道描述符z∈rc=[z1z2…zc],zc∈r,根据公式(5)捕获信道依赖关系并获得注意力权值。

24、zc=1/(h×w)∑∑xc(h,w)      (4)

25、β=softmax(w2relu(w1z))      (5)

26、机制对其他模态的特征图进行缩放,充分利用前一步骤中得到的通道描述符达到相互增强的目的,最终获得手部图像的识别结果。

27、步骤4-2:将步骤4-1获得的手部姿态识别结果与步骤2-1至步骤2-2获得的手部识别结果送入到全连接模块中进行比较,从而识别出最终的手部动作。

28、相比于现有技术,本申请的基于智能座舱的多模态手势识别方法具有以下至少一项优点:

29、1)对时空图卷积模型进行轻量化操作,并使用经过裁剪处理的数据集进行训练,优化了识别速度,提升了识别效率和准确率。

30、2)创新性地采用人体姿态和手部深度图像两种模态,作为多模态识别的识别模态,并添加了交叉注意力机制,使得手部识别能充分利用人体姿态信息,弥补因遮挡或光线问题导致的手部识别准确率较低的问题,并且通过人体姿态信息排除了手部深度图像中的副通道干扰,增强了主通道的性能。

31、3)采用前后端分离的思想,将服务器部署在后端,摆脱车内环境限制,不需要在安装繁重的服务器,只需要通过数据上传的方式即可实现实时识别。

32、4)经过测试,本专利技术改进的轻量化时空图卷积模型相较于最初模型大小下降了30%。而多模态网络模型相较于单一手势识别模型识别准确率提升了12.1%,达到了95.6%,服务器识别帧率达到35fps,相较于未采用交叉注意力机制的单纯结合人体姿态和手部深度图像的模型,识别准确率提升了6.2%,说明本专利技术识别准确率、速度局符合智能座舱内的手势识别实时性的要求。

本文档来自技高网...

【技术保护点】

1.一种基于智能座舱的多模态手势识别方法,该方法采用了多模态网络,针对手部动作进行动作识别,其特征在于,所述多模态手势识别方法包括如下步骤:

2.根据权利要求1中所述的多模态手势识别方法,其特征在于,该方法还包括:

3.根据权利要求2所述的多模态手势识别方法,其特征在于,上述步骤2还包括:

4.根据权利要求2所述的多模态手势识别方法,其特征在于,上述步骤4还包括:

【技术特征摘要】

1.一种基于智能座舱的多模态手势识别方法,该方法采用了多模态网络,针对手部动作进行动作识别,其特征在于,所述多模态手势识别方法包括如下步骤:

2.根据权利要求1中所述的多模态手势识别方法,其...

【专利技术属性】
技术研发人员:杨志卫刘向东唐焱鑫王安南束智勇杨沁泽吴胜昔
申请(专利权)人:华东理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1