【技术实现步骤摘要】
一种基于高效卷积神经网络的多模态融合手势识别方法
本专利技术属于图像处理
,具体涉及一种基于高效卷积神经网络的多模态融合手势识别方法。
技术介绍
手势识别系统是人机交互领域中一项重要的研究议题,在虚拟/增强现实、智能驾驶、智能家居等领域有着广泛应用。考虑到价格和普及性,普通彩色摄像头是手势识别系统的主流设备。在实际使用过程中,由手型和运动轨迹混淆带来的错误分类不可避免的降低了手势分类的精度,对一些鲁棒性与精度要求极高的应用造成了诸多不便。因此在保证实时性的前提下,降低易混淆手势的错误率,提高手势分类的精度有着非常重要的应用前景。目前的二维手势识别算法通常是从视频序列中提取特征并将视频序列对应到正确的类别。因此在一定程度上,手势识别也可视为视频分类问题。提取视频序列上的特征,该过程大致可分为传统方法和基于神经网络的方法。传统方法主要是从视频序列中提取一些手工特征,比如方向梯度直方图、密集轨迹算法等,但由于手势和周围环境的复杂性,这些方法很难满足于实际应用的需求。另一种方法主要基于神经网络,比如三维卷积神经网络、循环神经网络、双流卷积神经网络、时序分割卷积神经网 ...
【技术保护点】
1.一种基于高效卷积神经网络的多模态融合手势识别方法,其特征在于,包括如下步骤:步骤1、视频序列预处理:将数据集中的一段手势视频序列V平均分割为多段片段,再从每段片段中随机选择一帧彩色图像形成新的彩色图像序列F;然后将视频序列V逐帧做帧差生成帧差序列M;步骤2、数据层融合:针对彩色图像序列F中的各帧彩色图像,在帧差序列M找到相同索引值的帧差图像,将该帧差图像以及该帧差图像的前m‑1帧的帧差图像并连同该彩色图像,按索引值次序组成一帧具有(3+m)通道数的多通道融合图像;m取值范围为1至4;遍历彩色图像序列F中的每一帧彩色图像后,最终形成一段具有N张多通道融合图像的序列{F
【技术特征摘要】
1.一种基于高效卷积神经网络的多模态融合手势识别方法,其特征在于,包括如下步骤:步骤1、视频序列预处理:将数据集中的一段手势视频序列V平均分割为多段片段,再从每段片段中随机选择一帧彩色图像形成新的彩色图像序列F;然后将视频序列V逐帧做帧差生成帧差序列M;步骤2、数据层融合:针对彩色图像序列F中的各帧彩色图像,在帧差序列M找到相同索引值的帧差图像,将该帧差图像以及该帧差图像的前m-1帧的帧差图像并连同该彩色图像,按索引值次序组成一帧具有(3+m)通道数的多通道融合图像;m取值范围为1至4;遍历彩色图像序列F中的每一帧彩色图像后,最终形成一段具有N张多通道融合图像的序列{F1,F2,...,FN};N表示手势视频序列V被分成的段数;步骤3、将步骤2获得的多段具有N张...
【专利技术属性】
技术研发人员:陈靖,王靖尧,樊蕾,乔媛媛,任杰,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。