一种基于深度学习的动作识别方法技术

技术编号:24855110 阅读:23 留言:0更新日期:2020-07-10 19:08
本发明专利技术公开了一种基于深度学习的动作识别方法,包括如下步骤:对视频帧F进行提取,划分为T*16帧;对每16帧f

【技术实现步骤摘要】
一种基于深度学习的动作识别方法
本专利技术涉及计算机视觉识别
,尤其涉及一种基于深度学习的动作识别方法。
技术介绍
随着计算机视觉技术、机器学习技术、特别是深度学习技术的发展,人体行为识别领域得到了长足的进步,并且该领域具有广阔的应用前景,如人机交互、监控无人化、健身训练、医学仿真等等。随着健身产业的兴起,越来越多的人希望能够得到更多的健身动作指导,但是由于场地和专业人员的有限,人们往往未能够得到实时且准确的指导。但是,我们可以借助于人体行为识别技术,做到足不出户便可以知道所做的健身动作正确与否。且相较于较为复杂多样的行为动作识别,健身动作识别的可操作性更强。因为健身动作通常是在固定视角下,且主体在做重复且频率相对一致的健身动作,如深蹲、俯卧撑、桥等等。如此背景单一、主体运动单一的健身动作可以较为轻易地被机器学习模型所学习。传统的动作识别与评判方法,通常是利用基于光度梯度的局部特征检测算法从视频中提取显著光度变化的兴趣点,然后运用专家知识对其进行空间特性、时间特性或时空特性进行描述;最后在特征空间中建立模型进行学习,如支持向量机、高斯判别模型等。但是此类方法得到的模型泛化性不强。近年来,深度学习的发展十分迅猛,深度学习能够有效地从信息中提取特征,特别是卷积神经网络在图像领域的特征表示,但是其不能直接应用于人体行为此类具有三维信息的视频。且由于健身视频中拍摄的角度不同、动作人的频率不同、动作的多样性等等,使得同一健身动作具有多义性。所以现有的技术根据人体关节点如流程图般定义的判断方法是难以泛化的。而一段健身视频中的有效健身片段是不确定的,所以现有的技术仅仅利用递归模型,如LSTM、贝叶斯滤波、GNU等,往往效果不好,因为它们将无效片段也引入递归模型,使得模型的表现不佳。因此,现有技术需要进一步改进和完善。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于深度学习的动作识别方法。本专利技术的目的通过下述技术方案实现:一种基于深度学习的动作识别方法,该识别方法主要包括如下步骤:步骤S1:对视频帧F进行提取,划分为T*16帧,即F=(f1,f2,...,fT);步骤S2:对每16帧fi进行光流提取得到相应的16张光流图;步骤S3:利用多尺度的3D卷积神经网络分别对连续的16帧RGB图和光流图进行特征提取,分别得到两个特征向量xoriginal和xoptical;步骤S4:将获得的两个特征向量串联在一起得到特征向量xi,维度为d1;步骤S5:重复上述步骤并行处理T次,最终得到一个维度为(d1,T)的特征矩阵X;步骤S6:通过一个以注意力机制为核心构建的一个网络,得到权值矩阵A;步骤S7:将权值矩阵A代入公式M=A*XT获得新的特征矩阵M;步骤S8:将新的特征矩阵M输入至LSTM网络,再经过全连接层的降维,得到特征向量Xfinal;步骤S9:最后利用softmax进行分类,取最大值对应的类别为所识别的动作类别。作为本专利技术的优选方案,所述步骤S1中,如果视频帧F不足16帧,则对最后一帧图像进行复制补充即可。作为本专利技术的优选方案,所述步骤S2的多尺度包含多空间尺度和多时间尺度。作为本专利技术的优选方案,所述步骤S1还包括将视频每一帧图片缩放成224*224像素大小。本专利技术的工作过程和原理是:本专利技术提供一种基于图像流加光流的双流法、3D卷积、多尺度信息融合和注意力机制的深度学习方法,用以有效地解决动作识别面临的多义性、多方式、有效动作序列难以确定等等问题。该方法可以利用任意健身动作视频作为训练集进行训练,不需要截取有效片段。与现有技术相比,本专利技术还具有以下优点:(1)本专利技术所提供的基于深度学习的动作识别方法通过光流提取技术能够充分地利用健身动作的光度梯度变化信息,增强识别效果。(2)本专利技术所提供的基于深度学习的动作识别方法利用多尺度的3D卷积神经网络可以有效地提取视频特征,对视频进行准确、全面的表征。(3)本专利技术所提供的基于深度学习的动作识别方法采用注意力机制网络,通过训练使其能够加权选择出真正有效的健身运动片段,提高识别效果。附图说明图1是本专利技术所提供的基于深度学习的动作识别方法的结构示意图。图2是本专利技术所提供的基于深度学习的动作识别方法的实施例2的流程示意图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本专利技术作进一步说明。实施例1:如图1所示,本实施例公开了一种基于深度学习的动作识别方法,该识别方法主要包括如下步骤:步骤S1:对视频帧F进行提取,划分为T*16帧,即F=(f1,f2,...,fT);步骤S2:对每16帧fi进行光流提取得到相应的16张光流图;步骤S3:利用多尺度的3D卷积神经网络分别对连续的16帧RGB图和光流图进行特征提取,分别得到两个特征向量xoriginal和xoptical;步骤S4:将获得的两个特征向量串联在一起得到特征向量xi,维度为d1;步骤S5:重复上述步骤并行处理T次,最终得到一个维度为(d1,T)的特征矩阵X;步骤S6:通过一个以注意力机制为核心构建的一个网络,得到权值矩阵A;步骤S7:将权值矩阵A代入公式M=A*XT获得新的特征矩阵M;步骤S8:将新的特征矩阵M输入至LSTM网络,再经过全连接层的降维,得到特征向量Xfinal;步骤S9:最后利用softmax进行分类,取最大值对应的类别为所识别的动作类别。作为本专利技术的优选方案,所述步骤S1中,如果视频帧F不足16帧,则对最后一帧图像进行复制补充即可。作为本专利技术的优选方案,所述步骤S2的多尺度包含多空间尺度和多时间尺度。作为本专利技术的优选方案,所述步骤S1还包括将视频每一帧图片缩放成224*224像素大小。本专利技术的工作过程和原理是:本专利技术提供一种基于图像流加光流的双流法、3D卷积、多尺度信息融合和注意力机制的深度学习方法,用以有效地解决健身动作识别面临的多义性、多方式、有效动作序列难以确定等等问题。该方法可以利用任意健身动作视频作为训练集进行训练,不需要截取有效片段。实施例2:本实施例公开了一种基于深度学习的动作识别方法,其整体框架如图1所示,而图2为该模型结构的详细参数以及模型运行步骤:1、将视频每一帧图片缩放成224*224大小,并且以16帧为单位划分成(f1,f2,...,fT)共T个片段;运用TVL1光流法对fi进行光流提取,得到16张x和y方向的光流图。2、16帧RGB图像(维度:224*224*3)和光流图(维度:224*224*2)分别通过结构相同的3D卷积神经网络,3D卷积神经网络结构如图2所示。数字含义代表:3D卷积核(卷积核个数*深度*宽度*高度,步长,(填充)),池化层(深度*宽度本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的动作识别方法,其特征在于,包括如下步骤:/n步骤S1:对视频帧F进行提取,划分为T*16帧,即F=(f

【技术特征摘要】
1.一种基于深度学习的动作识别方法,其特征在于,包括如下步骤:
步骤S1:对视频帧F进行提取,划分为T*16帧,即F=(f1,f2,...,fT);
步骤S2:对每16帧fi进行光流提取得到相应的16张光流图;
步骤S3:利用多尺度的3D卷积神经网络分别对连续的16帧RGB图和光流图进行特征提取,分别得到两个特征向量xoriginal和xoptical;
步骤S4:将获得的两个特征向量串联在一起得到特征向量xi,维度为d1;
步骤S5:重复上述步骤并行处理T次,最终得到一个维度为(d1,T)的特征矩阵X;
步骤S6:通过一个以注意力机制为核心构建的一个网络,得到权值矩阵A;
步骤S7:将权值矩阵A代入公式M=A*...

【专利技术属性】
技术研发人员:张宏叶汉京何力管贻生黄兴鸿陈广诚
申请(专利权)人:佛山市南海区广工大数控装备协同创新研究院佛山市广工大数控装备技术发展有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1