当前位置: 首页 > 专利查询>清华大学专利>正文

基于3D卷积神经网络的动作识别方法和装置制造方法及图纸

技术编号:17407755 阅读:52 留言:0更新日期:2018-03-07 05:21
本公开涉及一种基于神经网络的动作识别方法和装置,所述方法包括:将待识别视频输入训练好的第一三维神经网络模型进行处理,得到所述待识别视频的动作提取结果;根据所述待识别视频的动作提取结果,确定所述待识别视频的动作实例检测结果;将所述待识别视频输入训练好的第二三维神经网络模型进行处理,得到所述待识别视频的动作类别判别结果;根据所述待识别视频的动作实例检测结果和所述待识别视频的动作类别判别结果,确定所述待识别视频的动作类别。利用两个三维神经网络模型得到的不同的识别结果进行结合,可以提高三维神经网络模型的识别效率,减小单个三维神经网络模型的计算量。

Action recognition method and device based on Neural Network

The invention relates to a method and device for action recognition based on neural network, the method includes: to be the first 3D model of neural network is trained to identify video input processing, get the recognition of video motion extraction results; according to the detected video motion extraction results, test results to determine an action the recognition of video; the second dimensional neural network model is trained to identify the video input processing, get the recognition of video motion category results; according to the detected video as example the detection results and the recognition of video motion category recognition video to determine the discrimination results the action categories. The combination of two different 3D neural network models can improve the recognition efficiency of 3D neural network model and reduce the computation amount of a single 3D neural network model.

【技术实现步骤摘要】
基于神经网络的动作识别方法和装置
本公开涉及神经网络
,尤其涉及一种基于神经网络的动作识别方法和装置。
技术介绍
动作定位一般分为两种,一种是仅在空间中定位,另一种是时空同时定位。在较长且有多个动作执行人同时做动作的视频中,不同的动作实例之间相互影响,重叠。由于神经网络得到的是关于类别的泛化表达,所以传统基于神经网络的定位方法难以区分这些相互交叠动作。在传统的动作定位方法中,一种典型的二维加时间的动作定位框架是在每一帧中检测在移动的人,再在不同的帧间将这些检测出来的人连接在一起,形成一个动作实例。这些算法在检测人的时候仅能够考虑到一帧中的外表特征和动作特征,就导致了神经网络的时间感受域大大减小,动作幅度小的动作与背景难以分开。另外,在评判每一个检测人的检测框时候,由于算法逐帧进行,所以检测框都必须单独通过网络。这导致了计算消耗大大增加。另外,多个动作实例使得在回归出来的得分图中的响应是交叠在一起的,导致普通的三维动作定位的方法难以对多个动作实例进行定位。
技术实现思路
有鉴于此,本公开提出了一种基于神经网络的动作识别方法和装置,用以提高基于神经网络的动作识别方法的准确率和检测效率。根据本公开的另一方面,提供了一种基于神经网络的动作识别方法,所述方法包括:将待识别视频输入训练好的第一三维神经网络模型进行处理,得到所述待识别视频的动作提取结果;根据所述待识别视频的动作提取结果,确定所述待识别视频的动作实例检测结果;将所述待识别视频输入训练好的第二三维神经网络模型进行处理,得到所述待识别视频的动作类别判别结果;根据所述待识别视频的动作实例检测结果和动作类别判别结果,确定所述待识别视频的动作类别。在一种可能的实现方式中,所述待识别视频的动作提取结果,包括;所述待识别视频中每帧图像属于一个动作实例中的一个动作位置的第一概率,以及所述待识别视频中的动作起始帧和动作结束帧。在一种可能的实现方式中,根据所述待识别视频的动作提取结果,确定所述待识别视频的动作实例检测结果,包括:根据所述待识别视频中每帧图像的第一概率,以及所述待识别视频中的动作起始帧和动作结束帧,计算每帧图像中的动作检测框;根据所述动作检测框计算每帧图像间的检测框匹配值;根据所述检测框匹配值,确定所述待识别视频的动作实例检测框。在一种可能的实现方式中,所述待识别视频的动作类别判别结果,包括:每帧图像上的像素所对应的动作类别概率。在一种可能的实现方式中,根据所述待识别视频的动作实例检测结果和动作类别判别结果,确定所述待识别视频的动作类别,包括:在每帧图像上的像素所对应的动作类别概率中,确定所述动作实例检测框中的像素所对应的动作类别;根据所述动作实例检测框中的像素所对应的动作类别,确定所述待识别视频的动作类别。在一种可能的实现方式中,将所述待识别视频输入训练好的第一三维神经网络模型进行处理,得到所述待识别视频的动作提取结果,包括:将所述待识别视频输入训练好的二维神经网络模型,获取特征值;将所述特征值输入训练好的第一三维神经网络模型进行处理,得到所述待识别视频的动作提取结果;将所述待识别视频输入训练好的第二三维神经网络模型进行处理,得到所述待识别视频的动作类别判别结果,包括:将所述待识别视频输入训练好的二维神经网络模型,获取特征值;将所述特征值输入训练好的第二三维神经网络模型进行处理,得到所述待识别视频的动作类别判别结果。根据本公开的另一方面,提供了一种基于神经网络的动作识别装置,包括:第一三维识别模块,用于将待识别视频输入训练好的第一三维神经网络模型进行处理,得到所述待识别视频的动作提取结果;动作提取结果处理模块,用于根据所述待识别视频的动作提取结果,确定所述待识别视频的动作实例检测结果;第二三维识别模块,用于将所述待识别视频输入训练好的第二三维神经网络模型进行处理,得到所述待识别视频的动作类别判别结果;动作类别确定模块,用于根据所述待识别视频的动作实例检测结果和动作类别判别结果,确定所述待识别视频的动作类别。在一种可能的实现方式中,所述待识别视频的动作提取结果,包括;所述待识别视频中每帧图像属于一个动作实例中的一个动作位置的第一概率,以及所述待识别视频中的动作起始帧和动作结束帧。在一种可能的实现方式中,所述动作提取结果处理模块,包括:动作检测框计算子模块,用于根据所述待识别视频中每帧图像的第一概率,以及所述待识别视频中的动作起始帧和动作结束帧,计算每帧图像中的动作检测框;匹配值计算子模块,用于根据所述动作检测框计算每帧图像间的检测框匹配值;动作实例确定子模块,用于根据所述检测框匹配值,确定所述待识别视频的动作实例检测框。在一种可能的实现方式中,所述待识别视频的动作类别判别结果,包括:每帧图像上的像素所对应的动作类别概率。在一种可能的实现方式中,所述动作类别确定模块,包括:第一动作类别确定子模块,用于在每帧图像上的像素所对应的动作类别概率中,确定所述动作实例检测框中的像素所对应的动作类别;第二动作类别确定子模块,用于根据所述动作实例检测框中的像素所对应的动作类别,确定所述待识别视频的动作类别。在一种可能的实现方式中,所述第一三维识别模块,包括:第一二维识别子模块,用于将所述待识别视频输入训练好的二维神经网络模型,获取特征值;第一三维识别子模块,用于将所述特征值输入训练好的第一三维神经网络模型进行处理,得到所述待识别视频的动作提取结果;所述第二三维识别模块,包括:第二二维识别子模块,用于将所述待识别视频输入训练好的二维神经网络模型,获取特征值;第二三维识别子模块,用于将所述特征值输入训练好的第二三维神经网络模型进行处理,得到所述待识别视频的动作类别判别结果。根据本公开的另一方面,提供了一种基于神经网络的动作识别装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述基于神经网络的动作识别方法。根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述基于神经网络的动作识别方法。根据本公开的实施例,利用两个三维神经网络模型对待识别视频进行处理,分别得到动作提取结果和动作类别判别结果。其中,根据动作提取结果确定出待识别视频中的动作实例后,在于动作类别判别结果一起,确定待识别视频中的动作类型。利用两个三维神经网络模型得到的不同的识别结果进行结合,可以提高三维神经网络模型的识别效率,减小单个三维神经网络模型的计算量。根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。附图说明包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。图1示出根据本公开一实施例的基于神经网络的动作识别方法的流程图;图2示出根据本公开一实施例的基于神经网络的动作识别方法的流程图;图3示出根据本公开一实施例的基于神经网络的动作识别方法的流程图;图4示出根据本公开一实施例的基于神经网络的动作识别方法的流程图;图5示出根据本公开一实施例的基于神经网络的动作识别方法中生成单帧动作检测框的示意图;图6示出根据本公开一实施例的基于神经网络的动作识别方法中生成动作实例检测框的示意图;图7示出根据本公开一实施本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201711097227.html" title="基于3D卷积神经网络的动作识别方法和装置原文来自X技术">基于3D卷积神经网络的动作识别方法和装置</a>

【技术保护点】
一种基于神经网络的动作识别方法,其特征在于,所述方法包括:将待识别视频输入训练好的第一三维神经网络模型进行处理,得到所述待识别视频的动作提取结果;根据所述待识别视频的动作提取结果,确定所述待识别视频的动作实例检测结果;将所述待识别视频输入训练好的第二三维神经网络模型进行处理,得到所述待识别视频的动作类别判别结果;根据所述待识别视频的动作实例检测结果和动作类别判别结果,确定所述待识别视频的动作类别。

【技术特征摘要】
1.一种基于神经网络的动作识别方法,其特征在于,所述方法包括:将待识别视频输入训练好的第一三维神经网络模型进行处理,得到所述待识别视频的动作提取结果;根据所述待识别视频的动作提取结果,确定所述待识别视频的动作实例检测结果;将所述待识别视频输入训练好的第二三维神经网络模型进行处理,得到所述待识别视频的动作类别判别结果;根据所述待识别视频的动作实例检测结果和动作类别判别结果,确定所述待识别视频的动作类别。2.根据权利要求1所述的方法,其特征在于,所述待识别视频的动作提取结果,包括;所述待识别视频中每帧图像属于一个动作实例中的一个动作位置的第一概率,以及所述待识别视频中的动作起始帧和动作结束帧。3.根据权利要求2所述的方法,其特征在于,根据所述待识别视频的动作提取结果,确定所述待识别视频的动作实例检测结果,包括:根据所述待识别视频中每帧图像的第一概率,以及所述待识别视频中的动作起始帧和动作结束帧,计算每帧图像中的动作检测框;根据所述动作检测框计算每帧图像间的检测框匹配值;根据所述检测框匹配值,确定所述待识别视频的动作实例检测框。4.根据权利要求3所述的方法,其特征在于,所述待识别视频的动作类别判别结果,包括:每帧图像上的像素所对应的动作类别概率。5.根据权利要求4所述的方法,其特征在于,根据所述待识别视频的动作实例检测结果和动作类别判别结果,确定所述待识别视频的动作类别,包括:在每帧图像上的像素所对应的动作类别概率中,确定所述动作实例检测框中的像素所对应的动作类别;根据所述动作实例检测框中的像素所对应的动作类别,确定所述待识别视频的动作类别。6.根据权利要求1所述的方法,其特征在于,将所述待识别视频输入训练好的第一三维神经网络模型进行处理,得到所述待识别视频的动作提取结果,包括:将所述待识别视频输入训练好的二维神经网络模型,获取特征值;将所述特征值输入训练好的第一三维神经网络模型进行处理,得到所述待识别视频的动作提取结果;将所述待识别视频输入训练好的第二三维神经网络模型进行处理,得到所述待识别视频的动作类别判别结果,包括:将所述待识别视频输入训练好的二维神经网络模型,获取特征值;将所述特征值输入训练好的第二三维神经网络模型进行处理,得到所述待识别视频的动作类别判别结果。7.一种基于神经网络的动作识别装置,其特征在于,包括:第一三维识别模块,用于将待识别视频输入训练好的第一三维神经网络模型进行处理,得到所述待识别视频的动作提取结果;动作提取结果处理模块,...

【专利技术属性】
技术研发人员:季向阳吴嘉林杨武魁王谷
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1