基于3D卷积神经网络的动作识别方法和装置制造方法及图纸

技术编号：17407755 阅读：52 留言：0更新日期：2018-03-07 05:21

本公开涉及一种基于神经网络的动作识别方法和装置，所述方法包括：将待识别视频输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果；根据所述待识别视频的动作提取结果，确定所述待识别视频的动作实例检测结果；将所述待识别视频输入训练好的第二三维神经网络模型进行处理，得到所述待识别视频的动作类别判别结果；根据所述待识别视频的动作实例检测结果和所述待识别视频的动作类别判别结果，确定所述待识别视频的动作类别。利用两个三维神经网络模型得到的不同的识别结果进行结合，可以提高三维神经网络模型的识别效率，减小单个三维神经网络模型的计算量。

Action recognition method and device based on Neural Network

The invention relates to a method and device for action recognition based on neural network, the method includes: to be the first 3D model of neural network is trained to identify video input processing, get the recognition of video motion extraction results; according to the detected video motion extraction results, test results to determine an action the recognition of video; the second dimensional neural network model is trained to identify the video input processing, get the recognition of video motion category results; according to the detected video as example the detection results and the recognition of video motion category recognition video to determine the discrimination results the action categories. The combination of two different 3D neural network models can improve the recognition efficiency of 3D neural network model and reduce the computation amount of a single 3D neural network model.

全部详细技术资料下载

【技术实现步骤摘要】
基于神经网络的动作识别方法和装置
本公开涉及神经网络
，尤其涉及一种基于神经网络的动作识别方法和装置。
技术介绍
动作定位一般分为两种，一种是仅在空间中定位，另一种是时空同时定位。在较长且有多个动作执行人同时做动作的视频中，不同的动作实例之间相互影响，重叠。由于神经网络得到的是关于类别的泛化表达，所以传统基于神经网络的定位方法难以区分这些相互交叠动作。在传统的动作定位方法中，一种典型的二维加时间的动作定位框架是在每一帧中检测在移动的人，再在不同的帧间将这些检测出来的人连接在一起，形成一个动作实例。这些算法在检测人的时候仅能够考虑到一帧中的外表特征和动作特征，就导致了神经网络的时间感受域大大减小，动作幅度小的动作与背景难以分开。另外，在评判每一个检测人的检测框时候，由于算法逐帧进行，所以检测框都必须单独通过网络。这导致了计算消耗大大增加。另外，多个动作实例使得在回归出来的得分图中的响应是交叠在一起的，导致普通的三维动作定位的方法难以对多个动作实例进行定位。
技术实现思路
有鉴于此，本公开提出了一种基于神经网络的动作识别方法和装置，用以提高基于神经网络的动作识别方法的准确率和检测效率。根据本公开的另一方面，提供了一种基于神经网络的动作识别方法，所述方法包括：将待识别视频输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果；根据所述待识别视频的动作提取结果，确定所述待识别视频的动作实例检测结果；将所述待识别视频输入训练好的第二三维神经网络模型进行处理，得到所述待识别视频的动作类别判别结果；根据所述待识别视频的动作实例检测结果和动作类别判别...
<a href="http://www.xjishu.com/zhuanli/55/201711097227.html" title="基于3D卷积神经网络的动作识别方法和装置原文来自X技术">基于3D卷积神经网络的动作识别方法和装置</a>

【技术保护点】
一种基于神经网络的动作识别方法，其特征在于，所述方法包括：将待识别视频输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果；根据所述待识别视频的动作提取结果，确定所述待识别视频的动作实例检测结果；将所述待识别视频输入训练好的第二三维神经网络模型进行处理，得到所述待识别视频的动作类别判别结果；根据所述待识别视频的动作实例检测结果和动作类别判别结果，确定所述待识别视频的动作类别。

【技术特征摘要】
1.一种基于神经网络的动作识别方法，其特征在于，所述方法包括：将待识别视频输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果；根据所述待识别视频的动作提取结果，确定所述待识别视频的动作实例检测结果；将所述待识别视频输入训练好的第二三维神经网络模型进行处理，得到所述待识别视频的动作类别判别结果；根据所述待识别视频的动作实例检测结果和动作类别判别结果，确定所述待识别视频的动作类别。2.根据权利要求1所述的方法，其特征在于，所述待识别视频的动作提取结果，包括；所述待识别视频中每帧图像属于一个动作实例中的一个动作位置的第一概率，以及所述待识别视频中的动作起始帧和动作结束帧。3.根据权利要求2所述的方法，其特征在于，根据所述待识别视频的动作提取结果，确定所述待识别视频的动作实例检测结果，包括：根据所述待识别视频中每帧图像的第一概率，以及所述待识别视频中的动作起始帧和动作结束帧，计算每帧图像中的动作检测框；根据所述动作检测框计算每帧图像间的检测框匹配值；根据所述检测框匹配值，确定所述待识别视频的动作实例检测框。4.根据权利要求3所述的方法，其特征在于，所述待识别视频的动作类别判别结果，包括：每帧图像上的像素所对应的动作类别概率。5.根据权利要求4所述的方法，其特征在于，根据所述待识别视频的动作实例检测结果和动作类别判别结果，确定所述待识别视频的动作类别，包括：在每帧图像上的像素所对应的动作类别概率中，确定所述动作实例检测框中的像素所对应的动作类别；根据所述动作实例检测框中的像素所对应的动作类别，确定所述待识别视频的动作类别。6.根据权利要求1所述的方法，其特征在于，将所述待识别视频输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果，包括：将所述待识别视频输入训练好的二维神经网络模型，获取特征值；将所述特征值输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果；将所述待识别视频输入训练好的第二三维神经网络模型进行处理，得到所述待识别视频的动作类别判别结果，包括：将所述待识别视频输入训练好的二维神经网络模型，获取特征值；将所述特征值输入训练好的第二三维神经网络模型进行处理，得到所述待识别视频的动作类别判别结果。7.一种基于神经网络的动作识别装置，其特征在于，包括：第一三维识别模块，用于将待识别视频输入训练好的第一三维神经网络模型进行处理，得到所述待识别视频的动作提取结果；动作提取结果处理模块，...

【专利技术属性】
技术研发人员：季向阳，吴嘉林，杨武魁，王谷，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人