一种基于跨层融合的多模型投票均值动作识别方法技术

技术编号:19635525 阅读:63 留言:0更新日期:2018-12-01 16:11
一种基于跨层融合的多模型投票均值动作识别方法,通过改进动作识别模型,借助多种参数设置,构建多模型投票均值的动作识别系统。利用近似排序池化方法,聚集视频中的运动信息生成一张RGB图像即近似动态图像。对近似动态图像进行水平翻转操作,使得视频数据量翻倍。将视频数据输入到卷积神经网络模型前,对模型进行改进。同时,在将卷积神经网络模型提取到的卷积特征输入全连接层前,对卷积特征进行水平翻转操作,直接增加卷积特征的数据量。多次设置多个不同的参数对模型进行训练,得到多个不同的预训练模型,采用集成学习的思想,构造多模型投票均值的识别系统。本发明专利技术多模型投票均值系统可增强系统的鲁棒性,进一步提高识别率。在工程领域中具有现实的应用价值。

A Multi-Model Voting Mean Action Recognition Method Based on Cross-Level Fusion

A multi-model voting mean action recognition method based on cross-level fusion is proposed. By improving the action recognition model and setting various parameters, a multi-model voting mean action recognition system is constructed. Using the approximate sort pooling method, the motion information in the video is aggregated to generate an RGB image, that is, an approximate dynamic image. Horizontal flipping of approximate dynamic images doubles the amount of video data. Video data is input into the convolution neural network model, and the model is improved. At the same time, before the convolution feature extracted from the convolution neural network model is input into the full connection layer, the convolution feature is reversed horizontally to increase the data volume of the convolution feature directly. Many different parameters are set up to train the model many times, and many different pre-training models are obtained. Using the idea of ensemble learning, a multi-model voting mean recognition system is constructed. The multi-model voting mean system of the invention can enhance the robustness of the system and further improve the recognition rate. It has practical application value in engineering field.

【技术实现步骤摘要】
一种基于跨层融合的多模型投票均值动作识别方法
本专利技术属于计算机视觉领域,涉及动作类视频的预处理、动作识别模型的改进、多个动作动作识别模型的融合以及动作识别。
技术介绍
作为计算机视觉中的重要分支,动作识别主要是采用一系列方法识别视频中的某一动作。目前,对动作识别的研究及应用发展较快,特别是传统的动作识别方法经过几十年的发展,变得更加成熟。比较经典的传统方法可大致分为以下几类:流形学习法、轨迹法和重叠法。而在近些年借助硬件GPU等的快速发展,深度动作识别取得了飞快的发展。比较著名的用于动作识别的模型有AlexNet模型、VGGNet模型、GoogleInceptionNet模型以及ResNet模型,等等。当今许多更高效率的动作识别系统及其应用正在研究和不断探索中。相对于传统的动作识别方法,基于跨层融合的多模型投票动作识别方法中的动作识别模型是深度动作模型,更适合用于提取更有效的人体动作的特征,并且提取的动作特征泛化能力强、更加有利于识别视频中的动作。相对于深度模型相比,本专利技术的跨层融合模型可保证特征在传输过程完整性,即通过跨层融合结构识别前面层的特征直接传输到后面去。此外,在动作识别中,单个动作识别模型的识别率对动作的预处理比较敏感,预处理结果细微的差异或者动作类模糊等等,其动作的识别准确率也会相差甚远,特别是动作类间相似性较高的动作如快跑和慢跑。而基于跨层融合的多模型投票动作识别方法由于是融合了多个动作识别模型,识别的准确率是多个模型的平均值,因此多模型具有较强的鲁棒性。
技术实现思路
本专利技术的目的是提出跨层融合的多模型投票系统的动作识别设计方法。本专利技术通过近似排序池化的方法,将视频压缩成一张RGB图像即近似动态图像,该方法可有效压缩视频数据,减少冗余的视频数据。为避免过度压缩视频数据,并增加卷积神经网络模型训练的数据量,对近似动态图像进行水平翻转操作。同时为增加动作识别模型中全连接层训练的数据量,对模型提取到的卷积特征进行水平翻转,使得全连接的参数可得到充分的训练,为便于描述称此模型为无融合模型。在无融合模型的基础上,参考残差网络模型的等值映射结构,构造跨层融合模型。采用三种视频数据划分方式以及两种生成近似动态图像的顺序在无融合模型以及跨层融合模型上分别进行训练,得到多个不同的分类器。通过集成的思想将所有分类器进行融合,构成多模型投票的动作识别系统。事实上,多模型投票的识别系统比其它单个动作识别系统鲁棒性更强,更具有现实意义,因此其具有重要的实际应用价值。本专利技术通过以下技术方案实现的。本专利技术所述的一种基于跨层融合的多模型投票均值动作识别方法,包括以下步骤:步骤(1):在排序池化操作的基础上,构建近似排序池化的方法聚集视频中的动作信息,生成近似动态图像;步骤(2):对近似动态图像进行水平翻转操作,使得图像的数据量翻倍;步骤(3):在动态网络模型的基础上,对卷积神经网络提取到的动作特征进行水平翻转操作,使得可区别的动作特征数据量翻倍,为便于区分,将此模型定义为无融合模型;步骤(4):对无融合模型添加跨层融合结构,即将模型第二层的输出与模型第五层的输出进行融合,构建跨层融合模型;步骤(5):采用三种数据划分方式以及两种生成近似动态图像的顺序在无融合模型以及跨层融合模型上分别进行训练,得到多个不同的分类器;步骤(6):采用集成学习的思想将多个已训练好的动作模型进行融合,同时借助投票的方法,构成多模型投票均值的动作识别系统;步骤(7):随机抽取验证集中的视频数据,按照步骤(1)的方法生成近似动态图像,并将近似动态图像输入到多模型投票均值的识别系统中,即可得到动作类的识别准确率。所述的近似排序池化是指通过视频的编码函数聚集一段视频中的运动信息。由于相同的动作视频都可用同一个函数近似表示,因此我们可以通过一个函数来表示一类动作。这个函数可聚集视频中的运动信息,将这些运动信息映射到一张RGB图像即可得到动态图像。鉴于卷积神经网络模型中具有大量的归一化操作,因此加快视频的预处理,不对运动信息进行归一化,即可得到近似动态图像。所述三种数据划分方式是指将训练集中的视频数据按照不重叠的方式进行划分,例如:某一动作类有十五个视频数据,第一种数据划分方式是将前十个视频数据当作训练集,后五个视频数据用作验证集;第二种数据划分方式是前五个和后五个视频数据用作训练集,中间五个视频数据用作验证集;第三种数据划分方式是将后十个视频数据用作训练集,前五个视频数据用作验证集。所述的两种生成近似动态图像的顺序是指在将视频帧聚集成近似动态图像时,可以按视频帧的顺序输入,也可以将视频帧按反序输入,这两种方式都可生成近似动态图像,而且生成的近似动态图像都不一样。更进一步地,本专利技术所述的跨层融合的多模型投票均值动作识别系统方法,其具体步骤如下:(S1):近似动态图像设计。在排序池化的基础上:假设有一段共包含N帧的视频I1,I2,...,It,...,IN,其中It表示视频I中的第t帧图像。用式(1)计算从第一帧到第t帧的平均特征向量Vt,其中表示第t帧图像的特征向量。通过优化式(2)学习一个参数向量d*来表示视频信息,其中S(t|d)=dT·Vt用于计算视频第t帧的得分,即用向量d与到t时刻为止的动作特征向量平均值Vt的点积作为It的得分。学习到的最优参数向量d*包含了可对视频帧进行排序的信息,同时也聚集了视频帧中所有的运动信息,因此d*可看作是视频的描述符。向量d*具有与每帧特征向量相同的维度,可以看成是一个特征图像,称为视频的动态图像。虽然借助现代高性能的计算机可进行精确的动态图像运算,但会导致程序的运行时间长且内存消耗大。Bilen等人对排序池化操作进行优化,提出近似排序池化方法,该方法可有效地加快视频动态图像的生成。近似排序池化操作是利用式(2)梯度优化的第一步实现的。设初始通过应用一次梯度下降得到可得其中βt是尺度系数,由推导可知βt=2t-N-1。将平均特征向量Vt用特征向量ψt的平均值形式表达,d*可改写为ψt的线性组合形式,即推导可得系数αt为式(6)所示:αt=2(N-t+1)-(N+1)(HN-Ht-1)(6)式(6)中H0=0。通过式(5)构建了一个产生近似动态图像的系统,对其进行分析,并通过Matlab数值仿真,确定近似动态图像的有效性。(S2):近似动态图像水平翻转,在(S1)基础上对近似动态图像进行水平翻转操作。该方法直接增加近似动态图像的数据量,使得卷积神经网络模型的参数可得到充分训练。(S3):无融合模型。对卷积神经网络模型提取到的卷积特征信息进行水平翻转操作,为便于描述将此模型称为无融合模型。该方法直接增加具有动作可区别性的动作特征信息。(S4):设计跨层融合模型。若卷积神经网络模型的中间层的某一个输入数据是x,期望的输出结果是H(x),如果直接将输入的数据x传到输出作为一个新的初始结果,此时需要学习训练的目标就是F(x)=H(x)-x。即不再学习一个完整的输出H(x),而是学习模型的输出与输入的差H(x)-x。因此这里提出跨层融合模型的融合方法如下:依据卷积网络模型提取到的特征可视化分析方法可知,网络模型的前两层卷积层可提取到的特征主要为颜色和边缘等最底层的特征信息,而第三个卷积层提取到的特征以纹理特征信本文档来自技高网...

【技术保护点】
1.一种基于跨层融合的多模型投票均值动作识别方法,包括以下步骤:步骤(1):在排序池化操作的基础上,构建近似排序池化的方法聚集视频中的动作信息,生成近似动态图像;步骤(2):对近似动态图像进行水平翻转操作,使得图像的数据量翻倍;步骤(3):在动态网络模型的基础上,对卷积神经网络提取到的动作特征进行水平翻转操作,使得可区别的动作特征数据量翻倍,为便于区分,将此模型定义为无融合模型;步骤(4):对无融合模型添加跨层融合结构,即将模型第二层的输出与模型第五层的输出进行融合,构建跨层融合模型;步骤(5):采用三种数据划分方式以及两种生成近似动态图像的顺序在无融合模型以及跨层融合模型上分别进行训练,得到多个不同的分类器;步骤(6):采用集成学习的思想将多个已训练好的动作模型进行融合,同时借助投票的方法,构成多模型投票均值的动作识别系统;步骤(7):随机抽取验证集中的视频数据,按照步骤(1)的方法生成近似动态图像,并将近似动态图像输入到多模型投票均值的识别系统中,即可得到动作类的识别准确率。

【技术特征摘要】
1.一种基于跨层融合的多模型投票均值动作识别方法,包括以下步骤:步骤(1):在排序池化操作的基础上,构建近似排序池化的方法聚集视频中的动作信息,生成近似动态图像;步骤(2):对近似动态图像进行水平翻转操作,使得图像的数据量翻倍;步骤(3):在动态网络模型的基础上,对卷积神经网络提取到的动作特征进行水平翻转操作,使得可区别的动作特征数据量翻倍,为便于区分,将此模型定义为无融合模型;步骤(4):对无融合模型添加跨层融合结构,即将模型第二层的输出与模型第五层的输出进行融合,构建跨层融合模型;步骤(5):采用三种数据划分方式以及两种生成近似动态图像的顺序在无融合模型以及跨层融合模型上分别进行训练,得到多个不同的分类器;步骤(6):采用集成学习的思想将多个已训练好的动作模型进行融合,同时借助投票的方法,构成多模型投票均值的动作识别系统;步骤(7):随机抽取验证集中的视频数据,按照步骤(1)的方法生成近似动态图像,并将近似动态图像输入到多模型投票均值的识别系统中,即可得到动作类的识别准确率。2.如权利要求1所述的一种基于跨层融合的多模型投票均值动作识别方法,其特征在于:所述的近似排序池化是指通...

【专利技术属性】
技术研发人员:罗会兰严源
申请(专利权)人:江西理工大学
类型:发明
国别省市:江西,36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1