静态图像行为识别的卷积神经网络模型制造技术

技术编号:23239503 阅读:57 留言:0更新日期:2020-02-04 18:43
本发明专利技术公开了一种静态图像行为识别的卷积神经网络模型,涉及图像处理方法技术领域。所述模型包括:VGG16卷积层模块,用于对输入的图像进行处理;多分支卷积层模块,用于通过不同的分支来分别学习VGG16卷积层模块最后一层输出的特征,该模块的卷积层权重在训练过程中随机初始;softmax分类器层模块,用于对三分支卷积层模块输出的特征进行分类。所述模型可以更加有效的探索VGG16卷积层模块通道中的信息,而且可起到了微调神经网络中最高层权重的效果;因此,可以更加有效的辨识出单幅静态人类行为图像中的动作信息。

Convolution neural network model for static image behavior recognition

【技术实现步骤摘要】
静态图像行为识别的卷积神经网络模型
本专利技术涉及图像处理方法
,尤其涉及一种静态图像行为识别的卷积神经网络模型。
技术介绍
人类行为识别是计算机视觉领域的重要研究内容之一。大部分关于人类行为识别的研究都是基于视频而不是单幅图像的方法,但是有很多常见的人类行为可以通过单幅图像就可以很充分地表示一个行为,例如,打电话、电脑交互、射击等。即使这些动作的视频信息可用,但是仍然需要基于静态线索的方法,例如弹吉他、骑马、跑步等,也就是说这些人类行为的运动幅度小,运动轨迹没有辨别性,因此识别这些动作还是要采用基于单幅图像的静态方法。基于深度学习的算法在计算机视觉领域取得了巨大的成果,具体地,在人脸识别、目标位置预测等领域已经被广泛应用。基于视频的人类行为识别其本质是在连续变化的图像帧序列上的动作分析和分类问题。卷积神经网络(ConvolutionalNeuralNetworks,CNNs)是当前图像识别领域中主流的分类模型,但是现实生活中的大量人类行为类别具有静态属性,从而致使基于视频的人类行为识别技术在该种类的人类行为识别中失效。因此,为了解决这个问题,本专利技术专利开发一种应用于静态图像行为识别的卷积神经网络模型。
技术实现思路
本专利技术所要解决的技术问题是如何提供一种应用于静态图像行为识别的卷积神经网络模型。为解决上述技术问题,本专利技术所采取的技术方案是:一种静态图像行为识别的卷积神经网络模型,其特征在于包括:VGG16卷积层模块,用于对输入的图像进行多次的卷积和池化处理,提取具有判别性的深度特征;多分支卷积层模块,用于通过不同的分支来分别学习VGG16卷积层模块最后一层输出的特征,该模块的卷积层权重在训练过程中随机初始;softmax分类器层模块,用于对三分支卷积层模块输出的特征进行分类。进一步的技术方案在于,所述多分支卷积层模块设置三个不同的分支:第一个分支包括一个卷积层,采用1×1的卷积核,过滤器个数为128;第二个分支包括两个卷积层,第一个卷积层与第一分支一样,第二个卷积层,采用3×3的卷积核,过滤器个数为128;第三个分支包括一个平均池化层和一个卷积层,平均池化层的池化大小为3×3,卷积层采用3×3的卷积核,过滤器个数为128。进一步的技术方案在于:所述softmax分类器层模块包括三个全连接层,第一层和第二层大小为2048,在这两个层中添加L2正则化项,并且将该正则化项系数的权重设置为0.001,第三层大小为7。进一步的技术方案在于,所述网络模型的训练过程如下:权重初始阶段:VGG16卷积层模块的权重由预训练VGG16模型的权重初始;多分支卷积层模块和softmax分类器层模块的权重随机初始;权重训练阶段:VGG16卷积层模块的权重被冻结,在训练过程中这个模块的所有权重固定不变;多分支卷积层模块和softmax分类器层模块的权重通过优化算法进行调整;数据增强阶段:在训练过程中通过对数据进行转换变化操作产生更多的数据,具体的参数设置如下:旋转参数范围:0-90度,宽度移位范围:0-0.2,高度移位范围:0-0.2,斜切变化范围:0-0.2,并且设置水平和垂直翻转。采用上述技术方案所产生的有益效果在于:本申请中多分支卷积层模块中设置有三个分支,可以通过不同的分支来分别学习VGG16卷积层模块最后一层的特征,这样可以更加有效的探索其通道中的信息。而且该模块的卷积层权重在训练过程中随机初始,因此也起到了微调神经网络中最高层权重的效果;此外,本申请中softmax分类器层模块设置了L2正则化项,可以有效的预防模型训练过程中的过拟合问题,综上本申请所述模型可以更加有效的完成静态图像行为识别任务。附图说明下面结合附图和具体实施方式对本专利技术作进一步详细的说明。图1是本专利技术实施例所述网络模型的原理框图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是本专利技术还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况下做类似推广,因此本专利技术不受下面公开的具体实施例的限制。如图1所示,本专利技术实施例公开了一种静态图像行为识别的卷积神经网络模型,包括:VGG16卷积层模块,用于对输入的图像进行多次的卷积和池化处理,提取具有判别性的深度特征;多分支卷积层模块,用于通过不同的分支来分别学习VGG16卷积层模块最后一层输出的特征,该模块的卷积层权重在训练过程中随机初始;softmax分类器层模块,用于对三分支卷积层模块输出的特征进行分类。具体的,如图1所示,多分支卷积层模块设置了三个不同的分支:a)第一个分支由一个卷积层,采用1×1的卷积核,过滤器个数为128;b)第二个分支有两个卷积层,第一个卷积层是同a)一样,第二个卷积层,采用3×3的卷积核,过滤器个数为128;c)第三个分支有一个平均池化层和一个卷积层,平均池化层的池化大小为3×3,卷积层采用3×3的卷积核,过滤器个数为128;softmax分类器层模块增加三个分支的优点是:可以通过不同的分支来分别学习VGG16卷积层模块最后一层的特征,这样可以更加有效的探索其通道中的信息。而且该模块的卷积层权重在训练过程中随机初始,因此也起到了微调神经网络中最高层权重的效果。softmax分类器层模块:该模块设置了三个全连接层,第一层和第二层大小为2048,而且为了预防过拟合问题,在这两个层中添加了L2正则化项,并且将该正则化项系数的权重设置为0.001,第三层大小为7,与分类任务一致。所述模型的具体结构如表1所示:表1:NCNN模型的具体网络结构训练过程:(a)权重初始阶段:VGG16卷积层模块的权重由预训练VGG16模型的权重初始;多分支卷积层模块和softmax分类器层模块的权重随机初始。(b)权重训练阶段:VGG16卷积层模块的权重被冻结,就是在训练过程中这个模块的所有权重固定不变;多分支卷积层模块和softmax分类器层模块的权重通过优化算法进行调整。(c)数据增强:模型发生过拟合问题的一个重要因素就是样本量不够。因此本专利技术采用深度学习中常用的数据增强手段,在训练过程中通过对数据进行转换变化操作从而产生更多的数据:在本专利技术中,具体的参数设置如下,旋转参数范围:0-90度,宽度移位范围:0-0.2,高度移位范围:0-0.2,斜切变化范围:0-0.2,并且设置水平和垂直翻转。本文档来自技高网...

【技术保护点】
1.一种静态图像行为识别的卷积神经网络模型,其特征在于包括:/nVGG16卷积层模块,用于对输入的图像进行多次的卷积和池化处理,提取具有判别性的深度特征;/n多分支卷积层模块,用于通过不同的分支来分别学习VGG16卷积层模块最后一层输出的特征,该模块的卷积层权重在训练过程中随机初始;/nsoftmax分类器层模块,用于对三分支卷积层模块输出的特征进行分类。/n

【技术特征摘要】
1.一种静态图像行为识别的卷积神经网络模型,其特征在于包括:
VGG16卷积层模块,用于对输入的图像进行多次的卷积和池化处理,提取具有判别性的深度特征;
多分支卷积层模块,用于通过不同的分支来分别学习VGG16卷积层模块最后一层输出的特征,该模块的卷积层权重在训练过程中随机初始;
softmax分类器层模块,用于对三分支卷积层模块输出的特征进行分类。


2.如权利要求1所述的静态图像行为识别的卷积神经网络模型,其特征在于:所述多分支卷积层模块设置三个不同的分支,
第一个分支包括一个卷积层,采用1×1的卷积核,过滤器个数为128;
第二个分支包括两个卷积层,第一个卷积层与第一分支一样,第二个卷积层,采用3×3的卷积核,过滤器个数为128;
第三个分支包括一个平均池化层和一个卷积层,平均池化层的池化大小为3×3,卷积层采用3×3的卷积核,过滤器个数为128。


3.如权利要求1所述的静...

【专利技术属性】
技术研发人员:于祥春张哲吴垒庞巍陈贺昌于哲舟李斌
申请(专利权)人:江西理工大学
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1