一种用于视频动作识别的串流深度网络模型制造技术

技术编号:21834139 阅读:29 留言:0更新日期:2019-08-10 18:33
本发明专利技术公开了一种用于视频动作识别的串流深度网络模型,视频中动作识别研究从早期的传统方法到近年来的深度学习方法,深度学习方法中结合空间信息和时间信息的双流方法是当前动作识别领域最主流的方法。本发明专利技术基于双流方法进行改进,在空间流上采用迭代交互训练的方式得到一个效果更佳的空间流模型,在时间流上提出一个基于残差网络改进的新型时间特征提取网络,最后联合空间流和时间流各自的分类优势,将训练好的空间流和时间流采用多层分类的方式组成一个整体串流分类模型。该模型方法在UCF101数据集上进行测试,在单个空间流上较原始方法提升了1.21%,在时间流上较原始方法提升了1.42%,在最终模型上较单个的空间流和时间流获得了6%左右的大额提升。

A Serial Stream Depth Network Model for Video Action Recognition

【技术实现步骤摘要】
一种用于视频动作识别的串流深度网络模型
本专利技术属于计算机视觉领域,特别涉及一种用于视频动作识别的串流深度网络模型。
技术介绍
视频中的动作识别是当前计算机视觉领域一个非常活跃和具有挑战性的研究热点。不同于静止的图像分类,一个视频中的动作识别要考虑的不仅有空间信息还有时间信息。虽然在现实生活中也可以看到动作识别的一些实际应用,但只停留在一些比较浅显的应用层次上。目前即使是最好的动作识别方法在面临实际复杂场景的时候,其性能也还远远达不到人们的预期效果。早期的动作识别方法是基于手工特征提取的,随着深度学习、卷积神经网络的兴起,同计算机视觉的其他领域一样,动作识别的研究也渐渐从传统方法转向深度学习方法。然而与计算机视觉的其他领域(图像分类,人脸识别,姿态估计)不同的是:目前深度学习方法在动作识别方向的研究并没有取得突破性的进展,其识别效果也只比传统方法稍胜一筹。同时为了取得更高的准确率,动作识别的深度学习方法扩展出更多的视频特征流,然后通过结合多种特征流提高识别准确率,而其中以视频帧为空间信息的空间流和以描述视频帧之间光流信息的光流图片为时间信息的时间流是识别视频动作效果最好的特征流,为此,我们提出一种用于视频动作识别的串流深度网络模型。
技术实现思路
本专利技术的主要目的在于提供一种用于视频动作识别的串流深度网络模型,可以有效解决
技术介绍
中的问题。为实现上述目的,本专利技术采取的技术方案为:一种用于视频动作识别的串流深度网络模型,构建串流深度网络模型包括以下步骤:步骤(1):将视频分成视频帧,计算帧与帧之间的光流信息,生成水平和垂直方向的两种光流图片;步骤(2):将视频帧进行翻转切割等数据扩增方法后输入空间流网络进行训练得到空间流网络模型,将水平和垂直方向上的光流图片各10张共20张光流图片堆叠成一组再进行翻转切割,然后输入时间流网络进行训练得到时间流网络模型;步骤(3):将空间流模型作为串流模型的第一层分类器,时间流模型作为串流模型的第二层分类器,如此组成串流深度网络模型;步骤(4):通过实验设置阈值将两个分类器串联起来,当第一层分类器分类得分大于阈值直接输出分类结果,小于阈值则进入第二层分类器,当第二层分类器得分大于阈值输出分类结果,少于阈值时将第一层分类器和第二层分类器的得分进行相加融合输出分类结果;步骤(5):测试阶段,将测试视频分成视频帧,计算光流信息得出光流图片,随机从一个视频中抽取25帧以及25段光流图片集进行测试,对视频帧进行翻转切割最终得到250张视频帧和250个光流图片集,输入串流模型平均得分输出最终的分类结果。与现有技术相比,本专利技术具有如下有益效果:本专利技术对视频动作进行分类识别时,不仅提取空间特征也提取时间特征。不同于以往联合时空特征的并联多流模型,本专利技术提出以空间流和时间流为基础的串流网络模型,在空间流上采用效果更好的迭代交替训练方式,在时间流上对残差网络进行改进提出一个基于ResNet50改进的cccp-ResNet50网络模型,使其能提取到更加充分的时间特征。然后选择空间流作为第一层的分类模型,时间流作为第二层的分类。在这样一个新的串流网络模型中,通过选择合适的阈值,当第一层的模型分类得分大于阈值时输出分类结果,小于阈值时就进入第二层的模型进行分类,当两个流的分类得分都少于这个阈值时再选择两者的得分进行相加融合输出分类结果。如此,串流深度网络模型的识别系统比其它动作识别系统在单个流上准确率更高,同时大部分情况第一层的分类模型就可以完成分类,相对其他双流或是多流的动作识别系统其效率更高,更具有现实意义,因此其具有重要的实际应用价值。附图说明图1为本专利技术空间流迭代训练网络结构图。图2为本专利技术空间流具体训练步骤图。图3为本专利技术时间流cccp-ResNet50网络结构图。图4为本专利技术时间流cccp层1*1卷积操作示意图。图5为本专利技术时间流cccp块网络结构图。图6为本专利技术整体串流深度网络模型图。具体实施方式为使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本专利技术。如图1-6所示,一种用于视频动作识别的串流深度网络模型,串流深度网络模型包括以下步骤:将视频分成视频帧,计算帧与帧之间的光流信息,生成水平和垂直方向的两种光流图片;将视频帧进行翻转切割等数据扩增方法后输入空间流网络进行训练得到空间流网络模型,将水平和垂直方向上的光流图片各10张共20张光流图片堆叠成一组再进行翻转切割,然后输入时间流网络进行训练得到时间流网络模型;将空间流模型作为串流模型的第一层分类器,时间流模型作为串流模型的第二层分类器,如此组成串流深度网络模型;通过实验设置阈值将两个分类器串联起来,当第一层分类器分类得分大于阈值直接输出分类结果,小于阈值则进入第二层分类器,当第二层分类器得分大于阈值输出分类结果,少于阈值时将第一层分类器和第二层分类器的得分进行相加融合输出分类结果;测试阶段,将测试视频分成视频帧,计算光流信息得出光流图片,随机从一个视频中抽取25帧以及25段光流图片集进行测试,对视频帧进行翻转切割最终得到250张视频帧和250个光流图片集,输入串流模型平均得分输出最终的分类结果。1.数据预处理将视频切分成视频帧,每帧图片通过切割翻转进行数据扩增可以生成10张图片,然后作为空间流模型的输入;计算视频帧之间的光流信息生成水平方向和垂直方向的光流图片,将20张光流图片打包成一组,每组图片再进行切割翻转数据扩增可以生成10组图片,最后以此作为时间流的输入。2.训练空间流模型如图1所示,以ResNet50网络为基础构建迭代训练网络结构图;第一次训练时,固定S2网络(学习率置为0),训练S1网络,此时的损失函数:loss1=λ*loss_S1+loss_Fuse,第二次训练的时候,固定S1网络(学习率置为0),训练S2网络,此时的损失函数:loss2=λ*loss_S2+loss_Fuse,如此反复迭代训练直至loss1和loss2都趋于稳定。再以训练好的S1S2网络为基础对整体网络进行微调,完成空间流模型的训练,此时的损失函数:loss=λ*loss_S1+λ*loss_S2+loss_Fuse。以上三个损失函数中的λ都取0.3。如图2所示,在微调分类器部分时,微调训练方式的选择如下。表1空间流迭代融合阶段不同微调训练方法分类结果比较从表1中,可以看出在所有微调方法中微调第五层残差块和全连接层的训练方法获得了最好的效果,它比只微调全连接层的训练方法高0.67%,比微调第四、五层残差块和全连接层的训练方法高1.04%,比最原始的ResNet50网络训练方法高1.21%。只微调全连接层可能对交替训练阶段所得互补特征的整合存在欠缺,而微调训练第四、五层残差块和全连接层可能因为微调太多层损失了较多高层语义互补特征,所以效果比只微调全连接层更差。微调第五层残差块和全连接层因为其在互补特征的整合上提供了更多的反馈,获得了最好的效果。所以在最终空间流模型的选取上,本专利技术选择了只微调第五层残差块和全连接层的空间流训练模型。3.训练时间流模型如图3所示,在基础卷积网络ResNet50前加了两个包含cccp层的cccp块。cccp层是卷积核大小为1*1的卷积层,通过对输入的每个通道特征图乘以本文档来自技高网...

【技术保护点】
1.一种用于视频动作识别的串流深度网络模型,其串流深度网络模型构建包括以下步骤:步骤(1):将视频分成视频帧,计算帧与帧之间的光流信息,生成水平和垂直方向的两种光流图片;步骤(2):将视频帧进行翻转切割等数据扩增方法后输入空间流网络进行训练得到空间流网络模型,将水平和垂直方向上的光流图片各10张共20张光流图片堆叠成一组再进行翻转切割,然后输入时间流网络进行训练得到时间流网络模型;步骤(3):将空间流模型作为串流模型的第一层分类器,时间流模型作为串流模型的第二层分类器,如此组成串流深度网络模型;步骤(4):通过实验设置阈值将两个分类器串联起来,当第一层分类器分类得分大于阈值直接输出分类结果,小于阈值则进入第二层分类器,当第二层分类器得分大于阈值输出分类结果,少于阈值时将第一层分类器和第二层分类器的得分进行相加融合输出分类结果;步骤(5):测试阶段,将测试视频分成视频帧,计算光流信息得出光流图片,随机从一个视频中抽取25帧以及25段光流图片集进行测试,对视频帧进行翻转切割最终得到250张视频帧和250个光流图片集,输入串流模型平均得分输出最终的分类结果。

【技术特征摘要】
1.一种用于视频动作识别的串流深度网络模型,其串流深度网络模型构建包括以下步骤:步骤(1):将视频分成视频帧,计算帧与帧之间的光流信息,生成水平和垂直方向的两种光流图片;步骤(2):将视频帧进行翻转切割等数据扩增方法后输入空间流网络进行训练得到空间流网络模型,将水平和垂直方向上的光流图片各10张共20张光流图片堆叠成一组再进行翻转切割,然后输入时间流网络进行训练得到时间流网络模型;步骤(3):将空间流模型作为串流模型的第一层分类器,时间流模型作为串流模型的第二层分类器,如此组成...

【专利技术属性】
技术研发人员:罗会兰文彪
申请(专利权)人:江西理工大学
类型:发明
国别省市:江西,36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1