一种用于视频动作识别的串流深度网络模型制造技术

技术编号：21834139 阅读：29 留言：0更新日期：2019-08-10 18:33

本发明专利技术公开了一种用于视频动作识别的串流深度网络模型，视频中动作识别研究从早期的传统方法到近年来的深度学习方法，深度学习方法中结合空间信息和时间信息的双流方法是当前动作识别领域最主流的方法。本发明专利技术基于双流方法进行改进，在空间流上采用迭代交互训练的方式得到一个效果更佳的空间流模型，在时间流上提出一个基于残差网络改进的新型时间特征提取网络，最后联合空间流和时间流各自的分类优势，将训练好的空间流和时间流采用多层分类的方式组成一个整体串流分类模型。该模型方法在UCF101数据集上进行测试，在单个空间流上较原始方法提升了1.21％，在时间流上较原始方法提升了1.42％，在最终模型上较单个的空间流和时间流获得了6％左右的大额提升。

A Serial Stream Depth Network Model for Video Action Recognition

全部详细技术资料下载

【技术实现步骤摘要】
一种用于视频动作识别的串流深度网络模型
本专利技术属于计算机视觉领域，特别涉及一种用于视频动作识别的串流深度网络模型。
技术介绍
视频中的动作识别是当前计算机视觉领域一个非常活跃和具有挑战性的研究热点。不同于静止的图像分类，一个视频中的动作识别要考虑的不仅有空间信息还有时间信息。虽然在现实生活中也可以看到动作识别的一些实际应用，但只停留在一些比较浅显的应用层次上。目前即使是最好的动作识别方法在面临实际复杂场景的时候，其性能也还远远达不到人们的预期效果。早期的动作识别方法是基于手工特征提取的，随着深度学习、卷积神经网络的兴起，同计算机视觉的其他领域一样，动作识别的研究也渐渐从传统方法转向深度学习方法。然而与计算机视觉的其他领域(图像分类，人脸识别，姿态估计)不同的是：目前深度学习方法在动作识别方向的研究并没有取得突破性的进展，其识别效果也只比传统方法稍胜一筹。同时为了取得更高的准确率，动作识别的深度学习方法扩展出更多的视频特征流，然后通过结合多种特征流提高识别准确率，而其中以视频帧为空间信息的空间流和以描述视频帧之间光流信息的光流图片为时间信息的时间流是识别视频动作效果最好的特征流，为此，我们提出一种用于视频动作识别的串流深度网络模型。
技术实现思路
本专利技术的主要目的在于提供一种用于视频动作识别的串流深度网络模型，可以有效解决
技术介绍
中的问题。为实现上述目的，本专利技术采取的技术方案为：一种用于视频动作识别的串流深度网络模型，构建串流深度网络模型包括以下步骤：步骤(1)：将视频分成视频帧，计算帧与帧之间的光流信息，生成水平和垂直方向的两种光流图片；步骤(2)...

【技术保护点】
1.一种用于视频动作识别的串流深度网络模型，其串流深度网络模型构建包括以下步骤：步骤(1)：将视频分成视频帧，计算帧与帧之间的光流信息，生成水平和垂直方向的两种光流图片；步骤(2)：将视频帧进行翻转切割等数据扩增方法后输入空间流网络进行训练得到空间流网络模型，将水平和垂直方向上的光流图片各10张共20张光流图片堆叠成一组再进行翻转切割，然后输入时间流网络进行训练得到时间流网络模型；步骤(3)：将空间流模型作为串流模型的第一层分类器，时间流模型作为串流模型的第二层分类器，如此组成串流深度网络模型；步骤(4)：通过实验设置阈值将两个分类器串联起来，当第一层分类器分类得分大于阈值直接输出分类结果，小于阈值则进入第二层分类器，当第二层分类器得分大于阈值输出分类结果，少于阈值时将第一层分类器和第二层分类器的得分进行相加融合输出分类结果；步骤(5)：测试阶段，将测试视频分成视频帧，计算光流信息得出光流图片，随机从一个视频中抽取25帧以及25段光流图片集进行测试，对视频帧进行翻转切割最终得到250张视频帧和250个光流图片集，输入串流模型平均得分输出最终的分类结果。

【技术特征摘要】
1.一种用于视频动作识别的串流深度网络模型，其串流深度网络模型构建包括以下步骤：步骤(1)：将视频分成视频帧，计算帧与帧之间的光流信息，生成水平和垂直方向的两种光流图片；步骤(2)：将视频帧进行翻转切割等数据扩增方法后输入空间流网络进行训练得到空间流网络模型，将水平和垂直方向上的光流图片各10张共20张光流图片堆叠成一组再进行翻转切割，然后输入时间流网络进行训练得到时间流网络模型；步骤(3)：将空间流模型作为串流模型的第一层分类器，时间流模型作为串流模型的第二层分类器，如此组成...

【专利技术属性】
技术研发人员：罗会兰，文彪，
申请(专利权)人：江西理工大学，
类型：发明
国别省市：江西,36

全部详细技术资料下载我是这个专利的主人