当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于时间感知结构的视频动作识别方法技术

技术编号:21686824 阅读:35 留言:0更新日期:2019-07-24 14:51
本发明专利技术涉及一种基于时间感知结构的视频动作识别方法,本发明专利技术基于全分组三维卷积的时间感知结构设计,使用少量参数对多尺度的时间信息进行了建模,是一种十分高效的时间建模结构。并且本发明专利技术设置了监听流网络,增加了模型收敛的速度,在时间感知结构的基础上,能够进一步提高模型的识别准确率,降低了对预训练数据集的依赖,针对特定小规模问题可以快速实现部署;并且对不同时间尺度的行为具有鲁棒性。

A Video Action Recognition Method Based on Time Perception Architecture

【技术实现步骤摘要】
一种基于时间感知结构的视频动作识别方法
本专利技术涉及视频识别领域,更具体的,涉及一种基于时间感知结构的视频动作识别方法。
技术介绍
近些年,随着城市监控摄像头的数量不断增长,以及手持拍摄设备的大量普及,使得视频数据呈现出爆炸式的增长。视频作为一种信息载体,急需有效的自动化的视频理解技术。传统采用人工的方式来对视频中的内容进行识别和理解,不仅费时费力,效率低下,且无法保证准确性和及时性。因此,实现智能化的动作识别系统具有重要的现实意义。动作识别的方法可以分为基于RGB-D(红绿蓝-深度)视频的方法和基于RGB视频的方法两大类。基于RGB-D的方法多用于室内小型环境中,具有成本高、探测距离短、探测范围小、设备体积大等缺点。然而基于视频的动作识别方法具有对设备要求低、成本低、探测距离远、范围大等优点,如果现有城市监控系统进行自动化改造,只需在后台加装数据处理系统,方便快捷。基于RGB视频的动作识别方法又可以分为基于手工设计的方法和基于深度学习的方法两大类。基于手工设计的方法使用专家设计的特征描述子进行特征够建,然后使用传统的分类器进行分类,这类方法在非受限环境下的表现显著低于基于深度学习本文档来自技高网...

【技术保护点】
1.一种基于时间感知结构的视频动作识别方法,其特征在于,包括以下步骤:步骤S1:对原始视频数据进行稀疏采样,等间隔地对视频抽取n帧,对视频帧经过数据增广处理后作为第一二维卷积神经网络的输入帧数据;步骤S2:利用第一二维卷积神经网络对原始视频的各个输入帧数据分别进行处理,得到对背景、尺度和光照的变化具有鲁棒性的深度特征,并形成特征图t;步骤S3:将第二二维卷积神经网络进行训练,将训练好的第二二维卷积神经网络作为监听流网络,将第一二维卷积网络中的一部分卷积层输出的深度特征经过压缩后作为监听流网络的输入信息;步骤S4:利用多尺度时间感知结构对特征图t的多个尺度上的时间信息进行建模,得到各个卷积分支含...

【技术特征摘要】
1.一种基于时间感知结构的视频动作识别方法,其特征在于,包括以下步骤:步骤S1:对原始视频数据进行稀疏采样,等间隔地对视频抽取n帧,对视频帧经过数据增广处理后作为第一二维卷积神经网络的输入帧数据;步骤S2:利用第一二维卷积神经网络对原始视频的各个输入帧数据分别进行处理,得到对背景、尺度和光照的变化具有鲁棒性的深度特征,并形成特征图t;步骤S3:将第二二维卷积神经网络进行训练,将训练好的第二二维卷积神经网络作为监听流网络,将第一二维卷积网络中的一部分卷积层输出的深度特征经过压缩后作为监听流网络的输入信息;步骤S4:利用多尺度时间感知结构对特征图t的多个尺度上的时间信息进行建模,得到各个卷积分支含有时间维度的特征图t1;步骤S5:使用时间维度的最大化池化操作去除特征图t1时间维度上的冗余性信息,再使用第三二维卷积网络进一步对特征图t1中的时空特征进行提取,得到最终的视频描述向量;步骤S6:将最终的视频描述向量经过全连接层之后输出各个类别的概率对数值;步骤S7:将监听流网络的输入信息输入到训练好的监听流网络进行特征提取,得到特征图t2,使用全局池化将特征图t2压缩成一个特征向量,经过全连接层之后输出各个类别的概率对数值;步骤S8:对最终的视频描述向量输出的各个类别的概率对数值以及监听流网络输出的各个类别的概率对数值进行归一化处理,获得最终各个动作类别的概率,概率最大动作类别的即为网络识别的最终结果。2.根据权利要求1所述的一种基于时间感知结构的视频动作识别方法,其特征在于,所述的第一二维卷积网络、第二二维卷积网络、第三二维卷积网络的第l层的第c个通道对应的卷积公式...

【专利技术属性】
技术研发人员:郑慧诚张伟程凤雯
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1