一种基于卷积神经网络的视频动作检测方法技术

技术编号:15725165 阅读:99 留言:0更新日期:2017-06-29 12:53
本发明专利技术公布了一种视频动作检测方法,涉及计算机视觉识别技术领域。本发明专利技术视频动作检测方法基于卷积神经网络,通过在网络结构中增加时空金字塔池化层,消除网络对输入的限制,加快训练和检测的速度,提高视频动作分类和时间定位的性能;卷积神经网络包括卷积层、普通池化层、时空金字塔池化层和全连接层;卷积神经网络的输出包括类别分类输出层和时间定位计算结果输出层;本发明专利技术方法不需要通过下采样来获取不同时间长度的视频片段,而是直接一次输入整个视频,提高了效率;同时,由于网络训练的是同一频率的视频片段,并无增加类内的差异性,降低了网络的学习负担,模型收敛得更快,检测效果更好。

【技术实现步骤摘要】
一种基于卷积神经网络的视频动作检测方法
本专利技术涉及计算机视觉识别技术,尤其涉及一种基于卷积神经网络的视频动作检测方法。
技术介绍
近些年来,几乎人手一部手机。每部手机上都有摄像头。加上互联网的发展和通信技术的进步,人们越来越喜欢拍摄视频,并且传播到互联网上,所以视频的数量呈爆发式增长,视频的储存和分析技术非常重要。视频动作检测是指对视频中的动作进行分类,并且给出动作发生的开始时间和结束时间,示例如图1所示。近几年,视频动作识别任务取得了很大的进展,但是主要适用于已经裁剪好的视频,即视频中有且只有一个动作,没有冗余的帧。于是,学者开始着手研究未裁剪的视频,即视频动作检测任务。视频任务过去所采用的主流方法是首先手工提取传统特征,而后结合建模方法。此类方法目前效果最好的是提取基于改进后的稠密轨迹(improvedDenseTrajectory,iDT)的传统特征,结合费舍尔向量(FisherVector,FV)建模。卷积神经网络(ConvolutionalNeuralNetwork,CNN)在图片任务和视频动作识别任务上取得了很大的突破。于是,学者开始把卷积神经网络应用到视频动作检测任本文档来自技高网...
一种基于卷积神经网络的视频动作检测方法

【技术保护点】
一种视频动作检测方法,基于卷积神经网络模型,通过在网络结构中增加时空金字塔池化层,消除网络对输入的限制,加快训练和检测的速度,提高视频动作分类和时间定位的性能;所述卷积神经网络包括卷积层、普通池化层、时空金字塔池化层和全连接层;所述卷积神经网络的输出包括类别分类输出层和时间定位计算结果输出层;所述视频动作检测方法分为训练阶段和检测阶段,包括如下步骤:(一)在训练阶段,执行如下操作:11)把训练视频整个输入到卷积神经网络模型中,得到特征图;12)在训练视频中获取不同长度的片段,根据实际视频动作片段ground truth,挑选出正样本和负样本,作为训练样本;13)把训练样本在特征图中对应的特征区...

【技术特征摘要】
1.一种视频动作检测方法,基于卷积神经网络模型,通过在网络结构中增加时空金字塔池化层,消除网络对输入的限制,加快训练和检测的速度,提高视频动作分类和时间定位的性能;所述卷积神经网络包括卷积层、普通池化层、时空金字塔池化层和全连接层;所述卷积神经网络的输出包括类别分类输出层和时间定位计算结果输出层;所述视频动作检测方法分为训练阶段和检测阶段,包括如下步骤:(一)在训练阶段,执行如下操作:11)把训练视频整个输入到卷积神经网络模型中,得到特征图;12)在训练视频中获取不同长度的片段,根据实际视频动作片段groundtruth,挑选出正样本和负样本,作为训练样本;13)把训练样本在特征图中对应的特征区域输入到时空金字塔池化层,得到统一尺寸的特征表达;14)把统一尺寸的特征输入到全连接层,通过定义损失函数获取损失值;再进行反向传播,调整模型中的参数,进行训练;15)逐步降低训练的学习率,当训练损失不再下降时,得到训练好的模型;(二)在检测阶段,执行如下操作:21)把待检测视频整个输入到步骤15)所述训练好的模型中;22)在待检测视频中提取不同长度的片段,在网络的特征层获取对应片段的特征区域,输入到时空金字塔池化层,得到统一尺寸的特征表达;23)对统一尺寸的特征进行判别,根据类别分类输出层得到分类置信度;选择置信度最高的分类,得到视频中所发生动作的类别;并根据网络输出层输出的时间定位计算结果,得到动作发生的起始时间和结束时间;由此实现视频动作检测。2.如权利要求1所述视频动作检测方法,其特征是,所述卷积神经网络模型采用三维卷积神...

【专利技术属性】
技术研发人员:王文敏李志豪王荣刚李革董胜富王振宇李英赵辉高文
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1