当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于移动未裁剪网络的视频行为识别方法技术

技术编号:22001029 阅读:40 留言:0更新日期:2019-08-31 05:37
一种基于移动未裁剪网络的视频行为识别方法,本发明专利技术在未裁剪网络的基础上,提出基于移动未裁剪网络的视频行为识别方法。本发明专利技术先对长时序未裁剪视频进行基于镜头的采样,再利用移动有效卷积网络提取候选段的特征,然后通过分类模块对其生成动作分类分数,接着利用选择模块针对某一动作类别对所有候选段进行排序,最后通过类激活序列相邻分数比较法,选出动作最有可能存在的时序区域。本发明专利技术在THUMOS 2014数据集上的行为识别正确率达到了81.9%。另外,本发明专利技术在交并比阈值设为0.3的前提下,在此数据集上行为时序检测的平均均值精度达到了28.3。另一方面,可以通过此发明专利技术实现为未裁剪的视频数据集进行行为时序标定,进而提升标定效率。

A Video Behavior Recognition Method Based on Mobile Uncut Network

【技术实现步骤摘要】
一种基于移动未裁剪网络的视频行为识别方法
本专利技术涉及属于计算机视觉与人工智能、多媒体信号处理领域,特别是涉及一种基于移动未裁剪网络的视频行为识别方法。
技术介绍
目前,一些研究机构通过手工裁剪的方式制作了一些数据集,如THUMOS14和ActivityNet。这些数据集都是一些长视频,但是均附有一个标注文件,来说明这个视频中哪类动作起始时间与结束时间。虽然这些精确的时间注解可以缓解训练网络时的困难,但是这将很大程度上制约视频行为识别算法在实际场景中的应用。这主要有以下几个原因:首先,注释每个动作实例的非常耗时;其次,微博、YouTube等视频网站上的大量视频一般不会对动作进行裁剪,在这样的大规模数据中修剪视频将是不切实际的;另外,更重要的是,对于动作边界的定义很模糊,没有关于动作的起止时间范围的合理定义。因此,这些动作的时间标注是裁定人的主观意识,在不同的人之间不一致,这将对网络的训练造成影响。现实生活中的视频往往是未经过裁剪的视频,因此,如何克服未裁剪视频的上述问题并将这些视频数据整理成可用的数据集显得尤为重要。对于视频而言,对它进行视频层面的类别标记是比较容易的。如何利用这些本文档来自技高网...

【技术保护点】
1.一种基于移动未裁剪网络的视频行为识别方法,包括以下步骤,其特征在于:(1)将输入的视频进行基于镜头的采样;(2)将采样后的视频候选段利用移动有效卷积网络提取特征;(3)将移动有效卷积网络提取的特征利用分类模块进行类别打分,得到相应的行为类别分数;(4)将不同的视频候选段通过选择模块利用注意力机制针对某一类别进行注意力权重计算;(5)将不同视频候选段的注意力权重通过类激活序列相邻分数比较法,选出动作最有可能存在的时序区域。

【技术特征摘要】
1.一种基于移动未裁剪网络的视频行为识别方法,包括以下步骤,其特征在于:(1)将输入的视频进行基于镜头的采样;(2)将采样后的视频候选段利用移动有效卷积网络提取特征;(3)将移动有效卷积网络提取的特征利用分类模块进行类别打分,得到相应的行为类别分数;(4)将不同的视频候选段通过选择模块利用注意力机制针对某一类别进行注意力权重计算;(5)将不同视频候选段的注意力权重通过类激活序列相邻分数比较法,选出动作最有可能存在的时序区域。2.根据权利要求1所述的一种基于移动未裁剪网络的视频行为识别方法,其特征在于:所述步骤(1)中对输入的视频进行基于镜头的采样,具体步骤为:步骤1.1:对于一个输入视频,提取每一帧的HOG特征,并计算相邻帧之间的HOG特征差值,如果这个差值大于某一阈值,阈值设定为0.0715,那么就可以认为这里发生了一次镜头切换,然后,从每一个镜头中按顺序采样固定的K帧,得到视频候选段。3.根据权利要求1所述的一种基于移动未裁剪网络的视频行为识别方法,其特征在于:所述步骤(2)中将采样后的视频候选段利用移动有效卷积网络提取特征,具体步骤为:步骤2.1:将步骤1.1基于镜头采样得到的视频候选段,对其进行稀疏采样,得到视频帧输入到移动有效卷积网络中,以此来进行特征提取,提取到的特征向量记为φ(c)。4.根据权利要求1所述的一种基于移动未裁剪网络的视频行为识别方法,其特征在于:所述步骤(3)中将移动有效卷积网络提取的特征利用分类模块进行类别打分,得到相应的行为类别分数,具体步骤为:步骤3.1:基于镜头采样得到的视频候选段经过步骤2.1得到特征向量φ(c)之后,利用分类模块对其进行类别打分,其中分类模块由全连接层与SoftMax层组成,假设目前有C个动作类别,全连接层构造了一个线性映射能够将特征向量φ(c)转换成C维的分数向量xc(c),将这个过程表示为如式(1)所示:xc(c)=Wcφ(c)(1)在得到这个分数向量之后,利用SoftMax函数对其进行分数归一化,得到相对的分数值,可见式(2)所示:其中,表示的是向量xc(c)在第i个类别上的绝对分数。为了更清晰的说明,这里把xc(c)称为片段候选区c初始的分类分数,而表示的是SoftMax分类分数。5.根据权利要求1所述的一种基于移动未裁剪网络的视频行为识别方法,其特征在于:所述步骤(4)中将不同的视频候选段通过选择模块利用注意力机制针对某一类别进行注意力权重计算,具体步骤为:步骤4.1:对经过步骤1.1采样得到的视频候选段,通过学习一个注意力权重来加强那些具有判别能力的候选段的地位,并抑制那些只拥有背景运动没有所需动作实例的候选段,对于每一个视频候选段,将步骤2.1得到的特征向量φ(c...

【专利技术属性】
技术研发人员:李春国徐煜耀杨绿溪
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1