视频动作检测方法、装置、设备和计算机可读存储介质制造方法及图纸

技术编号:36035074 阅读:22 留言:0更新日期:2022-12-21 10:38
本发明专利技术属于计算机视觉和模式识别技术领域,具体地说,涉及基于锚自由和关键段激活的视频动作检测方法、装置、设备和计算机可读存储介质。基于锚自由和关键段激活的视频动作检测方法包括:视频特征提取;搭建基于锚自由和关键段激活的视频动作检测网络模型;构建基于锚自由和关键段激活的视频动作检测的损失函数;基于锚自由和关键段激活的视频动作检测模型。本发明专利技术对长视频的动作进行定位并进行动作识别,创新性地提出基于关键段激活的视频动作检测网络模型,完成在有监督的情况下对长视频中动作的定位和分类,解决了传统时序动作检测方法在长视频中边界定位模糊,动作分类不准确的问题,提升了动作定位和识别效果。本发明专利技术尤适用于公共安全领域。适用于公共安全领域。适用于公共安全领域。

【技术实现步骤摘要】
视频动作检测方法、装置、设备和计算机可读存储介质


[0001]本专利技术属于计算机视觉和模式识别
,具体地说,涉及基于锚自由和关键段激活的视频动作检测方法、装置、设备和计算机可读存储介质。

技术介绍

[0002]在计算机视觉任务中,时序动作检测是一项重要而又具有挑战性的任务;随着深度学习技术的发展,时序动作检测任务取得了很大的进步,并且衍生出许多有价值的动作检测方法,但其根本目标都是定位视频中各段动作实例并判定动作的类别,这一过程可以归纳为视频特征提取、定位动作边界和动作识别三个步骤。其中,定位动作边界是决定时序动作检测算法性能的关键;定位动作边界的任务目标是在所提取的一维时序特征中判定各段动作实例的时域边界。目前的边界定位方法可大致分为三类,一类基于多种尺度的观察窗生成时域候选,称为锚点机制;另一类称为动作得分方法,其思想是通过卷积映射获得动作总概率曲线以界定动作的边界;最后是每一时序点生成一个动作提案的锚自由方法。锚点机制通过人为设定的大量预定义候选框以达到覆盖正确实例的目的,动作得分方法则通过穷举排列组合方式找到最优拟合实例,二者均取得了一定效果但二者均存在着模型参数或超参数过量导致效率低下的问题,锚自由方法有效地解决了这一问题。
[0003]然而传统的锚自由方法同锚点方法、动作得分方法都面临着时序语义信息捕获不完全,利用不充分的现象;这是由于时序动作检测运用到的方法大多受启发于二维目标检测,二维关系决定其不涉及前后文语义关系信息,这就意味着传统的目标检测方法无法简单地直接应用在时序动作检测方法中。另一方面,传统的锚自由方法以传统卷积为基础工具来捕获视频特征,这样就导致模型对局部信息敏感而忽略了同样重要的全局信息。
[0004]Transformer方法是近期计算机视觉方向中热门方法之一,其优势在于采用注意力的方式弥补了传统卷积捕获全局信息能力弱的缺陷。在目标检测等二维视觉领域Transformer取得了不错的效果,但在时序动作检测方向仍有较大提升空间。另一方面将Transformer与卷积结合的探索仍有较大空白。

技术实现思路

[0005]本专利技术提供一种视频动作检测方法、装置、设备和计算机可读存储介质,具体地说是基于锚自由和关键段激活的视频动作检测方法、装置、设备和计算机可读存储介质。通过Transformer结合卷积有效地解决了传统时序动作检测方法对局部信息敏感对全集信息响应差的问题,创新性地通过构建边界注意力模块突出视频边界和动作激活模块解决传统方法边界定位模糊问题,结合mixup数据增强方法得到了较好的效果,并且提升收敛速度,提升了工作效率。本专利技术尤适用于公共安全领域。
[0006]基于锚自由和关键段激活的视频动作检测方法具体包括以下步骤:
[0007]步骤1:对原始视频进行特征编码提取。
[0008]步骤1

1:使用在Kinetics数据集训练好的双流I3D模型提取得到1D双流特征作为
模型输入。提取初始特征序列为其中rT表示特征时间维度,C为特征通道维度。
[0009]步骤1

2:所得特征序列F具有相同的C但是rT随机长度,因此将rT统一补0至2304长度得到补0特征此时T为定长。
[0010]步骤2:补0特征F0由不同长度的视频得来,因此包含许多实际长度较短的特征,长度较短的视频所包含的视频信息贫乏,根据以上特点,随机选取两段视频其初始特征分别为若二者初始特征长度
[0011]rT均小于α,α为人为设定的超参数,则对两视频对应的补0特征序列
[0012]和进行mixup数据增强,得到更新的特征和其中若两视频初始视频特征不均小于α则对应的F
ini
=F
0i
,F
ini
=F
0j
,mixup后得到更新的和作为输入输送到后续模块中。
[0013]步骤3:利用1D卷积和滑窗局部Transformer作为映射函数,将所有经过或未经过mixup数据增强的特征F
in
进行两次1D映射两次滑窗局部Transformer映射,得到信息进一步融合的视频特征序列F
l

[0014]步骤4:搭建金字塔模块,利用滑窗局部Transformer对特征序列F
l
进行下采样得到时间维度多粒度特征F
l+1
、F
l+2
……
F
l+n
并将之组合为金字塔特征组,以F
l
作为底层特征与其他粒度特征组合为金字塔特征组,其中l表示最底层,n为除底层外金字塔层数。
[0015]步骤4

1:构建金字塔模块,将特征F
l
作为金字塔底部特征,利用多个下采样滑窗局部Transformer合并时间维度,并浓缩通道维度信息,得到多级金字塔特征F
l
、F
l+1
、F
l+2
……
F
l+n
,l表示最底层,n代表除去金字塔底层的层数。
[0016]步骤4

2:对金字塔模块中的每一层特征进行层规范化处理,得到数据分布更稳定的F
l
、F
l+1
、F
l+2
……
F
l+n
多级金字塔特征。
[0017]步骤5:构建边界注意力模块,将金字塔特征中的每一层特征输入边界注意力模块,得到边界权重矩阵,利用边界权重矩阵突出视频中动作边界信息,弱化其他信息。
[0018]步骤6:构建动作激活模块,利用三元损失函数将视频中动作的开始节点特征与动作内部节点特征拉近,同时使之与开始节点左侧即动作开始前的背景特征拉远;在动作的结束节点相同的操作,利用三元损失函数将结束节点特征与结束节点左侧即动作内部的特征拉近,同时使之与结束节点右侧即动作结束后的背景特征拉远。通过以上操作,使模型在处理视频过程中逐渐具备突出动作片段的能力。
[0019]步骤7:搭建动作分类分支模块和边界回归分支模块分别输出金字塔特征中每一层每个时间点的动作类别和到动作开始结束时间点的距离(c
t
,s
t
,e
t
),t为金字塔特征中某一层某一时间点,c
t
为该时间点所有动作类别概率,s
t
、e
t
分别表示该时间点到动作开始时间的距离和到动作结束时间的距离,通过简单计算则可得到每一时间点对应动作的开始时间和结束时间。
[0020]优选的,所述步骤2具体步骤如下:
[0021]步骤2

1:根据数据集先验知识,人为设定α,对于随机选择的初始特征长度均小于α的两视频补0特征序列F
0i
和F
0j
的mixup数据增强操作如下:F
ini
=λF
0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于锚自由和关键段激活的视频动作检测方法,其特征在于,包括以下步骤:1)对原始视频进行特征编码提取;1

1)使用在Kinetics数据集训练好的双流I3D模型提取得到1D双流特征作为模型输入。提取初始特征序列为其中rT表示特征时间维度,C为特征通道维度;1

2)所得特征序列F具有相同的C但是rT随机长度,因此将rT统一补0至2304长度,得到补0特征此时T为定长;2)补0特征F0由不同长度的视频得来,因此包含许多实际长度较短的特征,长度较短的视频所包含的视频信息贫乏,根据以上特点,随机选取两段视频其初始特征分别为若二者初始特征长度rT均小于α,α为人为设定的超参数,则对两视频对应的补0特征序列和进行mixup数据增强,得到更新的特征和其中若两视频初始视频特征不均小于α则对应的F
ini
=F
0i
,F
ini
=F
0j
,mixup后得到更新的和作为输入输送到后续模块中;3)利用1D卷积和滑窗局部Transformer作为映射函数,将所有经过或未经过mixup数据增强的特征F
in
先后进行两次1D映射和两次滑窗局部Transformer映射,得到信息进一步融合的视频特征序列F
l
;4)搭建金字塔模块,利用滑窗局部Transformer对特征序列F
l
进行下采样得到时间维度多粒度特征F
l
、F
l+1
、F
l+2
……
F
l+n
并将之组合为金字塔特征组,以F
l
作为底层特征与其他粒度特征组合为金字塔特征组,其中l表示最底层,n为除底层外金字塔层数;4

1)构建金字塔模块,将特征F
l
作为金字塔底部特征,利用多个下采样滑窗局部Transformer合并时间维度,并浓缩通道维度信息,得到多级金字塔特征F
l
、F
l+1
、F
l+2
……
F
l+n
,l表示最底层,n代表除去金字塔底层的层数;4

2)对金字塔模块中的每一层特征进行层规范化处理,得到数据分布更稳定的F
l
、F
l+1
、F
l+2
……
F
l+n
多级金字塔特征;5)构建边界注意力模块,将金字塔特征中的每一层特征输入边界注意力模块,得到边界权重矩阵,利用边界权重矩阵突出视频中动作边界信息,弱化其他信息;6)构建动作激活模块,利用三元损失函数将视频中动作的开始节点特征与动作内部节点特征拉近,同时使之与开始节点左侧即动作开始前的背景特征拉远;在动作的结束节点相同的操作,利用三元损失函数将结束节点特征与结束节点左侧即动作内部的特征拉近,同时使之与结束节点右侧即动作结束后的背景特征拉远;通过以上操作,使模型在处理视频过程中逐渐具备突出动作片段的能力;7)搭建动作分类分支模块和边界回归分支模块,金字塔特征组经过边界注意力模块和动作激活模块处理后分别输入动作分类分支模块和边界回归分支模块,两分支模块分别输出金字塔特征中每一层每个时间点的动作类别和到动作开始结束时间点的距离(c
t
,s
t
,e
t
),t为金字塔特征中某一层某一时间点,c
t
为该时间点所有动作类别概率,s
t
、e
t
分别表示该时间点到动作开始时间的距离和到动作结束时间的距离,通过简单计算则可得到每一时间点对应动作的开始时间和结束时间。2.根据权利要求1所述的基于锚自由和关键段激活的视频动作检测方法,其特征在于,
所述步骤2具体步骤如下:2

1)根据数据集先验知识,人为设定α,对于随机选择的初始特征长度均小于α的两视频补0特征序列F
0i
和F
0j
的mixup数据增强操作如下:F
ini
=λF
0i
+(1

λ)F
0j
,F
inj
=λF
0j
+(1

λ)F
0i
,其中λ∈[0,1]是概率值,λ~Beta(γ,γ),即λ服从参数为γ的Beta分布;若随机选择的两视频初始特征不均小于α,则对其补0特征做如下操作:F
ini
=F
0i
,F
ini
=F
0j
,F
ini
和F
inj
则为后续模块的输入;2

2)将输入特征进行mixup后,相应的对训练过程也进行相同的数据增强操作,具体步骤如下:L
i
=λ*L(y(F
ini
),y
lj
)+(1

λ)*L(y(F
ini
),y
li
)L
j
=λ*L(y(F
inj
),y
li
)+(1

λ)*L(y(F
inj
),y
lj
)L
fin
=(L
i
+L
j
)/2其中y(F
ini
)表示特征F
ini
所对应的模型输出,y
lj
表示特征F
inj
所对应视频的标签;y(F
inj
)表示特征F
inj
所对应的模型输出,y
li
表示特征F
ini
所对应视频的标签,L为模型原始损失函数,L
i
、L
j
分别表示特征F
ini
对应模型的总损失函数和特征F
inj
对应模型的总损失函数,L
fin
为最终损失函数。3.根据权利要求1所述的基于锚自由和关键段激活的视频动作检测方法,其特征在于,所述步骤5具体步骤如下:5

1)取金字塔特征底层特征F<...

【专利技术属性】
技术研发人员:高赞吴天奇薛彦兵温显斌陈胜勇
申请(专利权)人:天津理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1