一种用于时序动作检测的图网络模型制造技术

技术编号:37174712 阅读:48 留言:0更新日期:2023-04-20 22:44
本发明专利技术涉及一种用于时序动作检测的图网络模型,属于时序动作检测任务技术领域。在提议生成阶段,通过基本特征网络和提议生成网络获得动作提议;在获得动作提议后,在提议分类阶段预测其具体动作标签,在此阶段,提议分类网络具有跨尺度提议图模块和语义提议图模块,以获得高质量的提议特征,在跨尺度提议图模块中,设计了一个跨时间特征金字塔的图注意力卷积网络A来生成具有不同粒度时间上下文信息的提议特征M,在语义提议图模块中,将具有不同粒度时间上下文信息的提议特征M构建到提议图中,并利用图注意力卷积网络B在提议之间传递语义信息,得到增强的提议特征N,最后将增强的提议特征N提供给分类器,以预测提议的标签。以预测提议的标签。以预测提议的标签。

【技术实现步骤摘要】
一种用于时序动作检测的图网络模型


[0001]本专利技术涉及一种用于时序动作检测的图网络模型,属于时序动作检测任务


技术介绍

[0002]时序动作检测旨在同时识别未经剪辑的视频中所有动作的时间边界和类别,并引起研究界的极大关注。与对象检测类似,大多数时序动作检测方法采用两步,首先生成与类无关的时序动作提议,然后预测其动作标签。有些方法将这两个步骤视为独立的子任务,并分别设计不同的深度ConvNets,然而,这些方法分别训练每个阶段,导致计算效率不理想和较低。
[0003]一些方法共享提议生成和分类阶段之间的卷积特征,以构建端到端模型,并通过联合优化提议生成和分类阶段对其进行训练,动作提议通常包含部分ground truth,缺乏足够的语义信息来识别不完整动作,从其他提议中获取信息可能会获得大量有价值的信息,因为在生成动作提议时,不相关的提议已被删除。然而,大多数端到端模型分别预测提议的标签,并忽略提议之间的关系。
[0004]还有一些方法构建时间特征金字塔来解决动作实例固有的时间尺度可变性,然而,这些端到端模型在时间特征金字塔的单个级别上对提议进行分类,忽略了不同时间尺度下提议特征之间的信息传递。
[0005]为获取不同提议之间的跨尺度相关性和语义关系,以提高时序动作检测性能,需要通过在提议分类阶段预测其具体动作标签,增强提议特征。一个视频包含数百个提议,其中大多数包含彼此冗余或无关的信息,如何从其他提议中获取有价值的信息来提高提议特征质量十分重要。

技术实现思路

[0006]有鉴于此,本专利技术提出一种用于时序动作检测的图网络模型,称为跨尺度语义提议图网络(CSSPGN),该模型探索了同一动作提议的跨尺度相关性和不同动作提议的语义关系,以改进提议特征。在提议生成阶段,通过基本特征网络(BFN)和提议生成网络(PGN)获得动作提议;在获得动作提议后,在提议分类阶段预测其具体动作标签,在此阶段,提议分类网络(PCN)具有两个关键组件,即跨尺度提议图(CSPG)模块和语义提议图(SPG)模块,以获得高质量的提议特征,在跨尺度提议图模块中,设计了一个跨时间特征金字塔的图注意力卷积网络A来生成具有不同粒度时间上下文信息的提议特征M,在语义提议图模块中,将具有不同粒度时间上下文信息的提议特征M构建到提议图中,并利用图注意力卷积网络B在提议之间传递语义信息,得到增强的提议特征N,最后将增强的提议特征N提供给分类器,以预测提议的标签。
[0007]本专利技术的技术解决方案是:
[0008]一种用于时序动作检测的图网络模型,该图网络模型包括基本特征网络、提议生
成网络和提议分类网络,提议分类网络包含跨尺度提议图模块和语义提议图模块。
[0009]基本特征网络依据原始视频数据中提取的视频特征序列,检测各种时间尺度下的动作实例,给定视频特征序列f∈R
T
×
C
,其中T是视频特征序列的长度,C是视频特征维度的维度,基本特征网络首先使用卷积网络将其嵌入D维空间。卷积网络由以ReLU为激活函数的L1D卷积层组成
[0010]f
u
=ConvNet(f)(1)
[0011]其中,f
u
∈R
T
×
D
是卷积网络的输出,然后,基本特征网络对f
u
进行N级下采样操作,得到时间特征金字塔采,其中是时间特征金字塔的第i级特征图。
[0012]提议生成网络采用无锚机制生成提议,选择时间特征金字塔的第i级特征图分类和回归分支预测置信度分数p
j
和每个位置j的边界距离找到候选提议:
[0013][0014]根据置信度得分,提议生成网络选择N
p
个候选提议作为动作提议并将其输入提议分类网络,其中,t
s,j
,t
e,j
是候选提议ψ
j
的开始和结束时间。
[0015]提议分类网络的跨尺度提议图模块设计了一个跨时间特征金字塔的图注意力卷积网络A来生成具有不同粒度时间上下文信息的提议特征M,跨尺度提议图模块包括以下步骤:
[0016]步骤1:接收提议生成网络输出的时间特征金字塔第i级生成的动作提议使用ROI池化层获取跨时间尺度的提议特征,得到N+1个跨时间尺度的提议特征其中是从时间特征金字塔第k级生成的提议特征;
[0017]步骤2:将步骤1所得到的N+1个跨时间尺度的提议特征构建成一个图G
j
={V
j
,E
j
},其中表示节点,E
j
表示边集;
[0018]步骤3:利用图注意力卷积网络A在步骤2所生成的图G
j
={V
j
,E
j
}上获取时间上下文信息,该信息给相邻节点赋予权重以表示其重要性,图注意力卷积模块写成如下:
[0019][0020]其中,W是要学习的参数矩阵,N(v)是第v个节点的全部邻节点集合,a
vq
是第v个节点的第q个邻节点的权重,h
q
表示第q个邻节点的特征,采用注意力机制来计算权重:
[0021][0022]W
a
是可学习参数;||是重复串联操作,在图注意力卷积模块的输出中,得到具有不同粒度时间上下文信息的提议特征M,并将其输出到语义提议图模块。
[0023]提议分类网络的语义提议图模块用于将视频中的不同提议构建到提议图中,并利用图注意力卷积网络B在提议之间传递语义信息,得到增强的提议特征N,最后将增强的提议特征N提供给分类器,以预测提议的标签,语义提议图模块包括以下步骤:
[0024]步骤1:根据从语义提议图模块接收到的具有不同粒度时间上下文信息的提议特征M构建提议图,表示为G
p
={V
p
,E
p
},其中,是表示节点集,E
p
是边集,将邻接矩阵定义为用于测量节点的相关度;在节点与其他节点之间进行相关度计算并选择关联度最高的K节点以创建边,因此,节点的边表示如下:
[0025][0026]其中,ArgTopk()表示输入向量最大的K个元素的索引,为的相邻节点;
[0027]步骤2:为步骤1所构建的提议图中的每个提议生成一个置信度分数,以表示包含行动实例的可能性,并使用置信度来删除每个提议的低质量邻节点,通过获得节点的K个相邻节点后,将其置信度得分与阈值S
thr
进行比较,一旦置信度得分高于S
thr
,在相邻节点和节点之间创建边;
[0028]步骤3:通过步骤2删除每个提议的低质量邻节点后,采用M层图注意力卷积网络B从每个提议的邻节点处获取动作信息,以增强提议特征,第m层图注意力卷积层写为:
[0029][0030]其中,N'(v)表示节点的全部邻节点的集合,采用提议特征的余弦相似性作为第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于时序动作检测的图网络模型,其特征在于:该图网络模型包括基本特征网络、提议生成网络和提议分类网络;所述的提议分类网络包括跨尺度提议图模块和语义提议图模块;所述的基本特征网络用于从原始视频数据中提取视频特征序列,并根据提取的视频特征序列采用transformer构造时间特征金字塔,以检测各种时间尺度下的动作实例,并将构造的时间特征金字塔输入提议生成网络;所述的提议生成网络用于接收基本特征网络输出的时间特征金字塔,并根据接收的时间特征金字塔的第i级特征图、置信度得分以及从第i级特征图中每个位置到边界的时间距离找到候选提议,从找到的候选提议中选择N
p
个候选提议作为动作提议,并将选择的动作提议输入提议分类网络;所述的提议分类网络中的跨尺度提议图模块用于接收提议生成网络输出的动作提议,通过图注意力卷积网络A生成具有不同粒度时间上下文信息的提议特征M,并将提议特征M输出到语义提议图模块;所述的提议分类网络中的语义提议图模块用于接收跨尺度语义图模块生成的具有不同粒度时间上下文信息的提议特征M,根据接收的提议特征M构建提议图,并对构建的提议图应用图注意力卷积网络B获取增强的提议特征N,最终将增强的提议特征N送入动作分类器,以预测提议的标签。2.根据权利要求1所述的一种用于时序动作检测的图网络模型,其特征在于:所述的基本特征网络从原始视频数据中提取的视频特征序列为f∈R
T
×
C
;其中,T是视频特征序列的长度,C是视频特征序列的维度;根据提取的视频特征序列构造时间特征金字塔时是指:对提取的视频特征序列f∈R
T
×
C
使用卷积网络嵌入到D维空间中,得到卷积网络的输出,并对得到的卷积网络的输出进行N级下采样操作得到时间特征金字塔其中是时间特征金字塔的第i级特征图;所述的卷积网络由以ReLU为激活函数的L1D卷积层组成:f
u
=ConvNet(f)(1)其中,f
u
∈R
T
×
D
是卷积网络的输出。3.根据权利要求2所述中一种用于时序动作检测的图网络模型,其特征在于:所述的提议生成网络中,找到候选提议的方法为:选择时间特征金字塔的第i级特征图直接预测分类和回归分支预测置信度分数p
j
和每个位置j的边界距离找到候选提议:其中,t
s,j
,t
e,j
是候选提议ψ
j
的开始和结束时间。4.根据权利要求3所述中一种用于时序动作检测的图网络模型,其特征在于:
所述的选择N
p
个候选提议作为动作提议的方法为:根据置信度得分p
j
,提议生成网络选择N
p
个候选提议作为动作提议并将其输入提议分类网络。5.根据权利要求1所述中一种用于时序动作检测的图网络模型,其特征在于:所述的提议分类网络中的跨尺度提议图模块生成具有不同粒度时间上下文信息的提议特征M的方法步骤包括:步骤1,接收提议生成网络输出的时间特征金字塔第i级生成的动作提议使用ROI池化层获取N+1个跨时间尺度的提议特征其中是从时间特征金字塔第k级生成的提议特征;步骤2:将步骤1所得到的N+1个跨时间尺度的提议特征构建成一个图G
j
={V
j
,E
j
},其中表示节点,E
j
表示边集;步骤3:将步骤2所生成的图G
j
={V
j
,E
j
}上的跨时间尺度信息输入到图注意...

【专利技术属性】
技术研发人员:甘明刚张琰陈杰张少卿马千兆夏明月
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1