一种用于时序动作检测的图网络模型制造技术

技术编号：37174712 阅读：48 留言：0更新日期：2023-04-20 22:44

本发明专利技术涉及一种用于时序动作检测的图网络模型，属于时序动作检测任务技术领域。在提议生成阶段，通过基本特征网络和提议生成网络获得动作提议；在获得动作提议后，在提议分类阶段预测其具体动作标签，在此阶段，提议分类网络具有跨尺度提议图模块和语义提议图模块，以获得高质量的提议特征，在跨尺度提议图模块中，设计了一个跨时间特征金字塔的图注意力卷积网络A来生成具有不同粒度时间上下文信息的提议特征M，在语义提议图模块中，将具有不同粒度时间上下文信息的提议特征M构建到提议图中，并利用图注意力卷积网络B在提议之间传递语义信息，得到增强的提议特征N，最后将增强的提议特征N提供给分类器，以预测提议的标签。以预测提议的标签。以预测提议的标签。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于时序动作检测的图网络模型

[0001]本专利技术涉及一种用于时序动作检测的图网络模型，属于时序动作检测任务

技术介绍

[0002]时序动作检测旨在同时识别未经剪辑的视频中所有动作的时间边界和类别，并引起研究界的极大关注。与对象检测类似，大多数时序动作检测方法采用两步，首先生成与类无关的时序动作提议，然后预测其动作标签。有些方法将这两个步骤视为独立的子任务，并分别设计不同的深度ConvNets，然而，这些方法分别训练每个阶段，导致计算效率不理想和较低。
[0003]一些方法共享提议生成和分类阶段之间的卷积特征，以构建端到端模型，并通过联合优化提议生成和分类阶段对其进行训练，动作提议通常包含部分ground truth，缺乏足够的语义信息来识别不完整动作，从其他提议中获取信息可能会获得大量有价值的信息，因为在生成动作提议时，不相关的提议已被删除。然而，大多数端到端模型分别预测提议的标签，并忽略提议之间的关系。
[0004]还有一些方法构建时间特征金字塔来解决动作实例固有的时间尺度可变性，然而，这些端到端模型在时间特征金字塔的单个级别上对提议进行分类，忽略了不同时间尺度下提议特征之间的信息传递。
[0005]为获取不同提议之间的跨尺度相关性和语义关系，以提高时序动作检测性能，需要通过在提议分类阶段预测其具体动作标签，增强提议特征。一个视频包含数百个提议，其中大多数包含彼此冗余或无关的信息，如何从其他提议中获取有价值的信息来提高提议特征质量十分重要。

技术实现思路

[...

【技术保护点】

【技术特征摘要】
1.一种用于时序动作检测的图网络模型，其特征在于：该图网络模型包括基本特征网络、提议生成网络和提议分类网络；所述的提议分类网络包括跨尺度提议图模块和语义提议图模块；所述的基本特征网络用于从原始视频数据中提取视频特征序列，并根据提取的视频特征序列采用transformer构造时间特征金字塔，以检测各种时间尺度下的动作实例，并将构造的时间特征金字塔输入提议生成网络；所述的提议生成网络用于接收基本特征网络输出的时间特征金字塔，并根据接收的时间特征金字塔的第i级特征图、置信度得分以及从第i级特征图中每个位置到边界的时间距离找到候选提议，从找到的候选提议中选择N
p
个候选提议作为动作提议，并将选择的动作提议输入提议分类网络；所述的提议分类网络中的跨尺度提议图模块用于接收提议生成网络输出的动作提议，通过图注意力卷积网络A生成具有不同粒度时间上下文信息的提议特征M，并将提议特征M输出到语义提议图模块；所述的提议分类网络中的语义提议图模块用于接收跨尺度语义图模块生成的具有不同粒度时间上下文信息的提议特征M，根据接收的提议特征M构建提议图，并对构建的提议图应用图注意力卷积网络B获取增强的提议特征N，最终将增强的提议特征N送入动作分类器，以预测提议的标签。2.根据权利要求1所述的一种用于时序动作检测的图网络模型，其特征在于：所述的基本特征网络从原始视频数据中提取的视频特征序列为f∈R
T
×
C
；其中，T是视频特征序列的长度，C是视频特征序列的维度；根据提取的视频特征序列构造时间特征金字塔时是指：对提取的视频特征序列f∈R
T
×
C
使用卷积网络嵌入到D维空间中，得到卷积网络的输出，并对得到的卷积网络的输出进行N级下采样操作得到时间特征金字塔其中是时间特征金字塔的第i级特征图；所述的卷积网络由以ReLU为激活函数的L1D卷积层组成：f
u
＝ConvNet(f)(1)其中，f
u
∈R
T
×
D
是卷积网络的输出。3.根据权利要求2所述中一种用于时序动作检测的图网络模型，其特征在于：所述的提议生成网络中，找到候选提议的方法为：选择时间特征金字塔的第i级特征图直接预测分类和回归分支预测置信度分数p
j
和每个位置j的边界距离找到候选提议：其中，t
s,j
,t
e,j
是候选提议ψ
j
的开始和结束时间。4.根据权利要求3所述中一种用于时序动作检测的图网络模型，其特征在于：
所述的选择N
p
个候选提议作为动作提议的方法为：根据置信度得分p
j
，提议生成网络选择N
p
个候选提议作为动作提议并将其输入提议分类网络。5.根据权利要求1所述中一种用于时序动作检测的图网络模型，其特征在于：所述的提议分类网络中的跨尺度提议图模块生成具有不同粒度时间上下文信息的提议特征M的方法步骤包括：步骤1，接收提议生成网络输出的时间特征金字塔第i级生成的动作提议使用ROI池化层获取N+1个跨时间尺度的提议特征其中是从时间特征金字塔第k级生成的提议特征；步骤2：将步骤1所得到的N+1个跨时间尺度的提议特征构建成一个图G
j
＝{V
j
,E
j
}，其中表示节点，E
j
表示边集；步骤3：将步骤2所生成的图G
j
＝{V
j
,E
j
}上的跨时间尺度信息输入到图注意...

【专利技术属性】
技术研发人员：甘明刚，张琰，陈杰，张少卿，马千兆，夏明月，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人