【技术实现步骤摘要】
基于多尺度时空注意力网络的视频场景图生成方法
[0001]本专利技术提出一种基于多尺度时空注意力网络
(Multi
‑
scale Spatial
‑
Temporal Transformer,MSTT)
的视频动态场景图生成方法
(Dynamic Scene Graph Generation)。
技术介绍
[0002]动态场景图
(dynamic scene graph generation,DSGG)
任务旨在同时检测视频中出现的物体并预测物体之间的关系,从而生成一系列形如
<
主语,谓词,宾语
>
的三元组
。
动态场景图是在静态场景图的基础上额外增加了时间轴来表示物体随时间的关系变化
。
生成动态场景图是一个具有挑战性的任务,因为需要同时考虑空间和时间的因素
。
传统的静态图像场景图生成模型只专注于当前帧,通常只能捕捉到图像中物体之间的静态 ...
【技术保护点】
【技术特征摘要】
1.
基于多尺度时空注意力网络的视频场景图生成方法,其特征在于包括如下步骤:步骤1:对数据集进行划分;步骤2:使用预训练好的目标检测网络对视频帧提取特征,并进行目标分类;对于检测到的每个物体预测其类别,作为模型的先验条件;步骤3:构建目标的语言特征将步骤2中的分类结果根据预先训练好的词向量模型将其转换为包含语义信息的词向量;步骤4:构建人物关系对的综合特征,并存储为稀疏矩阵对于步骤2和步骤3获取到的特征进行主语宾语之间成对的拼接,包括主语的视觉特征
、
宾语的视觉特征
、
主语的语言特征
、
宾语的语言特征以及主语和宾语之间的联合特征;对于一个视频中的所有帧,将其出现的主语和宾语之间成对的特征存储到一个稀疏矩阵中,矩阵的行数代表视频帧数,矩阵的列数代表的物体的类别数量,每一列的含义是同一个物体与人之间的关系对;步骤5:构建多尺度时空注意力网络将步骤4的综合特征输入到多尺度时空注意力网络,该网络包括:空间编码器和时间解码器;空间编码器又包含了局部空间编码和全局空间编码,时间解码器包含了长期时间解码和短期时间解码;步骤6:构建预训练模型增强的分类网络将步骤5的输出结果输入到预训练模型增强的分类网络中进行最终的关系分类,以增强视觉语言的交互理解;最终输出注意关系类别预测向量
、
位置关系类别预测向量以及接触关系类别预测向量;步骤7:损失函数对于步骤2的物体分类,将预测向量和目标向量输入到损失函数中,计算损失值;对于步骤6关系分类,将其输出的3类预测向量分别同对应的目标向量一起输入到相应的损失函数中,并分别输出3个损失值;步骤8:训练模型根据步骤7中的损失函数产生的损失值利用反向传播算法对步骤6中神经网络的模型参数进行梯度回传,不断优化,直至整个网络模型收敛,即模型的训练损失降到一定范围不再继续下降;步骤9:网络预测值计算根据步骤6输出的预测向量进行排序,根据不同的评判标准抉择最终的分类预测结果
。2.
根据权利要求书1所述的基于多尺度时空注意力网络的视频场景图生成方法,其特征在于,步骤2所述的用预训练好的目标检测网络对视频帧提取特征,具体如下:对于输入的视频
V
=
[I1,I2,
…
,I
T
]
,其中
T
表示该视频的帧数,其中的每一帧
I
t
都可以通过检测器从中获取到
N
t
个边界框和它们的类别分布以及每个边界框对应的视觉特征其中
b
表示物体边界框,
d
表示物体类别分布,
v
表示物体视觉特征
。3.
根据权利要求书2所述的基于多尺度时空注意力网络的视频场景图生成方法,其特
征在于步骤3所述的构建目标的语言特征,具体如下:通过预训练的
GloVe
‑
200d
,将物体类别标签映射到
200
维的语义嵌入向量中;第
t
帧中的两个物体
a
和
b
之间的语义向量表示为
4.
根据权利要求书3所述的一种基于多尺度时空注意力网络的视频场景图生成方法,其特征在于步骤4所述的构建人物关系对的综合特征,并存储为稀疏矩阵,具体如下:第
t
帧中的两个物体
a
和
b
之间的表征向量可以表示为:其中
<,>
表示在通道维度的拼接操作,表示压平操作,以及表示按元素相加;
W
s
,W
o
以及
W
u
是线性矩阵,用于将视觉特征压缩到
512
维度;表示通过
RoIAlign
计算得到的联合框的特征映射,
f
box
是一种变形函数,用于将主语和宾语所对应的边界框转化为与形状相同的特征;将公示1所表示的特征存储到稀疏矩阵中,对于
C
个物体类别以及具有
T
帧的视频
V
,输入矩阵表示为其中
D
表示输入表征的维度;稀疏矩阵的行代表视频帧,而列代表人与物的成对组合;输入矩阵表示为其中
C'
表示当前视频
V
中真实出现的物体类别的个数
。5.
根据权利要求书4所述的一种基于多尺度时空注意力网络的视频场景图生成方法,其特征在于步骤5所述的构建多尺度时空注意力网络,包括以下步骤:5‑
1.
构建多尺度空间编码器:5‑1‑
1.
构建全局空间编码器:对于视频
V
的输入矩阵输入序列为其中
t
中代表视频的第
t
帧;在全局尺度下的空间编码器中,采用了单头的点积自注意力机制;在该操作中,
Q、K、V
共享相同的输入,并且经过
n
层编码器后得到的输出表示为:该编码器由
n
个堆叠起来的
MultiHeadAtt
global
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。