【技术实现步骤摘要】
一种基于时序特征金字塔的视频密集描述生成方法
[0001]本专利技术属于视频处理领域,具体涉及一种基于时序特征金字塔 (Temporal Feature Pyramid)的视频密集描述生成方法(Dense VideoCaptioning,DVC)。
技术介绍
[0002]视频密集描述是一项多媒体领域的新兴任务,该任务旨在根据提供的未经剪辑的原始视频,进行事件定位并生成描述语句。具体来讲是输入一个视频文件,通过模型后先定位出视频中哪些时间区间(包括开始时刻和结束时刻)中存在事件。例如,视频的第2秒到第12秒之间的区间存在着某个事件,视频的第21秒到第33秒之间的区间也存在着某个事件等一系列可能包含事件的时间片段信息。对于每一个可能包含事件的时间片段,例如第2秒到第12秒之间,视频密集描述模型还需要描述该时间片段内发生的事件的内容。为了得到更准确的预测,机器需要理解给定视频和文本的内在含义,并在此基础上对两者的信息进行合适的跨模态融合以最大程度地消除语义鸿沟。对比图像,视频可以被理解为具有时序连贯性的图像,如何利用好视频中的时序信息,在时间维度进行建模也是研究视频领域的关键。
[0003]近年来,深度学习受到科研机构、工业界的高度关注,发展至今已收获诸多优秀的网络模型和各种有效的训练方法。随着学术研究的深入,跨模态任务逐渐成为一个主流的研究方向。同时跨模态更符合真实的生活场景,具有丰富的研究意义和实际价值。视频作为近几年来逐渐兴起的研究媒体,结合自然语言,形成了视频
‑
文本的跨模态研究方向,视频 ...
【技术保护点】
【技术特征摘要】
1.一种基于时序特征金字塔的视频密集描述方法,其特征在于,步骤如下:步骤(1)、数据预处理,对视频和文本数据提取特征:首先对视频V进行预处理和特征提取:对于一段未经剪辑的视频V,以a帧为单位将其切分成t个块,对于一块中的a帧图像使用Kinetics数据集上预训练好的I3D模型对其提取特征,同时对于相应的光流图以同样的方式提取特征,然后将这两种特征在时间维度上对齐之后合并在一起,并经过一个可训练的嵌入矩阵后,得到代表整个视频的特征向量X;其次提取文本信息的特征:对于一个给定的句子Y,去除句子中的标点符号,然后把句子中的每一个单词放入GloVe模型以获取词嵌入特征,然后使用一个嵌入矩阵自适应地学习不同维度的相应权重,即可得到代表整个句子的特征向量Y;步骤(2)、通过基于局部注意力机制的视频特征编码器进行特征编码:所述的视频特征编码器由L个注意力模块组成,每个注意力模块包括一个自注意力子模块MHA和一个前馈网络子模块FFN;对于视频特征X,将其输入视频特征编码器中,得到不同分辨率的特征集合以下将阐述具体过程;首先将视频特征X视为X0,然后依次输入到第1个注意力模块的自注意力子模块MHA和前馈网络子模块FFN中;在自注意力子模块中,采用局部注意力机制限制每个位置的元素的感受野,使得输出特征中每个位置的元素仅由输入特征中相邻位置的元素重构得到,形成了类似卷积神经网络中的局部感受野机制;前馈网络子模块则用于对输出特征进行再次映射,得到第1个注意力模块的输出将作为第2个注意力模块的输入,如此循环,直到得到第L个注意力模块的输出为止;步骤(3)、构建基于特征金字塔结构的候选片段生成模块;首先将不同注意力模块的输出特征输入到不同的检测头中,对于第l(1≤l≤L)个检测头,其输出为对于Q
l
中的每一个元素根据视频特征的采样间隔,得到对应的开始和结束时刻以及相应的置信度分数;基于编码器第l注意力模块输出特征的第l个检测头负责预测持续时间位于ξ
l
‑1~ξ
l
之间的事件;在模型的训练阶段,候选片段生成模块的输出分为两个部分,第一部分是预测的事件中心位置和事件持续时间长度,这一部分影响了预测的时间片段的开始和结束时刻;对于每一个标注的事件,选择一个中心位置及anchor尺寸最匹配的输出特征中的元素用于计算损失L
reg
;此处,使用回归损失函数衡量预测值与实际值之间的偏差;第二部分是预测的置信度,代表当前时间片段中包含事件的可能性;将用于计算回归损失的元素视为正样本,其余均视为负样本,对所有样本计算分类损失L
cls
;最后,将两个损失相加,得到事件检测阶段第l个检测头的全部损失将所有检测的损失函数相加,就能够得到事件检测阶段的损失Loss
prop
;在测试阶段,不同的检测头生成了不同的候选时间片段集合之后,将所有的时间片段合并在一起,按相应的置信分数由高到低进行排序;然后采用非极大值抑制算法,对这些时
间片段进行筛选,得到置信分数高于设定置信阈值且相互之间重叠程度低于设定重叠阈值的时间片段集合;对于每一个保留下来的时间片段,本文认为其中存在某个特定的事件,因此将位于该时间片段内的视觉特征输入解码器中生成相应的描述语句;步骤(4)、构建基于特征融合的描述生成解码器;对于候选时间片段生成模块生成的每一个时间片段,在视频的原始特征X0上,屏蔽位于开始和结束时刻之外的特征并将其输入视频特征编码器中,得到不同分辨率的视频特征集合X
cap
,并在此基础上,进行特征融合操作;为尽可能地降低模型的复杂度,采用对应位置相加的方式实现特征融合;将经过融合操作的特征输入解码器中,输出预测的描述语句中的单词,最后计算预测单词分布与实际单词之间的损失,并将损失函数通过反向传播算法对模型的参数进行更新;在经过若干次迭代之后,模型就能够为每个时间片段中包含的事件生成具有针对性的描述语句了。2.根据权利要求1所述的一种基于时序特征金字塔的视频密集描述方法,其特征在于,步骤(1)视频与文本的预处理方式,具体实现如下:1
‑
1.对于视频中第k
×
a帧到第(k+1)
×
a帧之间的所有帧,将其输入I3D模型中,得到输出的特征向量x
′
k
;另外,对第k
×
a帧到第(k+1)
×
a帧提取光流图,并将光流图输入I3D模型中,得到输出的特征向量x
″
k
;将x
′
k
与x
″
k
拼接在一起,得到特征向量x
k
(1≤k≤t);用同样的方式对整个视频中的帧进行处理并使用一个可训练的嵌入矩阵进行映射后,得到代表整个视频的特征向量X={x1,x2,...,x
t
};1
‑
2.对于某条标注描述语句中的第b(1≤b≤n)个单词,根据其在词表中的位置,将其转换为One
‑
Hot编码,然后输入GloVe模型以压缩特征维度,然后使用一个嵌入矩阵自适应地学习不同维度的相应权重,即可...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。