一种基于时序特征金字塔的视频密集描述生成方法技术

技术编号:30040835 阅读:17 留言:0更新日期:2021-09-15 10:39
本发明专利技术公开了一种基于时序特征金字塔的视频密集描述方法。在变换网络模型框架下,对视频进行编码的同时利用局部注意力机制获取不同分辨率的特征,然后使用多个检测头对不同分辨率的特征进行检测,实现对不同持续时间的事件的全面覆盖。在检测出可能包含事件的时间片段之后,本发明专利技术进一步地利用特征融合方式对不同分辨率的视频特征进行融合,从而为事件生成更具针对性的描述。本发明专利技术方法相比于其他方法取得了更高的准确率和召回率,同时,描述生成解码器根据融合之后的特征也生成了更高质量的描述语句,这证明了该方法的普适通用性,可在其他多模态任务中充分发挥价值。可在其他多模态任务中充分发挥价值。可在其他多模态任务中充分发挥价值。

【技术实现步骤摘要】
一种基于时序特征金字塔的视频密集描述生成方法


[0001]本专利技术属于视频处理领域,具体涉及一种基于时序特征金字塔 (Temporal Feature Pyramid)的视频密集描述生成方法(Dense VideoCaptioning,DVC)。

技术介绍

[0002]视频密集描述是一项多媒体领域的新兴任务,该任务旨在根据提供的未经剪辑的原始视频,进行事件定位并生成描述语句。具体来讲是输入一个视频文件,通过模型后先定位出视频中哪些时间区间(包括开始时刻和结束时刻)中存在事件。例如,视频的第2秒到第12秒之间的区间存在着某个事件,视频的第21秒到第33秒之间的区间也存在着某个事件等一系列可能包含事件的时间片段信息。对于每一个可能包含事件的时间片段,例如第2秒到第12秒之间,视频密集描述模型还需要描述该时间片段内发生的事件的内容。为了得到更准确的预测,机器需要理解给定视频和文本的内在含义,并在此基础上对两者的信息进行合适的跨模态融合以最大程度地消除语义鸿沟。对比图像,视频可以被理解为具有时序连贯性的图像,如何利用好视频中的时序信息,在时间维度进行建模也是研究视频领域的关键。
[0003]近年来,深度学习受到科研机构、工业界的高度关注,发展至今已收获诸多优秀的网络模型和各种有效的训练方法。随着学术研究的深入,跨模态任务逐渐成为一个主流的研究方向。同时跨模态更符合真实的生活场景,具有丰富的研究意义和实际价值。视频作为近几年来逐渐兴起的研究媒体,结合自然语言,形成了视频

文本的跨模态研究方向,视频密集描述就是其中一个较为重要的方向,在定位事件的同时实现准确地描述,让计算机根据输入的视频自动定位出视频中包含的事件的开始和结束位置并以恰当的语言描述这些视频中发生的事件是一个值得深入探索的研究问题。
[0004]多年来,在跨媒体研究领域中,人们已经认识到获取模态间关联关系的重要性,并使用注意力机制尝试挖掘模态间丰富的关联关系。也有部分研究开始注意到模态内信息的交互,在融合前通过自注意力机制或是不同的线性层,获取模态内特征之间的关联关系。由于跨媒体信息的理解需要建立在对单个模态内部信息充分利用的基础上,无论是图像文本或者视频,都存在更多值得挖掘的有效信息,对模态内信息的建模无疑有助于加深单个模态的理解进而增强最终融合特征的表达能力。
[0005]在实际应用方面,视频密集描述算法具有广泛的应用场景。在娱乐场景下,如YouTube,爱奇艺,腾讯视频等视频软件中,根据用户的历史数据,可以快速查找到最新视频中用户感兴趣的片段。在安保系统中也具有十分良好的研究前景及重要的研究意义。
[0006]综上所述,视频密集描述是一个值得深入研究的课题,本专利拟从该任务中几个关键点切入展开探讨,解决目前方法存在的难点和重点,形成一套完整的视频密集描述系统。
[0007]自然语言的描述一般来自不同的标注者,具有较高的自由度,不具备统一固定的句子结构。同时,自然场景下的视频载体主题多样,内容复杂富于变化,帧与帧间可能具有
较高的相似性和冗余度,而这使得视频密集描述面临巨大的挑战。具体而言,主要存在如下两方面的难点:
[0008](1)由于视频密集描述任务中,事件检测一直是一个必不可少的环节,而现有方法在获得视频特征之后,往往使用单一的检测器对视频中发生的事件进行检测和定位。同时为了进行更加准确的定位,一般采用视频的细粒度特征。但是单一的检测器很难应对视频密集描述任务中持续时间差异巨大的不同事件,导致只能对持续时间在特定范围内的事件进行较好的检测。另外,由于长持续时间的事件在定位时需要蕴含更多全局信息的粗粒度特征,单一的细粒度特征反而会导致其定位的不准确。因此,如何让模型能够兼顾不同持续时长的事件对特征分辨率的不同需求,生成更准确的候选时间片段,是视频密集描述任务中的难点问题,也是影响结果性能的重要原因。
[0009](2)在检测出包含事件的时间片段之后,视频密集描述任务还要求对片段内包含的事件生成描述语句,现有方法生成描述语句时普遍基于视频的单一分辨率特征。这种方式忽略了不同分辨率特征对事件描述的不同作用。另外,生成描述时也往往采用循环神经网络,受限于循环神经网络自身递归的特性,描述生成模块难以在训练时并行计算,在一定程度上降低了训练的效率。

技术实现思路

[0010]针对现有技术中存在的不足,本专利技术提供了一种基于时序特征金字塔的视频密集描述方法。本专利技术提出一种基于时序特征金字塔 (Temporal Feature Pyramid)的视频密集描述生成方法(Dense VideoCaptioning,DVC)。核心方法为提出的多层次时序特征金字塔模型,用来解决不同持续时间的事件的检测问题,并在视频密集描述这一跨模态深度学习任务中验证该模型的优越性。本方法提出在变换网络模型(Transformer)框架下,对视频进行编码的同时利用局部注意力机制获取不同分辨率的特征,然后使用多个检测头对不同分辨率的特征进行检测,实现对不同持续时间的事件的全面覆盖。在检测出可能包含事件的时间片段之后,本专利技术进一步地利用特征融合方式对不同分辨率的视频特征进行融合,从而为事件生成更具针对性的描述。实验中将未经剪辑的视频输入基于时序特征金字塔的视频密集描述模型,在候选时间片段模块预测出时间片段之后,可以发现相比于其他方法取得了更高的准确率和召回率,同时,描述生成解码器根据融合之后的特征也生成了更高质量的描述语句,这证明了该方法的普适通用性,可在其他多模态任务中充分发挥价值。
[0011]本专利技术主要包含两点:
[0012]1、借助局部注意力机制将基于不同分辨率的多个检测头同时用于事件检测,有效覆盖了视频密集描述任务中不同持续时间的事件,充分发掘视频的内在信息,得到更高准确率和召回率的候选时间片段集合。
[0013]2、提出了基于特征融合的描述生成解码器,将不同分辨率的特征进行融合,使得底层细粒度特征也可以获得高层粗粒度特征的全局语义信息。解码器在获得同时具备细节信息和全局信息的特征以后,可以充分理解视频的上下文信息和时序相关性,生成更具针对性的描述文本。
[0014]本专利技术解决其技术问题所采用的技术方案包括如下步骤:
[0015]步骤(1)、数据预处理,对视频和文本数据提取特征:
[0016]首先对视频V进行预处理和特征提取:
[0017]对于一段未经剪辑的视频V,以a帧为单位将其切分成t个块,对于一块中的a帧图像使用Kinetics数据集上预训练好的I3D模型对其提取特征,同时对于相应的光流图以同样的方式提取特征,然后将这两种特征在时间维度上对齐之后合并在一起,并经过一个可训练的嵌入矩阵后,得到代表整个视频的特征向量X。
[0018]其次提取文本信息的特征:
[0019]对于一个给定的句子Y,去除句子中的标点符号,然后把句子中的每一个单词放入GloVe模型以获取词嵌入特征,然后使用一个嵌入矩阵自适应地学习不同维度的相应权重,即可得到代表整个句子的特征向量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时序特征金字塔的视频密集描述方法,其特征在于,步骤如下:步骤(1)、数据预处理,对视频和文本数据提取特征:首先对视频V进行预处理和特征提取:对于一段未经剪辑的视频V,以a帧为单位将其切分成t个块,对于一块中的a帧图像使用Kinetics数据集上预训练好的I3D模型对其提取特征,同时对于相应的光流图以同样的方式提取特征,然后将这两种特征在时间维度上对齐之后合并在一起,并经过一个可训练的嵌入矩阵后,得到代表整个视频的特征向量X;其次提取文本信息的特征:对于一个给定的句子Y,去除句子中的标点符号,然后把句子中的每一个单词放入GloVe模型以获取词嵌入特征,然后使用一个嵌入矩阵自适应地学习不同维度的相应权重,即可得到代表整个句子的特征向量Y;步骤(2)、通过基于局部注意力机制的视频特征编码器进行特征编码:所述的视频特征编码器由L个注意力模块组成,每个注意力模块包括一个自注意力子模块MHA和一个前馈网络子模块FFN;对于视频特征X,将其输入视频特征编码器中,得到不同分辨率的特征集合以下将阐述具体过程;首先将视频特征X视为X0,然后依次输入到第1个注意力模块的自注意力子模块MHA和前馈网络子模块FFN中;在自注意力子模块中,采用局部注意力机制限制每个位置的元素的感受野,使得输出特征中每个位置的元素仅由输入特征中相邻位置的元素重构得到,形成了类似卷积神经网络中的局部感受野机制;前馈网络子模块则用于对输出特征进行再次映射,得到第1个注意力模块的输出将作为第2个注意力模块的输入,如此循环,直到得到第L个注意力模块的输出为止;步骤(3)、构建基于特征金字塔结构的候选片段生成模块;首先将不同注意力模块的输出特征输入到不同的检测头中,对于第l(1≤l≤L)个检测头,其输出为对于Q
l
中的每一个元素根据视频特征的采样间隔,得到对应的开始和结束时刻以及相应的置信度分数;基于编码器第l注意力模块输出特征的第l个检测头负责预测持续时间位于ξ
l
‑1~ξ
l
之间的事件;在模型的训练阶段,候选片段生成模块的输出分为两个部分,第一部分是预测的事件中心位置和事件持续时间长度,这一部分影响了预测的时间片段的开始和结束时刻;对于每一个标注的事件,选择一个中心位置及anchor尺寸最匹配的输出特征中的元素用于计算损失L
reg
;此处,使用回归损失函数衡量预测值与实际值之间的偏差;第二部分是预测的置信度,代表当前时间片段中包含事件的可能性;将用于计算回归损失的元素视为正样本,其余均视为负样本,对所有样本计算分类损失L
cls
;最后,将两个损失相加,得到事件检测阶段第l个检测头的全部损失将所有检测的损失函数相加,就能够得到事件检测阶段的损失Loss
prop
;在测试阶段,不同的检测头生成了不同的候选时间片段集合之后,将所有的时间片段合并在一起,按相应的置信分数由高到低进行排序;然后采用非极大值抑制算法,对这些时
间片段进行筛选,得到置信分数高于设定置信阈值且相互之间重叠程度低于设定重叠阈值的时间片段集合;对于每一个保留下来的时间片段,本文认为其中存在某个特定的事件,因此将位于该时间片段内的视觉特征输入解码器中生成相应的描述语句;步骤(4)、构建基于特征融合的描述生成解码器;对于候选时间片段生成模块生成的每一个时间片段,在视频的原始特征X0上,屏蔽位于开始和结束时刻之外的特征并将其输入视频特征编码器中,得到不同分辨率的视频特征集合X
cap
,并在此基础上,进行特征融合操作;为尽可能地降低模型的复杂度,采用对应位置相加的方式实现特征融合;将经过融合操作的特征输入解码器中,输出预测的描述语句中的单词,最后计算预测单词分布与实际单词之间的损失,并将损失函数通过反向传播算法对模型的参数进行更新;在经过若干次迭代之后,模型就能够为每个时间片段中包含的事件生成具有针对性的描述语句了。2.根据权利要求1所述的一种基于时序特征金字塔的视频密集描述方法,其特征在于,步骤(1)视频与文本的预处理方式,具体实现如下:1

1.对于视频中第k
×
a帧到第(k+1)
×
a帧之间的所有帧,将其输入I3D模型中,得到输出的特征向量x

k
;另外,对第k
×
a帧到第(k+1)
×
a帧提取光流图,并将光流图输入I3D模型中,得到输出的特征向量x

k
;将x

k
与x

k
拼接在一起,得到特征向量x
k
(1≤k≤t);用同样的方式对整个视频中的帧进行处理并使用一个可训练的嵌入矩阵进行映射后,得到代表整个视频的特征向量X={x1,x2,...,x
t
};1

2.对于某条标注描述语句中的第b(1≤b≤n)个单词,根据其在词表中的位置,将其转换为One

Hot编码,然后输入GloVe模型以压缩特征维度,然后使用一个嵌入矩阵自适应地学习不同维度的相应权重,即可...

【专利技术属性】
技术研发人员:俞俊余宙韩男佳
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1