基于特征解耦和交叉对比的视频时序定位方法技术

技术编号:31753481 阅读:20 留言:0更新日期:2022-01-05 16:35
本发明专利技术公开了一种基于特征解耦和交叉对比的视频时序定位方法,主要解决现有技术数据信息挖掘不充分,导致定位结果不精确的问题。其方案为:从公开网站获取视频文本训练集和测试集,提取训练样本的视频特征和文本特征;构建包含特征解耦网络、多模态融合网络、交叉对比网络和定位回归网络的文本视频定位网络;对文本视频定位网络进行训练得到最优的网络参数;将测试集输入训练好的文本视频定位网络中进行文本定位,得到文本在视频中对应的起止时间坐标,完成视频时序定位。本发明专利技术深入挖掘了视频的内部信息,得到了更有判别力的视频特征,利用视频文本对之间的关联,提高了定位结果的准确性,可用于电子商务、在线教育、智能监控、视频编辑和制作。视频编辑和制作。视频编辑和制作。

【技术实现步骤摘要】
基于特征解耦和交叉对比的视频时序定位方法


[0001]本专利技术属于多模态视频
,特别涉及一种视频时序定位方法,可用于电子商务、在线教育、智能监控、视频编辑和制作。

技术介绍

[0002]视频时序定位是指根据给定的一段文本查询句,在对应的原始视频中定位与该查询句所描述内容在语义上相近的视频片段的起止时间。该技术大大减少人工查找所耗费的人力和时间,但是这要求深入理解视频和文本两个模态的语义信息并对其进行充分交互与精确对齐,极具挑战性。
[0003]现有的视频时序定位方法主要基于深度学习,大致可分为两类:基于分割片段的方法和直接预测起止时间的方法。其中基于分割片段的方法的主要思想可总结为如图1所示框图,其首先将一个长视频切割成不同尺度的多个视频片段,并从每个片段和文本查询句中提取特征,然后使用多模态处理技术进行多模态交互,最终计算得到预测的起止时间坐标与准确起止时间坐标的时间偏移量。尽管这种方法操作方便并且取得了很好的结果,但是它需要将所有视频片段与文本查询进行匹配排序,需要十分昂贵的计算资源。另外,最终定位结果的准确率严重依赖生成的片段的质量,缺乏灵活性。
[0004]为了有效解决上述问题,近年的一些工作研究通过回归方法直接预测起止时间实现目标视频的定位。当前,研究人员已经提出两种直接预测起止时间的方法。第一种为基于循环神经网络和注意力机制的回归方法。第二种为基于强化学习的回归方法。
[0005]Yitian Yuan和Tao Mei等人在2019年的American Association for Artificial Intelligence会议上发表的名为“To Find Where You Talk:Temporal Sentence Localization in Video with Attention Based Location Regression”的文章,公开了一种基于循环神经网络和注意力机制的视频时序回归方法,该方法构建了一个端到端的基于注意力的定位回归模型。首先使用两个双向LSTM网络分别作为视频和句子编码器,然后将编码器得到的两个模态的特征输入到跨模态注意力交互网络中,过滤两个模态的不相关信息。最后,将基于注意力的特征向量传输到一个新的基于注意的坐标预测回归网络,来得到预测的时间坐标。
[0006]随着强化学习的兴起和广泛应用,研究者开始考虑将其思想应用到视频时序定位任务中。这类方法将视频时序定位任务视为序列决策问题,并且应用基于强化学习的方法来解决这个问题。Dongliang He和Xiang Zhao等人在2019年的American Association for Artificial Intelligence会议上发表的名为“Read,Watch,and Move:Reinforcement Learning for Temporally Grounding Natural Language Descriptions in Videos”的文章,首次公开了使用强化学习思想来解决这个任务的方法。他们使用一个代理根据学习策略来调整预测的起止时间边界。其首先为原始视频中的目标片段设定了一个随机边界,然后学习融合了不同层次的多模态特征的当前状态向量,并利用其当前状态向量和策略确定边界的下一步移动方向,移动策略包括7种不同的方式来进行调整。通过这种方式多次学
习,模型可以逐渐接近准确的目标片段坐标。
[0007]由于视频中相邻片段在外观上是相近的,若模型可以区分其差异便可以实现更精确的定位。另外,不同的文本视频对也可以提供一些概念和线索,从而令模型学习到信息更丰富的文本和视频特征。上述方法虽说可有效解决第一种方法的困难且取得了良好的性能,但此类方法严重依赖学习到的特征的质量,而且学习过程没有充分利用特征的信息,即没有探究视频内部的内在联系和文本视频对之间的关联,导致模型学习到的特征缺失部分信息,文本查询和其对应视频没有准确地对齐,影响模型的最终定位结果。

技术实现思路

[0008]本专利技术的目的在于克服上述已有技术存在的不足,提出一种基于特征解耦和交叉对比的视频时序定位方法,以通过分别提取视频内片段的内在联系和文本视频对之间的关联,得到更具判别性且语义信息更加丰富的多模态特征,实现更精确的定位结果。
[0009]本专利技术的技术思路是,通过设计特征解耦网络,获得更具判别性和信息更丰富的视频特征;通过基于Transformer的多模态融合网络在公共空间里得到融合了语义信息的视频特征;通过设计加权交叉对比网络,赋予负样本不同的权重,以探究文本视频对之间的关联,实现视频和文本之间更精确的对齐效果,达到更精确的定位结果。
[0010]根据上述思路,本专利技术的实现方案包括如下:
[0011](1)在公开数据集分别获取训练样本集和测试样本集;
[0012](2)从训练样本集中获取视频特征和文本特征:
[0013]2a)对训练样本集中的视频依次进行特征提取和采样,得到视频特征并将每一个视频特征x
i
投影到维度为1024的空间γ,其中,d
v
为视频片段特征维度,T为视频片段数目,i=1,2,...,N,N为100;
[0014]2b)对训练样本集中的文本进行特征提取,得到全局文本特征其中,d
Q
为文本特征维度;
[0015](3)构建由背景编码器、动作编码器、重建解码器和特征解耦损失层依次级联组成的视频特征解耦网络D,用于得到表示能力更好的动作特征和背景特征
[0016](4)构建由concatenate层、线性层、特征融合层、信息融合层、线性加权层、权重校准损失层依次级联组成的多模态融合网络F;
[0017](5)构建包括正负mask向量采样层、正负样本生成器、负样本权重分配层、对比损失层组成的交叉对比网络C,用于进行以文本为锚点的视频加权对比和以视频为锚点的文本加权对比;
[0018](6)构建依次由定位层、定位损失层组成的定位回归网络R;
[0019](7)将特征解耦网络、多模态融合网络和定位回归网络依次连接,并将交叉对比网络连接在多模态融合网络的输出端,构成文本视频定位网络E;
[0020](8)对文本视频定位网络E进行训练:
[0021](8a)采用均服从[

1,1]的均匀分布的网络参数对文本视频定位网络E进行初始化;
[0022](8b)设文本视频定位网络的损失函数为:其中为权重校准损失函数,为定位回归损失函数,为重建损失函数,为加权对比损失函数;
[0023](8c)将视频特征X
i
输入到特征解耦网络D中,分解出动作特征A
i
和背景特征B
i
;将动作特征A
i
和背景特征B
i
与文本特征q
i
输入多模态融合网络F中生成融合文本语义信息的视频全局特征S
i
和权重本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征解耦和交叉对比的视频时序定位方法,其特征在于,包括:(1)在公开数据集分别获取训练样本集和测试样本集;(2)从训练样本集中获取视频特征和文本特征:2a)对训练样本集中的视频依次进行特征提取,得到视频特征对每个训练样本的视频特征采样得到T=128个视频片段特征并将每一个视频特征x
i
投影到维度为1024的空间γ,其中,d
v
为视频片段特征维度,T为视频片段数目,i=1,2,...,N,批大小N为100;2b)对训练样本集中的文本进行特征提取,得到全局文本特征其中,d
Q
为文本特征维度;(3)构建由背景编码器、动作编码器、重建解码器和特征解耦损失层依次级联组成的视频特征解耦网络D,用于得到表示能力更好的动作特征和背景特征(4)构建由concatenate层、线性层、特征融合层、信息融合层、线性加权层、权重校准损失层依次级联组成的多模态融合网络F;(5)构建包括正负mask向量采样层、正负样本生成器、负样本权重分配层、对比损失层组成的交叉对比网络C,用于进行以文本为锚点的视频加权对比和以视频为锚点的文本加权对比;(6)构建依次由定位层、定位损失层组成的定位回归网络R;(7)将特征解耦网络、多模态融合网络和定位回归网络依次连接,并将交叉对比网络与多模态融合网络双向连接,构成文本视频定位网络E;(8)对文本视频定位网络E进行训练:(8a)采用均服从[

1,1]的均匀分布的网络参数对文本视频定位网络E进行初始化;(8b)设文本视频定位网络的损失函数为:其中为权重校准损失函数,为定位回归损失函数,为重建损失函数,为加权对比损失函数;(8c)将视频特征X
i
输入到特征解耦网络D中,分解出动作特征A
i
和背景特征B
i
;将动作特征A
i
和背景特征B
i
与文本特征q
i
输入多模态融合网络F中生成融合文本语义信息的视频全局特征和权重向量m
i
;将视频全局特征S
i
和文本特征q
i
以及权重向量m
i
输入到交叉对比网络对视频全局特征进行优化;将经过优化得到的视频全局特征输入到定位回归网络中,通过最小化损失函数完成对文本视频定位网络的训练;(9)对待定位的视频进行文本定位:(9a)从与训练样本集不相交的测试样本集中提取视频特征和文本特征(9b)将提取的视频特征输入到训练后文本视频定位网络的特征解耦网络中,输出解耦的动作特征和背景特征(9c)将解耦的动作特征和背景特征以及文本特征输入到训练后文本视频定位网络的多模态融合网络中,输出融合了语义信息的全局视频特征向量
(9d)将全局视频特征向量输入到训练后文本视频定位网络的定位回归网络中,得到最终预测的文本查询句在视频中对应的起止时间坐标(t
s
,t
e
),完成视频时序定位。2.根据权利要求1所述的方法,其中(2a)中对训练样本集中的视频进行特征提取和采样,是采用已预训练过的C3D模型或已预训练过的I3D模型,将训练数据输入C3D或I3D模型中取其最后一个全连接层的输出作为视频特征X
i
,将提取的所有视频特征X
i
进行平均切分,得到T=128个视频片段特征x
i
。3.根据权利要求1所述的方法,其中(2b)中的对训练样本集中的文本进行特征提取,是将已预训练过的Glove网络输出维度为300的词向量输入到双向长短期记忆网络LSTM中,将该LSTM网络中前向和后向的最后一个隐层的输出进行拼接,得到维度为512的全局文本特征q
i
。4.根据权利要求1所述的方法,其中(3)中的背景编码器、动作编码器和重建解码器结构相同,均由输入维度为1024,输出维度为1024的全连接层、激活函数为非线性ReLU函数、动量参数为0.99的一维批规范化层组成,该重建解码器的输出是通过一个特征解耦损失函数更新特征解耦网络的参数,其数学表达式为:其中,||||1表示L1距离,N是批大小100,T是视频片段的数目128,表示第i个视频特征的第t个视频片段特征,表示重建的第i个视频特征的第t个视频片段特征,表示的相邻片段特征,表示重建的的相邻片段特征。5.根据权利要求1所述的方法,其中(4)中多模态融合网络F的各层结构及功能如下:所述concatenate层,用于对特征解耦模块输出的背景特征向量B
i
和动作特征向量A
i
进行维度上的拼接得到拼接向量;所述线性层,用于将concatenate层输出的拼接向量和文...

【专利技术属性】
技术研发人员:杨延华王赫男胥喆杨木李张兹琪邓成
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1