一种基于弱监督的跨模态视频时段检索方法技术

技术编号:37527490 阅读:16 留言:0更新日期:2023-05-12 15:52
本发明专利技术公开了一种基于弱监督的跨模态视频时段检索方法。本发明专利技术引入了一个候选时段生成模块,该模块能够有效地利用视频的时间关系,并生成更准确的可变长度候选提案,并设计多任务损失,其中包括关键词重构损失、排序损失、精准选择损失,使其定位出更加精准的开始点和结束点。本发明专利技术采用端到端的方式,在两个基准数据集上的大量实验结果证明了该方法的有效性。本发明专利技术提出的精确选择损失使得模型优先考虑比较短的与目标时段相近的时段,改善了候选时段生成的方式,使得生成的候选时段最优解与真实时段的相似度达到99%。最后改进了重构损失的重构方式,降低重构的压力,同时排除非关键词减少杂质,从而提升模型的性能。从而提升模型的性能。从而提升模型的性能。

【技术实现步骤摘要】
一种基于弱监督的跨模态视频时段检索方法


[0001]本专利技术提出了一种新的基于弱监督的跨模态视频时段检索方法,用于跨模态的文本检索视频时段任务。本专利技术针对该任务,提出了一种新的网络架构,引入了一种新的候选时段生成模块,该模块能够有效地利用视频的时间关系,并生成更准确的可变长度候选时段,并设计多任务损失,其中包括重构损失,排序损失,精准选择损失,使其定位出更加精准的开始点和结束点。本专利技术采用端到端的方式,在两个基准数据集上的大量实验结果证明了该方法的有效性。

技术介绍

[0002]人类将书面文本内容形象化、视觉化的能力在许多认知过程中起重要的作用,如记忆,空间推理等。受人类可视化的能力的启发,构建一个在语言和视觉之间转化的跨模态系统,也成了人工智能领域新的追求。
[0003]视频是一种更准确、高效和便捷的信息共享和传递的方式,相比书面文本和静态图片而言。近几年,由于短视频平台的爆炸式发展,视频逐渐成为主流的信息传递媒介,但是由于视频采用二进制方式进行存储,且视频的元数据不可被检索,导致,很多视频相关工作必须由人工来完成,比如警察在查监控的视频无法根据描述信息快速定位出需要的时段,必须由人工观看获取想要的信息;再比如,视频审核工作也是由人工完成,无法根据关键字直接排查不合规的视频。但是,随着近些年深度学习的发展,使得跨模态的文本定位视频段成为可能。通过跨模态的弱监督视频时段检索,可以以文本描述为条件,检索出与文本描述语义相关的视频时段的开始点和结束点。文本描述能够携带对象的属性,空间位置,关系等密集的语义信息,根据这些信息,完成语言到视觉信息的检索。
[0004]此任务的定义就是:根据用户输入的文本描述,从一整段视频中检索出与用户输入描述语义相关的视频时段的开始点和结束点。从一整段视频中检索出感兴趣的时段是一种复杂的计算机视觉和深度学习任务,需要深刻了解文本语义和视频语义,然后进行跨模态的匹配,在多个领域有非常重要的作用,比如监控检索,视频审核,用户搜索等。
[0005]现在的做法大致可以分为两类,强监督的做法和弱监督的做法。此任务刚开始是强监督的方式,数据集必须提供对应文本描述的开始点和结束点的标注,但是,这就有个问题,就是这些数据需要人工进行标注,非常耗费时间和精力,且根据每个个体的差异,标记出来的时段也各有不同。因此,一个新的任务方式被提出,就是弱监督视频时段检索任务,该任务相比于之前的任务,最大的差别就是不再需要具体的开始点和结束点的时间标注,只需要文本和其对应的视频,就可以检索出与文本语义最相关的时段,从而实现文本到视觉的检索。由于缺少监督信息,因此,该任务带来了更大的挑战。本文是基于弱监督的方式实现跨模态视频时段检索,因此,接下来重点讨论弱监督的做法。
[0006]基于弱监督视频时段检索任务出现后,一共有两种主流的做法,第一种是一阶段方法,就是根据指定的文本描述信息,直接从视频中定位出与之相关的视频时段的开始点和结束点,这种方式看似完美,但是,确给网络造成了非常大的压力,需要从无限多种时段
区间的可能性中选择一种,导致性能不太好。这时,就有人提出了第二种做法,就是两阶段的方法(本文采用的方法也是属于两阶段方法),首先,将一种段完整的视频根据指定的划分依据划分出一些候选的视频时段,然后从这些候选的视频时段中检索出一个最匹配的作为结果进行返回,因此,如何划分视频时段就是一个非常重要的话题,关系到后续是否可以选出最合适的视频时段。
[0007]然而,现在的模型仍然存在一些限制和缺陷,对于一阶段的方法,性能远不及两阶段的方法,故不做讨论,对于两阶段方法,一个突出的缺点就是,无法限制网络选择更加精确的时段,比如有两个候选的时段,一个比较长,涵盖目标时段,则此时网络可能就不会继续寻找更加精确的时段,我们这里提出了精准选择损失用于限制模型选择更加精确的比较短的时段,而不是只满足于现状。
[0008]另外我们引入的候选时段生成策略,使得最优的候选时段与真实时段的相似度可以达到99%以上,基本就相当于找出了目标时段。我们的目标是从这些候选的视频段中选择出与真实时段最相似的作为结果输出。这样的话,不会因为选择区间过大导致性能过差。
[0009]最后,我们改进了弱监督的监督模块,通过候选的视频时段特征作为监督,还原出句子中被挖出了关键字,直觉上,如果还原的效果比较好,说明该视频时段与该句子更加的匹配,根据这一点,选出最合适的视频时段。

技术实现思路

[0010]本专利技术的目的是针对现有技术的不足,提出了一种新的跨模态视频时段定位网络架构,用于解决这些问题,生成更加精准的视频时段的开始点和结束点。本专利技术提出的精确选择损失使得模型优先考虑比较短的与目标时段相近的时段,而不是比较长的包含目标时段的候选时段,并改善了候选时段生成的方式,使得生成的候选时段最优解与真实时段的相似度达到99%,最后,改进了重构损失的重构方式,降低重构的压力,同时排除非关键词减少杂质,从而提升模型的性能。
[0011]本专利技术一种基于弱监督的跨模态视频时段检索方法,解决其技术问题所采用的技术方案包括如下步骤:
[0012]步骤(1)、数据预处理,即文本及视频特征提取;
[0013]步骤(2)、构建网络整体架构及设计损失函数;
[0014]步骤(3)、模型训练,优化网络参数;
[0015]给定一个未剪辑的视频V和一个文本句子Q,目标是根据文本句子的语义信息,选择一个最匹配的视频时段,将文本句子表示成其中,q
i
表示句子中的第i个单词,l
Q
表示一个句子中单词的数量;将输入的视频特征表示为其中,v
j
表示第j个视频向量,l
V
表示视频向量的数量,目标是找到一个从v
s
到v
e
连续的视频特征序列,其语义信息与输入的文本句子Q相同。
[0016]所述的步骤(1)数据预处理具体实现如下:
[0017]两个数据集包括ActivityNet Caption和Charades

STA。
[0018]ActivityNet Caption数据集包含19,209个视频和100k个手工标注的带有时间信息的文本句子;使用37417组视频

文本对进行训练,17031组视频文本对进行测试。
[0019]Charades

STA数据集由10,000个带有活动标注的视频和相应的用于描述视频的文本句子组成。数据集包括12,408对用于训练的视频文本对和3,720对用于测试的视频文本对。
[0020]所述的数据预处理即文本及视频特征提取,对于文本数据的特征提取,使用斯坦福大学开源的一个词向量数据文件Glove,其实就是一个词和一个向量的一一映射,得到所需的文本特征。
[0021]对于视频的特征提取,首先将视频转换成一组有时间先后关系的图片序列,然后使用一个预训练的C3D网络,每16帧提取出一个4096维度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于弱监督的跨模态视频时段检索方法,其特征在于包含如下步骤:步骤(1)、数据预处理,即文本及视频特征提取;步骤(2)、构建网络整体架构及设计损失函数;步骤(3)、模型训练,优化网络参数;给定一个未剪辑的视频V和一个文本句子Q,目标是根据文本句子的语义信息,选择一个最匹配的视频时段,将文本句子表示成其中,q
i
表示句子中的第i个单词,l
Q
表示一个句子中单词的数量;将输入的视频特征表示为其中,v
j
表示第j个视频向量,l
V
表示视频向量的数量,目标是找到一个从v
s
到v
e
连续的视频特征序列,其语义信息与输入的文本句子Q相同;所述的步骤(1)数据预处理具体实现如下:两个数据集包括ActivityNet Caption和Charades

STA;ActivityNet Caption数据集包含19,209个视频和100k个手工标注的带有时间信息的文本句子;使用37417组视频

文本对进行训练,17031组视频文本对进行测试;Charades

STA数据集由10,000个带有活动标注的视频和相应的用于描述视频的文本句子组成;数据集包括12,408对用于训练的视频文本对和3,720对用于测试的视频文本对;所述的数据预处理即文本及视频特征提取,对于文本数据的特征提取,使用斯坦福大学开源的一个词向量数据文件Glove,其实就是一个词和一个向量的一一映射,得到所需的文本特征;对于视频的特征提取,首先将视频转换成一组有时间先后关系的图片序列,然后使用一个预训练的C3D网络,每16帧提取出一个4096维度的向量,处理完成后,将获取一个向量序列,这就是抽取出的视频特征。2.根据权利要求1所述的一种基于弱监督的跨模态视频时段检索方法,其特征在于步骤(2)具体实现如下:网络模型主要分为两部分:候选时段生成模块和语义重构模块;所述的候选时段生成模块用于生产多种多样长度的候选时段,最终会从这些候选中选出最优时段作为结果进行输出;所述的语义重构模块就是负责对候选时段生成模块选出的最优时段进行评分,监督候选时段生成模块从候选时段中选出更加精准的最优时段。3.根据权利要求2所述的一种基于弱监督的跨模态视频时段检索方法,其特征在于候选时段生成模块具体实现如下:首先对提取的文本特征融入上下文信息,采用Transformer结构,同时采用正弦和余弦函数,对应的位置表示当前单词的位置信息,因此,每个单词的位置编码信息通过如下公式表示:PE
(pos,2x)
=sin(pos/10000
2x
/d
model
)PE
(pos,2x+1)
=cos(pos/10000
2x
/d
model
)其中,x表示位置编码向量的第x个维度,pos表示当前单词在文本句子中的位置,d
model
表示词向量的维度;然后设计一个文本编码器Enc
Q
接受输入的文本句子Q和位置信息PE,这个文本编码器Enc
Q
会生成带有上下文信息的文本表示其中,表示句子中的第i个单词融入上
下文信息之后的特征表示,l
Q
表示一个句子中单词的数量;其次,文本表示和视频表示通过一个视频解码器Dec
v
将文本表示和视频表示V进行融合,该视频解码器首先会使得视频表示V融入上下文信息,然后将文本表示融入到视频中,生成跨模态表示;具体来说,该视频编码器的功能是将文本表示和视频表示V进行集成,采用Transformer的Decoder层,模块的输入由两部分组成:一部分是已经融入上下文信息的文本表示另一部分是提取的视频表示V,最终跨模态表示为:此过程通过公式表述为:其中,生成的是包含文本表示和视频表示V的跨模态表示;将接收到的跨模态表示转换成二维的时空图,首先,将输入的跨模态表示划分成l
V
份独立的视频段,然后采用固定间隔采样的方式,间隔从1一直到l
V
,划分完毕之后,每一个视频段c
t
包含T个连续的向量,从中选取N个视频段,表示成然后,根据分割出的视频段建立候选时段的时空图,为了获取每一个候选时段的特征,在每一个候选时段指定的时间间隔内应用最大池化,表示为M
(a,b)
=maxpool(c
a
,c
a+1
,...,c
b
),这里的a和b是视频段开始位置和结束位置的索引,范围是1≤a≤b≤N;因此,生成的跨模态信息被转换为时空图表示为前两个维度定义时段开始和结束索...

【专利技术属性】
技术研发人员:韩婷婷王凯范建平俞俊
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1