一种基于弱监督的跨模态视频时段检索方法技术

技术编号：37527490 阅读：16 留言：0更新日期：2023-05-12 15:52

本发明专利技术公开了一种基于弱监督的跨模态视频时段检索方法。本发明专利技术引入了一个候选时段生成模块，该模块能够有效地利用视频的时间关系，并生成更准确的可变长度候选提案，并设计多任务损失，其中包括关键词重构损失、排序损失、精准选择损失，使其定位出更加精准的开始点和结束点。本发明专利技术采用端到端的方式，在两个基准数据集上的大量实验结果证明了该方法的有效性。本发明专利技术提出的精确选择损失使得模型优先考虑比较短的与目标时段相近的时段，改善了候选时段生成的方式，使得生成的候选时段最优解与真实时段的相似度达到99％。最后改进了重构损失的重构方式，降低重构的压力，同时排除非关键词减少杂质，从而提升模型的性能。从而提升模型的性能。从而提升模型的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于弱监督的跨模态视频时段检索方法

[0001]本专利技术提出了一种新的基于弱监督的跨模态视频时段检索方法，用于跨模态的文本检索视频时段任务。本专利技术针对该任务，提出了一种新的网络架构，引入了一种新的候选时段生成模块，该模块能够有效地利用视频的时间关系，并生成更准确的可变长度候选时段，并设计多任务损失，其中包括重构损失，排序损失，精准选择损失，使其定位出更加精准的开始点和结束点。本专利技术采用端到端的方式，在两个基准数据集上的大量实验结果证明了该方法的有效性。

技术介绍

[0002]人类将书面文本内容形象化、视觉化的能力在许多认知过程中起重要的作用，如记忆，空间推理等。受人类可视化的能力的启发，构建一个在语言和视觉之间转化的跨模态系统，也成了人工智能领域新的追求。
[0003]视频是一种更准确、高效和便捷的信息共享和传递的方式，相比书面文本和静态图片而言。近几年，由于短视频平台的爆炸式发展，视频逐渐成为主流的信息传递媒介，但是由于视频采用二进制方式进行存储，且视频的元数据不可被检索，导致，很多视频相关工作必须由人工来完成，比如警察在查监控的视频无法根据描述信息快速定位出需要的时段，必须由人工观看获取想要的信息；再比如，视频审核工作也是由人工完成，无法根据关键字直接排查不合规的视频。但是，随着近些年深度学习的发展，使得跨模态的文本定位视频段成为可能。通过跨模态的弱监督视频时段检索，可以以文本描述为条件，检索出与文本描述语义相关的视频时段的开始点和结束点。文本描述能够携带对象的属性，空间位置，关系等密集的语...

【技术保护点】

【技术特征摘要】
1.一种基于弱监督的跨模态视频时段检索方法，其特征在于包含如下步骤：步骤(1)、数据预处理，即文本及视频特征提取；步骤(2)、构建网络整体架构及设计损失函数；步骤(3)、模型训练，优化网络参数；给定一个未剪辑的视频V和一个文本句子Q，目标是根据文本句子的语义信息，选择一个最匹配的视频时段，将文本句子表示成其中，q
i
表示句子中的第i个单词，l
Q
表示一个句子中单词的数量；将输入的视频特征表示为其中，v
j
表示第j个视频向量，l
V
表示视频向量的数量，目标是找到一个从v
s
到v
e
连续的视频特征序列，其语义信息与输入的文本句子Q相同；所述的步骤(1)数据预处理具体实现如下：两个数据集包括ActivityNet Caption和Charades
‑
STA；ActivityNet Caption数据集包含19,209个视频和100k个手工标注的带有时间信息的文本句子；使用37417组视频
‑
文本对进行训练，17031组视频文本对进行测试；Charades
‑
STA数据集由10,000个带有活动标注的视频和相应的用于描述视频的文本句子组成；数据集包括12,408对用于训练的视频文本对和3，720对用于测试的视频文本对；所述的数据预处理即文本及视频特征提取，对于文本数据的特征提取，使用斯坦福大学开源的一个词向量数据文件Glove，其实就是一个词和一个向量的一一映射，得到所需的文本特征；对于视频的特征提取，首先将视频转换成一组有时间先后关系的图片序列，然后使用一个预训练的C3D网络，每16帧提取出一个4096维度的向量，处理完成后，将获取一个向量序列，这就是抽取出的视频特征。2.根据权利要求1所述的一种基于弱监督的跨模态视频时段检索方法，其特征在于步骤(2)具体实现如下：网络模型主要分为两部分：候选时段生成模块和语义重构模块；所述的候选时段生成模块用于生产多种多样长度的候选时段，最终会从这些候选中选出最优时段作为结果进行输出；所述的语义重构模块就是负责对候选时段生成模块选出的最优时段进行评分，监督候选时段生成模块从候选时段中选出更加精准的最优时段。3.根据权利要求2所述的一种基于弱监督的跨模态视频时段检索方法，其特征在于候选时段生成模块具体实现如下：首先对提取的文本特征融入上下文信息，采用Transformer结构，同时采用正弦和余弦函数，对应的位置表示当前单词的位置信息，因此，每个单词的位置编码信息通过如下公式表示：PE
(pos，2x)
＝sin(pos/10000
2x
/d
model
)PE
(pos，2x+1)
＝cos(pos/10000
2x
/d
model
)其中，x表示位置编码向量的第x个维度，pos表示当前单词在文本句子中的位置，d
model
表示词向量的维度；然后设计一个文本编码器Enc
Q
接受输入的文本句子Q和位置信息PE，这个文本编码器Enc
Q
会生成带有上下文信息的文本表示其中，表示句子中的第i个单词融入上
下文信息之后的特征表示，l
Q
表示一个句子中单词的数量；其次，文本表示和视频表示通过一个视频解码器Dec
v
将文本表示和视频表示V进行融合，该视频解码器首先会使得视频表示V融入上下文信息，然后将文本表示融入到视频中，生成跨模态表示；具体来说，该视频编码器的功能是将文本表示和视频表示V进行集成，采用Transformer的Decoder层，模块的输入由两部分组成：一部分是已经融入上下文信息的文本表示另一部分是提取的视频表示V，最终跨模态表示为：此过程通过公式表述为：其中，生成的是包含文本表示和视频表示V的跨模态表示；将接收到的跨模态表示转换成二维的时空图，首先，将输入的跨模态表示划分成l
V
份独立的视频段，然后采用固定间隔采样的方式，间隔从1一直到l
V
，划分完毕之后，每一个视频段c
t
包含T个连续的向量，从中选取N个视频段，表示成然后，根据分割出的视频段建立候选时段的时空图，为了获取每一个候选时段的特征，在每一个候选时段指定的时间间隔内应用最大池化，表示为M
(a，b)
＝maxpool(c
a
，c
a+1
，...，c
b
)，这里的a和b是视频段开始位置和结束位置的索引，范围是1≤a≤b≤N；因此，生成的跨模态信息被转换为时空图表示为前两个维度定义时段开始和结束索...

【专利技术属性】
技术研发人员：韩婷婷，王凯，范建平，俞俊，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人