视频语料库片段检索的多模态迁移学习框架制造技术

技术编号:39324762 阅读:8 留言:0更新日期:2023-11-12 16:03
视频语料库片段检索的多模态迁移学习框架,所述学习框架由分段预训练变压器利用图像文本对、视频文本对和VCMR数据集进行训练,以将ITR和VR的知识转移到VCMR,使其能够在相对较小的VCMR数据集上实现更好的性能,包括:检索模块,所述检索模块包括文本编码器、视觉编码器和视频检索模块;所述文本编码器采用分段预训练变压器生成查询表示,对查询表示进行编码生成文本表示;所述视觉编码器用于采用视觉变换器来生成视频表示;所述视频检索模块用于对视频片段进行检索;片段定位模块,所述片段定位模块引入L1损失和IoU损失,以细粒度的方式来直接预测时间跨度。式来直接预测时间跨度。式来直接预测时间跨度。

【技术实现步骤摘要】
视频语料库片段检索的多模态迁移学习框架


[0001]本专利技术涉及视频语料库片段检索的多模态迁移学习框架。

技术介绍

[0002]深度学习促进了视觉和文本线索之间的跨模态检索的发展,借助大规模预训练技术,图像文本检索任务取得了巨大进步,可以专注于更具挑战性的跨模态任务——视频语料库片段检索,其中包括三个代表性的子任务:视频检索(VR)、单视频片段检索(SVMR)和视频语料库片段检索(VCMR),VR旨在根据给定的文本查询从视频语料库中检索相应的视频,SVMR是从给定视频中检索出一小段。
[0003]为了更好地匹配真实场景的应用,例如基于查询的视频监控、搜索和视频语料库中的导航,越来越多的研究人员开始探索视频语料库片段检索(VCMR),其目的是从大型视频语料库中检索和定位短片段。
[0004]现有的VCMR方法利用了基于分类框架的冻结高级预训练模型的离线知识,即语言的RoBERTa、视频的ResNet152和I3D来进行检索的,由于检索内容和预训练模型的缺陷,提取的视频特征和文本特征质量较差,影响了视频片段的预测,不能很好的适配于VCMR任务,无法满足VCMR的实际使用需求;并且基于分类框架的预测训练模型是粗粒度的,这种粗粒度的检索影响了模型片段检索的准确性,精准度达不到使用要求,从而很难预测目标片段的准确时间步长,只能在单个视频中根据文本检索片段,不能处理多个视频的情况

技术实现思路

[0005]本专利技术实施例提供了视频语料库片段检索的多模态迁移学习框架,结构设计合理,使用细粒度进行回归预测,可以提高模型预测和检索的准确率,准确预测到目标片段的准确时间步长,提供一种分段预训练变压器将ITR和VR的知识转移到VCMR,改善提取的视频特征和文本特征质量,采用图文数据、视频数据、分阶段的预训练模型,使其能够在相对较小的VCMR数据集上实现更好的性能,可应用于图片检索、视频检索及视频片段定位、视频库片段定位等任务,通用型的框架可以进一步提升检索性能,解决了现有技术中存在的问题。
[0006]本专利技术为解决上述技术问题所采用的技术方案是:
[0007]视频语料库片段检索的多模态迁移学习框架,所述学习框架由分段预训练变压器利用图像文本对、视频文本对和VCMR数据集进行训练,以将ITR和VR的知识转移到VCMR,使其能够在相对较小的VCMR数据集上实现更好的性能,包括:
[0008]检索模块,所述检索模块包括文本编码器、视觉编码器和视频检索模块;所述文本编码器采用分段预训练变压器生成查询表示,对查询表示进行编码生成文本表示;所述视觉编码器用于采用视觉变换器来生成视频表示;所述视频检索模块用于对视频片段进行检索;
[0009]片段定位模块,所述片段定位模块引入L1损失和IoU损失,以细粒度的方式来直接预测时间跨度。
[0010]所述分段预训练变压器包括ITR、VR和VCMR三个阶段,通过阶段性预训练将ITR和VR的知识转移到VCMR,ITR的再训练增强了模型的视觉语言对齐能力,VR的预训练增强了视频检索模块的检索能力。
[0011]所述片段定位模块通过L1损失和IoU损失直接学习片段位置。
[0012]在视频检索模块中采用计算查询q与视频语料库中的每个候选视频之间的相似度,即
[0013][0014]采用分段预训练变压器对视频文本计算随机采样的小批量内的批内视觉文本相似度,对视觉相似性的批内查询是:
[0015][0016]对比损失定义为交叉熵
[0017][0018]其中,H(
·
)表示交叉熵,y
q2v
和y
v2q
分别表示一次热查询到视觉的相似度和视觉到查询的相似度。
[0019]在片段定位模块中,首先通过将查询表示与V中的每个帧表示串联起来,来融合查询表示q和视频表示V:
[0020][0021]其中[
·

·
]表示串联操作,f(
·
)表示对变量的每个项求和。
[0022]利用具有非线性激活函数的多层感知器来预测时间跨度:
[0023][0024]其中MLP(
·
)表示具有非线性激活函数的多层感知器,T包含预测片段的开始和结束时间(T
s
和T
e
);
[0025]由L1损失和IoU损失组成的瞬时位置损失被定义为:
[0026][0027]其中表示真实时间跨度;
[0028]IoU损失定义如下:
[0029][0030]其中Inter和Union的定义如下:
[0031]Inter=max(τ
e
,T
e
)

max(τ
s
,T
s
),
[0032]Union=(τ
e

τ
s
)+(T
e

T
s
)

Inter.。
[0033]所述文本编码器基于自我注意机制使用分段预训练变压器生产文本表示。
[0034]本专利技术采用上述结构,通过将ITR和VR的知识转移到VCMR,使其能够在相对较小的VCMR数据集上实现更好的性能;通过图像文本对、视频文本对和VCMR数据集采用阶段学习检索和定位来训练分段预训练变压器;通过文本编码器来生成查询表示和文本表示,通过视觉编码器采用视觉变换器来生成视频表示;通过分段预训练变压器的三个阶段来增强了模型的视觉语言对齐能力和检索能力,具有简便实用、精准高效的优点。
附图说明:
[0035]图1为本专利技术的结构示意图。
[0036]图2为本专利技术的检索模块的结构示意图。
具体实施方式:
[0037]为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本专利技术进行详细阐述。
[0038]如图1

2中所示,视频语料库片段检索的多模态迁移学习框架,所述学习框架由分段预训练变压器利用图像文本对、视频文本对和VCMR数据集进行训练,以将ITR和VR的知识转移到VCMR,使其能够在相对较小的VCMR数据集上实现更好的性能,包括:
[0039]检索模块,所述检索模块包括文本编码器、视觉编码器和视频检索模块;所述文本编码器采用分段预训练变压器生成查询表示,对查询表示进行编码生成文本表示;所述视觉编码器用于采用视觉变换器来生成视频表示;所述视频检索模块用于对视频片段进行检索;
[0040]片段定位模块,所述片段定位模块引入L1损失和IoU损失,以细粒度的方式来直接预测时间跨度。
[0041]所述分段预训练变压器包括ITR、VR和VCMR三个阶段,通过阶段性预训练将ITR和VR的知识转移到VCMR,ITR的再训练增强了模型的视觉语言对齐能力,VR的预训练增强了视频检索模块的检索能力。
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.视频语料库片段检索的多模态迁移学习框架,其特征在于,所述学习框架由分段预训练变压器利用图像文本对、视频文本对和VCMR数据集进行训练,以将ITR和VR的知识转移到VCMR,使其能够在相对较小的VCMR数据集上实现更好的性能,包括:检索模块,所述检索模块包括文本编码器、视觉编码器和视频检索模块;所述文本编码器采用分段预训练变压器生成查询表示,对查询表示进行编码生成文本表示;所述视觉编码器用于采用视觉变换器来生成视频表示;所述视频检索模块用于对视频片段进行检索;片段定位模块,所述片段定位模块引入L1损失和IoU损失,以细粒度的方式来直接预测时间跨度。2.根据权利要求1所述的视频语料库片段检索的多模态迁移学习框架,其特征在于:所述分段预训练变压器包括ITR、VR和VCMR三个阶段,通过阶段性预训练将ITR和VR的知识转移到VCMR,ITR的再训练增强了模型的视觉语言对齐能力,VR的预训练增强了视频检索模块的检索能力。3.根据权利要求1所述的视频语料库片段检索的多模态迁移学习框架,其特征在于:所述片段定位模块通过L1损失和IoU损失直接学习片段位置。4.根据权利要求1所述的视频语料库片段检索的多模态迁移学习框架,其特征在于:在视频检索模块中采用计算查询q与视频语料库中的每个候选视频之间的相似度,即采用分段预训练变压器对视频文本计算随机采样的小批量内的批内视觉文本相似度,...

【专利技术属性】
技术研发人员:李伟刘健王立才徐加利杨林姜进成刘波王卜堂赵金娥高桢
申请(专利权)人:云鼎科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1