视频语料库片段检索的多模态迁移学习框架制造技术

技术编号：39324762 阅读：8 留言：0更新日期：2023-11-12 16:03

视频语料库片段检索的多模态迁移学习框架，所述学习框架由分段预训练变压器利用图像文本对、视频文本对和VCMR数据集进行训练，以将ITR和VR的知识转移到VCMR，使其能够在相对较小的VCMR数据集上实现更好的性能，包括：检索模块，所述检索模块包括文本编码器、视觉编码器和视频检索模块；所述文本编码器采用分段预训练变压器生成查询表示，对查询表示进行编码生成文本表示；所述视觉编码器用于采用视觉变换器来生成视频表示；所述视频检索模块用于对视频片段进行检索；片段定位模块，所述片段定位模块引入L1损失和IoU损失，以细粒度的方式来直接预测时间跨度。式来直接预测时间跨度。式来直接预测时间跨度。

全部详细技术资料下载

【技术实现步骤摘要】
视频语料库片段检索的多模态迁移学习框架

：
[0001]本专利技术涉及视频语料库片段检索的多模态迁移学习框架。

技术介绍
：
[0002]深度学习促进了视觉和文本线索之间的跨模态检索的发展，借助大规模预训练技术，图像文本检索任务取得了巨大进步，可以专注于更具挑战性的跨模态任务——视频语料库片段检索，其中包括三个代表性的子任务：视频检索(VR)、单视频片段检索(SVMR)和视频语料库片段检索(VCMR)，VR旨在根据给定的文本查询从视频语料库中检索相应的视频，SVMR是从给定视频中检索出一小段。
[0003]为了更好地匹配真实场景的应用，例如基于查询的视频监控、搜索和视频语料库中的导航，越来越多的研究人员开始探索视频语料库片段检索(VCMR)，其目的是从大型视频语料库中检索和定位短片段。
[0004]现有的VCMR方法利用了基于分类框架的冻结高级预训练模型的离线知识，即语言的RoBERTa、视频的ResNet152和I3D来进行检索的，由于检索内容和预训练模型的缺陷，提取的视频特征和文本特征质量较差，影响了视频片段的预测，不能很好的适配于VCMR任务，无法满足VCMR的实际使用需求；并且基于分类框架的预测训练模型是粗粒度的，这种粗粒度的检索影响了模型片段检索的准确性，精准度达不到使用要求，从而很难预测目标片段的准确时间步长，只能在单个视频中根据文本检索片段，不能处理多个视频的情况

技术实现思路
：
[0005]本专利技术实施例提供了视频语料库片段检索的多模态迁移学习框架，结构设计合理，使用细粒...

【技术保护点】

【技术特征摘要】
1.视频语料库片段检索的多模态迁移学习框架，其特征在于，所述学习框架由分段预训练变压器利用图像文本对、视频文本对和VCMR数据集进行训练，以将ITR和VR的知识转移到VCMR，使其能够在相对较小的VCMR数据集上实现更好的性能，包括：检索模块，所述检索模块包括文本编码器、视觉编码器和视频检索模块；所述文本编码器采用分段预训练变压器生成查询表示，对查询表示进行编码生成文本表示；所述视觉编码器用于采用视觉变换器来生成视频表示；所述视频检索模块用于对视频片段进行检索；片段定位模块，所述片段定位模块引入L1损失和IoU损失，以细粒度的方式来直接预测时间跨度。2.根据权利要求1所述的视频语料库片段检索的多模态迁移学习框架，其特征在于：所述分段预训练变压器包括ITR、VR和VCMR三个阶段，通过阶段性预训练将ITR和VR的知识转移到VCMR，ITR的再训练增强了模型的视觉语言对齐能力，VR的预训练增强了视频检索模块的检索能力。3.根据权利要求1所述的视频语料库片段检索的多模态迁移学习框架，其特征在于：所述片段定位模块通过L1损失和IoU损失直接学习片段位置。4.根据权利要求1所述的视频语料库片段检索的多模态迁移学习框架，其特征在于：在视频检索模块中采用计算查询q与视频语料库中的每个候选视频之间的相似度，即采用分段预训练变压器对视频文本计算随机采样的小批量内的批内视觉文本相似度，...

【专利技术属性】
技术研发人员：李伟，刘健，王立才，徐加利，杨林，姜进成，刘波，王卜堂，赵金娥，高桢，
申请(专利权)人：云鼎科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人