基于事件感知的跨模态视频文本检索模型的训练方法技术

技术编号：42246632 阅读：20 留言：0更新日期：2024-08-02 13:56

本发明专利技术涉及机器学习技术领域，提供一种基于事件感知的跨模态视频文本检索模型的训练方法，方法包括：获取样本视频和初始检索模型，样本视频包含各视频帧的帧描述；提取各视频帧的帧特征和样本视频的视频特征；基于各视频帧的帧特征和各帧描述的帧文本特征进行事件内容对齐确定事件内容感知损失；基于视频特征和样本视频的整体文本特征进行事件时序对齐，确定事件时序感知损失；基于事件内容感知损失和事件时序感知损失，得到跨模态视频文本检索模型。本发明专利技术提供的方法，通过进行视频帧粒度的事件内容对齐和视频粒度的事件时序对齐，使得跨模态视频文本检索模型的事件理解能力大大提升，进而提升跨模态视频文本检索能力和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习，尤其涉及一种基于事件感知的跨模态视频文本检索模型的训练方法。

技术介绍

1、跨模态视频文本检索是最近几年出现的新型的信息领域检索方法，其基本原理是给定一个文本或视频作为查询，而后从数据库中快速检索到与之语义上最相关的视频或文本。当前关于视频文本检索的工作可以分为单流模型和双流模型两大类。其中，单流模型在推理过程中可以建模细节的视觉文本关联，拥有更高的精度但是牺牲了速度；双流模型缺乏模态交互，尽管牺牲了精度，但是可以进行高效检索，因此适用于实际的检索系统。

2、但是，当前的视频文本检索的工作仅依赖粗粒度的视频级和文本之间的对比，可能存在匹配的视频或文本，但未检索得到的情况，即现有方法的检索潜力受到限制。

技术实现思路

1、本专利技术提供一种基于事件感知的跨模态视频文本检索模型的训练方法，用以解决现有技术中跨模态视频文本检索潜力受到限制的缺陷。

2、本专利技术提供一种基于事件感知的跨模态视频文本检索模型的训练方法，包括如下步骤：

3、...

【技术保护点】

1.一种基于事件感知的跨模态视频文本检索模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的基于事件感知的跨模态视频文本检索模型的训练方法，其特征在于，所述基于所述初始检索模型提取所述样本视频中各视频帧的帧特征和所述样本视频的视频特征，包括：

3.根据权利要求1所述的基于事件感知的跨模态视频文本检索模型的训练方法，其特征在于，所述获取样本视频，包括：

4.根据权利要求3所述的基于事件感知的跨模态视频文本检索模型的训练方法，其特征在于，所述基于所述初始样本视频和所述初始样本视频对应的帧描述，得到所述样本视频，包括：