【技术实现步骤摘要】
本专利技术涉及机器学习,尤其涉及一种基于事件感知的跨模态视频文本检索模型的训练方法。
技术介绍
1、跨模态视频文本检索是最近几年出现的新型的信息领域检索方法,其基本原理是给定一个文本或视频作为查询,而后从数据库中快速检索到与之语义上最相关的视频或文本。当前关于视频文本检索的工作可以分为单流模型和双流模型两大类。其中,单流模型在推理过程中可以建模细节的视觉文本关联,拥有更高的精度但是牺牲了速度;双流模型缺乏模态交互,尽管牺牲了精度,但是可以进行高效检索,因此适用于实际的检索系统。
2、但是,当前的视频文本检索的工作仅依赖粗粒度的视频级和文本之间的对比,可能存在匹配的视频或文本,但未检索得到的情况,即现有方法的检索潜力受到限制。
技术实现思路
1、本专利技术提供一种基于事件感知的跨模态视频文本检索模型的训练方法,用以解决现有技术中跨模态视频文本检索潜力受到限制的缺陷。
2、本专利技术提供一种基于事件感知的跨模态视频文本检索模型的训练方法,包括如下步骤:
3、
...【技术保护点】
1.一种基于事件感知的跨模态视频文本检索模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的基于事件感知的跨模态视频文本检索模型的训练方法,其特征在于,所述基于所述初始检索模型提取所述样本视频中各视频帧的帧特征和所述样本视频的视频特征,包括:
3.根据权利要求1所述的基于事件感知的跨模态视频文本检索模型的训练方法,其特征在于,所述获取样本视频,包括:
4.根据权利要求3所述的基于事件感知的跨模态视频文本检索模型的训练方法,其特征在于,所述基于所述初始样本视频和所述初始样本视频对应的帧描述,得到所述样本视频,包括:
【技术特征摘要】
1.一种基于事件感知的跨模态视频文本检索模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的基于事件感知的跨模态视频文本检索模型的训练方法,其特征在于,所述基于所述初始检索模型提取所述样本视频中各视频帧的帧特征和所述样本视频的视频特征,包括:
3.根据权利要求1所述的基于事件感知的跨模态视频文本检索模型的训练方法,其特征在于,所述获取样本视频,包括:
4.根据权利要求3所述的基于事件感知的跨模态视频文本检索模型的训练方法,其特征在于,所述基于所述初始样本视频和所述初始样本视频对应的帧描述,得到所述样本视频,包括:
5.根据权利要求1至4中任一项所述的基于事件感知的跨模态视频文本检索模型的训练方法,其特征在于,所述基于所述初始检索模型,以应用所述各视频帧的帧特征和各帧描述的帧文本特征进行事件内容对齐,确定所述样本视频的事件内容感知损失,包括:
6.根据权利要求1至4中任一项所述的基于...
【专利技术属性】
技术研发人员:胡卫明,马宗扬,张子琦,李兵,原春锋,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。