【技术实现步骤摘要】
本专利技术涉及计算机应用,具体涉及一种基于mamba的多标签跨模态视频-文本检索方法及存储介质。
技术介绍
1、跨模态视频-文本检索是指在视频和文本数据之间建立关联和映射,从而实现根据给定的视频检索语义相关的文本,或者根据给定的文本检索语义相关的视频。视频是由连续的图像帧组成,包含丰富的视觉信息;而文本则是由离散的单词构成,通过语言规则表达语义。将这两种截然不同的表示形式进行有效的关联和匹配是一项极具挑战的任务。
2、目前相关技术中主要是基于循环神经网络、卷积神经网络和transformer架构对视频-文本进行建模并构建关联,包括专利cn114282060a公开了一种基于上下文transformer网络的细粒度视频-文本检索方法、专利cn117112838a公开了一种基于clip对比学习的视频文本检索方法、专利cn119166851a公开了一种基于指令引导gpt的文本检索视频方法、系统和设备、专利cn119066222a公开了基于时序令牌合并的视频文本检索方法、专利cn118377930b公开了一种基于beit-3多模态大模
...【技术保护点】
1.一种基于Mamba的多标签跨模态视频-文本检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述视频-文本交互模块VAT的构建包括以下步骤:
3.一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1或2所述多标签跨模态视频-文本检索方法的步骤。
【技术特征摘要】
1.一种基于mamba的多标签跨模态视频-文本检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述视频-文本交互模块vat的构建...
【专利技术属性】
技术研发人员:强保华,陈锐东,张世豪,舒果,谢元,
申请(专利权)人:桂林电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。