基于Mamba的多标签跨模态视频-文本检索方法及存储介质技术

技术编号：46623086 阅读：0 留言：0更新日期：2025-10-14 21:18

本发明专利技术公开了一种基于Mamba的多标签跨模态视频‑文本检索方法，所述方法通过使用Mamba和Vision Mamba对文本和视频帧进行编码，使得模型能够有效地学习到长距离的依赖关系，克服了传统模型在处理长视频序列数据时的缺陷，能够更准确地把握视频中前后内容的关联性，显著提高了视频‑文本检索的准确性和可靠性；将多标签按序输入Mamba模型进行特征提取，能够更加充分地利用多级标签所包含的丰富信息，进一步提高视频文本检索模型的性能；利用视频‑文本交互模块使模型在低级特征和高级语义层面均实现模态交互，使用Mamba模型构建视频和文本之间的多模态信息交互和关联，并结合视频‑文本双向检索损失函数最大化视频特征和文本特征的相似性，解决了视频和文本数据的模态鸿沟问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机应用，具体涉及一种基于mamba的多标签跨模态视频-文本检索方法及存储介质。

技术介绍

1、跨模态视频-文本检索是指在视频和文本数据之间建立关联和映射，从而实现根据给定的视频检索语义相关的文本，或者根据给定的文本检索语义相关的视频。视频是由连续的图像帧组成，包含丰富的视觉信息；而文本则是由离散的单词构成，通过语言规则表达语义。将这两种截然不同的表示形式进行有效的关联和匹配是一项极具挑战的任务。

2、目前相关技术中主要是基于循环神经网络、卷积神经网络和transformer架构对视频-文本进行建模并构建关联，包括专利cn114282060a公开了一种基于上下文transformer网络的细粒度视频-文本检索方法、专利cn117112838a公开了一种基于clip对比学习的视频文本检索方法、专利cn119166851a公开了一种基于指令引导gpt的文本检索视频方法、系统和设备、专利cn119066222a公开了基于时序令牌合并的视频文本检索方法、专利cn118377930b公开了一种基于beit-3多模态大模...

【技术保护点】

1.一种基于Mamba的多标签跨模态视频-文本检索方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述视频-文本交互模块VAT的构建包括以下步骤：

3.一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1或2所述多标签跨模态视频-文本检索方法的步骤。

【技术特征摘要】

1.一种基于mamba的多标签跨模态视频-文本检索方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述视频-文本交互模块vat的构建...

【专利技术属性】
技术研发人员：强保华，陈锐东，张世豪，舒果，谢元，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人