基于全局与局部语义的视频-文本检索方法技术

技术编号：43307532 阅读：23 留言：0更新日期：2024-11-12 16:24

本发明专利技术公开了一种基于全局与局部语义的视频‑文本检索方法，构建包括文本特征提取模块，视频特征提取模块，全局交互模块，局部交互模块和相似度融合模块的视频‑文本跨模态匹配模型，全局交互模块用于对文本特征提取模块和视频特征提取模块所提取得到的文本特征和视频特征计算得到全局相似度，局部交互模块用于基于Transformer编码器对文本的词特征和视频特征计算得到局部相似度，再由相似度融合模块将全局相似度和局部相似度融合得到视频‑文本的匹配度。本发明专利技术构建视频‑文本跨模态匹配模型，通过挖掘跨模态的潜在共享语义来优化视频‑文本检索。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于跨模态检索，更为具体地讲，涉及一种基于全局与局部语义的视频-文本检索方法。

技术介绍

1、近年来，跨模态学习在视觉和语言任务中取得了显著进展，尤其是在文本-图像检索领域。大规模的图像-文本预训练模型(如clip，contrastive language-lmage pre-training)展示了在不同任务中的强大性能，这些模型通过将图像和文本转换到一个共同的嵌入空间，实现了不同模态之间的语义对齐。然而，文本-视频检索相较于文本-图像检索更具挑战性，因为视频包含了更丰富的时间和空间信息。现有方法主要是将视频和文本映射到一个共同的嵌入空间，利用特定实体的跨模态交互进行语义对齐。

2、虽然现有的方法取得了很多卓越的研究成果，但是这些方法通常计算成本高，效率低，并且在处理复杂的时间序列数据时，效果可能不尽如人意。视频数据相较于图像数据，具有更高的维度和更复杂的内部结构，这使得简单的图像-文本方法难以直接应用于视频数据。当前的一些方法尝试通过引入注意力机制或更复杂的网络结构来捕捉视频中的动态信息，但这些方法往往需要大量...

【技术保护点】

1.一种基于全局与局部语义的视频-文本检索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的视频-文本检索方法，其特征在于，所述步骤S2中文本编码器采用预训练好的CLIP模型中的文本编码器。

3.根据权利要求1所述的视频-文本检索方法，其特征在于，所述步骤S2中视频编码器采用预训练好的CLIP模型中的图像编码器。

4.根据权利要求1所述的视频-文本检索方法，其特征在于，所述步骤S2中特征相似度采用余弦相似度。

5.根据权利要求1所述的视频-文本检索方法，其特征在于，所述步骤S2中相似度融合的计算公式为：

<...

【技术特征摘要】

1.一种基于全局与局部语义的视频-文本检索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的视频-文本检索方法，其特征在于，所述步骤s2中文本编码器采用预训练好的clip模型中的文本编码器。

3.根据权利要求1所述的视频-文本检索方法，其特征在于，所述步骤s2中视频编码器采用预训练好的clip模型中的图像编码器。

<...

【专利技术属性】
技术研发人员：高联丽，段毅航，曾鹏鹏，顾嘉扬，张浩楠，宋井宽，
申请(专利权)人：电子科技大学深圳高等研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人