【技术实现步骤摘要】
本专利技术属于跨模态检索,更为具体地讲,涉及一种基于全局与局部语义的视频-文本检索方法。
技术介绍
1、近年来,跨模态学习在视觉和语言任务中取得了显著进展,尤其是在文本-图像检索领域。大规模的图像-文本预训练模型(如clip,contrastive language-lmage pre-training)展示了在不同任务中的强大性能,这些模型通过将图像和文本转换到一个共同的嵌入空间,实现了不同模态之间的语义对齐。然而,文本-视频检索相较于文本-图像检索更具挑战性,因为视频包含了更丰富的时间和空间信息。现有方法主要是将视频和文本映射到一个共同的嵌入空间,利用特定实体的跨模态交互进行语义对齐。
2、虽然现有的方法取得了很多卓越的研究成果,但是这些方法通常计算成本高,效率低,并且在处理复杂的时间序列数据时,效果可能不尽如人意。视频数据相较于图像数据,具有更高的维度和更复杂的内部结构,这使得简单的图像-文本方法难以直接应用于视频数据。当前的一些方法尝试通过引入注意力机制或更复杂的网络结构来捕捉视频中的动态信息,但这些方法往往需要大量
...【技术保护点】
1.一种基于全局与局部语义的视频-文本检索方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的视频-文本检索方法,其特征在于,所述步骤S2中文本编码器采用预训练好的CLIP模型中的文本编码器。
3.根据权利要求1所述的视频-文本检索方法,其特征在于,所述步骤S2中视频编码器采用预训练好的CLIP模型中的图像编码器。
4.根据权利要求1所述的视频-文本检索方法,其特征在于,所述步骤S2中特征相似度采用余弦相似度。
5.根据权利要求1所述的视频-文本检索方法,其特征在于,所述步骤S2中相似度融合的计算公式为:
< ...【技术特征摘要】
1.一种基于全局与局部语义的视频-文本检索方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的视频-文本检索方法,其特征在于,所述步骤s2中文本编码器采用预训练好的clip模型中的文本编码器。
3.根据权利要求1所述的视频-文本检索方法,其特征在于,所述步骤s2中视频编码器采用预训练好的clip模型中的图像编码器。
<...【专利技术属性】
技术研发人员:高联丽,段毅航,曾鹏鹏,顾嘉扬,张浩楠,宋井宽,
申请(专利权)人:电子科技大学深圳高等研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。