一种基于多粒度特征交互的跨模态检索方法技术

技术编号:32294594 阅读:25 留言:0更新日期:2022-02-12 20:04
本发明专利技术公开了一种基于多粒度特征交互的跨模态检索方法,用于实现视频和文本之间的相互检索任务。本发明专利技术使用全局视觉语义特征指导局部视觉语义特征来获取更加细粒度的局部信息,随后让全局视觉语义特征和经过增强的局部视觉语义特征进行相互学习融合得到视频级别的特征。将经过学习得到的视频级别特征与文本特征映射到同一个嵌入空间中,在嵌入空间中进行跨模态匹配,从而实现文本和视频之间的跨模态检索。本发明专利技术是一种基于神经网络的跨模态检索方法,在性能和复杂度上达到了较优平衡。在性能和复杂度上达到了较优平衡。在性能和复杂度上达到了较优平衡。

【技术实现步骤摘要】
一种基于多粒度特征交互的跨模态检索方法


[0001]本专利技术涉及视频

文本跨模态检索
,尤其涉及一种基于多粒度特征交互实现视频和文本之间跨模态检索的方法。

技术介绍

[0002]由于网络技术的迅速发展,网络上开始出现了大量的视频数据,而如何在大量的视频数据中寻找我们想要的视频数据,具体来说就是如何利用文本数据去找到相对应的视频数据或者是利用视频数据找到文本数据。本专利技术的目标是实现视频以及文本之间的互相匹配检索,从大量的视频中找到符合视频内容的文本,以及从大量的文本数据中找到符合句子语义的视频内容。
[0003]为了实现本专利技术目标,如何计算两种模态(视频和文本)之间的语义相似度是至关重要的。由于早期的视频检索都是基于概念的方法,它们使用预定义的概念空间去度量视频和文本查询之间的空间距离,并通过概念匹配利用空间距离去计算视频和文本查询之间的相似度。但是由于这种使用预定义的方法限制了性能,因此慢慢的基于跨模态表示学习的方法开始流行起来,它突破了概念空间的约束,以无概念的方式去学习到联合嵌入空间来度量视频和文本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多粒度特征交互的跨模态检索方法,其特征在于,包括以下步骤:(1)提取视频帧级别的全局视觉特征并检测每帧中的物体和物体类别,随后提取物体级别的局部视觉特征和局部语义特征;(2)将步骤(1)提取的局部语义特征加权聚合后得到全局语义特征;利用门控机制对全局语义特征和全局视觉特征进行交互得到全局视觉语义特征,对局部语义特征和局部视觉特征进行交互得到局部视觉语义特征;基于注意力机制,利用全局视觉语义特征指导局部视觉语义特征剔除无效信息;(3)分别构建全局视觉语义特征和局部视觉语义特征的上下文关系,利用协同注意力机制对局部视觉语义特征和全局视觉语义特征进行特征融合,得到视频级别的最终特征表示;(4)提取文本特征,将步骤(3)中得到的视频级别特征和文本特征映射到同一个嵌入空间,通过嵌入空间计算两个模态间的相似度,使用相似度进行跨模态匹配,以端到端的方式训练模型;(5)将视频和文本分别输入到步骤(4)训练好的模型中,实现文本和视频之间的互相检索。2.根据权利要求1所述的一种基于多粒度特征交互的跨模态检索方法,其特征在于,所述步骤(1)中,使用预训练的2D CNNs提取视频帧级别的全局视觉特征;使用预训练的Faster

RCNN检测物体,使用预训练的Resnet

101提取物体级别的局部视觉特征,使用预训练的GloVe提取物体级别的局部语义特征。3.根据权利要求1所述的一种基于多粒度特征交互的跨模态检索方法,其特征在于,所述步骤(2)中,对局部语义特性进行去重操作,即将每帧中重复的类别进行去重,之后再对局部语义特征加权聚合后得到全局语义特征。4.根据权利要求1所述的一种基于多粒度特征交互的跨模态检索方法,其特征在于,所述步骤(2)中,对每帧中提取到的全部的局部语义特征进行加权聚合操作,根据每个类别出现的频率作为该类别的权重获得全局语义特征。5.根据权利要求1所述的一种基于多粒度特征交互的跨模态检索方法,其特征在于,所述步骤(2)中,所述全局视觉语义特征的获取包括:将全局语义特征拼接到全局视觉特征之后,通过门控机制来控制信息的流通,以全局语义特征引导全局视觉特征进行缩放调制,吸收视频的全...

【专利技术属性】
技术研发人员:董建锋章敏松王雅冰郑琪刘宝龙陈书界杨涛
申请(专利权)人:浙江工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1