一种跨模态检索方法以及检索系统技术方案

技术编号:36223246 阅读:42 留言:0更新日期:2023-01-04 12:21
本发明专利技术提供了一种跨模态检索方法以及检索系统,所述检索方法包括:采用CLIP预训练模型对特征进行编码,获得包括原始图像以及文本的原始模态特征;将所述原始模态特征进行注意力对齐处理得到模态对齐数据以实现原始模态互相之间的语义相关;将上述步骤形成的所述模态数据通过权重共享的多层感知机以保持模态的不变性;利用Arc4cmr损失函数将最终得到的特征数据分布到归一化超球面上进行类别边界约束。本发明专利技术的跨模态检索方法使得成对的图像与文本的公共表示尽可能相近,实现同时增强类内紧性和类间差异性。内紧性和类间差异性。内紧性和类间差异性。

【技术实现步骤摘要】
一种跨模态检索方法以及检索系统


[0001]本专利技术涉及语义最大相关及模态对齐的跨模态检索的领域,具体而言,涉及一种跨模态检索方法以及检索系统。

技术介绍

[0002]信息资源已呈现出多模态数据(文本、图像、音频、视频等)的混合化态势,这些数据交叉关联,且逐步深度融合,并且这些多媒体数据呈现出快速增长的趋势。如何挖掘跨模态数据间隐藏的语义关联,实现跨模态信息检索是充分利用多模态数据资源的重要前提。
[0003]随着数据规模和模型规模的不断增大,深度学习逐渐进入预训练模型时代,如何更好地将其应用于下游任务受到越来越多的关注,如CLIP、SimVLM等。此类预训练模型已有的文本图像推理能力对于不同的下游任务如图像描述(Image Captioning)、视觉问答(Visual Question Answering,VQA)、跨模态检索(Cross

Modal Retrieval)等都具有相对较好的迁移能力。相较于传统的图像分类方法,CLIP模型不再是为每张图像分配一个名词标签,而是一个句子,因此以往被强行分成同类的图像本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种跨模态检索方法,其特征在于,包括如下步骤:采用CLIP预训练模型对特征进行编码,获得包括原始图像以及文本的原始模态特征;将所述原始模态特征进行注意力对齐处理得到模态对齐数据以实现原始模态互相之间的语义相关;将上述步骤形成的所述模态对齐数据通过权重共享的多层感知机以保持模态的不变性;利用Arc4cmr损失函数将最终得到的模态数据分布到归一化超球面上进行类别边界约束。2.根据权利要求1所述的跨模态检索方法,其特征在于,所述注意力对齐的处理方法包括:通过Decomposable Attention机制,将模态1中所包含的原始图像(文本)的每条样本,用batch内的所有模态2样本所包含的文本(图像)进行分解注意力的重新调整,即用模态2数据重新表示模态1数据。3.根据权利要求2所述的跨模态检索方法,其特征在于,注意力对齐处理之后,还包括:将经过模态对齐的输出特征与原始模态的特征进行Add操作,再到Layer Normalization进行归一化处理以加速模型的收敛,得到最终特征的图像模态特征数据为文本模态特征数据为4.根据权利要求3所述的跨模态检索方法,其特征在于,所述模态对齐的方法包括:当模态1为原始图像,模态2为原始文本时,以批batch内的图像原始特征作为查询Q每一个图像与批batch内的所有文本原始特征K计算相似性,得到注意力权重,然后用注意力权重与文本原始特征具体特征取值V相乘得到经过所述经过模态对齐的输出特征。5.根据权利要求2所述的跨模态检索方法,其特征在于,利用Arc4cmr损失函数将最终得到的模态数据分布到归一化超球面上进行类别边界约束的方法包括:将特征x
i
和对应权重W
yi
进行L2正则化,使得||W
yi
||=1,然后将标准化处理后的特征乘以一个重缩放rescale参数s,使得||x
i
||=s,即使得嵌入特征分布在半径为s的超球上;在特征x
i
和目标权重之间添加自定义的加性角度边距m用cos(θ
yi
+m)来代替原来的cosθ
yi

【专利技术属性】
技术研发人员:强保华孙苹苹杨先一席广勇陈锐东
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1