当前位置: 首页 > 专利查询>福州大学专利>正文

令牌压缩与双向非对称匹配的多模态查询图像检索方法技术

技术编号:39139568 阅读:27 留言:0更新日期:2023-10-23 14:54
本发明专利技术提出令牌压缩与双向非对称匹配的多模态查询图像检索方法,包括以下步骤;步骤S1:将输入图像分块并分别编码,将输入文本利用词嵌入转化为令牌序列;对序列化的数据进行令牌压缩与编码;步骤S2:对得到的融合上下文的图像模态和文本模态令牌序列加上额外的融合令牌,并再次进行令牌压缩与编码;步骤S3:对使用步骤S2得到的单模态与融合模态特征表示进行正向的精确匹配与反向的模糊匹配,利用匹配结果指导神经网络学习过程。步骤S4:进行神经网络的训练,保留最好的模型权重用于计算测试集数据的特征表示,实现组合查询图像检索;本发明专利技术能够对多模态查询语义进行充分融合,充分利用多模态数据的相关性和互补性实现更全面更精细的图像检索。面更精细的图像检索。面更精细的图像检索。

【技术实现步骤摘要】
令牌压缩与双向非对称匹配的多模态查询图像检索方法


[0001]本专利技术涉及模式识别、计算机视觉、自然语言处理
,尤其是令牌压缩与双向非对称匹配的多模态查询图像检索方法。

技术介绍

[0002]近年来,随着多模态理解相关任务的发展,多模态相关领域研究备受关注。如何模拟人类大脑处理信息的形式,充分利用所有可获得的模态信息进行综合决策成为一个重要问题。传统的检索方法在单一模态内针对用户给定的查询寻找匹配的数据。跨模态检索方法允许在两个完全不同的模态之间进行检索,例如图像到文本检索或者文本到图像检索。组合查询图像检索则是利用多模态数据作为查询,进行更加全面更加精细的图像检索。

技术实现思路

[0003]本专利技术提出令牌压缩与双向非对称匹配的多模态查询图像检索方法,能够对多模态查询语义进行充分融合,充分利用多模态数据的相关性和互补性实现更全面更精细的图像检索。
[0004]本专利技术采用以下技术方案。
[0005]令牌压缩与双向非对称匹配的多模态查询图像检索方法,所述方法对多模态查询语义进行融合,利用多模态数据的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.令牌压缩与双向非对称匹配的多模态查询图像检索方法,其特征在于:所述方法对多模态查询语义进行融合,利用多模态数据的相关性和互补性来提升图像检索的全面性和精细度,包括以下步骤;步骤S1:将输入图像分块并分别编码,将输入文本利用词嵌入转化为令牌序列;对序列化的数据进行令牌压缩与编码;步骤S2:对使用步骤S1得到的融合上下文的图像模态和文本模态令牌序列加上额外的融合令牌,并再次进行令牌压缩与编码;步骤S3:对使用步骤S2得到的单模态与融合模态特征表示进行正向的精确匹配与反向的模糊匹配,利用匹配结果指导神经网络参数的学习过程。步骤S4:遵循步骤S1、S2、S3进行神经网络的训练,保留训练过程中表现最好的模型权重,用于计算测试集数据的特征表示,实现组合查询图像检索。2.根据权利要求1所述的令牌压缩与双向非对称匹配的多模态查询图像检索方法,其特征在于:所述步骤S1具体实现方法为:步骤S11、首先将输入图像分割成N
p
个块,分别编码得到一个块序列并在每个块令牌中添加位置嵌入以编码位置信息;对于输入的长度为N
q
的文本序列使用预训练BERT进行文本分词与词嵌入转换,并在每个词嵌入中添加位置嵌入以编码位置信息;步骤S12、对序列化的数据的图像块序列与文本令牌序列进行压缩,具体方法为;方法A、图像块序列压缩:首先将一维图像块嵌入依照其在原始图像上的位置关系重塑为二维的特征图,经过层归一化后,使用二维卷积让特征图的长和宽减半以使特征图缩小到原来的1/4,同时通过控制卷积核个数让通道翻倍;同时引入一个额外的残差分支以加速模型在训练过程中的收敛速度并提升模型的稳定性,引入的残差分支先通过自适应平均池化获得与输出特征图大小一致但通道不一致的下采样特征图;然后通过一个实现为Conv1d的分支从已有通道中学习其余的通道,从而挖掘更多的通道交互信息,再将二者在通道维度拼接后作为残差分支的输出;由于图像块压缩过程改变了块的数量,为了保留图像块之间的相对位置关系,需要重新计算位置嵌入添加到压缩之后的序列中;方法B、文本令牌序列压缩:首先将输入的文本令牌嵌入经过层归一化计算后,分别在特征维度与通道维度进行特征融合与令牌融合,实现为特征维度与通道维度的一维卷积;通过控制两个卷积的卷积核个数让嵌入的数量变为原来的1/4,嵌入维度变为原来的2倍;在文本令牌序列压缩中引入一个残差分支,并通过一个额外的一维卷积基于已有通道学习融合上下文的交互通道,并在通道维度进行拼接以作为对现有通道的补充;由于压缩打乱了令牌嵌入相互的位置,为了保留压缩后令牌之间的相对位置关系,重新计算位置嵌入添加其中。步骤S13、对压缩后序列进行编码,方法为:图像块嵌入序列经过压缩后,为压缩后的令牌序列P加入特殊设计的令牌[IMG]以作为图像模态的全局令牌;本步骤中使用的视觉编码器由L
V
个标准的Transformer编码器层构成,V
l
表示第l层Transformer的输入序列,第l层的输出作为第l+1层的输入,表示为:Y
l
=MSA(LN(V
l
))+V
l
ꢀꢀꢀꢀꢀꢀꢀꢀ
公式(2

1)
V
l+1
=MLP(LN(Y
l
))+Y
l
ꢀꢀꢀꢀꢀꢀꢀ
公式(2

2)其中MSA(
·
)表示多头自注意力层,MLP(
·
)表示多层感知层,LN(
·
)表示层归一化,Y
l
为第l层的一个中间表示。第一个Transformer块的输入序列V1就是经过令牌压缩并加入特殊设计的令牌[IMG]的序列P;最后一个Transformer块的输出记为本步骤中使用的文本编码器实现为L
T
个标准Transformer编码器层的堆叠;第一个Transformer块的输入序列就是经过令牌压缩的序列Q;最后一个Transformer块的输出记为3.根据权利...

【专利技术属性】
技术研发人员:柯逍陈柏涛蔡宇航
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1