语义细分及模态对齐推理学习跨模态检索方法及检索系统技术方案

技术编号:38545655 阅读:8 留言:0更新日期:2023-08-22 20:55
本发明专利技术提供了一种语义细分及模态对齐推理学习跨模态检索方法、检索系统,本发明专利技术的语义细分及模态对齐推理学习跨模态检索方法包括如下步骤:将预训练后得到的原始模态特征基于缩放点积注意力进行模态对齐,以实现为原始特征重新聚合投影模态对齐特征;将上述步骤形成的所述模态对齐数据通过权重共享的多层感知机后,再采用语义近似匹配与正确匹配的方法实现对于相同类别标签簇的语义正确匹配与近似匹配挖掘;采用Arc4cmr损失函数、相互监督对比损失函数、图文特征相似度矩阵和相似标签矩阵间的对比损失函数进行模型约束。本发明专利技术的跨模态检索方法进一步提升了跨模态检索的准确性。性。性。

【技术实现步骤摘要】
语义细分及模态对齐推理学习跨模态检索方法及检索系统


[0001]本专利技术涉及语义最大相关及模态对齐的跨模态检索的领域,具体而言,涉及一种语义细分及模态对齐推理学习的跨模态检索方法及检索系统。

技术介绍

[0002]随着多媒体技术的迅速发展和日趋成熟,信息承载体从简单的图文形式逐渐演变为多种媒体数据联合呈现的态势,这些数据具有不同的存在形式、数据类型、数据分布和数据表现形式等,展示了事物的不同角度、不同维度和不同层面,我们将其统一称为多模态数据。多媒体社交平台在快速成长的过程中,数据表现形式日渐丰盈,逐步形成了内容共生、形式多元融合的新格局。信息传播方式的百花齐放,也带来了检索维度的不断扩增。例如,当我们检索某个事件或概念时,我们希望看到相关的图片、视频、图表等多种形式的信息,以便更好地理解和记忆,因此,跨模态检索任务应运而生。
[0003]跨模态检索旨在解决不同模态数据底层特征异构而高层语义相关的问题。按照是否使用标签信息,可将跨模态检索分为有监督跨模态检索和无监督跨模态检索两种。按照其时间历程来分,又可将跨模态检索大致分为基于统计分析的传统方法和基于深度学习的现代方法。
[0004]基于统计分析的传统跨模态检索方法:
[0005]1无监督方法:Li等提出的跨模态因子分析法(Cross

modal Factor Analysis,CFA)是最早的传统的跨模态无监督方法,该方法以F范数为度量,通过最小化变换域中不同模态样本对的距离,学习不同模态的投影子空间,进而在公共子空间中深入分析两模态数据背后潜在的匹配关系。Hotelling等提出的典型相关分析(Canonical Correlation Analysis,CCA)是一种无监督公共空间学习方法,是图像

文本内容相关性检索的里程碑式工作。
[0006]2有监督方法:Rasiwasia等提出了一种语义相关匹配(Semantic Correlation Matching,SCM)的跨模态检索模型,将图像和文本的语义进行抽象,并将共享空间中互相关两种模态数据进行联合建模,以提高模型的检索精度。为了充分利用现实生活中模态间信息并非绝对的一对一关系,Ranjan等在CCA的基础上利用多标签产生的一对多、多对一、多对多等关系构建了多标签的典型相关分析(multi

label Canonical Correlation Analysis,ml

CCA)模型,该模型更贴合于现实场景且模型的性能更优。
[0007]传统跨模态检索方法基于统计分析原理在实现上更简单,但模型学习到的大多数是非线性关系或是多模态数据的一个浅层映射关系,对于高级语义建模还有很大的提升的空间。此外,随着数据规模的扩大,传统方法的计算复杂度也是随之增加的,对于高维数据处理的能力也会急剧下降。
[0008]现有技术中的基于深度学习的跨模态检索方法主要有:
[0009]1无监督方法:Andrew等提出的深度典型相关分析(Deep Canonical Correlation Analysis,DCCA)利用神经网络学习非线性变换公共空间,准确捕捉数据相关性,解决了CCA
只适用于线性公共空间学习的问题。Wang等提出的深度典型相关自动编码器(Deep Canonically Correlated Autoencoders,DCCAE)通过添加基于自动编码器的重构误差来改进DCCA。
[0010]2有监督方法:Zhai等提出了联合表征学习(Joint Representation Learning,JRL)方法,在统一框架中联合多种模态数据将其进行稀疏化和半监督正则化处理,以探索它们之间的成对相关性和语义相关性信息。Zhen等提出了一种端到端的深度监督跨模式检索(Deeply Supervised Cross

Modal Retrieval,DSCMR)方法,在公共空间中通过对样本进行线性分类,以保留语义的区分性,通过权重共享策略,学习交叉模态之间的相关性,以保持模态的不变性。
[0011]相较于传统统计分析方法,深度学习网络模型的大规模数据运算能力、非线性结构设计以及对于复杂问题的深层语义信息挖掘能力的优势为跨模态检索研究拓展了新的思路和技术,有鉴于此,以深度学习方法为基础提出了本专利技术。

技术实现思路

[0012]有鉴于此,本专利技术公开了一种新型的跨模态检索方法,通过基于缩放点积注意力的模态对齐模块,增强语义相关模态特征的关联性,学习两种模态数据之间的模态对齐,设计语义近似匹配与正确匹配模块,增强类内图文特征的聚合性,同时,对类内存在语义信息差异的图

文对做细化区分。利用相互监督对比损失函数,增强特征细粒度对齐,利用图文特征相似度矩阵和相似标签矩阵间的对比损失函数,使类内语义近似匹配的损失小于类间错误匹配的损失。
[0013]具体地,本专利技术是通过以下技术方案实现的:
[0014]第一方面,本专利技术公开了一种新型的跨模态检索方法,包括如下步骤:
[0015]将预训练后得到的原始模态特征基于缩放点积注意力进行模态对齐,以实现为原始特征重新聚合投影模态对齐特征;
[0016]将上述步骤形成的所述模态对齐数据通过权重共享的多层感知机后,再采用语义近似匹配与正确匹配的方法实现对于相同类别标签簇的语义正确匹配与近似匹配挖掘;
[0017]采用Arc4cmr损失函数、相互监督对比损失函数、图文特征相似度矩阵和相似标签矩阵间的对比损失函数进行模型约束。
[0018]第二方面,本专利技术公开了一种跨模态检索系统,包括:
[0019]模态对齐模块:用于将预训练后得到的原始模态特征基于缩放点积注意力进行模态对齐,以实现为原始特征重新聚合投影模态对齐特征;
[0020]匹配模块:用于将上述步骤形成的所述模态对齐数据通过权重共享的多层感知机后,再采用语义近似匹配与正确匹配的方法实现对于相同类别标签簇的语义正确匹配与近似匹配挖掘;
[0021]约束模块:用于采用Arc4cmr损失函数、相互监督对比损失函数、图文特征相似度矩阵和相似标签矩阵间的对比损失函数进行模型约束。
[0022]第三方面,本专利技术公开了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面所述跨模态检索方法的步骤。
[0023]第四方面,本专利技术公开了一种计算机设备,包括存储器、处理器及存储在存储器上
并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所跨模态检索方法的步骤。
[0024]目前,有监督模型的损失函数约束条件大多数是用类别标签信息作为衡量标准,在多分类模型中,通常将模型的输出维度数设置为类别数(假设为N),以输出每个类别的概率分数。同时,为了方便计算和评估模型的预测效果,将样本的真实类别标签转换为一个N维的One

hot向量。具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义细分及模态对齐推理学习的跨模态检索方法,其特征在于,包括如下步骤:将预训练后得到的原始模态特征基于缩放点积注意力进行模态对齐,以实现为原始特征重新聚合投影模态对齐特征;将上述步骤形成的所述模态对齐数据通过权重共享的多层感知机后,再采用语义近似匹配与正确匹配的方法实现对于相同类别标签簇的语义正确匹配与近似匹配挖掘;采用Arc4cmr损失函数、相互监督对比损失函数、图文特征相似度矩阵和相似标签矩阵间的对比损失函数进行模型约束。2.根据权利要求1所述的跨模态检索方法,其特征在于,基于缩放点积注意力进行模态对齐的方法包括:将原始文本特征转化为单个查询将Batch内的所有原始图像特征转换为键和值转换方法具体见公式1。同理,对于图像检索文本任务的转换方法具体见公式2;文本任务的转换方法具体见公式2;上述公式中,D
p
为投影维度大小,D
p
的取值为1024,LN代表层归一化,是维度相同的投影矩阵;单个原始文本特征Q
t
与Batch内每个原始图像特征K
v
的相关性权重根据相关性权重系数所占比重,重新聚合投影图像特征V
v
,经过缩放点积注意力后获得的文本特征输出为Attention(Q
t
,K
v
,V
v
),具体如公式3;同理,经过缩放点积注意力后获得的图像特征输出为Attention(Q
t
,K
v
,V
v
),具体如公式4;公式3与公式4中的为缩放因子;然后将注意力模块的聚合图像表示用权重投影回如公式5:r
v∣t
=LN(Attention(Q
t
,K
v
,V
v
)W
O
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)其中,r
v∣t
表示以文本t为条件的聚合图像特征;
将注意力模块的聚合文本表示用权重投影回如公式6:r
t∣v
=LN(Attention(Q
v
,K
t
,V
t
)W
o
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)其中,r
t∣v
是以图像v为条件的聚合文本特征;最终经由基于缩放点积注意力的模态交互得到的文本为检索条件的图像模态特征表示为C
v
∣t,即文本特征对齐处理的最终融合输出,如公式7,以图像为检索条件的文本模态特征表示为C
t
∣v,即图像特征对齐处理的最终融合输出,如公式8所示;∣v,即图像特征对齐处理的最终融合输出,如公式8所示;上述公式中,单个元素具体含义为Batch内的单个原始文本特征被重新表示为单个元素具体含义为Batch内的单个原始图像特征被重新表示为3.根据权利要求2所述的跨模态检索方法,其特征在于,语义近似匹配与正确匹配的方法包括如下步骤:计算Batch内的所有图像特征u
i
和文本特征v
j
之间的语义相关度分数s
ij
,具体如公式9;根据公式9,即可得到文本到图像T2I的相似性矩阵attn
t
,公式为10;图像到文本I2T的相似性矩阵可表示为attn
v
,如公式11;Batch内的所有图像、文本对应的类别标签相同为1,不同为0,则近似匹配的图像

文本对的相似性标签矩阵可用公式12表示;以相似性标签矩阵label
sim
为依据,文本到图像的相似性矩阵attn
t
的相似度比重可重新表示为同理,图像到文本的相似性矩阵attn
v
的相似度比重可重新表示为对于文本在Batch大小的图像库中的相关图像特征可以被聚合为公式为13:
其中,展开表示为展开表示为是文本与图像间的近似语义关联,具体如公式14;对于图像在Batch大小的文本库中的相关文本特征可以被聚合为公式为15:其中,展开表示为展开表示为是图像与文本间的近似语义关联,具体公式表达如公式16;公式14、16中的λ为惩罚系数,Mask
sim
(
·
)表示掩码函数,当输入为正数时,输出等于输入,否则输出

∞;正确匹配关系对应的标签判别矩阵为单位矩阵,公式表示为17;以单位标签矩阵label
eql
为依据,计算正确匹配图

文对的相似度比重attn
eql
,即,文本到图像的相似性矩阵attn
t
与单...

【专利技术属性】
技术研发人员:李宝莲李培瑶孙苹苹朱良彬韩博谢海瑶强保华李忠涛赵建
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1