【技术实现步骤摘要】
语义细分及模态对齐推理学习跨模态检索方法及检索系统
[0001]本专利技术涉及语义最大相关及模态对齐的跨模态检索的领域,具体而言,涉及一种语义细分及模态对齐推理学习的跨模态检索方法及检索系统。
技术介绍
[0002]随着多媒体技术的迅速发展和日趋成熟,信息承载体从简单的图文形式逐渐演变为多种媒体数据联合呈现的态势,这些数据具有不同的存在形式、数据类型、数据分布和数据表现形式等,展示了事物的不同角度、不同维度和不同层面,我们将其统一称为多模态数据。多媒体社交平台在快速成长的过程中,数据表现形式日渐丰盈,逐步形成了内容共生、形式多元融合的新格局。信息传播方式的百花齐放,也带来了检索维度的不断扩增。例如,当我们检索某个事件或概念时,我们希望看到相关的图片、视频、图表等多种形式的信息,以便更好地理解和记忆,因此,跨模态检索任务应运而生。
[0003]跨模态检索旨在解决不同模态数据底层特征异构而高层语义相关的问题。按照是否使用标签信息,可将跨模态检索分为有监督跨模态检索和无监督跨模态检索两种。按照其时间历程来分,又可将跨模态检索大致分为基于统计分析的传统方法和基于深度学习的现代方法。
[0004]基于统计分析的传统跨模态检索方法:
[0005]1无监督方法:Li等提出的跨模态因子分析法(Cross
‑
modal Factor Analysis,CFA)是最早的传统的跨模态无监督方法,该方法以F范数为度量,通过最小化变换域中不同模态样本对的距离,学习不同模态的投影子空间,进而在公共子空间 ...
【技术保护点】
【技术特征摘要】
1.一种语义细分及模态对齐推理学习的跨模态检索方法,其特征在于,包括如下步骤:将预训练后得到的原始模态特征基于缩放点积注意力进行模态对齐,以实现为原始特征重新聚合投影模态对齐特征;将上述步骤形成的所述模态对齐数据通过权重共享的多层感知机后,再采用语义近似匹配与正确匹配的方法实现对于相同类别标签簇的语义正确匹配与近似匹配挖掘;采用Arc4cmr损失函数、相互监督对比损失函数、图文特征相似度矩阵和相似标签矩阵间的对比损失函数进行模型约束。2.根据权利要求1所述的跨模态检索方法,其特征在于,基于缩放点积注意力进行模态对齐的方法包括:将原始文本特征转化为单个查询将Batch内的所有原始图像特征转换为键和值转换方法具体见公式1。同理,对于图像检索文本任务的转换方法具体见公式2;文本任务的转换方法具体见公式2;上述公式中,D
p
为投影维度大小,D
p
的取值为1024,LN代表层归一化,是维度相同的投影矩阵;单个原始文本特征Q
t
与Batch内每个原始图像特征K
v
的相关性权重根据相关性权重系数所占比重,重新聚合投影图像特征V
v
,经过缩放点积注意力后获得的文本特征输出为Attention(Q
t
,K
v
,V
v
),具体如公式3;同理,经过缩放点积注意力后获得的图像特征输出为Attention(Q
t
,K
v
,V
v
),具体如公式4;公式3与公式4中的为缩放因子;然后将注意力模块的聚合图像表示用权重投影回如公式5:r
v∣t
=LN(Attention(Q
t
,K
v
,V
v
)W
O
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)其中,r
v∣t
表示以文本t为条件的聚合图像特征;
将注意力模块的聚合文本表示用权重投影回如公式6:r
t∣v
=LN(Attention(Q
v
,K
t
,V
t
)W
o
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)其中,r
t∣v
是以图像v为条件的聚合文本特征;最终经由基于缩放点积注意力的模态交互得到的文本为检索条件的图像模态特征表示为C
v
∣t,即文本特征对齐处理的最终融合输出,如公式7,以图像为检索条件的文本模态特征表示为C
t
∣v,即图像特征对齐处理的最终融合输出,如公式8所示;∣v,即图像特征对齐处理的最终融合输出,如公式8所示;上述公式中,单个元素具体含义为Batch内的单个原始文本特征被重新表示为单个元素具体含义为Batch内的单个原始图像特征被重新表示为3.根据权利要求2所述的跨模态检索方法,其特征在于,语义近似匹配与正确匹配的方法包括如下步骤:计算Batch内的所有图像特征u
i
和文本特征v
j
之间的语义相关度分数s
ij
,具体如公式9;根据公式9,即可得到文本到图像T2I的相似性矩阵attn
t
,公式为10;图像到文本I2T的相似性矩阵可表示为attn
v
,如公式11;Batch内的所有图像、文本对应的类别标签相同为1,不同为0,则近似匹配的图像
‑
文本对的相似性标签矩阵可用公式12表示;以相似性标签矩阵label
sim
为依据,文本到图像的相似性矩阵attn
t
的相似度比重可重新表示为同理,图像到文本的相似性矩阵attn
v
的相似度比重可重新表示为对于文本在Batch大小的图像库中的相关图像特征可以被聚合为公式为13:
其中,展开表示为展开表示为是文本与图像间的近似语义关联,具体如公式14;对于图像在Batch大小的文本库中的相关文本特征可以被聚合为公式为15:其中,展开表示为展开表示为是图像与文本间的近似语义关联,具体公式表达如公式16;公式14、16中的λ为惩罚系数,Mask
sim
(
·
)表示掩码函数,当输入为正数时,输出等于输入,否则输出
‑
∞;正确匹配关系对应的标签判别矩阵为单位矩阵,公式表示为17;以单位标签矩阵label
eql
为依据,计算正确匹配图
‑
文对的相似度比重attn
eql
,即,文本到图像的相似性矩阵attn
t
与单...
【专利技术属性】
技术研发人员:李宝莲,李培瑶,孙苹苹,朱良彬,韩博,谢海瑶,强保华,李忠涛,赵建,
申请(专利权)人:桂林电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。