跨模态图文匹配训练方法及装置、存储介质、电子设备制造方法及图纸

技术编号:32907110 阅读:30 留言:0更新日期:2022-04-07 11:57
本申请公开了一种跨模态图文匹配训练方法及装置、存储介质、电子设备,该方法包括将待训练图像输入至图像编码器,由图像编码器对待训练图像进行编码,得到待训练图像的图像向量特征;将待训练图像的图像内容的描述作为文本输入文本编码器,文本编码器对文本进行分词,将文本转换成token向量,将token向量进行基于transformer的文本编码处理,得到编码为与图像向量特征的维度相同的文本向量特征;训练达到所选取的样本数后,图像编码器和文本编码器分别对图像向量特征和文本向量特征进行模态交互,利用反向梯度更新图像编码器和文本编码器模型参数。本申请支持更精确和个性化方式进行图文匹配联合检索。行图文匹配联合检索。行图文匹配联合检索。

【技术实现步骤摘要】
跨模态图文匹配训练方法及装置、存储介质、电子设备


[0001]本申请实施例涉及图像及文本匹配训练技术,尤其涉及一种跨模态图文匹配训练方法及装置、存储介质、电子设备。

技术介绍

[0002]近年来,随着计算机视觉和自然语言处理技术的发展,跨模态深度学习(Cross

modal Deep Learning)也越来越受到关注。跨模态深度学习技术可以广泛应用于字幕生成、视觉问答、视觉对话、图文检索、基于文本的图像生成等诸多领域。视觉

语言预训练(vision

language pretraining,VLP)是跨模态深度学习的一个重要的研究领域,既可以生成图像描述,也可以用于图像

文本检索(Image

Text Retrieval)等跨模态问题。比较有影响的包括大规模图文匹配预训练模型(Contrastive Language

Image Pre

training,CLIP)等;CLIP能够将图像映射到文本描述的类本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种跨模态图文匹配训练方法,其特征在于,所述方法包括:将待训练图像输入至图像编码器,由所述图像编码器对所述待训练图像进行缩放处理,使所述待训练图像达到设定的长宽大小的待输入图像;判断所述待输入图像是否存在编辑完成的显著性目标掩码图,如果有则将所述显著性目标掩码图和所述输入图像输入至掩码融合模块,通过所述掩码融合模块获得所述输入图像的融合特征;如果所述待输入图像没有显著性目标掩码图,则对所述待输入图像进行显著性目标检测,生成所述输入图像的显著性目标掩码图,并将所述显著性目标掩码图和所述输入图像输入至掩码融合模块,通过所述掩码融合模块获得所述输入图像的融合特征;将所述融合特征输入至图像注意力编码模块,将输入的融合特征经过神经网络模型编码成图像向量特征;以及将所述待训练图像的图像内容的描述作为文本输入文本编码器,所述文本编码器对所述文本进行分词,将所述文本转换成token向量,将所述token向量进行基于transformer的文本编码处理,得到编码为与所述图像向量特征的维度相同的文本向量特征;训练达到所选取的样本数后,所述图像编码器和所述文本编码器分别对图像向量特征和文本向量特征进行模态交互,计算向量的余弦相似度和交叉熵损失,并利用反向梯度更新所述图像编码器和所述文本编码器的模型参数。2.根据权利要求1所述的方法,其特征在于,所述对所述待输入图像进行显著性目标检测,生成所述输入图像的显著性目标掩码图,包括:将设定分辨率的所述待输入图像进行多层3
×
3卷积处理后,分别进行多次的下采样、堆叠处理,当特征分辨率降低到设定阈值后,再对下采样的低分辨率特征进行上采样特征融合UFFM处理;即首先采用1
×
1卷积对低分辨率特征进行降维,再上采样到高分辨率特征相同的尺度大小,依次使用1
×
1卷积和3
×
3卷积进行通道降维和特征融合;对UFFM处理后的特征进行插值上采样恢复到输入图像相同的尺度大小,再进行3
×
3卷积以及1
×
1卷积的处理,将上采样特征降维为1通道,再经过sigmoid激活函数生成空间注意力特征;将所述空间注意力特征和输入特征进行点乘,得到最终生成所述输入图像的显著性目标概率图,基于所述显著性目标概率图生成所述输入图像的显著性目标掩码图。3.根据权利要求1或2所述的方法,其特征在于,所述通过所述掩码融合模块获得所述输入图像的融合特征,包括:将所述输入图像和所述显著性目标掩码图缩放到相同的设定分辨率,分别经过两层3
×
3卷积、BN正则化、ReLU激活函数的处理后,分别得到所述输入图像和所述显著性目标掩码图的底层特征;将所述输入图像和所述显著性目标掩码图的底层特征级联后,进行1
×
1卷积进行特征融合和通道降维,再进行5
×
5的大卷积和Sigmoid激活函数处理,得到基于掩码的门控注意力特征;将所述输入图像的初始特征与所述门控注意力特征进行点乘处理,并将点乘后的特征再次与所述输入图像的初始特征进行级联,再使用1
×
1卷积进行特征融合得到所述输入图像的融合特征。4.根据权利要求3所述的方法,其特征在于,所述将输入的融合特征经过神经网络模型
编码成图像向量特征,包括:所述图像注意力编码模块基于显著性目标区域的先验信息,使具有显著性语义信息的目标进行对齐,将所述融合特征编码为设定维度的图像向量。5.一种跨模态图文匹配训练装置,其特征在于,所述装置包括:图像编码器,接收待训练图像,对所述待训练图像进行缩放处理,使所述待训练图像达到设定的长宽大小的待输...

【专利技术属性】
技术研发人员:王波张百灵周炬马成龙
申请(专利权)人:苏州大创科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1