当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于互关联挖掘的半配对图文检索方法技术

技术编号:39293938 阅读:13 留言:0更新日期:2023-11-07 11:01
本发明专利技术公开了一种基于互关联挖掘的半配对图文检索方法,本发明专利技术解决现有图文检索方法对于大规模图文数据的依赖,通过挖掘大量不配对图文数据间潜在的关联信息丰富了跨模态学习,提高了图文检索模型在受限环境下的性能,进而提升其应用能力。进而提升其应用能力。进而提升其应用能力。

【技术实现步骤摘要】
一种基于互关联挖掘的半配对图文检索方法


[0001]本专利技术属于跨模态检索领域,具体涉及一种基于互关联挖掘的半配对图文检索方法。

技术介绍

[0002]图文检索旨在给定一个图像或者文本查询样本来检索另一模态数据中最相关的样本。其核心在于度量图文样本间相似度作为检索证据。现有图文检索可分为两类,一类是全局水平方法,这类方法通过将图像和文本样本编码成全局特征,并将其映射到一个公共子空间进行视觉嵌入学习,其余弦相似度或者欧氏距离直接可被认为是视觉语义相似度。另一类是局部水平方法,这类方法旨在挖掘图文样本间细粒度的关系,例如单词与图像中的对象,区域之间的局部关系,进而推理出视觉文本相关性。然而,在实际场景下或者数据受限场景下,大规模高质量的图文数据集收集成本较高,这限制了现有方法的应用潜力。

技术实现思路

[0003]针对现有技术中的上述不足,本专利技术提供的一种基于互关联挖掘的半配对图文检索方法解决了现有图文检索方法对于大规模图文数据依赖的问题。
[0004]为了达到上述专利技术目的,本专利技术采用的技术方案为:一种基于互关联挖掘的半配对图文检索方法,包括以下步骤:
[0005]S1、获取配对图文集与不配对图文数据集,得到半配对图文检索训练数据集,构建基于图像和文本的深度神经网络编码器并初始化其网络参数;
[0006]S2、从半配对图文检索训练数据集中采样小批次数据,根据图像和文本的深度神经网络编码器得到小批次数据的全局特征,根据全局特征计算视觉语义相似度;
[0007]S3、根据视觉语义相似度计算第一半配对学习损失,并根据第一半配对学习损失优化基于图像和文本的深度神经网络编码器的网络参数;
[0008]S4、判断优化网络参数后的基于图像和文本的深度神经网络编码器是否收敛;若是,则得到初步收敛的基于图像和文本的深度神经网络编码器,并进入S5,若否,则返回S2;
[0009]S5、通过初步收敛的基于图像和文本的深度神经网络编码器得到不配对图文数据集中的伪配对样本;
[0010]S6、根据伪配对样本计算第二半配对学习损失,并根据第二半配对学习损失优化基于图像和文本的深度神经网络编码器的网络参数;
[0011]S7、判断优化网络参数后的基于图像和文本的深度神经网络编码器是否收敛;若是,则得到最优的基于图像和文本的深度神经网络编码器,并进入S8,若否,则返回S5;
[0012]S8、通过最优的基于图像和文本的深度神经网络编码器,计算图像的查询样本与所有检索样本间的视觉语义相似度,进而获得检索结果,完成图文检索。
[0013]进一步地:所述S1中,所述配对图文集与不配对图文数据集均包括若干组图文对,其中,任一组图文对设置有一幅图像与一个文本。
[0014]进一步地:所述S1中,基于图像和文本的深度神经网络编码器包括图像编码器和文本编码器,图像编码器用于得到图像的全局特征,文本编码器用于得到文本的全局特征。
[0015]进一步地:所述S2中,计算一组图文对中图像I与文本T的视觉语义相似度S(I,T)的表达式具体为:
[0016][0017]式中,f(
·
)为图像编码器,g(
·
)为文本编码器,f(I)为图像I的全局特征,g(T)为文本T的全局特征,图像I和文本T均属于小批次数据,f(I)
T
表示转置的图像I的全局特征。
[0018]进一步地:所述S3中,计算第一半配对学习损失Linter(I
k
,T
k
,1)的表达式具体为:
[0019][0020]式中,[*]+
为铰链三元组通式,其原理为:[x]+
≡max(x,0),max(
·
)表示最大值通式,α为边际参数,V为视图数目,为图像I
k
的第i个视图,T
k(j)
为文本T
k
的第j个视图,为最难负样本的图像的第i个视图,为最难负样本的文本的第j个视图,S

(*,*)为操作定位通式,其原理具体为:若S

(I1,T1)中图像I1和文本T1属于配对图文集中的一组图文对,则S

(I1,T1)=S(I1,T1),否则S

(I1,T1)=βS(I1,T1),β∈(0,1],β为放缩参数。
[0021]进一步地:所述S5中,得到伪配对样本的方法包括挖掘伪配对文本法与挖掘伪配对图像法;
[0022]其中,所述挖掘伪配对文本法具体为:根据不配对图文数据集中的图像通过视觉语义相似度计算得到伪配对文本;
[0023]所述挖掘伪配对图像法具体为:根据不配对图文数据集中的文本通过视觉语义相似度计算得到伪配对图像。
[0024]进一步地:得到所述伪配对文本T

n
的表达式具体为:
[0025][0026]式中,argmax(*)为用于计算目标函数的最小值的函数,D
u
为不配对图文数据集,S(I
n
,T
m
)为图像I
n
与文本T
m
的视觉语义相似度,图像I
n
属于不配对图文数据集;
[0027]得到伪配对图像I

n
的表达式具体为:
[0028][0029]式中,S(I
m
,T
n
)为图像I
m
与文本T
n
的视觉语义相似度,文本T
n
属于不配对图文数据集。
[0030]上述进一步方案的有益效果为:通过利用视觉语义相似度来寻找最相似的跨模态样本组成伪配对图文对,这将给跨模态学习提供更多潜在的视觉语义关联,进而提升性能。
[0031]进一步地:所述S6中,计算第二半配对学习损失Loverall的表达式具体为:
[0032][0033]式中,y
i
为配对的标签,用于表示是否图文配对,若图像I
k
和文本T
k
属于配对图文,则y
i
取值为1,若图像I
k
和文本T
k
不属于配对图文,则y
i
取值为0,Linter(I
k
,T
k
,0)为不配对数据的视觉语义挖掘损失,K为小批次数据大小,(I
k
,T
k
)为第i对图文对;
[0034]其中,计算不配对数据的视觉语义挖掘损失Linter(I
k
,T
k
,0)的表达式具体为:
[0035]Linter(I
k
,T
k
,0)=L
a
(I
k
)+L
b
(T
k
)<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于互关联挖掘的半配对图文检索方法,其特征在于,包括以下步骤:S1、获取配对图文集与不配对图文数据集,得到半配对图文检索训练数据集,构建基于图像和文本的深度神经网络编码器并初始化其网络参数;S2、从半配对图文检索训练数据集中采样小批次数据,根据图像和文本的深度神经网络编码器得到小批次数据的全局特征,根据全局特征计算视觉语义相似度;S3、根据视觉语义相似度计算第一半配对学习损失,并根据第一半配对学习损失优化基于图像和文本的深度神经网络编码器的网络参数;S4、判断优化网络参数后的基于图像和文本的深度神经网络编码器是否收敛;若是,则得到初步收敛的基于图像和文本的深度神经网络编码器,并进入S5,若否,则返回S2;S5、通过初步收敛的基于图像和文本的深度神经网络编码器得到不配对图文数据集中的伪配对样本;S6、根据伪配对样本计算第二半配对学习损失,并根据第二半配对学习损失优化基于图像和文本的深度神经网络编码器的网络参数;S7、判断优化网络参数后的基于图像和文本的深度神经网络编码器是否收敛;若是,则得到最优的基于图像和文本的深度神经网络编码器,并进入S8,若否,则返回S5;S8、通过最优的基于图像和文本的深度神经网络编码器,计算图像的查询样本与所有检索样本间的视觉语义相似度,进而获得检索结果,完成图文检索。2.根据权利要求1所述的基于互关联挖掘的半配对图文检索方法,其特征在于,所述S1中,所述配对图文集与不配对图文数据集均包括若干组图文对,其中,任一组图文对设置有一幅图像与一个文本。3.根据权利要求2所述的基于互关联挖掘的半配对图文检索方法,其特征在于,所述S1中,基于图像和文本的深度神经网络编码器包括图像编码器和文本编码器,图像编码器用于得到图像的全局特征,文本编码器用于得到文本的全局特征。4.根据权利要求3所述的基于互关联挖掘的半配对图文检索方法,其特征在于,所述S2中,计算一组图文对中图像I与文本T的视觉语义相似度S(I,T)的表达式具体为:式中,f(
·
)为图像编码器,g(
·
)为文本编码器,f(I)为图像I的全局特征,g(T)为文本T的全局特征,图像I和文本T均属于小批次数据,f(I)
T
表示转置的图像I的全局特征。5.根据权利要求4所述的基于互关联挖掘的半配对图文检索方法,其特征在于,所述S3中,计算第一半配对学习损失Linter(I
k
,T
k
,1)的表达式具体为:
式中,[*]
+
为铰链三元组通式,其原理为:[x]
+
≡max(x,0),max(
·
)表示最大值通式,α为边际参数,V为视图数目,为图像I
k
的第i个视图,为文本T
k
的第j个视图,为最难负样本的图像的第i个视图,为最难负样本的文本的第j个视图,S'(*,*)为操作定位通式,其原理具体为:若S'(I1,T1)中图像I1和文本T1属于配对图文集中的一组图文对,则S'(I1,T1)=S(I1,T1),否则S'(I1,T1)=βS(I1,T1),β∈(0,1],β为放缩参数。6.根据权利要求5所述的基于互关联挖掘的半配对图文检索方法,其特征在于,所述S5中,得到伪配对样本的方法包括挖掘伪配对文本法与挖掘伪配对图像法;其中,所述挖掘伪配对文本法具体为:根据不配对图文数据集中的图像通过视觉语义相似度计算得到伪配对文本;所述挖掘伪配对图像法具体为:根据不配对图文数据集中的文本通过视觉语义相似度计算得到伪配对图像。7.根据权利要求6所述的基于互关联挖掘的半配对图文检索方法,其特征在于,得到所述伪配对文本T

n
的表达式具体为:式中,arg max(*)为用于计算目标函数的最小值的函数,D
u
为不配对图文数据集,S(I
n
,T
m

【专利技术属性】
技术研发人员:胡鹏陆铮秦阳彭德中彭玺
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1