当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于多阶对抗特征学习的组合查询图像检索方法技术

技术编号:28502761 阅读:25 留言:0更新日期:2021-05-19 22:49
本发明专利技术公开了一种基于多阶对抗特征学习的组合查询图像检索方法,该方法包括:首先通过预训练的特征提取模块获取图像特征和利用LSTM网络获取文本特征,然后通过自注意力的指导将两种模态的特征融合。并且,将低阶特征通过双线性融合的方式生成高阶特征。再利用三元组损失学习特征之间的相似关系,利用判别器与检索网络对抗进一步促进特征间的融合,最后结合二者通过端到端的方式训练模型,从而实现高效的组合查询图像检索。本发明专利技术利用了深度学习技术和借鉴了博弈的思想,很大程度上提高了组合查询图像检索的性能和效率。合查询图像检索的性能和效率。合查询图像检索的性能和效率。

【技术实现步骤摘要】
一种基于多阶对抗特征学习的组合查询图像检索方法


[0001]本专利技术涉及机器学习组合查询图像检索
,尤其涉及一种基于多阶对抗特征学习的组合查询图像检索方法。

技术介绍

[0002]随着信息技术飞速发展,移动联网设备应用普及,人们在网络上可以轻松接触到海量而多样的图片资源。面对如此庞大的数据,想要从中找出符合自己要求图片的时候,高效准确的图像检索方法和系统成为一项必不可少的需求。日益快速增长的图片总数量,带来了相似图像数量的大规模增长,导致检索的准确性大大降低,现有的图像检索技术面临巨大压力与挑战。主流的文字检索图像和图片检索图像方式存在着各自的局限性,如纯文本的表达能力有限,把想法转变为语言的时候存在着信息的丢失。纯图片无法提供相似的方向,检索结果中仍可能包含大量不符合需求的图片。组合查询图像检索就是解决这些问题的方法之一。它同时接受参考图像和修改文本作为输入,能够在保留图像部分信息的同时满足文本的修改要求。因此,新型的图片和修改文本组合查询的图像检索方法正成为一种研究发展趋势。
[0003]机器学习的方法近年来在图像检索领域表现优异,主要使用卷积神经网络(CNN)提取图片特征,使用循环神经网络(RNN)提取文本特征,以度量学习的方法训练出神经网络模型,通过与目标图像特征的相似度比较完成图片检索图像和文字检索图像的任务。此外也存在基于图的方法,基于近邻分析的方法等等。
[0004]现有的组合查询图像检索方法通常对图像和文本分别提取特征后进行融合,包含两种模态信息的融合特征用于和候选图片的特征进行相似度度量,从而检索到目标图片。目前的方法也存在着一些不足,它们并没有充分利用多尺度的特征,然而不同尺度的特征往往包含着各个层次特有的信息。它们对图文的特征的融合方法也较为简单,检索效率较低。

技术实现思路

[0005]针对现有方法的不足,本专利技术提出了一种基于多阶对抗特征学习的组合查询图像检索方法。首先对低阶特征进行融合变为高阶特征,并通过设立判别器使其与检索网络对抗,在竞争中进一步促进图文特征的融合,实现高效的组合查询图像检索。相较于现有方法,得到的特征包含更丰富的信息和不同层级间的相关性,对图像和文本两种模态信息的融合更为紧密。
[0006]一种基于多阶对抗特征学习的组合查询图像检索方法,该方法利用检索网络获取候选图像的多层次特征和高阶特征、参考图像与修改文本特征融合得到多层次图文融合特征和高阶图文融合特征,将多层次图文融合特征和高阶图文融合特征拼接后与候选图像的多层次特征和高阶特征拼接后的特征一一计算余弦相似度,根据相似度大小进行排序,返回排序后的候选图像作为查询图像的检索结果。其中,所述检索网络包括特征提取模块、自
注意力融合模块、双线性融合模块。所述检索网络通过如下步骤构建和训练:
[0007](1)利用特征提取模块对参考图像、修改文本以及目标图像进行特征提取,得到两种模态数据的初始特征,其中所述参考图像、目标图像的初始特征包括特征提取模块多个层次输出的图像特征。
[0008](2)利用自注意力融合模块将步骤(1)中得到的文本初始特征与参考图像不同层次的特征进行融合,得到多层次的图文融合特征。
[0009](3)利用双线性融合模块将步骤(2)中的多层次的图文融合特征进行层次融合得到高阶图文融合特征,将步骤(1)中的目标图像多层次的初始特征进行层次融合得到高阶图像特征。
[0010](4)分别将步骤(2)得到的多层次的图文融合特征与步骤1得到的目标图像的多层次的特征、步骤(3)得到的高阶图文融合特征与目标图像的高阶图像特征相互比较,进行相似度学习。
[0011](5)同时将参考图像多层次的初始特征、多层次的图文融合特征和高阶图文融合特征,文本特征,目标图像多层次的初始特征和高阶图像特征输入判别器,让其判断不同层次和高阶图文融合特征或目标图像特征相比对应的参考图像特征是否符合文本的修改要求,进行对抗学习。最终以端到端的方式训练检索网络。所述参考图像特征包括参考图像的多层次的初始特征和参考图像的多层次的初始特征进行层次融合得到高阶图像特征。
[0012]进一步优选地,初始特征包括低中高3个层次的图像特征,高阶特征为中高层次的融合特征。
[0013]进一步优选地,所述步骤(1)中,特征提取模块包括LSTM网络和MobileNet卷积神经网络,其中:
[0014]利用LSTM网络对输入的文本进行特征提取,获得文本的初始特征。
[0015]利用预训练的MobileNet或ResNet18卷积神经网络对参考图像和配对的目标图像分别进行特征提取,从网络的低中高层获得不同层次的初始图像特征。
[0016]进一步优选地,自注意力融合模块包括卷积层、自注意力网络和线性层,所述步骤(2)中具体包含如下子步骤:
[0017](2

1)对参考图像每个层次的初始特征,将其与文本特征连接,使用卷积层得到初步的融合特征。
[0018](2

2)对初步的融合特征,利用自注意力网络和线性层让其学习到进一步的图文融合特征。
[0019]进一步优选地,双线性融合模块包括多个线性层,所述步骤(3)中得到高阶特征的方法包含如下子步骤:
[0020](3

1)对将步骤(2)中的多层次的图文融合特征、步骤(1)中目标图像多层次的特征分别使用线性层映射成相同维度。
[0021](3

2)对步骤(3

1)中映射后的多个层次的图文融合特征进行点积,再使用一个线性层得到高阶图文融合特征;对步骤(3

1)中映射后的多个层次的目标图像的特征进行点积,再使用一个线性层得到目标图像的高阶图像特征。
[0022]进一步优选地,所述步骤(4)中,使用定义的三元组损失,将步骤(2)得到的多层次的图文融合特征与步骤1得到的目标图像的多层次的特征、步骤(3)得到的高阶图文融合特
征与目标图像的高阶图像特征相互比较,使模型在不同层次和阶数都能学习到特征之间的相似关系,三元组损失表示如下:
[0023][0024]其中其中表示负样本,d()表示欧氏距离,m表示边界,其中j表示不同层次和高阶的序号。前两项促进每层次图文融合特征和高阶图文融合特征比负样本以更小的距离匹配的目标图像每层次的初始特征和高阶图像特征后两项将映射过后的图像特征与它相应的修改文本特征h对齐。
[0025]进一步优选地,所述步骤(5)使用判别器的对抗训练方法包括如下步骤:
[0026](5

1)将输入的参考图像的初始特征和高阶图像特征与目标图像对应的图像特征相减后使用线性层变换。
[0027](5

2)将输入的修改文本特征使用线性层变换,再与(5

1)线性层变换得到的特征相乘后内部求和使用激活函数得到判别器的预测值,判断出目标图像特征相比于参考图像符合修改文本要求:<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多阶对抗特征学习的组合查询图像检索方法,其特征在于,该方法利用检索网络获取候选图像的多层次特征和高阶特征、参考图像与修改文本特征融合得到多层次图文融合特征和高阶图文融合特征,将多层次图文融合特征和高阶图文融合特征拼接后与候选图像的多层次特征和高阶特征拼接后的特征一一计算余弦相似度,根据相似度大小进行排序,返回排序后的候选图像作为查询图像的检索结果。其中,所述检索网络包括特征提取模块、自注意力融合模块、双线性融合模块。所述检索网络通过如下步骤构建和训练:(1)利用特征提取模块对参考图像、修改文本以及目标图像进行特征提取,得到两种模态数据的初始特征,其中所述参考图像、目标图像的初始特征包括特征提取模块多个层次输出的图像特征。(2)利用自注意力融合模块将步骤(1)中得到的文本初始特征与参考图像不同层次的特征进行融合,得到多层次的图文融合特征。(3)利用双线性融合模块将步骤(2)中的多层次的图文融合特征进行层次融合得到高阶图文融合特征,将步骤(1)中的目标图像多层次的初始特征进行层次融合得到高阶图像特征。(4)分别将步骤(2)得到的多层次的图文融合特征与步骤1得到的目标图像的多层次的特征、步骤(3)得到的高阶图文融合特征与目标图像的高阶图像特征相互比较,进行相似度学习。(5)同时将参考图像多层次的初始特征、多层次的图文融合特征和高阶图文融合特征,文本特征,目标图像多层次的初始特征和高阶图像特征输入判别器,让其判断不同层次和高阶图文融合特征或目标图像特征相比对应的参考图像特征是否符合文本的修改要求,进行对抗学习。最终以端到端的方式训练检索网络。所述参考图像特征包括参考图像的多层次的初始特征和参考图像的多层次的初始特征进行层次融合得到高阶图像特征。2.根据权利要求1所述的基于多阶对抗特征学习的组合查询图像检索方法,其特征在于,所述步骤(1)中,特征提取模块包括LSTM网络和MobileNet卷积神经网络,其中:利用LSTM网络对输入的文本进行特征提取,获得文本的初始特征。利用预训练的MobileNet或ResNet18卷积神经网络对参考图像和配对的目标图像分别进行特征提取,从网络的低中高层获得不同层次的初始图像特征。3.根据权利要求1所述的基于多阶对抗特征学习的组合查询图像检索方法,其特征在于,自注意力融合模块包括卷积层、自注意力网络和线性层,所述步骤(2)中具体包含如下子步骤:(2

1)对参考图像每个层次的初始特征,将其与文本特征连接,使用卷积层得到初步的融合特征。(2

2)对初步的融合特征,利用自注意力网络和线性层让其学习到进一步的图文融合特征。4.根据权利要求1所述的基于多阶对抗特征学习的组合查询图像检索方法,其特征在于,双线性融合模块包括多个线性层,所述步骤(3)中得到高阶特征的方法包含如下子步骤:(3

1)...

【专利技术属性】
技术研发人员:纪守领付之笑董建锋张旭鸿何源
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1