【技术实现步骤摘要】
一种基于多阶对抗特征学习的组合查询图像检索方法
[0001]本专利技术涉及机器学习组合查询图像检索
,尤其涉及一种基于多阶对抗特征学习的组合查询图像检索方法。
技术介绍
[0002]随着信息技术飞速发展,移动联网设备应用普及,人们在网络上可以轻松接触到海量而多样的图片资源。面对如此庞大的数据,想要从中找出符合自己要求图片的时候,高效准确的图像检索方法和系统成为一项必不可少的需求。日益快速增长的图片总数量,带来了相似图像数量的大规模增长,导致检索的准确性大大降低,现有的图像检索技术面临巨大压力与挑战。主流的文字检索图像和图片检索图像方式存在着各自的局限性,如纯文本的表达能力有限,把想法转变为语言的时候存在着信息的丢失。纯图片无法提供相似的方向,检索结果中仍可能包含大量不符合需求的图片。组合查询图像检索就是解决这些问题的方法之一。它同时接受参考图像和修改文本作为输入,能够在保留图像部分信息的同时满足文本的修改要求。因此,新型的图片和修改文本组合查询的图像检索方法正成为一种研究发展趋势。
[0003]机器学习的方法近年来在图像检索领域表现优异,主要使用卷积神经网络(CNN)提取图片特征,使用循环神经网络(RNN)提取文本特征,以度量学习的方法训练出神经网络模型,通过与目标图像特征的相似度比较完成图片检索图像和文字检索图像的任务。此外也存在基于图的方法,基于近邻分析的方法等等。
[0004]现有的组合查询图像检索方法通常对图像和文本分别提取特征后进行融合,包含两种模态信息的融合特征用于和候选图片的特征进 ...
【技术保护点】
【技术特征摘要】
1.一种基于多阶对抗特征学习的组合查询图像检索方法,其特征在于,该方法利用检索网络获取候选图像的多层次特征和高阶特征、参考图像与修改文本特征融合得到多层次图文融合特征和高阶图文融合特征,将多层次图文融合特征和高阶图文融合特征拼接后与候选图像的多层次特征和高阶特征拼接后的特征一一计算余弦相似度,根据相似度大小进行排序,返回排序后的候选图像作为查询图像的检索结果。其中,所述检索网络包括特征提取模块、自注意力融合模块、双线性融合模块。所述检索网络通过如下步骤构建和训练:(1)利用特征提取模块对参考图像、修改文本以及目标图像进行特征提取,得到两种模态数据的初始特征,其中所述参考图像、目标图像的初始特征包括特征提取模块多个层次输出的图像特征。(2)利用自注意力融合模块将步骤(1)中得到的文本初始特征与参考图像不同层次的特征进行融合,得到多层次的图文融合特征。(3)利用双线性融合模块将步骤(2)中的多层次的图文融合特征进行层次融合得到高阶图文融合特征,将步骤(1)中的目标图像多层次的初始特征进行层次融合得到高阶图像特征。(4)分别将步骤(2)得到的多层次的图文融合特征与步骤1得到的目标图像的多层次的特征、步骤(3)得到的高阶图文融合特征与目标图像的高阶图像特征相互比较,进行相似度学习。(5)同时将参考图像多层次的初始特征、多层次的图文融合特征和高阶图文融合特征,文本特征,目标图像多层次的初始特征和高阶图像特征输入判别器,让其判断不同层次和高阶图文融合特征或目标图像特征相比对应的参考图像特征是否符合文本的修改要求,进行对抗学习。最终以端到端的方式训练检索网络。所述参考图像特征包括参考图像的多层次的初始特征和参考图像的多层次的初始特征进行层次融合得到高阶图像特征。2.根据权利要求1所述的基于多阶对抗特征学习的组合查询图像检索方法,其特征在于,所述步骤(1)中,特征提取模块包括LSTM网络和MobileNet卷积神经网络,其中:利用LSTM网络对输入的文本进行特征提取,获得文本的初始特征。利用预训练的MobileNet或ResNet18卷积神经网络对参考图像和配对的目标图像分别进行特征提取,从网络的低中高层获得不同层次的初始图像特征。3.根据权利要求1所述的基于多阶对抗特征学习的组合查询图像检索方法,其特征在于,自注意力融合模块包括卷积层、自注意力网络和线性层,所述步骤(2)中具体包含如下子步骤:(2
‑
1)对参考图像每个层次的初始特征,将其与文本特征连接,使用卷积层得到初步的融合特征。(2
‑
2)对初步的融合特征,利用自注意力网络和线性层让其学习到进一步的图文融合特征。4.根据权利要求1所述的基于多阶对抗特征学习的组合查询图像检索方法,其特征在于,双线性融合模块包括多个线性层,所述步骤(3)中得到高阶特征的方法包含如下子步骤:(3
‑
1)...
【专利技术属性】
技术研发人员:纪守领,付之笑,董建锋,张旭鸿,何源,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。