基于记忆单元优化特征的图文跨模态检索方法技术

技术编号:38488750 阅读:12 留言:0更新日期:2023-08-15 17:03
本发明专利技术公开了一种基于记忆单元优化特征的图像文本互检索方法,主要解决现有技术难以准确表达图像与文本语义特征,导致检索准确率低的问题。其实现方案为:获取训练集和测试集;分别构建特征提取网络和记忆单元子网络;用训练集训练特征提取网络,并用该网络输出的图像与文本特征训练记忆单元子网络;将测试集输入到训练好的特征提取网络,得到图像和文本的特征;将该图像和文本的特征输入到优化后的记忆单元子网络中,得到优化后图像特征与优化后文本特征;计算优化后图像与优化后文本的特征相似度,检索得到图像

【技术实现步骤摘要】
基于记忆单元优化特征的图文跨模态检索方法


[0001]本专利技术属于图像处理
,更进一步涉及一种图文跨模态检索方法,可用于自然图像与文本之间的相互匹配。

技术介绍

[0002]图像文本跨模态检索是从自然图像与文本中检索得到语义相同的图像文本对。现有的图像文本跨模态检索方法主要有两种,一种是基于图像与文本的全局特征检索方法,另一种是基于图像与文本的局部特征检索方法。基于图像与文本的全局特征检索方法,是构建特征提取网络提取整张图像与整个文本的特征向量,把这类特征作为它们的全局特征,使用度量方法计算特征间的相似度,选择相似度最高的图文对作为检索结果。基于图像与文本的局部特征检索方法,是构建特征提取网络提取图像区域和文本单词的特征向量,把这类特征作为它们的局部特征,使用度量方法得到图像区域

单词对的相似度,进一步聚合后得到图像

文本对的相似度,选择相似度最高的图文对作为检索结果。
[0003]T.Wang,X.Xu,Y.Yang等人在其发表的论文“Matching images and text with multi

modal tensor fusion and re

ranking”(ACM International Conference on Multimedia,2019:12

20)中提出了一种基于多模态融合向量的图像文本检索方法。其通过构建多模态特征融合网络提取图像特征和文本特征,通过度量方法计算特征相似度,并利用图文检索的双向性对检索结果进行重排。该方法虽然利用多层网络提取图像和文本的高阶特征,并通过高阶特征得到图像文本相似度以实现检索任务,但是,该方法由于处理的对象是整张图像和整个文本,因而在提取特征的过程中容易受到背景等冗余信息的影响,难以衡量图像与文本特征间的相似性,影响检索准确率。
[0004]K.Lee,X.Chen,G.Hua等人在其发表的论文“Stacked cross attention for image

text matching”(European Conference on Computer Vision,2018:201

216)中提出了一种基于堆叠注意力的图像文本检索方法。其通过目标检测算法得到图像区域,构建特征提取网络得到图像区域的特征和文本单词的特征,使用注意力机制突出特征的重要信息,利用特征的重要信息计算得到图像与文本之间的相似度,实现图像文本检索。该方法虽然通过训练局部特征的方法在一定程度上消除了全局特征冗余信息带来的影响,但是,由于其在图像与文本特征提取时,仅利用注意力机制挖掘图像和文本间语义信息,忽略了图像区域和文本单词的内部关系,因而无法准确表达图像与文本的语义特征,影响检索准确率。

技术实现思路

[0005]本专利技术的目的在于针对上述现有技术的不足,提出一种基于记忆单元优化特征的图文跨模态检索方法,以准确表达图像与文本的语义特征,提高检索准确率。
[0006]实现本专利技术目的的思路是,通过利用自注意力结构提取图像与文本的特征,充分挖掘图像与文本模态内的语义信息;通过记忆单元子网络中的可学习参数层完成图像与文
本的特征交互;通过在训练过程中存储学习到的图像与文本之间的交互信息,使得最终特征包含更丰富的语义信息。
[0007]根据上述思路,本专利技术的实现步骤包括如下:
[0008](1)从Flickr30k数据集中任意选取80%的图像及其对应的文本对组成训练集,20%的图像及其对应的文本对组成测试集;
[0009](2)构建特征提取网络:
[0010](2a)搭建一个由第一卷积层,第二卷积层,全连接层级联组成的图像特征处理子网络,用于提取图像的特征;
[0011](2b)搭建一个由Bert层和全连接层级联组成的文本特征处理子网络,用于提取文本的特征;
[0012](2c)将图像特征处理子网络与文本特征处理子网络并联组成特征提取网络;
[0013](3)从训练集中随机选择1%个未选过的图像及其对应的文本,作为特征提取网络的输入;
[0014](4)将所选图像及其对应的文本输入到特征提取网络中,分别输出每张图像的特征以及每张图像对应文本的特征;
[0015](5)构建一个由可学习参数层,第一自注意力层,第二自注意力层,第三自注意力层,全连接层级联组成的记忆单元子网络;
[0016](6)将每张图像与其对应文本的特征输入到记忆单元子网络中,分别输出每张图像优化后的特征以及每张图像对应文本优化后的特征;
[0017](7)计算所选图像及其对应的文本中每张图像与其对应文本的特征相似度S(i,j),i表示第i张图像,j表示第j个文本;
[0018](8)根据特征相似度S(i,j),设置记忆单元子网络的损失函数:
[0019]Loss

(i,j)=max[0.2

S(i,j)+S(i,
·
)
[n],0]+max[0.2

S(i,j)+S(
·
,j)
[n],0][0020]其中,Loss

(i,j)表示所选图像及其对应的文本中第i张图像的特征与第j个文本的特征的损失值;S(i,
·
)
[n]表示计算所选图像及其对应文本中第i张图像与所有文本的特征相似度,在从大到小排序后所选择的第n个位置特征相似度;S(
·
,j)
[n]表示计算所选图像及其对应的文本中第j个文本与所有图像的特征相似度,在从大到小排序后所选择的第n个位置特征相似度;
[0021](9)将每张图像与其对应文本的特征相似度代入到损失函数Loss

(i,j)中,得到每张图像与其对应文本的损失值,并用其计算特征提取网络和记忆单元子网络各个节点的梯度;
[0022](10)利用梯度对特征提取网络和记忆单元子网络的各个节点权重进行更新,并判断当前更新迭代后记忆单元子网络的损失值是否小于0.00001:
[0023]若是,则得到训练好的特征提取网络和记忆单元子网络,执行步骤(11);
[0024]否则,返回步骤(3);
[0025](11)对待检索的图像文本进行互检索:
[0026](11a)将测试集中所有图像文本对输入到训练好的特征提取网络中,得到待检索的图像文本对中每一张图像和每一个文本的特征;
[0027](11b)将每一张图像和每一个文本的特征输入到训练好的记忆单元子网络中,得
到每一张图像优化后的特征和每一个文本优化后的特征;
[0028](11c)计算每一张优化后图像与每一个优化后文本的特征相似度S(i,j);
[0029](11d)从所有计算得到的相似度中,选择每张图像与其相似度最高的文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于记忆单元优化特征的图文跨模态检索方法,其特征在于,包括如下步骤:(1)从Flickr30k数据集中任意选取80%的图像及其对应的文本对组成训练集,20%的图像及其对应的文本对组成测试集;(2)构建特征提取网络:(2a)搭建一个由第一卷积层,第二卷积层,全连接层级联组成的图像特征处理子网络,用于提取图像的特征;(2b)搭建一个由Bert层和全连接层级联组成的文本特征处理子网络,用于提取文本的特征;(2c)将图像特征处理子网络与文本特征处理子网络并联组成特征提取网络;(3)从训练集中随机选择1%个未选过的图像及其对应的文本,作为特征提取网络的输入;(4)将所选图像及其对应的文本输入到特征提取网络中,分别输出每张图像的特征以及每张图像对应文本的特征;(5)构建一个由可学习参数层,第一自注意力层,第二自注意力层,第三自注意力层,全连接层级联组成的记忆单元子网络;(6)将每张图像与其对应文本的特征输入到记忆单元子网络中,分别输出每张图像优化后的特征以及每张图像对应文本优化后的特征;(7)计算所选图像及其对应的文本中每张图像与其对应文本的特征相似度S(i,j),i表示第i张图像,j表示第j个文本;(8)根据特征相似度S(i,j),设置记忆单元子网络的损失函数:Loss

(i,j)=max[0.2

S(i,j)+S(i,
·
)
[n]
,0]+max[0.2

S(i,j)+S(
·
,j)
[n]
,0]其中,Loss

(i,j)表示所选图像及其对应的文本中第i张图像的特征与第j个文本的特征的损失值;S(i,
·
)
[n]
表示计算所选图像及其对应文本中第i张图像与所有文本的特征相似度,在从大到小排序后所选择的第n个位置特征相似度;S(
·
,j)
[n]
表示计算所选图像及其对应的文本中第j个文本与所有图像的特征相似度,在从大到小排序后所选择的第n个位置特征相似度;(9)将每张图像与其对应文本的特征相似度代入到记忆单元子网络损失函数Loss

(i,j)中,得到每张图像与其对应文本的损失值θ(i,j),并用其计算特征提取网络和记忆单元子网络各个节点的梯度;(10)利用梯度对特征提取网络和记忆单元子网络的各个节点权重进行更新,并判断当前更新迭代后记忆单元子网络的损失值是否小于0.00001:若是,则得到训练好的特征提取网络和记忆单元子网络,执行步骤(11);否则,返回步骤(3);(11)对待检索的图像文本进行互检索:(11a)将测试集中所有图像文本对输入到训练好的特征提取网络中,得到待检索的图像文本对中每一张图像和每一个文本的特征;(11b)将每一张图像和每一个文本的特征输入到训练好的记忆单元子网络中,得到每一张图像优化后的特征和每一个文本优化后的特征;(11c)计算每一张优化后图像与每一个优化后文本的特...

【专利技术属性】
技术研发人员:高迪辉盛立杰苗启广
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1