基于记忆单元优化特征的图文跨模态检索方法技术

技术编号：38488750 阅读：12 留言：0更新日期：2023-08-15 17:03

本发明专利技术公开了一种基于记忆单元优化特征的图像文本互检索方法，主要解决现有技术难以准确表达图像与文本语义特征，导致检索准确率低的问题。其实现方案为：获取训练集和测试集；分别构建特征提取网络和记忆单元子网络；用训练集训练特征提取网络，并用该网络输出的图像与文本特征训练记忆单元子网络；将测试集输入到训练好的特征提取网络，得到图像和文本的特征；将该图像和文本的特征输入到优化后的记忆单元子网络中，得到优化后图像特征与优化后文本特征；计算优化后图像与优化后文本的特征相似度，检索得到图像

全部详细技术资料下载

【技术实现步骤摘要】
基于记忆单元优化特征的图文跨模态检索方法

[0001]本专利技术属于图像处理
，更进一步涉及一种图文跨模态检索方法，可用于自然图像与文本之间的相互匹配。

技术介绍

[0002]图像文本跨模态检索是从自然图像与文本中检索得到语义相同的图像文本对。现有的图像文本跨模态检索方法主要有两种，一种是基于图像与文本的全局特征检索方法，另一种是基于图像与文本的局部特征检索方法。基于图像与文本的全局特征检索方法，是构建特征提取网络提取整张图像与整个文本的特征向量，把这类特征作为它们的全局特征，使用度量方法计算特征间的相似度，选择相似度最高的图文对作为检索结果。基于图像与文本的局部特征检索方法，是构建特征提取网络提取图像区域和文本单词的特征向量，把这类特征作为它们的局部特征，使用度量方法得到图像区域
‑
单词对的相似度，进一步聚合后得到图像
‑
文本对的相似度，选择相似度最高的图文对作为检索结果。
[0003]T.Wang,X.Xu,Y.Yang等人在其发表的论文“Matching images and text with multi
‑
modal tensor fusion and re
‑
ranking”(ACM International Conference on Multimedia,2019:12
‑
20)中提出了一种基于多模态融合向量的图像文本检索方法。其通过构建多模态特征融合网络提取图像特征和文本特征，通过度量方法计算特...

【技术保护点】

【技术特征摘要】
1.一种基于记忆单元优化特征的图文跨模态检索方法，其特征在于，包括如下步骤：(1)从Flickr30k数据集中任意选取80％的图像及其对应的文本对组成训练集，20％的图像及其对应的文本对组成测试集；(2)构建特征提取网络：(2a)搭建一个由第一卷积层，第二卷积层，全连接层级联组成的图像特征处理子网络，用于提取图像的特征；(2b)搭建一个由Bert层和全连接层级联组成的文本特征处理子网络，用于提取文本的特征；(2c)将图像特征处理子网络与文本特征处理子网络并联组成特征提取网络；(3)从训练集中随机选择1％个未选过的图像及其对应的文本，作为特征提取网络的输入；(4)将所选图像及其对应的文本输入到特征提取网络中，分别输出每张图像的特征以及每张图像对应文本的特征；(5)构建一个由可学习参数层，第一自注意力层，第二自注意力层，第三自注意力层，全连接层级联组成的记忆单元子网络；(6)将每张图像与其对应文本的特征输入到记忆单元子网络中，分别输出每张图像优化后的特征以及每张图像对应文本优化后的特征；(7)计算所选图像及其对应的文本中每张图像与其对应文本的特征相似度S(i,j)，i表示第i张图像，j表示第j个文本；(8)根据特征相似度S(i,j)，设置记忆单元子网络的损失函数：Loss
′
(i,j)＝max[0.2
‑
S(i,j)+S(i,
·
)
[n]
,0]+max[0.2
‑
S(i,j)+S(
·
,j)
[n]
,0]其中，Loss
′
(i,j)表示所选图像及其对应的文本中第i张图像的特征与第j个文本的特征的损失值；S(i,
·
)
[n]
表示计算所选图像及其对应文本中第i张图像与所有文本的特征相似度，在从大到小排序后所选择的第n个位置特征相似度；S(
·
,j)
[n]
表示计算所选图像及其对应的文本中第j个文本与所有图像的特征相似度，在从大到小排序后所选择的第n个位置特征相似度；(9)将每张图像与其对应文本的特征相似度代入到记忆单元子网络损失函数Loss
′
(i,j)中，得到每张图像与其对应文本的损失值θ(i,j)，并用其计算特征提取网络和记忆单元子网络各个节点的梯度；(10)利用梯度对特征提取网络和记忆单元子网络的各个节点权重进行更新，并判断当前更新迭代后记忆单元子网络的损失值是否小于0.00001：若是，则得到训练好的特征提取网络和记忆单元子网络，执行步骤(11)；否则，返回步骤(3)；(11)对待检索的图像文本进行互检索：(11a)将测试集中所有图像文本对输入到训练好的特征提取网络中，得到待检索的图像文本对中每一张图像和每一个文本的特征；(11b)将每一张图像和每一个文本的特征输入到训练好的记忆单元子网络中，得到每一张图像优化后的特征和每一个文本优化后的特征；(11c)计算每一张优化后图像与每一个优化后文本的特...

【专利技术属性】
技术研发人员：高迪辉，盛立杰，苗启广，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人