【技术实现步骤摘要】
一种基于多级别语义对齐的跨模态图文检索方法
[0001]本专利技术涉及跨模态检索与人工智能
,具体涉及一种基于多级别语义对齐的跨模态图文检索方法。
技术介绍
[0002]跨模态图文检索是多模态学习领域中一个不断发展的研究方向,致力于图文对之间的跨模态双向检索,广泛应用于信息检索、信息推荐等领域。随着大数据时代的到来与互联网技术的发展,以图像和文本为主的多模态数据呈指数爆炸式增长,如何对大量多源异构的图像与文本数据进行有效的融合与对齐,以满足用户的多样化检索需求,是一个具有挑战性的任务。目前,已经有许多研究工作尝试探索了跨模态图文对之间的高效交互方式,其中基于深层神经网络的深度学习方法在跨模态检索任务中表现出了巨大的潜力,取得了一定的成果。然而,目前多数跨模态检索研究仍然存在跨模态特征交互弱或模态内语义对齐缺失的问题,难以分辨图像局部区域相似或文本描述相近的不同图文对。
[0003]现有的跨模态检索研究主要分为全局级的特征对齐方法与局部级的特征对齐方法两类。全局级的特征对齐方法侧重于学习双路径的深度神经网络,常见 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于多级别语义对齐的跨模态图文检索方法,其特征在于,所述方法按以下步骤实现:步骤一、跨模态图文检索数据集的收集,收集图像和其对应的文本描述作为跨模态图文检索数据集,一张图像和其对应的一条文本描述组成一个图文对,将收集的所有图文对按一定规则划分为训练集、验证集与测试集;步骤二、图文对的特征提取,对于图文对中的图像,使用目标检测器FasterR
‑
CNN提取每张图像的K个区域特征,得到图像局部细粒度特征V
l
,使用卷积神经网络ResNet152提取每张图像的全局粗粒度特征V
g
;同时,对于图文对中的文本,使用双向门控循环单元BiGRU提取每条文本的单词特征,得到文本的局部细粒度特征Y
l
;然后,对Y
l
作全局平均池化,得到文本的全局粗粒度特征Y
g
;最后,计算图像全局粗粒度特征V
g
和文本全局粗粒度特征Y
g
之间的余弦相似度,得到全局
‑
全局级(Global
‑
Global level,GGl)特征匹配分数S
GGl
;步骤三、搭建模态间细粒度特征交互注意力网络,交互注意力网络采用双路对称结构,其中每一路的输入均由步骤二得到的图像局部细粒度特征V
l
和文本局部细粒度特征Y
l
两部分组成;首先,交互注意力网络计算第i个图像区域和第j个文本单词之间的点积相关性s
ij
;其次,基于该点积相关性得到两个局部相关性矩阵,即图像区域作为查询时与文本单词之间的相关性矩阵以及文本单词作为查询时与图像区域之间的相关性矩阵,再对两矩阵进行归一化,得到归一化后的局部相关性矩阵s
m1
和s
m2
;然后,对s
m1
与s
m2
采用Softmax操作求出图像区域作为查询时与文本单词之间的权重系数δ
ij
和文本单词作为查询时与图像区域之间的权重系数γ
ij
;接着,利用求出的系数δ
ij
和γ
ij
分别对图像局部细粒度特征V
l
和文本局部细粒度特征Y
l
进行加权运算,得到交互注意力网络的双路输出Y
l
'和V
l
',其中Y
l
'表示跨模态特征交互后的文本局部细粒度特征,V
l
'表示跨模态特征交互后的图像局部细粒度特征;最后,计算Y
l
'和V
l
之间的余弦相似度S1,V
l
'和Y
l
之间的余弦相似度S2,局部
‑
局部级(Local
‑
Local level,LLl)特征匹配分数S
LLl
即为S1和S2的均值;步骤四、搭建模态内不同粒度特征融合网络,特征融合网络包括图像模态内特征融合子网络与文本模态内特征融合子网络,其中每个融合子网络又由多头自注意力模块与门控融合单元两部分连接而成;对于图像模态内特征融合子网络,其输入为步骤二得到的V
g
与步骤三得到的V
l
';首先,通过多头自注意力模块计算V
l
'中不同区域之间的相似度,并给相似度高的区域赋予更高的权重;然后,得到多头自注意力模块的输出V
o
,再对V
o
作全局平均池化,将池化后的V
o
送入门控融合单元中与图像全局粗粒度特征V
g
作有选择的门控融合,进而得到不同粒度图像特征融合后的图像嵌入表示V
f
,这便是图像模态内特征融合子网络的输出;类似地,对于文本模态内特征融合子网络,其输入为步骤二得到的Y
g
与步骤三得到的Y
l
';首先,通过多头自注意力模块计算Y
l
'中不同单词之间的相似度,并给相似度高的单词赋予更高的权重;然后,得到多头自注意力模块的输出Y
o
,再对Y
o
作全局平均池化,将池化后的Y
o
送入门控融合单元中与文本全局粗粒度特征Y
g
作有选择的门控融合,进而得到不同粒度文本特征融合后的文本嵌入表示Y
f
,这便是文本模态内特征融合子网络的输出;最后,计算V
f
与Y
f
之间的余弦相似度,得到全局
‑
局部级(Global
‑
Local level,GLl)特征匹配分数S
GLl
;步骤五、计算图文对之间的多级别语义匹配总分数并采用具有自适应边距值的三元排序损失对多级别语义对齐模型进行训练,首先,多级别语义对齐模型由步骤二中图文对的
特征提取网络、步骤三中模态间细粒度特征交互注意力网络、步骤四中模态内不同粒度特征融合网络三部分连接而成;然后,多级别语义匹配总分数由步骤二得到的全局
‑
全局级特征匹配分数S
GGl
、步骤三得到的局部
‑
局部级特征匹配分数S
LLl
以及步骤四得到的全局
‑
局部级特征匹配分数S
GLl
加权得到;最后,对于多级别语义对齐模型的训练,采用具有自适应边距值的三元排序损失,其中边距值大小根据批量样本中的负样本占比来调整,当负样本占比超过一阈值ξ0时,边距值按一定规则自适应地变化,否则保持不变;步骤六、获取跨模态图文对双向检索结果,双向检索分为图像检索与文本检索两类:图像检索将待检索的图像输入训练好的多级别语义对齐模型中,获得待检索图像与文本描述之间的多级别语义匹配总分数,将多级别语义匹配总分数最高的文本描述作为该图像的检索结果;文本检索将待检索的文本描述输入训练好的多级别语义对齐模型中,获得待检索文本描述与图像之间的多级别语义匹配总分数,将多级别语义匹配总分数最高的图像作为该文本描述的检索结果;观察得到的双向检索结果与真实值是否相同,这样便完成了跨模态图文对双向检索过程。2.如权利要求1所述的一种基于多级别语义对齐的跨模态图文检索方法,其特征在于,步骤一所述的图文对来源于跨模态检索开源数据集MS
‑
COCO和Flickr30K。3.如权利要求1所述的一种基于多级别语义对齐的跨模态图文检索方法,其特征在于,步骤二所述图文对的特征提取,包括以下步骤:步骤二A、针对图文对中的每张图像,采用在开源数据集Visual Genome上预训练的主干网络为ResNet101的Faster R
‑
CNN目标检测器来提取其K个区域特征,K一般取36;并利用单层全连接层将所有区域特征维度调整为d,得到图像局部细粒度特征其中v
i
为图像的第i个区域特征向量,d为特征维度,取值为1024,为向量空间;同时,ResNet152网络用来提取整幅图像的全局特征,同样利用单层全连接层将全局特征维度调整为d,得到图像的全局粗粒度特征步骤二B、针对图文对中的每条文本,首先对其进行分词,将分词后的每个单词编码为one
‑
hot独热向量;同时,采用预训练的词嵌入方法Glove对单词的独热向量进行处理,得到每个单词的词嵌入向量;然后,将词嵌入向量送入双向循环神经网络BiGRU提取文本的局部细粒度特征其中L为文本分词后的单词数量,y
j
为文本的第j个单词的特征向量,提取过程如下:特征向量,提取过程如下:特征向量,提取过程如下:式中,t
j
为文本的第j个单词的词嵌入向量,和分别为前向运算和后向运算的隐藏状态,y
j
为文本中第j个单词的特征向量,取两个隐藏状态的均值,d为特征维度,与图像的取值相同;最后,对文本局部细粒度特征Y
l
作全局平均池化,得到文本的全局粗粒度特征
Y
g
=AvgPool(Y
l
)式中,AvgPool代表全局平均池化操作;步骤二C、计算步骤二A得到的图像全局粗粒度特征V
g
和步骤二B得到的文本全局粗粒度特征Y
g
之间的余弦相似度,得到全局
‑
全局级特征匹配分数S
GGl
:式中,||
·
||表示L2范数,上标斜体T代表转置操作。4.如权利要求1所述的一种基于多级别语义对齐的跨模态图文检索方法,其特征在于,步骤三所述的搭建模态间细粒度特征交互注意力网络,包括以下步骤:步骤三A、交互注意力网络首先计算图像区域与文本单词特征向量之间的点积相关性:s
技术研发人员:遆晓光,王文状,刘茂振,高峰,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。