一种基于全局和局部对齐的多模态特征对齐方法技术

技术编号:31157177 阅读:29 留言:0更新日期:2021-12-04 09:53
本发明专利技术公开一种基于全局和局部对齐的多模态特征对齐方法,利用卷积神经网络和图注意力网络得到图像全局特征表示;通过区域检测网络将图像分为若干区域,再利用卷积神经网络得到所有区域的特征向量和标签概率向量,将两个向量聚合最终的得到图像局部特征表示;通过双向GRU网络提取文本中每个单词的特征表示,即为文本局部特征;对于文本局部特征,利用自注意力计算得到文本的全局特征;进行多模态间的全局对齐和局部对齐,得到全局和局部相似度向量,最后将全局和局部相似度向量的平均向量输入到全连接层从而得到最终的相似度分数。使用本发明专利技术的多模态特征对齐方法在常见多模态数据集上进行检索实验,该方法检索性能优于大部分同类方法。分同类方法。分同类方法。

【技术实现步骤摘要】
一种基于全局和局部对齐的多模态特征对齐方法


[0001]本专利技术属于计算机多模态
,具体涉及一种基于全局和局部对齐的多模态特征对齐方法。

技术介绍

[0002]随着移动互联网使用的持续深化,以及即时通讯工具,社交网络,网络视频等互联网应用程序的普及,人们的上网自由度也得到很大的提升,越来越多的互联网用户随时随地接入互联网,并且上传大量的照片、语音和文字等不同模态的多媒体数据。如何在海量的不同模态的数据中快速准确地检索出自己所需要的信息具有很重要的现实意义。
[0003]一方面,由于多媒体数据的爆发式增长,如何高效且准确地检索内容相关的多模态数据逐渐成为一个极具挑战的问题。传统的信息检索方法,大多是以单一模态检索方法为基础的,如关键字检索,以图搜图等。现如今,传统的单一模态的检索已经不能满足人们的日常需要,多模态之间的检索正成为未来的热门方向。以图像和文本这两个模态为例,人们经常会输入一张图片来找到图片所描述的新闻信息,或者输入一段文字来找到最能描述这段文字的图片,这也就促进多模态特征对齐问题的研究。传统的特征对齐方法往往利用手工提取的特征,将图像和文本映射到共同表示空间中,在该空间中求相似度分数进行特征对齐。近年来,由于深度学习的快速发展,越来越多的方法开始使用神经网络提取图像和文本的高层特征,并加上一些注意力模块实现多模态对齐来解决不同模态间的“异构鸿沟”和“语义鸿沟”问题,这些方法均去取得了不错的效果。但是现有方法往往只考虑了多模态间的局部对齐或者全局对齐,只有少数同时进行了局部对齐和全局对齐,但是这些方法的全局特征提取的较为简单且对齐方式不够准确,只是简单的计算两个特征间的相似度值。

技术实现思路

[0004]本专利技术解决的技术问题:提供了一种利用经典网络在大型数据集上的预训练模型来提取出更好的全局特征和局部特征,并且通过计算相似度向量而不是简单的数值进行多模态对齐,基于全局和局部对齐的多模态特征对齐方法。
[0005]技术方案:为了解决上述技术问题,本专利技术采用的技术方案如下:一种基于全局和局部对齐的多模态特征对齐方法,其特征在于,包括:采用卷积神经网络和图注意力网络得到图像全局特征表示;通过区域检测网络将图像分为若干区域,再利用卷积神经网络得到所有区域的特征向量和标签概率向量,将两个向量聚合最终的得到图像局部特征表示;通过双向GRU网络提取文本中每个单词的特征表示,得到文本局部特征;对于文本局部特征,利用自注意力计算得到文本的全局特征;进行多模态间的全局对齐和局部对齐,得到全局和局部相似度向量,最后将全局和局部相似度向量的平均向量输入到全连接层从而得到最终的相似度分数;具体包括以下步骤:步骤A:图像全局特征的提取:使用ResNet152在ImageNet上的预训练模型,将ResNet152的输出高层特征M重塑为一组特征集F,然后将特征集F经过一个全连接层得到初
步全局特征V
F
,使用初步全局特征V
F
构建视觉图卷积神经网络G
F
,最后经过图注意力模块的计算得到最终的图像全局特征表示;步骤B:图像局部特征的提取:使用Faster

RCNN在Visual

Genome数据集上的预训练模型,检测出图像的关键区域,然后用ResNet101提取图像关键区域的特征向量R以及标签概率向量C,将区域特征向量和区域标签概率向量融合起来组成图像局部特征表示V={v1, v2,

v
100
};步骤C:文本全局特征和局部特征的提取:对于给定的文本,将其划分为L个单词,然后依次将单词输入到双向GRU网络中得到每个单词的特征表示,为文本的局部特征表示T={t1,

t
L
},再通过自注意力方法计算得到文本的全局特征表示;步骤D:多模态间的全局和局部对齐:使用相似度函数计算图像全局特征和文本全局特征间的相似度向量,使用多模态注意力模块优化图像特征,得到新的视觉特征A
v
={a
v1
, a
v2
,

a
vL
},最后求出A
v
和T的相似度,得到L个局部相似度向量;步骤E:计算最终图像文本匹配分数:对于全局相似度向量和局部相似度向量共L+1个向量求出平均相似度向量s,最后将s经过一个输出维度为1全连接层和sigmoid函数,就得到了最终的图像文本匹配分数。
[0006]进一步的,图像全局特征的提取具体包含以下步骤:步骤A01,对于输入图像,使用ResNet152在ImageNet上的预训练模型,且去掉最后一个全连接层,图像经过ResNet网络得到一组高层特征M,为了后续视觉图卷积神经网络的构建,将M重塑为长度为64的特征集F={f1, f2,

f
64
},再经过一个全连接层,将F中每个向量映射到1024维的空间中,得到初步的全局特征集V
F
;步骤A02,对于步骤A01得到的特征V
F
,构建全局视觉图卷积神经网络G
F
=(V
F
,E
F
),图的顶点由V
F
的特征构成,图的边集E
F
被定义为顶点间特征的内积;步骤A03,对于步骤A02得到的全局视觉图卷积神经网络G
F
=(V
F
,E
F
),计算所有顶点间的注意力系数,并用softmax函数归一化,然后利用注意力系数加权得到图注意力模块更新后的全局特征集V
*F
,最后对特征集V
*F
取平均值,得到了最终的1024维的图像全局特征。
[0007]进一步的,步骤A03中,图注意力模块的具体计算方法为:先计算顶点间的注意力系数,对于顶点V
F
中任意两个顶点v
i
和v
j
,系数e
ij
的计算公式为:其中,W
q
和W
k
都为网络学习的参数,T表示矩阵的转置,D是特征维度,得到所有系数后,用softmax函数处理得到最终的图注意力系数a
ij
,再加权求和得到图注意力模块的输出V
*F
,具体计算方式如下:,具体计算方式如下:其中,N
i
表示顶点v
i
的所有邻居。
[0008]进一步的,图像局部特征的提取具体包含以下步骤:步骤B01,对于输入图像,使用Faster

RCNN在Visual

Genome数据集上的预训练模
型,检测出图像的100个关键区域,再将这100个关键区域输入同样在Visual

Genome数据集预训练的ResNet101模型,得到输入图像中关键区域的特征表示R={r1, r2,

...

【技术保护点】

【技术特征摘要】
1.一种基于全局和局部对齐的多模态特征对齐方法,其特征在于,包括:采用卷积神经网络和图注意力网络得到图像全局特征表示;通过区域检测网络将图像分为若干区域,再利用卷积神经网络得到所有区域的特征向量和标签概率向量,将两个向量聚合最终的得到图像局部特征表示;通过双向GRU网络提取文本中每个单词的特征表示,得到文本局部特征;对于文本局部特征,利用自注意力计算得到文本的全局特征;进行多模态间的全局对齐和局部对齐,得到全局和局部相似度向量,最后将全局和局部相似度向量的平均向量输入到全连接层从而得到最终的相似度分数。2.根据权利要求1所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于,具体包括以下步骤:步骤A:图像全局特征的提取:使用ResNet152在ImageNet上的预训练模型,将ResNet152的输出高层特征M重塑为一组特征集F,然后将特征集F经过一个全连接层得到初步全局特征V
F
,使用初步全局特征V
F
构建视觉图卷积神经网络G
F
,最后经过图注意力模块的计算得到最终的图像全局特征表示;步骤B:图像局部特征的提取:使用Faster

RCNN在Visual

Genome数据集上的预训练模型,检测出图像的关键区域,然后用ResNet101提取图像关键区域的特征向量R以及标签概率向量C,将区域特征向量和区域标签概率向量融合起来组成图像局部特征表示V={v1, v2,

v
100
};步骤C:文本全局特征和局部特征的提取:对于给定的文本,将其划分为L个单词,然后依次将单词输入到双向GRU网络中得到每个单词的特征表示,为文本的局部特征表示T={t1,

t
L
},再通过自注意力方法计算得到文本的全局特征表示;步骤D:多模态间的全局和局部对齐:使用相似度函数计算图像全局特征和文本全局特征间的相似度向量,使用多模态注意力模块优化图像特征,得到新的视觉特征A
v
={a
v1
, a
v2
,

a
vL
},最后求出A
v
和T的相似度,得到L个局部相似度向量;步骤E:计算最终图像文本匹配分数:对于全局相似度向量和局部相似度向量共L+1个向量求出平均相似度向量s,最后将s经过一个输出维度为1全连接层和sigmoid函数,就得到了最终的图像文本匹配分数。3.根据权利要求2所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于:图像全局特征的提取具体包含以下步骤:步骤A01,对于输入图像,使用ResNet152在ImageNet上的预训练模型,且去掉最后一个全连接层,图像经过ResNet网络得到一组高层特征M,为了后续图卷积神经网络的构建,所以将M重塑为长度为64的特征集F={f1, f2,

f
64
},再经过一个全连接层,将F中每个向量映射到1024维的空间中,得到初步的全局特征集V
F
;步骤A02,对于步骤A01得到的特征V
F
,构建全局视觉图卷积神经网络G
F
=(V
F
,E
F
),图的顶点由V
F
的特征构成,图的边集E
F
被定义为顶点间特征的内积;步骤A03,对于步骤A02得到的全局视觉图卷积神经网络G
F
=(V
F
,E
F
),计算所有顶点间的注意力系数,并用softmax函数归一化,然后利用注意力系数加权得到图注意力模块更新后的全局特征集V
*F
,最后对特征集V
*F
取平均值,得到了最终的1024维的图像全局特征。4.根据权利要求3所述的基于全局和局部对齐的多模态特征对齐方法,其特征在于:步骤A03中,图注意力模块的具体计算方法为:
先计算顶点间的注意力系数,对于顶点V
F
中任意两个顶点v
i
和v
j
,系数e
ij
的计算公式为:其中,W
q
和W
k
都为网络学习的参数,T表示矩阵的转置,D是特征维度,得到所有系数后,用softmax函数处理得到最终的图注意力系数a
ij
,再加权求和得到图注意力模块的输出V
*F
,具体计算方式如下:,...

【专利技术属性】
技术研发人员:练智超姜铸锴李千目
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1