一种基于跨模态对偶图对齐的参考图像分割方法技术

技术编号:36690853 阅读:37 留言:0更新日期:2023-02-27 19:58
本发明专利技术公开了一种基于跨模态对偶图对齐的参考图像分割方法,属于多模态图像分割领域。本发明专利技术创新性的提出了“部分

【技术实现步骤摘要】
一种基于跨模态对偶图对齐的参考图像分割方法


[0001]本专利技术属于多模态图像分割领域,以文本作为参考,从而生成对应图像中与文本描述最相关的目标的掩膜。该方法通过所提出的对偶图模块与层次化交互模块,提取显式的、详尽的跨模态对齐信息,根据获得的跨模态信息获得良好的分割结果。

技术介绍

[0002]随着计算机视觉领域的不断发展,许多单模态的图像分割网络已经被陆续提出,其在自动驾驶等领域已经取得了不小的成就。然而,对于其他应用,例如:基于文本的图像编辑、人机交互等,单模态的图像分割无法满足其需求。基于多模态的图像分割方法在实际生活中有着更为广泛的应用与更重要的意义。
[0003]在多模态图像分割中,基于文本的参考图像分割是一个受关注的话题。该任务的挑战性在于:一方面,模型需要充分理解两种模态各自的成分和上下文信息;另一方面,还需要模型准确的对齐跨模态的异质信息。所以,在参考图像分割任务中,获取特定模态的初始特征以及进行跨模态融合是十分重要的。
[0004]在获取特定模态的初始特征方面,很多优秀的方法已经被提出。对于视觉信息,人们通常使用基于CNN的编码器或者基于视觉Transformer的编码器来提取输入图像对应的视觉特征;对于文本信息,目前主流的方法是使用基于RNN的编码器或者基于Transformer的编码器来提取输入文本对应的文本特征。在跨模态信息融合方面,目前的方法主要采取基于拼接的方法、基于注意力机制的方法,有些工作还会引入句子的句法结构信息来增强文本特征的表示能力,这些跨模态融合方法难以捕获跨模态结构上的层次化关联。此外,由于两种模态的数据风格并不统一,且视觉、文本模态的编码器具有明显不同的结构特点。所以提取出的不同模态的特征具有完全不同的潜在表征空间,如果直接进行跨模态融合,则很难得到准确的跨模态对齐信息。因此,基于对偶图来形成统一的表征结构,并且对跨模态特征进行层次化交互是十分有意义的。
[0005]现有技术中发表于计算机视觉顶级会议ECCV2020上的论文:“Linguistic Structure Guided Context Modelling for Refering Image Segmentation”,这篇论文中,作者对文本信息构建了图神经网络,以更好地获取句子中词与词之间的上下文关系。然而,这篇文献只对文本这一单一模态构建了图结构,对于视觉模态,还是通过编码器来提取视觉初始特征,并没有通过构建相同的图结构来实现表征空间的统一。所以在跨模态融合时,两种模态的特征仍处于不同的潜在表征空间,这为捕获模态间对齐信息造成了误差。

技术实现思路

[0006]本专利技术的目的在于解决以下技术问题:
[0007]其一:现有的参考图像分割方法通常使用结构有明显差异的视觉、文本编码器,且输入各自编码器的不同模态的数据本就有着不统一的风格。这导致了提取出的视觉、文本特征具有完全不同的潜在表征空间,一定程度上阻碍了准确的跨模态对齐。针对这项问题,
本专利技术设计了对偶图模块,通过在不同模态内构建图结构,经过图神经网络推理过程中的节点间的信息传播与聚集,将具有不同潜在表征空间的视觉、文本特征映射至统一的图表征空间,这有利于模型捕获显式的、准确的跨模态对齐信息,有效地提升了模态融合的效果。
[0008]其二:在现有的参考图像分割方法中,对来自不同模态的全局表征或者异构上下文信息,通常使用基于拼接、注意力机制、句法结构信息引入的方法来获取跨模态的相关信息,这些融合方式对于跨模态相关性的捕获不够全面,因为其忽略了对跨模态的层次化关联的捕获。在本专利技术中,通过对不同模态的特征进行实体级与图级交互,充分的捕获了跨模态的层次化关联信息,有效地提升了模型的分割性能。
[0009]本专利技术技术方案为:一种基于跨模态对偶图对齐的参考图像分割方法,该方法包括:
[0010]步骤1:为了进一步增强文本信息以及促进后续对句子长距离上下文的捕获,首先对输入的文本进行预处理;预处理包括单词词性标注以及基于依赖解析树的方法获取句法结构;
[0011]使用现有开源的自然语言处理依赖库:SpaCy来实现,对于单词词性标注,将单词词性类别缩减为7类:名词、形容词、动词、介词、副词、其他词性以及补零位置,并且使用独热编码去表示这7类词性;
[0012]采用依赖解析树的方法获得了句子中词与词之间的从属关系,为后续构建图结构做准备;
[0013]步骤2:将图像I与文本表达式S分别输入各自模态的编码器,得到4个尺度视觉特征V
i
与文本特征L,i=0,1,2,3;随后,将步骤1中提取得到的词性独热编码经过一个多层全连接层编码网络,获得词性特征P,最后,将文本特征L与词性特征P进行元素级相乘,使每个单词对应的特征与它的词性特征得到充分的融合,具体公式如下:
[0014]L
P
=ReLU(Conv(L

P))(0.1)
[0015]其中,

表示矩阵元素级相乘操作,Conv表示卷积层,ReLU代表激活函数,L
P
表示融入了词性信息的文本特征;
[0016]步骤3:对于最低级别的视觉特征V0,进行跨模态融合;
[0017]首先,将从文本编码器中得来的文本初始特征L经过一个线性映射层与Softmax计算函数,得到每个单词特征对应的权重ω;根据权重,对文本特征L中,每一个单词对应的特征向量作加权和操作,得到句子的整体特征向量h
c
;最后,将h
c
平铺,并将其与V0以及人为定义的空间坐标O0沿着通道维度作拼接操作,并通过一个卷积层输出这个尺度下最终的多模态特征M0;具体公式可表示为:
[0018]M0=Conv([V0;Tile(h
c
);O0])(0.2)
[0019]其中,Tile表示平铺操作,[;]表示拼接操作,Conv表示卷积层;
[0020]步骤4:对于较高级的视觉特征V1、V2与V3,利用对偶图模块与层次化交互模块来进行跨模态融合;对V1、V2与V3的操作均相同,下文中省略各自对应的下标来进行方法阐释;
[0021]首先是提取实体,将融入了词性信息的文本特征L
P
视作文本实体,并且以L
E
表示,在视觉方面,将空间坐标O与视觉特征V拼接后卷积,得到视觉实体V
E
;然后使用实体级HIM对不同模态的实体进行交互,得到实体级多模态特征M
E
;随后,构建视觉图与文本图,对视
觉实体V
E
与文本实体L
E
分别进行模态内的图推理,更新后的基于图的视觉与文本特征分别用V
G
与L
G
表示;接着使用图级HIM对不同模态的基于图的特征进行交互,得到图级多模态特征M
G
;最后,将M
E
与M
G
进行拼接操作,实现实体级交互本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于跨模态对偶图对齐的参考图像分割方法,该方法包括:步骤1:为了进一步增强文本信息以及促进后续对句子长距离上下文的捕获,首先对输入的文本进行预处理;预处理包括单词词性标注以及基于依赖解析树的方法获取句法结构;使用现有开源的自然语言处理依赖库:SpaCy来实现,对于单词词性标注,将单词词性类别缩减为7类:名词、形容词、动词、介词、副词、其他词性以及补零位置,并且使用独热编码去表示这7类词性;采用依赖解析树的方法获得了句子中词与词之间的从属关系,为后续构建图结构做准备;步骤2:将图像I与文本表达式S分别输入各自模态的编码器,得到4个尺度视觉特征V
i
与文本特征L,i=0,1,2,3;随后,将步骤1中提取得到的词性独热编码经过一个多层全连接层编码网络,获得词性特征P,最后,将文本特征L与词性特征P进行元素级相乘,使每个单词对应的特征与它的词性特征得到充分的融合,具体公式如下:L
P
=ReLU(Conv(L

P))(0.1)其中,

表示矩阵元素级相乘操作,Conv表示卷积层,ReLU代表激活函数,L
P
表示融入了词性信息的文本特征;步骤3:对于最低级别的视觉特征V0,进行跨模态融合;首先,将从文本编码器中得来的文本初始特征L经过一个线性映射层与Softmax计算函数,得到每个单词特征对应的权重ω;根据权重,对文本特征L中,每一个单词对应的特征向量作加权和操作,得到句子的整体特征向量h
c
;最后,将h
c
平铺,并将其与V0以及人为定义的空间坐标O0沿着通道维度作拼接操作,并通过一个卷积层输出这个尺度下最终的多模态特征M0;具体公式可表示为:M0=Conv([V0;Tile(h
c
);O0])(0.2)其中,Tile表示平铺操作,[;]表示拼接操作,Conv表示卷积层;步骤4:对于较高级的视觉特征V1、V2与V3,利用对偶图模块与层次化交互模块来进行跨模态融合;对V1、V2与V3的操作均相同,下文中省略各自对应的下标来进行方法阐释;首先是提取实体,将融入了词性信息的文本特征L
P
视作文本实体,并且以L
E
表示,在视觉方面,将空间坐标O与视觉特征V拼接后卷积,得到视觉实体V
E
;然后使用实体级HIM对不同模态的实体进行交互,得到实体级多模态特征M
E
;随后,构建视觉图与文本图,对视觉实体V
E
与文本实体L
E
分别进行模态内的图推理,更新后的基于图的视觉与文本特征分别用V
G
与L
G
表示;接着使用图级HIM对不同模态的基于图的特征进行交互,得到图级多模态特征M
G
;最后,将M
E
与M
G
进行拼接操作,实现实体级交互结果与图级层次化交互结果的整合,得到该尺度下的最终的多模态特征M;步骤5:经过上述步骤后,获得了不同尺度的多模态特征M
i
,i=0,1,2,3,设计了一种由高到低的路径来整个各个尺度上的多模态特征,具体公式为:其中,Upsample代表上采样操作,[;]表示拼接操作,Conv表示卷积层;
步骤6:将Y0输入多层卷积层组成的分割头,并且对输出进行上采样,获得最终的预测结果使用二值交叉熵函数作为损失函数,并用Y表示分割真实值,预测损失可以被表示为:其中,下标i,j表示预测结果和真实值的像素位置;H与W表示真实图像掩码的尺寸。2.如权利要求1所述的一种基于跨模态对偶图...

【专利技术属性】
技术研发人员:吴庆波施兆丰李宏亮孟凡满许林峰潘力立
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1