一种基于跨模态对偶图对齐的参考图像分割方法技术

技术编号：36690853 阅读：37 留言：0更新日期：2023-02-27 19:58

本发明专利技术公开了一种基于跨模态对偶图对齐的参考图像分割方法，属于多模态图像分割领域。本发明专利技术创新性的提出了“部分

全部详细技术资料下载

【技术实现步骤摘要】
一种基于跨模态对偶图对齐的参考图像分割方法

[0001]本专利技术属于多模态图像分割领域，以文本作为参考，从而生成对应图像中与文本描述最相关的目标的掩膜。该方法通过所提出的对偶图模块与层次化交互模块，提取显式的、详尽的跨模态对齐信息，根据获得的跨模态信息获得良好的分割结果。

技术介绍

[0002]随着计算机视觉领域的不断发展，许多单模态的图像分割网络已经被陆续提出，其在自动驾驶等领域已经取得了不小的成就。然而，对于其他应用，例如：基于文本的图像编辑、人机交互等，单模态的图像分割无法满足其需求。基于多模态的图像分割方法在实际生活中有着更为广泛的应用与更重要的意义。
[0003]在多模态图像分割中，基于文本的参考图像分割是一个受关注的话题。该任务的挑战性在于：一方面，模型需要充分理解两种模态各自的成分和上下文信息；另一方面，还需要模型准确的对齐跨模态的异质信息。所以，在参考图像分割任务中，获取特定模态的初始特征以及进行跨模态融合是十分重要的。
[0004]在获取特定模态的初始特征方面，很多优秀的方法已经被提出。对于视觉信息，人们通常使用基于CNN的编码器或者基于视觉Transformer的编码器来提取输入图像对应的视觉特征；对于文本信息，目前主流的方法是使用基于RNN的编码器或者基于Transformer的编码器来提取输入文本对应的文本特征。在跨模态信息融合方面，目前的方法主要采取基于拼接的方法、基于注意力机制的方法，有些工作还会引入句子的句法结构信息来增强文本特征的表示能力，这些跨模态融合方法难以捕获跨...

【技术保护点】

【技术特征摘要】
1.一种基于跨模态对偶图对齐的参考图像分割方法，该方法包括：步骤1：为了进一步增强文本信息以及促进后续对句子长距离上下文的捕获，首先对输入的文本进行预处理；预处理包括单词词性标注以及基于依赖解析树的方法获取句法结构；使用现有开源的自然语言处理依赖库：SpaCy来实现，对于单词词性标注，将单词词性类别缩减为7类：名词、形容词、动词、介词、副词、其他词性以及补零位置，并且使用独热编码去表示这7类词性；采用依赖解析树的方法获得了句子中词与词之间的从属关系，为后续构建图结构做准备；步骤2：将图像I与文本表达式S分别输入各自模态的编码器，得到4个尺度视觉特征V
i
与文本特征L，i＝0,1,2,3；随后，将步骤1中提取得到的词性独热编码经过一个多层全连接层编码网络，获得词性特征P，最后，将文本特征L与词性特征P进行元素级相乘，使每个单词对应的特征与它的词性特征得到充分的融合，具体公式如下：L
P
＝ReLU(Conv(L
⊙
P))(0.1)其中，
⊙
表示矩阵元素级相乘操作，Conv表示卷积层，ReLU代表激活函数，L
P
表示融入了词性信息的文本特征；步骤3：对于最低级别的视觉特征V0，进行跨模态融合；首先，将从文本编码器中得来的文本初始特征L经过一个线性映射层与Softmax计算函数，得到每个单词特征对应的权重ω；根据权重，对文本特征L中，每一个单词对应的特征向量作加权和操作，得到句子的整体特征向量h
c
；最后，将h
c
平铺，并将其与V0以及人为定义的空间坐标O0沿着通道维度作拼接操作，并通过一个卷积层输出这个尺度下最终的多模态特征M0；具体公式可表示为：M0＝Conv([V0；Tile(h
c
)；O0])(0.2)其中，Tile表示平铺操作，[；]表示拼接操作，Conv表示卷积层；步骤4：对于较高级的视觉特征V1、V2与V3，利用对偶图模块与层次化交互模块来进行跨模态融合；对V1、V2与V3的操作均相同，下文中省略各自对应的下标来进行方法阐释；首先是提取实体，将融入了词性信息的文本特征L
P
视作文本实体，并且以L
E
表示，在视觉方面，将空间坐标O与视觉特征V拼接后卷积，得到视觉实体V
E
；然后使用实体级HIM对不同模态的实体进行交互，得到实体级多模态特征M
E
；随后，构建视觉图与文本图，对视觉实体V
E
与文本实体L
E
分别进行模态内的图推理，更新后的基于图的视觉与文本特征分别用V
G
与L
G
表示；接着使用图级HIM对不同模态的基于图的特征进行交互，得到图级多模态特征M
G
；最后，将M
E
与M
G
进行拼接操作，实现实体级交互结果与图级层次化交互结果的整合，得到该尺度下的最终的多模态特征M；步骤5：经过上述步骤后，获得了不同尺度的多模态特征M
i
，i＝0,1,2,3，设计了一种由高到低的路径来整个各个尺度上的多模态特征，具体公式为：其中，Upsample代表上采样操作，[；]表示拼接操作，Conv表示卷积层；
步骤6：将Y0输入多层卷积层组成的分割头，并且对输出进行上采样，获得最终的预测结果使用二值交叉熵函数作为损失函数，并用Y表示分割真实值，预测损失可以被表示为：其中，下标i,j表示预测结果和真实值的像素位置；H与W表示真实图像掩码的尺寸。2.如权利要求1所述的一种基于跨模态对偶图...

【专利技术属性】
技术研发人员：吴庆波，施兆丰，李宏亮，孟凡满，许林峰，潘力立，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人