【技术实现步骤摘要】
一种基于transformer的指称图像分割方法
[0001]本专利技术属于计算机视觉
,涉及深度学习的指称图像分割方法。
技术介绍
[0002]在我们的日常生活中,我们会接触到各种各样的信息,其中最重要的就是文本和图像的信息。指称表达式则通过文本描述来表述图像中不同目标之间的关系,例如“拿着遥控器的男孩”、“左边的椅子”、“在沙发上的猫”等,使自然语言和视觉信息进行了很好的结合。
[0003]指称图像分割(ReferringImageSegmentation)是计算机视觉和自然语言处理的一个交叉领域。对于给定的图像和指称表达式,算法要能正确地定位图像中的目标并准确地分割出来。传统的图像分割算法需要预测图像中每个像素的类别,而指称图像分割任务则更具挑战性,其要求模型能正确理解语言所表达的信息,再来对图像中的目标进行分割。
[0004]目前的指称图像分割算法种类有很多,我们可以概括成两个类别:单阶段方案和多阶段方案。
[0005](1)单阶段指称图像分割方法
[0006]对于单阶段方案的运 ...
【技术保护点】
【技术特征摘要】
1.一种基于transformer的指称图像分割方法,该方法共由三部分组成,其特征在于,步骤如下:(1)特征提取阶段将图像和文本分别输入视觉编码器和文本编码器来提取特征;文本编码器采用了预训练的BERT框架,文本描述中的每个单词都会被编码成一个768维的向量;视觉编码器采用了基于transformer的结构,是一个卷积和transformer结合的视觉特征提取器,视觉特征提取器由五个阶段构成,第一个阶段是三个卷积层,第二、三个阶段对应局部transformer块,第四、五个阶段对应全局transformer块;其中卷积层是用来引入归纳偏置,局部transformer块用来提取局部的细节特征,全局transformer块用来获取全局的高级语义信息;对于输入的图像,通过不同的线性变换来调整输入特征的维度和分辨率,从而用来获取五个不同层级的特征;对于全局transformer块,其基本结构包括正则化LN、全局自注意力GMSA和多层感知机MLP,具体的运算过程如下:z
′
l
=GMSA(LN(z
l
‑1))+z
l
‑1,z
l
=MLP(LN(z
′
l
))+z
′
l
,其中,z
l
‑1表示当前全局transformer块的输入,z
′
l
表示输入通过GMSA变换的特征,z
l
表示当前全局transformer块的输出;把式中的GMSA替换成局部自注意力LMSA,即得到局部transformer块的运算过程;对于全局自注意力,把输入的任意特征Y先经过三个不同的线性变换得到对应的Q、K和V,线性变换不会改变特征Y的通道数和大小,得到的Q、K和V的通道数和特征大小是相同的,再来计算自注意力,自注意力的流程如下:其中,C0表示K的通道数,softmax表示对输入进行归一化,T表示求矩阵的转置;局部自注意力也是类似的流程,但其自注意力只发生在特征图中7
×
7的窗口内部,而不是整个特征图;在特征提取阶段,得到五个不同层级的视觉特征,即{X
i
,i∈1,2,3,4,5},由于后三个层级的特征{X3,X4,X5}包括丰富的语义信息,选取这部分视觉特征来分别与文本特征S在下文的跨模态特征融合阶段进行融合;(2)跨模态特征融合阶段对于输入的文本特征S和视觉特征X
i
,先进行级联来得到初步的多模态融合特征M
i
,即M
i
=([X
i
,S])W0,其中,W0表示可学习的参数,[
·
]表示级联操作,再通过以下运算流程得到对齐之后的文本特征L
i
,A
i
=soffmax((SW1)(M
i
W2)
T
),L
i
=S
T
A
i
,其中,W1和W2表示可学习的参数,softmax表示对输入进行归一化,T表示求矩阵的转置,A
i
表示多模态注意力矩阵;初步的多模态融合特征M
i
和对齐的文本特征L
i
被送入跨模态特征融合模块来进一步融合,跨模...
【专利技术属性】
技术研发人员:刘芳,孔雨秋,张立和,尹宝才,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。