【技术实现步骤摘要】
一种基于语义关系挖掘与推理的指称图像分割方法
[0001]本专利技术属于计算机视觉
,具体涉及一种基于语义关系挖掘和推理的指称图像分割方法
。
技术介绍
[0002]在我们日常生活中,我们接触到丰富多彩的信息,其中文本和图像信息占据重要地位
。
指称图像分割是计算机视觉和自然语言处理的交叉领域,旨在将自然语言描述与图像信息结合起来,以精确地定位并分割图像中的目标
。
这个任务要求模型不仅能够理解文本中表达的实体之间的关系,还需要能够有效地将这些信息应用于图像分割中
。
[0003]当前的指称图像分割算法可以大致分为两类:单阶段方案和多阶段方案
。
[0004]单阶段方案通常的流程是,首先使用卷积神经网络
(CNN)
和文本编码器
(
如
LSTM)
分别提取图像和文本的特征
。
然后,采用不同的方法将这些特征进行融合,以获取目标分割结果
。
这些方法主要区别在于如何有效 ...
【技术保护点】
【技术特征摘要】
1.
一种基于语义关系挖掘与推理的指称图像分割方法,其特征在于,步骤如下:步骤
S1
:特征预处理:将从数据集中得到的文本及其对应图像,送入文本和视觉编码器分别得到文本特征和图像特征,即视觉特征;步骤
S11
:将数据集中的文本输入到文本编码器中,使用的是
BERT
模型,由此提取得到单词级别的文本特征其中
C
t
是文本特征的通道数,
T
是文本中单词的数量;步骤
S12
:使用四阶段的视觉
transformer
层从图像中以及前一阶段的输出中提取得到丰富的图像特征,即为视觉特征,表示为其中
i∈{1,2,3,4}
,
C
i
、H
i
、W
i
分别表示第
i
级中的通道数量
、
特征图的高度和宽度;步骤
S2
:将文本特征与视觉特征输入到视觉融合模块,得到多模态特征,即文本嵌入的视觉特征;步骤
S21
:由步骤
S12
提取得到的视觉特征
V
i
经由视觉融合模块,与文本特征
L
word
组合以产生一组多模态特征,即文本嵌入的视觉特征;步骤
S22
:每一个文本嵌入的视觉特征中的每个元素由可学习门控单元加权,然后逐元素添加到视觉特征
V
i
,以产生一组增强多模态特征,其表示为,以产生一组增强多模态特征,其表示为其中
C
i
、H
i
、W
i
分别表示第
i
级中的通道数量
、
特征图的高度和宽度;步骤
S3
:将数据集中的文本送入文本解析器中,生成字典形式的场景图,并送入文本编码器中得到场景图中的节点特征矩阵以及实体关系邻接矩阵;步骤
S31
:将数据集中的文本送入文本解析器中,获得字典形式的场景图文件,其中包含所有的实体单词,以及各实体单词之间的关系;步骤
S32
:对字典形式的场景图文件进行解析,根据解析结果创建每一个文本的实体关系邻接矩阵;步骤
S33
:提取字典形式的场景图中的实体单词作为节点信息,送入文本编码器中,得到了含有实体单词信息的节点特征矩阵;步骤
S4
:将增强多模态特征加入到场景图节点特征矩阵中,构成包含图像信息的场景图节点特征以及邻接矩阵,并共同输入到图卷积神经网络中进行更新;步骤
S41
:根据步骤
S22
得到的第四阶段的增强多模态特征
F4,将其作为一个全局节点特征,加入到由步骤
S33
得到的节点特征矩阵中,并在邻接矩阵中加入一个全局实体,将全局实体与字典场景图中各个实体单词的邻接关系设置为1,表明该全局节点特征与所有实体节点均有关系,得到增强的场景图;步骤
S42
:将步骤
S41
得到增强的场景图中的节点特征矩阵与关系邻接矩阵作为输入,送入到图的卷积神经网络中,通过增强多模态特征对节点特征进行更新,增强文本信息中与视觉相对应的部分,对节点之间的关系进行挖掘,突出所指物相关的特征,
GCN
网络输出的特征作为更新后的场景图特征;步骤
S5
:在注意力推理模块中逐步将多级增强多模态特征与更新后的场景图特征融合,对融合的结果进行级联,得到最终需要分割的对象的特征;步骤
S51
:...
【专利技术属性】
技术研发人员:侯雨爽,孔雨秋,张立和,尹宝才,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。