一种基于交叉环境注意力的指代图像分割方法技术

技术编号：38746716 阅读：9 留言：0更新日期：2023-09-08 23:28

本发明专利技术属于指代图像分割领域，具体涉及一种基于交叉环境注意力的指代图像分割方法。首先用语言编码器和视觉编码器提取文本和图像的原始特征，并分别构建语义图和视觉图结构；其次利用交叉注意力机制将文本和图像节点特征映射到多模态特征空间中，通过学习交叉环境信息对边特征进行嵌入，进而计算跨模态关系矩阵，得到文本和图像的跨模态特征表示；最后利用在多个尺度上整合多模态特征得到最终的分割掩膜。本发明专利技术根据不同的全局语义特征，自适应地调整多模态对应关系，增强了模型对跨模态信息的理解能力。通过利用真实的多模态数据集评估本发明专利技术，验证了本发明专利技术的性能达到了国际先进水平。进水平。进水平。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于交叉环境注意力的指代图像分割方法

[0001]本专利技术属于指代图像分割领域，具体涉及一种基于交叉环境注意力的指代图像分割方法。

技术介绍

[0002]随着人工智能时代的到来，人们对基于语言的人机交互和智能化图像编辑的需求越来越高。尽管传统的语义分割任务能够提供丰富的图像语义信息，但是它对图像中目标的识别能力和关联关系的理解仍非常有限。因此，指称图像分割任务的相关研究应运而生。该任务旨在根据文本描述分割图像中相匹配的区域，是实现人机交互和图像智能编辑等任务的关键技术。与语义分割任务相比，指称图像分割通常面对更复杂的场景，同时要求对复杂多变的语言描述进行深入解析，实现语义和视觉特征的系统分析，因而更具挑战性。
[0003]该任务主要关注两个问题：(1)图像和文本特征的提取；(2)图像和文本特征融合。特征提取方向上，现有的工作主要使用卷积神经网络、循环神经网络或Transformer模型进行特征提取。特征融合上，现有的工作主要利用连接、注意力机制或多模态Transformer模型融合图像和文本两个模态的特征，最终输出目标区域掩码。
[0004]目前针对指称图像分割问题的方法大多存在着以下几个问题：(1)在利用注意力机制在计算多模态特征间的相似度时候，只考虑了本模态特征和另一个模态所有特征之间的相似度，忽略了本模态其他特征的作用；(2)在不同文本和视觉特征组合下，文本和图像中的同一对特征可能有着不同的连接关系，如果只学习文本和图像特征之间的相似性，而不考虑二者组合构成的环境背景，会降低模型预测的效果...

【技术保护点】

【技术特征摘要】
1.一种基于交叉环境注意力的指代图像分割方法，其特征在于，步骤包括：步骤S1：提取图文特征，利用预训练模型SWIN Transformer提取四个不同尺寸的图像特征，四个特征按照其输出顺序依次编号为一、二、三、四；利用预训练模型BERT提取文本特征；步骤S2：将得到的四个不同尺度的图像特征分别和文本特征作为原始特征输入环境注意力模块，获得四层图文特征关系矩阵；具体操作如下：步骤S21：对原始文本特征和原始图像特征分别通过不同的线性层和GELU激活函数，变换成相同的尺寸后将二者连接起来，再通过一层线性层获得边特征嵌入，在通道维度上进行切分，将特征分成h个头；步骤S22：对第四层的原始图像特X4征进行恒等映射，三、二、一层的原始图像特征X3，X2，X1分别乘上上层掩码S4，S3，S2；记作处理后的图像特征步骤S23：对原始文本特征和处理后图像特征分别通过全局平均池化层、线性层和激活函数，将二者连接后通过一层线形层获得环境语义信息，在通道维度上进行切分，将特征分成h个头；步骤S24：将边嵌入和环境语义信息每个头两两一组，分别正则化后相乘，再通过激活函数，得到每对头中每条边的存在概率矩阵，即为h组原始图像和原始文本特征关系矩阵；步骤S3：利用得到的四个不同尺寸的原始图像特征和原始文本特征以及四层图文关系矩阵，将文本特征转化为多模态特征，和对应层的原始图像特征进行融合；步骤S4：将四层多模态特征传入多层卷积神经网络，获得最终目标区域掩码；步骤S5：利用交叉熵损失函数训练模型，所得模型即为实现基于文本的实例分割功能模型。2.根据权利要求1所述的一种基于交叉环境注意力的指代图像分割方法，其特征在于，所述步骤S3具体为：步骤S31：将原始文本特征通过一层线性层，在通道维度上进行切分，将特征分成h个头，得到用于查询的文本特征；步骤S32：...

【专利技术属性】
技术研发人员：刘骏华，孔雨秋，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人