一种可泛化的指代表达式图像分割方法技术

技术编号：40442548 阅读：7 留言：0更新日期：2024-02-22 23:04

本发明专利技术属于图像分割技术领域，具体涉及一种可泛化的指代表达式图像分割方法，包括对于给定的文本表达式，用统一的形式为其加入直接且关键的提示；将引用表达式送入文本编码器，提取文本特征；将图像输入视觉编码器，结合跨模态注意力对齐机制联合编码视觉特征和文本特征；随后在多模态融合模块，采用多模态特征聚合模块并引入来自预训练视觉模型的引导以利用视觉空间关联；将跨模态融合特征输入解码器，在层级解码过程中引入预训练视觉模型的引导；最后输入分类头，得到图像分割结果。本方法大幅提升了模型对多变的自由文本描述的泛化性，且有效改善了模型对未见视觉目标的泛化性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像分割，具体涉及一种可泛化的指代表达式图像分割方法。

技术介绍

1、指代表达式分割旨在分割图像中对应于文本描述的物体，在基于语言的人机交互场景，图像编辑等各领域有着广泛的应用前景。不同于传统的语义分割和实例分割算法，指代表达式分割的物体是文本描述给出，其分割目标不受预定义类别限制，且文本描述句法结构变化多样，具有较高的开放性和灵活性。然而，针对特定的场景，现有的指代表达式分割算法需要对相应的场景数据进行训练并部署使用，对于新场景，需要执行重复的训练及部署流程，算法的鲁棒性和泛化性低，可迁移性差，这无疑限制了指代表达式分割算法的发展和应用。

2、现有的指代表达式分割算法往往是在特定的场景或数据集上有较好的性能。但将指代表达式分割算法应用到其他场景往往存在以下问题：

3、(1)由于文本描述句法结构不受限制，且其在用户之间存在较大的差异。模型很难正确理解所有文本描述，并分割出相应物体。针对同一物体的不同描述，会产生不同的分割结果，无法有效的泛化到未知文本描述。

4、(2)将在特定数据集上训练好的模型应用在不同图像域以及未见种类物体时，模型的预测结果会存在两种明显的缺陷。一是目标物体的掩码不完整，缺失部分目标像素；二是会出现不规则的假阳性的背景块的误检。上述两种缺陷导致了模型对未知视觉物体泛化性较差。

5、指代表达式的泛化性包含三个方面。一是泛化到同一视觉实体，不同描述文本上。不同的文本描述可能是句法结构发生了变化,如’the tail of elephant’和’thee

6、现有的指代表达式分割算法的泛化性在上述三种设置中表现较差。如language-aware vision transformer for referring image segmentation泛化到有着相同图像域和类别，不同文本描述的场景时，精度下降了16个点；在泛化到未知视觉实体，包含不同图像域和目标类别时，精度下降了50个点。而对不同场景，不同目标类别以及不同文本描述重新标注和训练，其成本无疑是巨大的，且不可能包含所有潜在的文本描述。

7、astrong zero-shot baseline for referring expression comprehension旨在将大规模图像文本预训练模型的知识零样本迁移到指代表达式任务中，以规避监督学习中的泛化问题。但零样本的精度与全监督指代表达式分割的精度相比，仍有较大差距。而contrastive grouping with transformer for referring image segentation中仅对泛化到未见类别进行了测试，且其网络结构和训练算法并未考虑如何提升模型的泛化性。由于现有指代表达式分割算法泛化性较差，且为不同域进行标注和训练的成本较大，限制了指代表达式分割算法的广泛应用。

技术实现思路

1、为解决上述技术问题，本专利技术提供了提出一种可泛化的指代表达式图像分割算法，训练一个统一的模型可以使指代表示式分割在多个场景达到较好的性能，增强模型对多变的不受限的文本描述的鲁棒性，提升模型对未见视觉实体包含有域差异的图像和未知类别目标物体的泛化性。

2、本专利技术完整的技术方案包括：

3、一种可泛化的指代表达式图像分割方法，包括如下步骤：

4、(1)对于给定的文本表达式，用统一的形式为其加入直接且关键的提示；

5、给定表达式er，首先利用自然语言处理依赖解析工具spacy将给定的表达式解析为树结构，并将句子的根名词识别为目标tn(er)；在识别指代表达式中的目标后，以统一的上下文形式利用它来增强文本表达式，从而获得最终的指代表达式ef0；

6、统一的上下文形式的指代表达式为：

7、ef0＝[er][c]1[c]2…[c]l[tn(er)]

8、其中，[c]l(l∈1,2,…,l)是提示上下文的token，l是上下文token的长度。

9、定制化prompt.以“it is a tn(er)”的形式定制指代表达式分割任务的提示上下文，它在所有指代表达式之间共享；

10、给定一个表达式er，通过以下方式获得引用表达式ef：

11、ef＝[er].it is a[tn(er)]

12、(2)将引用表达式送入文本编码器，提取文本特征；

13、将ef输入文本编码器提取文本特征ft：

14、

15、(3)将图像输入视觉编码器，结合跨模态注意力对齐机制联合编码视觉特征和文本特征；

16、将图像输入视觉编码器，提取到视觉特征vi，在多模态融合模块中，采用像素-单词交叉注意力层对视觉和文本特征进行融合如下：

17、attni＝softmax(wiv(vi)wt(ft))

18、vi′＝attni⊙wim(vi)

19、其中，attni为视觉和文本特征融合后的注意力矩阵，⊙表示点乘运算，wiv，wt和wim是线性映射层。vi′是跨模态注意力作用后的视觉特征。

20、(4)在上述多模态融合模块中，加入多模态特征聚合模块，并引入来自预训练视觉模型的引导以利用视觉空间关联；

21、所述多模态特征聚合模块mfa具有半全局感受野来捕获局部区域之间的空间关系，其包含两个连续的swin_transformer块；每个块通过自注意力机制来建模局部窗口内的空间关系；

22、给定视觉预训练模型，提取视觉引导特征pi(i∈1,2,3,4),mfa的计算过程如下：

23、vaggre＝swin_blocks(attni；wi(pi))⊙wim(vi)

24、其中，vaggre为聚合后的多模态特征，wi是线性映射层。[；]代表通道维度的拼接。

25、(5)将跨模态融合特征输入解码器，在层级解码过程中引入预训练视觉模型的引导；

26、跨模态的解码过程可以表示为：

27、

28、其中，y4为解码层4的特征，yi为解码i的特征，i＝3，2，1，ρi包含两个卷积层，采用group normalization进行归一化，激活函数为relu层。up代表使用双线性插值的上采样层。wp代表线性映射层。sg表示停止梯度回传算子。

29、(6)最后输入分类头，得到分割结果。

30、将解码器的输出y1输入到二分类头，得到最后的分割结果。

31、如上所述，本专利技术提出的一种可泛化的指代表达式算法，针本文档来自技高网...

【技术保护点】

1.一种可泛化的指代表达式图像分割方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种可泛化的指代表达式图像分割方法，其特征在于，步骤(1)具体为，给定表达式Er，首先利用自然语言处理依赖解析工具Spacy将给定的表达式解析为树结构，并将句子的根名词识别为目标TN(Er)；在识别指代表达式中的目标后，以统一的上下文形式利用识别的目标来增强文本表达式，从而获得指代表达式Ef0；

3.根据权利要求2所述的一种可泛化的指代表达式图像分割方法，其特征在于，对指代表达式进行定制化具体为：

4.根据权利要求3所述的一种可泛化的指代表达式图像分割方法，其特征在于，步骤(2)中，将引用表达式Ef输入文本编码器提取文本特征Ft：

5.根据权利要求4所述的一种可泛化的指代表达式图像分割方法，其特征在于，步骤(4)中，将图像输入视觉编码器，提取到视觉特征Vi，采用像素-单词交叉注意力层对视觉和文本特征进行融合如下：

6.根据权利要求5所述的一种可泛化的指代表达式图像分割方法，其特征在于，步骤(4)中，所述多模态特征聚合模块MFA具有

7.根据权利要求6所述的一种可泛化的指代表达式图像分割方法，其特征在于，步骤(5)中，跨模态的解码过程可以表示为：

8.根据权利要求7所述的一种可泛化的指代表达式图像分割方法，其特征在于，步骤(5)中，将解码器的输出Y1输入到二分类头，得到最后的分割结果。

...

【技术特征摘要】

1.一种可泛化的指代表达式图像分割方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种可泛化的指代表达式图像分割方法，其特征在于，步骤(1)具体为，给定表达式er，首先利用自然语言处理依赖解析工具spacy将给定的表达式解析为树结构，并将句子的根名词识别为目标tn(er)；在识别指代表达式中的目标后，以统一的上下文形式利用识别的目标来增强文本表达式，从而获得指代表达式ef0；

3.根据权利要求2所述的一种可泛化的指代表达式图像分割方法，其特征在于，对指代表达式进行定制化具体为：

4.根据权利要求3所述的一种可泛化的指代表达式图像分割方法，其特征在于，步骤(2)中，将引用表达式ef输入文本编码器提取文本特征ft：

5.根据权利要求4所述的一种可泛...

【专利技术属性】
技术研发人员：刘庆杰，刘亚洁，黄迪，金一舟，范时朝，葛璞，王蕴红，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人