当前位置: 首页 > 专利查询>复旦大学专利>正文

基于文本监督的开放词汇图像语义分割系统技术方案

技术编号:38571824 阅读:12 留言:0更新日期:2023-08-22 21:06
本发明专利技术属于图像处理技术领域,具体为基于文本监督的开放词汇图像语义分割系统。本发明专利技术包括图像编码器、文本编码器、跨模态解码器、图像

【技术实现步骤摘要】
基于文本监督的开放词汇图像语义分割系统


[0001]本专利技术属于图像处理
,具体涉及基于文本监督的开放词汇图像语义分割系统。

技术介绍

[0002]近些年,深度学习在多种不同的计算机视觉应用中已取得令人欣喜的成果。作为其中一个非常值得探究的问题,图像语义分割旨在对于给定图像分割出感兴趣物体,该任务对于图像内容解析、场景理解等都起到至关重要的作用。在现实场景中,语义分割技术在许多领域都得到广泛应用,如可以帮助自动驾驶汽车和机器人进行环境感知和路径规划,还可以用于医学影像分析、无人机监测和地质勘探等领域。然而,由于现有的基于监督训练的方法存在高昂的成本和局限性,这些问题使得语义分割技术在实际应用中仍面临挑战。在研究中,已有一些研究致力于开发新的神经网络架构,如编码器

解码器架构和空间注意力机制,以提高分割性能和减少训练时间。这些新技术和新方法为未来的语义分割研究和应用提供广阔发展空间。在全监督语义分割问题设定下,衍生出半监督语义分割任务、弱监督语义分割任务、无监督语义分割任务。本专利技术聚焦使用文本解决弱监督语义分割问题,相比于全监督图像语义分割,该任务在训练过程中没有物体分割标签,只有弱一级语义特征的图像文本描述标签。基于文本监督的语义分割相较传统语义分割任务难度更高,更贴合实际应用。在互联网上存在大量的图像及对应的描述,却少有精细标注物体位置,基于文本监督的图像语义分割技术的发展使大量利用互联网数据进行学习成为可能。
[0003]一般而言,语义分割模型设计主要有两种方式。一种方法是将像素分组并为每个组分配一个语义标签;另一种方法是将分割视为像素级分类,将每个像素分配到一个类别中。尽管相关研究已取得巨大进展,但现有基于监督式训练的方法其可扩展性还有根本性的限制:(1)昂贵的标注,即需要耗费大量时间手动完成像素级标注以训练分割模型;(2)闭集分割,即模型仅限于从一组有限对象类别中进行分割,每当引入新的数据集时模型就需要重新训练,泛化性受到极大限制。因此,如何利用低成本的标注(如文本)取代像素级别的标注训练分割模型并提高模型的类别泛化能力亟待解决。
[0004]最近的研究如CLIP模型和ALIGN模型已证明,大规模的图像

标题对和简单的噪声对比估计组合可从头开始学习强大的图像、文本嵌入,并显示出强大的开放式分类零样本泛化能力。此外,GroupViT模型通过仅使用文本监督来扩展这一思路,将其扩展至语义分割中。他们对视觉标记进行层次分组,然后通过对比损失将其与相应的文本嵌入对齐。然而,以下问题仍具有挑战性且未解决:首先,文本仅提供粗略的图像级描述,这对于训练语义分割模型通常需要精细的像素级监督的情况并不足够。其次,网络收集数据的多样性非常大,需要模型在提供的弱监督下学习感兴趣对象的视觉不变性,如具有相似描述的两幅图像的视觉外观可能截然不同。因此,在模型过程设计中仍需考虑挖掘细粒度信息。

技术实现思路

[0005]本专利技术的目的在于提供一种基于文本监督的开放词汇图像语义分割系统,以实现仅利用文本作为监督信息训练图像语义分割模型并具有开放词汇泛化能力。
[0006]本专利技术中,提出了一种基于Transformer的开放词汇语义分割模型,称为OVSegmentor,可通过零样本迁移对任意类别的对象进行分割,仅使用图像

描述的成对数据进行预训练。具体而言,引入可学习的群组表征,本专利技术使用基于slot

attention的绑定模块将图像块聚类,并将群组表征与相应的描述表征在特征空间实现对齐。本专利技术既不需要人工标注的掩模标签用于训练,也不需要在目标分割数据集上进行额外的重新训练,大大减轻标注工作量并提高迁移效率。在本专利技术中,对于在图像

描述数据集上的训练,提出两个代理任务,即屏蔽实体补全和跨图像掩模一致性。前者训练模型根据群组表征推断句子中所有被屏蔽的实体,后者则训练模型对于包含相同实体的图像给出具有一致性的掩模预测。这两个任务都显示出有益于模型学习基于特定实体的、细粒度和视觉不变的群组语义。除此之外,本专利技术通过设计自动筛选算法过滤经常出现的视觉实体构建一个图像

描述数据集,称为CC4M,显著提高训练效率,同时能保证数据集多样性。
[0007]本专利技术提供的基于文本监督的开放词汇图像语义分割系统,包括图像编码器、文本编码器、跨模态解码器、学习优化模块,学习优化模块包括图像

描述对齐子模块、屏蔽实体补全子模块、跨图像掩码一致性子模块。其中,所述图像编码器用于对图像特征进行提取,同时使用可学习的群组表征对图像进行聚类;所述文本编码器针对图像描述进行编码,建立与群组表征的对齐关系;所述跨模态解码器使用交叉注意力机制将群组表征与屏蔽描述表征进行交互融合;所述学习优化模块,使得模型在仅使用文本监督条件下学习视觉

文本对齐,得到优化分割的网络模型;所述图像

描述对齐子模块将匹配的图像特征与对应的完整描述表征在特征空间中进行对齐;所述屏蔽实体补全模块根据屏蔽描述中的常见实体,通过群组表征补全信息实现细粒度图像

文本对齐;所述跨模态图像掩码一致性子模块约束包含相同实体的不同图像产生相同的实体掩码训练模型学习视觉不变性。
[0008]本专利技术中,所述图像编码器,包括Transformer编码器与绑定模块。Transformer编码器[1],用于对图像进行编码,其输入为拼接过的图像表征与随机初始化的群组表征,输出为微经过编码的图像表征与群组表征;绑定模块用于对编码器的输出进行聚类;
[0009]具体地,图像表征与可学习的群组表征首先进行拼接,并迭代地通过Transformer编码器和绑定模块。其中:
[0010]所述Transformer编码器,其编码过程可表示为:
[0011][0012]其中,与分别代表Transformer编码器层;代表绑定模块。输出是经过编码的群组表征,同时代表输出的图像表征。G和I分别表示可学习的初始群组表征以及输入图像。
[0013]在Transformer编码器中,与同时包含6层Transformer编码器层,其中每层包含一个多头自注意力模块、一个层归一化模块、一个前馈神经网络。首先将拼接过的图像表征与随机初始化的群组表征作为输入,并输出经过编码的图像表征与群组表
征,分别表示为G

和I

。则处理绑定模块的输出。
[0014]所述绑定模块,使用slot

attention[2]来实现聚类,具体是使用slot

attention将图像块通过聚类的方式聚合到可学习的群组表征中。即具有相似外观和语义的图像表征更容易被聚合到同一个群组中。绑定模块接受第一个Transformer编码器的输出,并将其分别转换为查询表征、键表征与值表征。整个过程表示为:
[0015][0016]其中,和分别代表查本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于文本监督的开放词汇图像语义分割系统,其特征在于,包括图像编码器、文本编码器、跨模态解码器、学习优化模块,学习优化模块包括图像

描述对齐子模块、屏蔽实体补全子模块、跨图像掩码一致性子模块;其中,所述图像编码器用于对图像特征进行提取,同时使用可学习的群组表征对图像进行聚类;所述文本编码器针对图像描述进行编码,建立与群组表征的对齐关系;所述跨模态解码器使用交叉注意力机制将群组表征与屏蔽描述表征进行交互融合;所述学习优化模块,使得模型在仅使用文本监督条件下学习视觉

文本对齐,得到优化分割的网络模型;所述图像

描述对齐子模块将匹配的图像特征与对应的完整描述表征在特征空间中进行对齐;所述屏蔽实体补全模块根据屏蔽描述中的常见实体,通过群组表征补全信息实现细粒度图像

文本对齐;所述跨模态图像掩码一致性子模块约束包含相同实体的不同图像产生相同的实体掩码训练模型学习视觉不变性。2.根据权利要求1所述开放词汇图像语义分割系统,其特征在于,所述图像编码器,包括Transformer编码器与绑定模块;Transformer编码器用于对图像进行编码,其输入为拼接过的图像表征与随机初始化的群组表征,输出为经过编码的图像表征与群组表征;绑定模块用于对编码器的输出进行聚类;具体地,图像表征与可学习的群组表征首先进行拼接,并迭代地通过Transformer编码器和绑定模块;其中:所述Transformer编码器,其编码过程表示为:其中,与分别代表Transformer编码器层;代表绑定模块;输出是经过编码的群组表征,同时代表输出的图像表征;G和I分别表示可学习的初始群组表征以及输入图像;在Transformer编码器中,与同时包含6层Transformer编码器层,其中每层包含一个多头自注意力模块、一个层归一化模块、一个前馈神经网络;首先将拼接过的图像表征与随机初始化的群组表征作为输入,并输出经过编码的图像表征与群组表征,分别表示为G

和I

;则处理绑定模块的输出;所述绑定模块,使用slot

attention来实现聚类,具体是使用slot

attention将图像块通过聚类的方式聚合到可学习的群组表征中,即具有相似外观和语义的图像表征更容易被聚合到同一个群组中;绑定模块接受第一个Transformer编码器的输出,并将其分别转换为查询表征、键表征与值表征;其过程表示为:其中,和分别代表查询表征、键表征与值表征的对应映射;slot

attention侧重于将归一化操作沿着查询表征维度进行,使得每个图像表征能够被所有群组表征中的一个标识;整个绑定过程表示为:其中,A
j,k
代表第j个图像表征属于第k个群组表征的概率,K
j
,Q
k
,Q
l
分别表示第j个键表征、第k个查询表征和第l个查询表征,K
j
·
Q
k
表示两个表征的点积;接下来,每个群组表征被
更新为所有被指定到属于该群组的图像表征的加权平均值;绑定模块的输出G
bind
表示为:表示为:其中,代表输出层线性变换,V
j
表示为第j个值表征;通过以上公式获得每个图像块与群组表征的对应关系。3.根据权利要求2所述开放词汇图像语义分割系统,其特征在于,所述文本编码器对图像描述进行编码;首先,过滤数据集中所有的图像描述,并保留部分只包含特定包含信息量的实体,在此基础上构建三种类型特征表示:(1)完整描述表征;(2)屏蔽描述表征;(3)提示实体表征;在所有三种文本特征表示中,采用预训练的BERT作为文本编码器φ
text
;(一)构建实体集;采用NLTK自然语言处理工具对所有图像描述中的实体进行提取,并以此构建实体集Ω=φ
entity
({T1,

,T
N
);对于每个图像

描述对,获得图像

描述

实体的三元组(I,T,E),其中,T=(T1,

,T
N
),E={e|e∈T and e∈Ω}包含所有常见的描述中出现的实体;(二)构建三种类型特征表示:完整描述表征,即对于每个描述T,通过BERT分词器得到其对应输入,并在句子的开始与结尾部分分别添加[SOT]与[EOT]符号作为标记;完整描述表征表示为:其中,M代表经过分词后的文本序列长度,D表示为描述表征的维度;屏蔽描述表征,即通过将描述中所有实体进行遮蔽得到的文本表征;定义遮蔽函数g()将实体词汇转换...

【专利技术属性】
技术研发人员:张玥杰徐际岚
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1