【技术实现步骤摘要】
基于文本监督的开放词汇图像语义分割系统
[0001]本专利技术属于图像处理
,具体涉及基于文本监督的开放词汇图像语义分割系统。
技术介绍
[0002]近些年,深度学习在多种不同的计算机视觉应用中已取得令人欣喜的成果。作为其中一个非常值得探究的问题,图像语义分割旨在对于给定图像分割出感兴趣物体,该任务对于图像内容解析、场景理解等都起到至关重要的作用。在现实场景中,语义分割技术在许多领域都得到广泛应用,如可以帮助自动驾驶汽车和机器人进行环境感知和路径规划,还可以用于医学影像分析、无人机监测和地质勘探等领域。然而,由于现有的基于监督训练的方法存在高昂的成本和局限性,这些问题使得语义分割技术在实际应用中仍面临挑战。在研究中,已有一些研究致力于开发新的神经网络架构,如编码器
‑
解码器架构和空间注意力机制,以提高分割性能和减少训练时间。这些新技术和新方法为未来的语义分割研究和应用提供广阔发展空间。在全监督语义分割问题设定下,衍生出半监督语义分割任务、弱监督语义分割任务、无监督语义分割任务。本专利技术聚焦使用文本解决弱监督语义分割问题,相比于全监督图像语义分割,该任务在训练过程中没有物体分割标签,只有弱一级语义特征的图像文本描述标签。基于文本监督的语义分割相较传统语义分割任务难度更高,更贴合实际应用。在互联网上存在大量的图像及对应的描述,却少有精细标注物体位置,基于文本监督的图像语义分割技术的发展使大量利用互联网数据进行学习成为可能。
[0003]一般而言,语义分割模型设计主要有两种方式。一种方法是 ...
【技术保护点】
【技术特征摘要】
1.基于文本监督的开放词汇图像语义分割系统,其特征在于,包括图像编码器、文本编码器、跨模态解码器、学习优化模块,学习优化模块包括图像
‑
描述对齐子模块、屏蔽实体补全子模块、跨图像掩码一致性子模块;其中,所述图像编码器用于对图像特征进行提取,同时使用可学习的群组表征对图像进行聚类;所述文本编码器针对图像描述进行编码,建立与群组表征的对齐关系;所述跨模态解码器使用交叉注意力机制将群组表征与屏蔽描述表征进行交互融合;所述学习优化模块,使得模型在仅使用文本监督条件下学习视觉
‑
文本对齐,得到优化分割的网络模型;所述图像
‑
描述对齐子模块将匹配的图像特征与对应的完整描述表征在特征空间中进行对齐;所述屏蔽实体补全模块根据屏蔽描述中的常见实体,通过群组表征补全信息实现细粒度图像
‑
文本对齐;所述跨模态图像掩码一致性子模块约束包含相同实体的不同图像产生相同的实体掩码训练模型学习视觉不变性。2.根据权利要求1所述开放词汇图像语义分割系统,其特征在于,所述图像编码器,包括Transformer编码器与绑定模块;Transformer编码器用于对图像进行编码,其输入为拼接过的图像表征与随机初始化的群组表征,输出为经过编码的图像表征与群组表征;绑定模块用于对编码器的输出进行聚类;具体地,图像表征与可学习的群组表征首先进行拼接,并迭代地通过Transformer编码器和绑定模块;其中:所述Transformer编码器,其编码过程表示为:其中,与分别代表Transformer编码器层;代表绑定模块;输出是经过编码的群组表征,同时代表输出的图像表征;G和I分别表示可学习的初始群组表征以及输入图像;在Transformer编码器中,与同时包含6层Transformer编码器层,其中每层包含一个多头自注意力模块、一个层归一化模块、一个前馈神经网络;首先将拼接过的图像表征与随机初始化的群组表征作为输入,并输出经过编码的图像表征与群组表征,分别表示为G
′
和I
′
;则处理绑定模块的输出;所述绑定模块,使用slot
‑
attention来实现聚类,具体是使用slot
‑
attention将图像块通过聚类的方式聚合到可学习的群组表征中,即具有相似外观和语义的图像表征更容易被聚合到同一个群组中;绑定模块接受第一个Transformer编码器的输出,并将其分别转换为查询表征、键表征与值表征;其过程表示为:其中,和分别代表查询表征、键表征与值表征的对应映射;slot
‑
attention侧重于将归一化操作沿着查询表征维度进行,使得每个图像表征能够被所有群组表征中的一个标识;整个绑定过程表示为:其中,A
j,k
代表第j个图像表征属于第k个群组表征的概率,K
j
,Q
k
,Q
l
分别表示第j个键表征、第k个查询表征和第l个查询表征,K
j
·
Q
k
表示两个表征的点积;接下来,每个群组表征被
更新为所有被指定到属于该群组的图像表征的加权平均值;绑定模块的输出G
bind
表示为:表示为:其中,代表输出层线性变换,V
j
表示为第j个值表征;通过以上公式获得每个图像块与群组表征的对应关系。3.根据权利要求2所述开放词汇图像语义分割系统,其特征在于,所述文本编码器对图像描述进行编码;首先,过滤数据集中所有的图像描述,并保留部分只包含特定包含信息量的实体,在此基础上构建三种类型特征表示:(1)完整描述表征;(2)屏蔽描述表征;(3)提示实体表征;在所有三种文本特征表示中,采用预训练的BERT作为文本编码器φ
text
;(一)构建实体集;采用NLTK自然语言处理工具对所有图像描述中的实体进行提取,并以此构建实体集Ω=φ
entity
({T1,
…
,T
N
);对于每个图像
‑
描述对,获得图像
‑
描述
‑
实体的三元组(I,T,E),其中,T=(T1,
…
,T
N
),E={e|e∈T and e∈Ω}包含所有常见的描述中出现的实体;(二)构建三种类型特征表示:完整描述表征,即对于每个描述T,通过BERT分词器得到其对应输入,并在句子的开始与结尾部分分别添加[SOT]与[EOT]符号作为标记;完整描述表征表示为:其中,M代表经过分词后的文本序列长度,D表示为描述表征的维度;屏蔽描述表征,即通过将描述中所有实体进行遮蔽得到的文本表征;定义遮蔽函数g()将实体词汇转换...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。