一种基于多视图一致性的文本监督语义分割算法制造技术

技术编号：36862378 阅读：8 留言：0更新日期：2023-03-15 18:39

本发明专利技术公开了一种基于多视图一致性的文本监督语义分割算法，如下：构建文本监督语义分割模型，包括学生图像编码器、教师图像编码器、文本编码器；将多视图输入学生图像编码器、教师图像编码器进行多视图交叉一致性学习，得到交叉视图一致性损失值；利用学生图像编码器获取多视图的图像编码，结合利用文本编码器获得文本编码进行多视图

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多视图一致性的文本监督语义分割算法

[0001]本专利技术涉及深度学习
，更具体的，涉及一种基于多视图一致性的文本监督语义分割算法。

技术介绍

[0002]近年来，视觉
‑
语言对比学习因为可以获得更广义的特征表示而引起了广泛关注，从文本监督中学习视觉表征取得了巨大成功，促进了文本监督语义分割的出现，图1展示了目前的视觉语言对比学习方法。它可以利用丰富的图文对，避免人工密集型的注释成本。视觉语言预训练方法在各种视觉领域显示出令人印象深刻的潜力。
[0003]然而，现有的研究只关注像素分组和跨模态语义对齐，而忽略了同一图像的多个增强视图之间的对应关系。它有以下两个明显的局限性：(1)图文对应过于严格；(2)文本描述的歧义性。
[0004]现有的文本监督语义分割算法GroupViT主要依赖像素分组和跨模态语义对齐来实现，通过多层的Transformer图像编码器的体系结构对视觉图像进行分层递进分组，将对图像的分组分为多个阶段。在每个阶段，通过注意力机制产生多组可学习的聚类中心，从所有图像片段聚合信息。然后，使用学习到的聚合特征将相似的图像块合并在一起。通过分组阶段的层次结构，将较小的图像块不断分组为较大的图像块。模型学习过程使用文本与最终的图像特征进行对比学习，同时提取文本中的名词生成新的文本进行对比学习，实现图像与文本的一对多一致性监督。
[0005]然而，在现有技术的方法中，每一对图像文本都被视为唯一的正对，而所有其他组合都被视为负对。这种图像
‑
>文本对应实际上过于严格。事实上，图像和文本之间的对应关系可以是多对多的。换句话说，一个图像的文字描述并不是唯一的。同样，一个文本描述可能对应不同的图像。过分严格不利于模型学习高水平的跨模态语义对应。因此，需要考虑更宽松的视觉
‑
语言对比学习。第二，文本描述的歧义性也是一个重要的挑战，与使用密集注释作为监督信息的传统语义分割方法，使用文本作为监督，这导致更大的噪声。这主要是因为，与传统的分割注释相比，描述性文本往往更加抽象，不包含位置信息。此外，图像中的背景通常在描述中缺失。在某些情况下，图像中的对象甚至在文本描述中都不存在。这种歧义在视觉语言预训练中的文本监督中很常见。在语义分割任务中，文本监督的模糊性使得被分割的对象
‑
标签对应非常脆弱。

技术实现思路

[0006]本专利技术为了解决以上现有技术存在的图文对比歧义性以及图文对比过于严格，导致跨模态学习效果差的问题，提供了一种基于多视图一致性的文本监督语义分割算法，其在跨模态学习中获得更好的语义分割效果，学习到更高级的多模态信息，克服以往方法存在的图文对比歧义性以及图文对比过于严格的问题。
[0007]为实现上述本专利技术目的，采用的技术方案如下：
一种基于多视图一致性的文本监督语义分割算法，所述的算法步骤如下：先构建基于多视图一致性的文本监督语义分割模型，所述的文本监督语义分割模型包括学生图像编码器、教师图像编码器以及文本编码器；将训练图像对应的多视图输入学生图像编码器、教师图像编码器进行多视图交叉一致性学习，得到交叉视图一致性损失值；利用学生图像编码器获取训练图像对应的多视图的图像编码，结合利用文本编码器获得文本的文本编码进行多视图
‑
文本一致性学习，得到多视图
‑
文本一致性损失值；将交叉视图一致性损失值与多视图
‑
文本一致性损失值相加，并进行反向传播，从而训练优化文本监督语义分割模型；完成训练后，利用教师图像编码器和文本编码器进行语义分割，从而得到语义分割图。
[0008]优选地，对于训练图像先后各一次随机增强，分别对应生成第一视图u和第二视图v；将第一视图u和第二视图v都输入学生图像编码器和教师图像编码器，从而分别为每个视图提取到K个图像特征，由K个图像特征组成一组维度为d的图像编码，由此分别得到图像编码、图像编码、图像编码、图像编码；其中，图像编码由第一视图u输入学生图像编码器得到；图像编码由第二视图v输入学生图像编码器得到；图像编码由第一视图u输入教师图像编码器得到；图像编码由第二视图v输入教师图像编码器得到。
[0009]进一步地，根据教师图像编码器输出的图像编码与学生图像编码器输出的图像编码计算第一相似度；根据教师图像编码器输出的图像编码与学生图像编码器输出的图像编码计算第二相似度；根据第一相似度与第二相似度计算教师图像编码器到学生图像编码器的第一交叉一致性损失。
[0010]再进一步地，根据学生图像编码器输出的图像编码与教师图像编码器输出的图像编码计算第三相似度；根据学生图像编码器输出的图像编码与教师图像编码器输出的图像编码计算第四相似度；根据第三相似度与第四相似度计算得到学生图像编码器到教师图像编码器的第二交叉一致性损失；将第一交叉一致性损失与第二交叉一致性损失相加得到交叉视图一致性损失值。
[0011]进一步地，利用学生图像编码器获取训练图像对应的多视图的图像编码，结合利用文本编码器获得文本的文本编码进行多视图
‑
文本一致性学习，得到多视图
‑
文本一致性损失值，具体步骤如下：对于学生图像编码器输出的图像编码、图像编码，分别进行全局平均池化，并都通过全连接层MLP投影到隐空间上，得到：
其中，表示全局平均池化层、表示u视图的图像编码、表示v视图的图像编码。
[0012]再进一步地，对于文本T，通过文本编码器获得对应的第一文本编码，同时提取文本中的名词N放到文本模板中，生成M个新的多标签文本，，并使用文本编码器获得多标签文本的第二文本编码。
[0013]再进一步地，所述的多视图
‑
文本一致性损失值，具体计算如下：计算多视图到文本的第五相似度：其中，B表示训练的图像批大小、i表示第i张图像；计算文本到多视图的第六相似度：计算多视图到多标签文本的第七相似度：计算多标签文本到多视图的第八相似度；根据第五相似度、第六相似度、第七相似度、第八相似度相加获得多视图
‑
文本一致性损失值。
[0014]再进一步地，将交叉视图一致性损失值与多视图
‑
文本一致性损失值相加，并进行反向传播，从而训练优化文本监督语义分割模型，其中，教师图像编码器不参与梯度的方向传播更新，教师图像编码器的参数由学生图像编码器的参数进行指数移动平局更新，即，其中为动量更新超参数。
[0015]再进一步地，完成训练后，利用教师图像编码器和文本编码器进行语义分割，从而得到语义分割图，具体如下：将待测图像输入教师图像编码器得到一组图像编码，其中每一个图像编码对应图像中的部分像素聚合，将图像编码对应的图像像素聚合作为对应的掩膜；同时使用文本编码器对待分割类别进行编码得到类别编码，通过计算图像编码与类别编码的相似度得到每一个图像编码的所属类别，将掩膜和分割类别结合得到语义分割图。
[0016]一种计算机设备，包括存储器、处理器以及存储在存储器上并本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多视图一致性的文本监督语义分割算法，其特征在于：所述的算法实现的步骤如下：构建基于多视图一致性的文本监督语义分割模型，所述的文本监督语义分割模型包括学生图像编码器、教师图像编码器以及文本编码器；将训练图像对应的多视图输入学生图像编码器、教师图像编码器进行多视图交叉一致性学习，得到交叉视图一致性损失值；利用学生图像编码器获取训练图像对应的多视图的图像编码，结合利用文本编码器获得文本的文本编码进行多视图
‑
文本一致性学习，得到多视图
‑
文本一致性损失值；将交叉视图一致性损失值与多视图
‑
文本一致性损失值相加，并进行反向传播，从而训练优化文本监督语义分割模型；完成训练后，利用教师图像编码器和文本编码器进行语义分割，从而得到语义分割图。2.根据权利要求1所述的基于多视图一致性的文本监督语义分割算法，其特征在于：对于训练图像先后各一次随机增强，分别对应生成第一视图u和第二视图v；将第一视图u和第二视图v都输入学生图像编码器和教师图像编码器，从而分别为每个视图提取到K个图像特征，由K个图像特征组成一组维度为d的图像编码，由此分别得到图像编码、图像编码、图像编码、图像编码；其中，图像编码由第一视图u输入学生图像编码器得到；图像编码由第二视图v输入学生图像编码器得到；图像编码由第一视图u输入教师图像编码器得到；图像编码由第二视图v输入教师图像编码器得到。3.根据权利要求2所述的基于多视图一致性的文本监督语义分割算法，其特征在于：根据教师图像编码器输出的图像编码与学生图像编码器输出的图像编码计算第一相似度；根据教师图像编码器输出的图像编码与学生图像编码器输出的图像编码计算第二相似度；根据第一相似度与第二相似度计算教师图像编码器到学生图像编码器的第一交叉一致性损失。4.根据权利要求3所述的基于多视图一致性的文本监督语义分割算法，其特征在于：根据学生图像编码器输出的图像编码与教师图像编码器输出的图像编码计算第三相似度；根据学生图像编码器输出的图像编码与教师图像编码器输出的图像编码计算第四相似度；根据第三相似度与第四相似度计算得到学生图像编码器到教师图像编码器的第二交叉一致性损失；将第一交叉一致性损失与第二交叉一致性损失相加得到交叉视图一致性损失值。5.根据权利要求2所述的基于多视图一致性的文本监督语义分割算法，其特征在于：利用学生图像编码器获取训练图像对应的...

【专利技术属性】
技术研发人员：蔡楷欣，任鹏真，梁小丹，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人