一种基于Transformer模型进行语义分割的方法技术

技术编号：42684124 阅读：20 留言：0更新日期：2024-09-10 12:33

本文提供了一种基于Transformer模型进行语义分割的方法，包括步骤:数据准备，进行图像序列化以将输入图像X转换为特征嵌入；特征提取，向第一层Transformer输入数据，每个Transformer层由多头注意力、层归一化、MLP层构成；特征解码，将提取出的特征序列作为输入，经过一个交叉注意力的解码器结构，通过使用交叉注意模块，两者经过交叉注意力的解码器后能获得学习好的特征向量；生成分割结果，将充当解码器的交叉注意力模块输出的新的特征向量送入分割层预测得到最终的分割结果。与现有的大多数基于FCN模型的语义分割模型相比，以Transformer编码器进行语义分割任务的特征提取工作，可以很大程度上增强模型对远程依赖信息的学习；以交叉注意力模块充当解码器，能够让模型更加高效高质量地进行全局上下文信息的提取，提升了语义分割模型的准确性与分割质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及计算机视觉领域，尤其涉及一种基于对比学习进行语义分割的方法。

技术介绍

1、近几年来，深度学习的迅速发展为许多难以推进的计算机视觉任务带来了新的曙光。深度学习相比于传统方法，能够针对当前问题学习合适的特征表示。深度学习的应用很大程度上提高了计算机视觉领域任务的准确率，然而，相比于其他视觉分析任务，语义分割具有更大的挑战性。传统的语义分割方法大多采用概率图模型条件随机场对像素进行分类，这种基于手工特征提取的传统方法无法满足复杂场景的图像处理要求。近年来，研究者将基于深度学习的图像分类模型加以改进，应用于语义分割领域，大大提高了分割准确率。

2、在计算机视觉领域，语义分割是将图像像素级地分类为不同的对象或背景类别的任务。现有的语义分割模型一直以基于全卷积网络(fcn)的模型为主，标准的fcn模型具有编码器-解码器架构：编码器用于特征表示学习，而解码器用于对特征表示进行像素级分类。这种设计很受欢迎，但它也带来了一个很大的限制，即学习远程依赖信息，这对于语义分割任务至关重要，有限的接受域成为了语义分割问题中一个很大的挑战。

技术实现思路

1、专利技术目的：为克服现有的基于fcn的模型对于学习远程依赖信息的相关问题，且基于最近的研究表明，与注意力机制相结合是学习远程上下文信息的有效策略。本专利技术提出了一种基于transformer模型进行语义分割的方法。

2、本专利技术用常用于自然语言处理领域的transformer模型作为编码器来抽取全局的语义

3、(1)进行图像序列化分割处理，获得transformer层的输入；

4、(2)采用基于transformer的视觉编码器进行学习特征表示；

5、(3)使用一个交叉注意力模块充当该模型的解码器部分，将视觉编码器部分获得的特征序列经维度处理后与初始化查询序列q分别作为交叉注意力模块的k，v，q输入，两者经过交叉注意力的解码器后能获得学习好的特征向量；

6、(4)最后将得到特征送入分割层得到最终的分割结果。

7、本专利技术针对分割区域模糊，图片目标边缘分割不精确，图像特征拟合较慢，无法有效利用注意力信息的问题。提出了在该模型加入一个特征交叉注意力模块，该交叉注意网络由两个分支和一个特征交叉注意模块组成。使用交叉注意力机制融合空间和时序特征，可以通过计算注意力权重，学习时空特征中不同位置之间的相关性，可以更好地捕捉时空序列数据中的特征，提高模型性能和泛化能力。具体包括以下步骤：

8、(1)将经过transformer的时序特征键值对序列处理为两个序列；

9、(2)初始化一个向量作为查询，该查询与前面生成的特征相互作用，两者经过交叉注意力的解码器后能获得学习好的特征向量，第一个查询q0在训练开始时随机初始化；

10、(3)经过交叉注意力的解码器后能获得学习好的特征向量，这部分向量与特征图相乘即为所预测的分割图像结果。

本文档来自技高网...

【技术保护点】

1.一种基于Transformer模型的进行语义分割方法，其特征在于，包括步骤：

2.如权利要求1所述的基于Transformer模型的进行语义分割方法，其特征在于，步骤S1中进行图像序列化以将输入图像转换为特征嵌入，计算方法包括步骤：

3.如权利要求1所述的基于Transformer模型的进行语义分割方法，其特征在于，步骤S2中利用Transformer的编码器进行图像特征的提取并输出生成的特征序列，每个Transformer层由多头注意力、层归一化、MLP层构成，包括步骤：

4.如权利要求1所述的基于Transformer模型的进行语义分割方法，其特征在于，步骤S3中将提取出的特征序列作为输入，经过一个交叉注意力的解码器结构，通过使用交叉注意模块，获得学习好的新的特征向量，完成特征解码工作。

5.如权利要求1所述的基于Transformer模型的进行语义分割方法，其特征在于，步骤S4中将充当解码器的交叉注意力模块输出的新的特征向量送入分割层，这部分向量与特征图相乘即为最终的分割结果，完成生成任务。

【技术特征摘要】

1.一种基于transformer模型的进行语义分割方法，其特征在于，包括步骤：

2.如权利要求1所述的基于transformer模型的进行语义分割方法，其特征在于，步骤s1中进行图像序列化以将输入图像转换为特征嵌入，计算方法包括步骤：

3.如权利要求1所述的基于transformer模型的进行语义分割方法，其特征在于，步骤s2中利用transformer的编码器进行图像特征的提取并输出生成的特征序列，每个transformer层由多头注意力、层归一化、...

【专利技术属性】
技术研发人员：夏冰，刘斌，
申请(专利权)人：南京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人