图像语义分割方法和装置制造方法及图纸

技术编号：40542879 阅读：6 留言：0更新日期：2024-03-05 18:59

本申请公开了一种图像语义分割方法和装置，该方法包括：利用特征金字塔网络FPN对第一图像进行特征提取，得到多个特征图；该多个特征图是分别由FPN中的不同网络层输出得到的；对多个特征图进行融合，得到第一特征图，并利用解码器Decoder对第一特征图进行处理，得到第一图像的语义分割结果。FPN包括第一网络层，第一网络层包括变换器模块，变换器模块包括第一自注意力模块和第一卷积模块；第一网络层输出的特征图是基于第一自注意力模块输出的第三特征图和第一卷积模块输出的第四特征图生成的。通过本申请，可兼顾全局和局部语义的提取，从而提升图像语义分割的精度和效果；同时还可大幅降低计算复杂度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及大数据中的人工智能(artificial intelligence，ai)，尤其涉及一种图像语义分割方法和装置。

技术介绍

1、人工智能ai是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

2、图像语义分割是计算机视觉领域重要的基础子领域，其主要是对输入图像在像素级别进行分类。目前基于深度学习的图像语义分割方法主要可以分为：基于卷积神经网络的分割方法和基于变换器transformer模型的分割方法。基于卷积神经网络的分割方法通过编码器提取多尺度特征，然后使用解码器对提取到的特征进行特征聚合。由于卷积运算的局部性，无法进行有效的全局上下文学习，缺乏全局感受野，容易产生分割不连续等问题。而基于transformer模型的分割方法虽然能够有效地使用transformer的自注意力机制进行全局上下文学习，但其计算复杂度较高，且无法完成局部特征的学习。

3、因此，如何实现更加高效的全局注意力学习，以使得整个框架更加高效、鲁棒是目前基于transformer模型的分割算法亟需解决的问题。

技术实现思路

1、本申请实施例提供了一种图像语义分割方法和装置，可以兼顾全局和局部

2、第一方面，本申请提供了一种图像语义分割方法，所述方法包括：利用特征金字塔网络fpn对第一图像进行特征提取，得到多个特征图；其中，所述多个特征图分别用于描述所述第一图像不同尺度的特征，所述多个特征图是分别由所述fpn中的不同网络层输出得到的；对所述多个特征图进行融合，得到第一特征图，并利用解码器decoder对所述第一特征图进行处理，得到所述第一图像的语义分割结果；其中，所述fpn包括第一网络层，所述第一网络层为所述fpn包含的多个网络层中的任意一层，所述第一网络层包括变换器模块，所述变换器模块包括并联的第一自注意力模块和第一卷积模块；所述第一自注意力模块用于对输入所述变换器模块的第二特征图的全局语义进行提取，得到第三特征图；所述第一卷积模块用于对所述第二特征图的局部语义进行提取，得到第四特征图；所述第一网络层输出的特征图是基于所述第三特征图和所述第四特征图生成的。

3、从技术效果上看，本申请利用变换器模块中的自注意力模块来进行全局语义信息的提取，同时利用并行的卷积模块(即第一卷积模块)来进行局部语义信息的提取，实现在fpn的每个网络层中同时提取全局和局部语义信息，从而有效提升模型的学习能力，进而显著提升语义分割的准确度。

4、在一种可行的实施方式中，所述第三特征图是基于池化后的键值key矩阵、池化后的价值value矩阵和询问query矩阵生成的；所述池化后的key矩阵、所述池化后的value矩阵是通过对key矩阵和value矩阵分别进行池化操作得到的；所述key矩阵、所述value矩阵和所述query矩阵是通过对所述第二特征图进行特征提取得到的。

5、从技术效果上看，在自注意力模块中通过对key矩阵和value矩阵进行池化操作，可以有效降低池化后的key矩阵和value矩阵的维度和复杂度，从而可以有效降低后续利用池化后的key矩阵和池化后的value矩阵生成第三特征图过程中的计算量，进而降低fpn中每个网络层的计算复杂度，提升语义分割效率。

6、在一种可行的实施方式中，所述池化后的key矩阵中的每个元素为所述key矩阵中的每行元素或者每列元素的均值，所述池化后的value矩阵中的每个元素为所述value矩阵中的每行元素或者每列元素的均值。

7、从技术效果上看，对key矩阵和value矩阵采用平均值的方式进行池化，可以使得池化后的key矩阵和池化后的value矩阵最大程度地保留对应的语义信息，从而使得在进行池化的同时还可以最大程度地保留所提取的语义信息，也即在实现降低语义分割计算复杂度的同时，保证语义分割结果的准确度。

8、在一种可行的实施方式中，所述第一网络层还包括第二卷积模块，所述第二卷积模块用于对输入所述第一网络层的第五特征图进行特征提取，得到所述第二特征图。

9、从技术效果上看，在变换器模块进行全局语义和局部语义的提取之前，首先由网络层中的第二卷积模块进行初步特征提取，可以提升后续变换器模块的语义提取效果。

10、在一种可行的实施方式中，所述对所述多个特征图进行融合，得到第一特征图，包括：对所述多个特征图分别进行归一化，得到归一化后的所述多个特征图；对所述归一化后的所述多个特征图进行级联，得到所述第一特征图。

11、从技术效果上看，将fpn中每个网络层所提取到的全局-局部信息进行融合，得到包含不同尺度特征的第一特征图，从而为后续解码器进行精确地语义分割提供基础。

12、在一种可行的实施方式中，所述解码器包括第二自注意力模块和第三卷积模块；所述第二自注意力模块用于提取所述第一特征图中的全局语义信息，所述第三卷积模块用于提取所述第一特征图中的局部语义信息。

13、从技术效果上看，在解码器中，通过第二自注意力模块来进行全局语义聚合，第三卷积模块用于进行局部语义聚合，从而实现全局-局部特征的聚合，进而得到精确的语义分割结果。

14、在一种可行的实施方式中，所述语义分割结果用于表征所述第一图像上每个像素点属于不同物体类别的概率。

15、第二方面，本申请提供了一种图像语义分割装置，所述装置包括：编码单元，用于利用特征金字塔网络fpn对第一图像进行特征提取，得到多个特征图；其中，所述多个特征图分别用于描述所述第一图像不同尺度的特征，所述多个特征图是分别由所述fpn中的不同网络层输出得到的；解码单元，用于对所述多个特征图进行融合，得到第一特征图，并利用解码器decoder对所述第一特征图进行处理，得到所述第一图像的语义分割结果；其中，所述fpn包括第一网络层，所述第一网络层为所述fpn包含的多个网络层中的任意一层，所述第一网络层包括变换器模块，所述变换器模块包括并联的第一自注意力模块和第一卷积模块；所述第一自注意力模块用于对输入所述变换器模块的第二特征图的全局语义进行提取，得到第三特征图；所述第一卷积模块用于对所述第二特征图的局部语义进行提取，得到第四特征图；所述第一网络层输出的特征图是基于所述第三特征图和所述第四特征图生成的。

16、在一种可行的实施方式中，所述第三特征图是基于池化后的键值key矩阵、池化后的价值value矩阵和询问query矩阵生成的；所述池化后的key矩阵、所述池化后的value矩阵是通过对key矩阵和value矩阵分本文档来自技高网...

【技术保护点】

1.一种图像语义分割方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求1或2所述的方法，其特征在于，

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述第一网络层还包括第二卷积模块，

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述对所述多个特征图进行融合，得到第一特征图，包括：

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述解码器包括第二自注意力模块和第三卷积模块；

7.根据权利要求1-6中任一项所述的方法，其特征在于，

8.一种图像语义分割装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，

10.根据权利要求8或9所述的装置，其特征在于，

11.根据权利要求8-10中任一项所述的方法，其特征在于，所述第一网络层还包括第二卷积模块，

12.根据权利要求8-11中任一项所述的装置，其特征在于，在所述对所述多个特征图进行融合，得到第一特征图的方面，所述解码单元具体用于：

13.根据权利要求8-12中任一项所述的装置，其特征在于，所述解码单元包括第二自注意力模块和第三卷积模块；

14.根据权利要求8-12中任一项所述的装置，其特征在于，

15.一种电子设备，其特征在于，所述电子设备包括至少一个处理器，存储器和接口电路，所述存储器、所述接口电路和所述至少一个处理器通过线路互联，所述至少一个存储器中存储有指令；所述指令被所述处理器执行时，权利要求1-7中任一所述的方法得以实现。

16.一种芯片系统，其特征在于，所述芯片系统包括至少一个处理器，存储器和接口电路，所述存储器、所述接口电路和所述至少一个处理器通过线路互联，所述至少一个存储器中存储有指令；所述指令被所述处理器执行时，权利要求1-7中任一所述的方法得以实现。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，该计算机程序被执行时，权利要求1-7中任意一项所述的方法得以实现。

...

【技术特征摘要】