一种基于动态多尺度信息查询的图像语义分割方法及系统技术方案

技术编号：40582781 阅读：10 留言：0更新日期：2024-03-06 17:26

本发明专利技术公开了一种基于动态多尺度信息查询的图像语义分割方法及系统，属于图像处理技术领域。本发明专利技术充分考虑了复杂交通场景下不同类别目标特征与多尺度全局特征的相关性，利用类别嵌入建立复杂交通场景的目标查询，与模型提取的多尺度全局特征交互实现不同类别的目标在各个尺度下特征的提取。之后，确定不同类别的目标在各个尺度下的特征的n维权重向量，动态分配多尺度权重后克服复杂交通场景下各类别多尺度特征差异的问题。从而有效提高复杂交通场景图像中不同尺度对象的分割精度，提升复杂交通场景的图像语义分割效果。解决现有方案不能准确获取各类目标相对重要的多尺度信息，导致图像语义分割效果差的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，并且更具体地，涉及一种基于动态多尺度信息查询的图像语义分割方法及系统。

技术介绍

1、图像语义分割旨在将图像中的每个像素分配到预定义的语义类别中，从而实现对图像内容的深层次理解。多尺度序列交互在图像语义分割领域是一项关键的研究方向，该方法通过在不同尺度上对图像进行分析，并在不同层次上进行信息交互，从而提高模型对多尺度目标的感知能力，实现对复杂场景和对象的更准确、更全面理解的需求。transformer模型作为一种基于注意力机制的深度学习模型，已经在计算机视觉中取得了显著的成功。基于transformer模型的图像语义分割研究成为了计算机视觉中重要的研究热点，并在复杂交通场景的分析方面具有广泛的应用。例如专利技术申请cn115482382a，公开了一种基于transformer架构的图像语义分割方法，将图像块输入到基于transformer的编码器-解码器架构中，其中移动窗口机制的设计使得特征包含信息更全面，unet++模型中嵌套和密集的跳跃连接能够充分提取上下文特征，使得特征融合更充分。

2、由于复杂交通场景存在不同类别目标尺度差异大、背景和场景复杂的特点，对复杂交通场景图像语义分割中的关键——各类别目标多尺度表征学习，带来了极大挑战。现有的多尺度序列交互的图像语义分割模型应用于复杂交通场景时，其分割性能会受到场景特征影响，不能解决各类别目标的多尺度特征差异问题。它们往往借助金字塔型网络或者输入多尺度图像独立编码的方式保留粗粒度和细粒度的多尺度特征，再使用交叉注意进行信息交互，这些方法提取各目

3、因此，现有的图像语义分割方法不能准确获取各类目标相对重要的多尺度信息，导致图像语义分割效果差。

技术实现思路

1、为了解决上述
技术介绍
所述的至少一个问题，本专利技术提供一种基于动态多尺度信息查询的图像语义分割方法及系统。

2、根据本专利技术的一个方面，提供了一种基于动态多尺度信息查询的图像语义分割方法，包括：

3、按照预设的规则，对输入图像进行预处理，得到数据序列xinput；

4、利用vision transformer模型对数据序列xinput进行全局关联特征的提取，得到特征序列f；

5、定义待预测的类别嵌入fembedding，利用类别嵌入fembedding建立目标查询，在不同尺度的高阶表征中提取特征序列f的各类别信息，得到n个与类别嵌入fei形状相同的特征，并将n个与类别嵌入fei形状相同的特征按类别在通道方向拼接，得到不同类别的目标在各个尺度下的特征fmultiscale；其中，类别嵌入fembedding的个数为nclass，nclass表示待预测的类别数，每个类别嵌入fembedding的序列长度均为特征序列f通道数的n倍；

6、确定不同类别的目标在各个尺度下的特征fmultiscale的n维权重向量，对每个类别的特征fmultiscale使用对应的权重向量进行加权求和，得到特征fdynamic；其中，每个权重向量中n个不同维度的值表示该类别n个不同尺度下的特征的重要程度；

7、将特征fdynamic与特征序列f相乘，将相乘得到的特征的分辨率调整至预设值，得到类掩码ffinal，用softmax分类器逐像素预测类掩码ffinal的语义类别，得到输入图像的分割结果图。

8、可选地，所述按照预设的规则，对输入图像进行预处理，得到数据序列xinput，包括：

9、对输入图像进行剪裁或缩放，生成大小为h×w的预处理图像；其中，h表示预处理图像的高度，w表示预处理图像的宽度；

10、将预处理图像进行交叠切分，形成一系列图像块，并通过在通道维度上对图像块执行展平操作，得到最终的数据序列xinput。

11、可选地，所述利用类别嵌入fembedding建立目标查询，在不同尺度的高阶表征中提取特征序列f的各类别信息，得到n个与类别嵌入fei形状相同的特征，并将n个与类别嵌入fei形状相同的特征按类别在通道方向拼接，得到不同类别的目标在各个尺度下的特征fmultiscale，包括：

12、将特征序列f映射成n个不同尺度但通道数相同的特征fi；其中，i∈[1，n]；

13、将类别嵌入fembedding在通道方向等分为n份，得到类别嵌入fei；其中，i∈[1，n]；

14、将类别嵌入fei作为第i个transformer模块的输入张量qi，将特征fi作为第i个transformer模块的输入张量ki和输入张量vi，通过n个并行的transformer模块分别交互实现从不同尺度的高阶表征中提取特征序列f的各类别信息，得到n个与类别嵌入fei形状相同的特征；

15、将n个与类别嵌入fei形状相同的特征按类别在通道方向拼接，得到不同类别的目标在各个尺度下的特征fmultiscale。

16、可选地，所述确定不同类别的目标在各个尺度下的特征fmultiscale的n维权重向量，对每个类别的特征fmultiscale使用对应的权重向量进行加权求和，得到特征fdynamic，包括：

17、对特征fmultiscale先使用一个全连接层在类别方向进行特征融合，再进行全局平均池化，随后使用nclass个全连接层映射出nclass个维度为n的向量；

18、每个向量再经过一个softmax层，共得到nclass个n维权重向量，其中每个权重向量中n个不同维度的值表示该类别n个不同尺度特征的重要程度；

19、将特征fmultiscale在通道维度等分成n份，对每个类别的特征fmultiscale使用对应的权重向量进行加权求和，得到特征fdynamic。

20、根据本专利技术的一个方面，提供了一种基于动态多尺度信息查询的图像语义分割系统，包括：数据预处理模块、编码器、动态多尺度类别信息查询解码器和预测输出模块，动态多尺度类别信息查询解码器包括多尺度特征查询模块和动态分配模块；其中

21、数据预处理模块用于按照预设的规则，对输入图像进行预处理，得到数据序列xinput；

22、编码器用于利用vision transformer模型对数据序列xinput进行全局关联特征的提取，得到特征序列f；

23、多尺度特征查询模块用于定义待预测的类别嵌入fembedding，利用类别嵌入fembedding建立目标查询，在不同尺度的高阶表征中提取特征序列f的各类别信息，得到n个与类别嵌入fei形状相同的特征，并将n个与类别嵌入fei形状相同的特征按类别在通道方向拼接，得到不同类别的目标在各个尺度下的特征fmultiscale；其中，类别嵌入fembedding的个数为n本文档来自技高网...

【技术保护点】

1.一种基于动态多尺度信息查询的图像语义分割方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述按照预设的规则，对输入图像进行预处理，得到数据序列Xinput，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用类别嵌入Fembedding建立目标查询，在不同尺度的高阶表征中提取特征序列F的各类别信息，得到n个与类别嵌入Fei形状相同的特征，并将n个与类别嵌入Fei形状相同的特征按类别在通道方向拼接，得到不同类别的目标在各个尺度下的特征Fmultiscale，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定不同类别的目标在各个尺度下的特征Fmultiscale的n维权重向量，对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和，得到特征Fdynamic，包括：

5.一种基于动态多尺度信息查询的图像语义分割系统，其特征在于，包括：数据预处理模块、编码器、动态多尺度类别信息查询解码器和预测输出模块，动态多尺度类别信息查询解码器包括多尺度特征查询模块和动态分配模块；其中

7.根据权利要求5所述的系统，其特征在于，所述利用类别嵌入Fembedding建立目标查询，在不同尺度的高阶表征中提取特征序列F的各类别信息，得到n个与类别嵌入Fei形状相同的特征，并将n个与类别嵌入Fei形状相同的特征按类别在通道方向拼接，得到不同类别的目标在各个尺度下的特征Fmultiscale，包括：

8.根据权利要求5所述的系统，其特征在于，所述确定不同类别的目标在各个尺度下的特征Fmultiscale的n维权重向量，对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和，得到特征Fdynamic，包括：

...

【技术特征摘要】

1.一种基于动态多尺度信息查询的图像语义分割方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述按照预设的规则，对输入图像进行预处理，得到数据序列xinput，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用类别嵌入fembedding建立目标查询，在不同尺度的高阶表征中提取特征序列f的各类别信息，得到n个与类别嵌入fei形状相同的特征，并将n个与类别嵌入fei形状相同的特征按类别在通道方向拼接，得到不同类别的目标在各个尺度下的特征fmultiscale，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定不同类别的目标在各个尺度下的特征fmultiscale的n维权重向量，对每个类别的特征fmultiscale使用对应的权重向量进行加权求和，得到特征fdynamic，包括：

5.一种基于动态多尺度信息查询的图像语义分割系统，其特征在于，...

【专利技术属性】
技术研发人员：魏志强，王庆，黄磊，
申请(专利权)人：中国海洋大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人