基于多任务联合学习的语义分割和立体匹配方法及框架组成比例

技术编号：40676350 阅读：3 留言：0更新日期：2024-03-18 19:14

本发明专利技术涉及一种基于多任务联合学习的语义分割和立体匹配方法及框架，该方法包括以下步骤：获取立体图像对信息，所述立体图像对信息包括左图和右图；基于所述左图和右图，采用联合编码器提取共享特征，并通过计算视差得到初步视差图；基于所述共享特征，通过更新视差以更新所述初步视差图，获得细化视差图，其中所述细化视差图为立体匹配结果；将所述共享特征转换到语义空间，并与所述细化视差图进行特征融合，获得融合特征；基于密集连接的跳跃连接解码器，解码所述融合特征，获得语义分割结果。与现有技术相比，本发明专利技术具有提高实时性能、数据要求低等优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域，尤其是涉及一种基于多任务联合学习的语义分割和立体匹配方法及框架。

技术介绍

1、基于多任务联合学习的语义分割和立体匹配方法可以将多个子任务，即语义分割及立体匹配两个任务结合起来进行学习的方法，从而降低计算复杂性的同时显著提高性能。

2、语义分割是指将图像中的每个像素分配到不同的语义类别中，即将图像分割成多个语义区域。而立体匹配是指通过分析图像中的深度信息，确定图像中不同物体的位置和距离关系。在传统的方法中，语义分割和立体匹配通常被独立地处理，即分别使用不同的模型进行学习和推断。然而，这种独立处理的方法可能会导致信息的丢失和不一致性。因此，多任务联合学习的思想被引入，旨在通过同时学习两个任务来提高它们的性能和互补性。

3、在相关技术中，现有基于多任务联合学习的语义分割和立体匹配方法存在以下缺陷：

4、需要大量注释良好的训练数据：例如segstereo，dsnet,sgnet和dispsegnet首先需要在大规模数据集上进行初始无监督训练阶段，然后在较小的数据集上进行后续监督微调数据集。

5、需要用于两项任务的联合学习的复杂训练策略：例如dsnet采用不同的联合学习策略，其中训练在语义分割网络和立体匹配网络之间交替进行，每个网络在另一个网络的训练期间被冻结。然而，实现两个网络的同时收敛可能具有挑战性。

6、上述方法存在的缺陷是本领域技术人员亟待解决的问题。

技术实现思路

1、本专利技术的目的就是为

2、本专利技术的目的可以通过以下技术方案来实现：

3、一种基于多任务联合学习的语义分割和立体匹配方法，包括以下步骤：

4、获取立体图像对信息，所述立体图像对信息包括左图和右图；

5、基于所述左图和右图，采用联合编码器提取共享特征，并通过计算视差得到初步视差图；

6、基于所述共享特征，通过更新视差以更新所述初步视差图，获得细化视差图，其中所述细化视差图为立体匹配结果；

7、将所述共享特征转换到语义空间，并与所述细化视差图进行特征融合，获得融合特征；

8、基于密集连接的跳跃连接解码器，解码所述融合特征，获得语义分割结果。

9、进一步地，在所述多任务联合学习方法中，联合编码器与跳跃连接解码器采用相同参数，所述联合编码器包括残差块和下采样层，所述跳跃连接解码器包括解码器层、跳跃连接层、上采样层、反卷积层和输出层。

10、进一步地，采用多级gru更新算子以获得视差图。

11、进一步地，所述获得视差图的具体步骤包括：

12、基于所述左图和右图的共享特征构建初始3d相关体；

13、基于所述初始3d相关体构建3d相关体积金字塔，进行平均池化操作以进行下采样；

14、基于所述3d相关体积金字塔，采用多级gru更新算子更新初始视差图中的视差，获得细化视差图。

15、进一步地，所述获得融合特征的具体步骤包括：

16、视差编码：对所述视差图进行编码，并进行特征提取和增强；

17、最大池化和残差层：依次应用最大池化层和四个残差层，以逐步增加特征图通道的数量；

18、特征融合：将共享特征和编码后的视差图提取的特征进行融合，获得融合特征。

19、进一步地，所述特征提取和增强通过使用卷积层、批量归一化层和relu激活层实现。

20、进一步地，所述密集连接的跳跃连接解码器的每一层均与前面所有层在维度上连接在一起，并作为下一层的输入。

21、进一步地，所述多任务联合学习过程中，采用语义一致性的损失函数监督整个联合学习过程。

22、进一步地，所述语义一致性的损失函数的计算过程具体包括：

23、构造三维张量：构造三维张量v3d∈rh×w×c，其中对于张量中的每个像素点p和每个通道c，使用克罗内克德尔塔函数δ(mg(p),c)构建式中，h、w、c分别表示高度、宽度和通道数；

24、平均池化操作：对张量的每个通道采用平均池化操作进行处理，获得不同类语义间的特征；

25、归一化运算：对特征张量进行归一化运算得到归一化后的张量vn∈rh×w×c，n为语义类别的数量；

26、权重映射：对于每个像素点p，选择具有最大值的通道c的归一化特征作为权重，实现语义一致性引导的权重映射

27、总损失计算：其中，式中，表示总损失，分别表示语义分割损失和立体匹配损失，n表示像素数，c表示类别数，表示p在类别c中的真实标签，α代表lss的权重，dg代表视差的真值，di代表在的i个视差。

28、本专利技术还提供一种基于多任务联合学习的语义分割和立体匹配框架，包括：

29、图像获取模块：获取立体图像对信息，所述立体图像对信息包括左图和右图；

30、共享特征提取模块：基于所述左图和右图，采用联合编码器提取共享特征，并通过计算视差得到初步视差图；

31、细化视差图获取模块：基于所述共享特征，通过更新视差以更新所述初步视差图，获得细化视差图，其中所述细化视差图为立体匹配结果；

32、特征融合自适应模块：将所述共享特征转换到语义空间，并与所述细化视差图进行特征融合，获得融合特征；

33、解码模块：基于密集连接的跳跃连接解码器，解码所述融合特征，获得语义分割结果。

34、与现有技术相比，本专利技术具有以下有益效果：

35、(1)本专利技术根据提取的共享特征进行语义分割和立体匹配，避免重复计算，提高计算效率和速度，并根据立体匹配结果的视差图进行语义分割，充分利用了两个任务的结构一致性信息，提高对图像的理解和推理能力，从而提高驾驶立体环境感知系统实时性能。

36、(2)本专利技术通过语义一致性引导的损失函数来训练整个联合学习过程，减小对数据集的依赖，损失函数强调语义分割和立体匹配的任务中结构的一致性，可以改善学习过程的准确性、空间一致性、边界精度和鲁棒性，从而提升任务的整体性能和结果质量。

37、(3)本专利技术将语义分割和立体匹配任务在同一个框架中实现，这种采用端到端的学习过程，相较于其他现有的联合学习框架，训练策略简单，所需数据量小。

38、(4)本专利技术采用了特征融合自适应模块，将共享特征转换到语义空间，然后将它们与编码的视差特征融合从而提高了整体场景理解能力。

本文档来自技高网...

【技术保护点】

1.一种基于多任务联合学习的语义分割和立体匹配方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多任务联合学习的语义分割和立体匹配方法，其特征在于，在所述多任务联合学习方法中，联合编码器与跳跃连接解码器采用相同参数，所述联合编码器包括残差块和下采样层，所述跳跃连接解码器包括解码器层、跳跃连接层、上采样层、反卷积层和输出层。

3.根据权利要求1所述的一种基于多任务联合学习的语义分割和立体匹配方法，其特征在于，采用多级GRU更新算子以获得视差图。

4.根据权利要求3所述的一种基于多任务联合学习的语义分割和立体匹配方法，其特征在于，所述获得视差图的具体步骤包括：

5.根据权利要求1所述的一种基于多任务联合学习的语义分割和立体匹配方法，其特征在于，所述获得融合特征的具体步骤包括：

6.根据权利要求5所述的一种基于多任务联合学习的语义分割和立体匹配方法，其特征在于，所述特征提取和增强通过使用卷积层、批量归一化层和ReLU激活层实现。

7.根据权利要求1所述的一种基于多任务联合学习的语义分割和立体匹配方法

8.根据权利要求1所述的一种基于多任务联合学习的语义分割和立体匹配方法，其特征在于，所述多任务联合学习过程中，采用语义一致性的损失函数监督整个联合学习过程。

9.根据权利要求8所述的一种基于多任务联合学习的语义分割和立体匹配方法，其特征在于，所述语义一致性的损失函数的计算过程具体包括：

10.一种基于多任务联合学习的语义分割和立体匹配框架，其特征在于，包括：

...

【技术特征摘要】

1.一种基于多任务联合学习的语义分割和立体匹配方法，其特征在于，包括以下步骤：

3.根据权利要求1所述的一种基于多任务联合学习的语义分割和立体匹配方法，其特征在于，采用多级gru更新算子以获得视差图。

4.根据权利要求3所述的一种基于多任务联合学习的语义分割和立体匹配方法，其特征在于，所述获得视差图的具体步骤包括：

5.根据权利要求1所述的一种基于多任务联合学习的语义分割和立体匹配方法，其特征在于，所述获得融合特征的具体步骤包括：

【专利技术属性】
技术研发人员：范睿，李佳奇，吴致远，冯翊，刘创伟，陈启军，刘成菊，
申请(专利权)人：同济大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人