基于跨模态协同修正的多模态场景分割方法及系统技术方案

技术编号：40540245 阅读：13 留言：0更新日期：2024-03-05 18:55

本发明专利技术提出了基于跨模态协同修正的多模态场景分割方法及系统，包括：将RGB图输入至RGB编码器进行编码，获得对应的第一编码信息；将X模态图输入至X模态编码器进行编码，获得对应的第二编码信息；将所述第一编码信息及所述第二编码信息分别输入至跨模态协同修正模块中，通过通道注意力模块和空间注意力模块分别对第一编码信息及所述第二编码信息进行处理，将通道注意力模块和空间注意力模块的输出结果相加得到了RGB和X模态的校正信息，以及模态融合后的Fuse流输出；将跨模态协同修正模块的输出分别输入至RGB解码器、X模态解码器以及Fuse解码器，以还原特征表示到原始模态的图像，并最终生成分割结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉、图像处理和深度学习，尤其涉及基于跨模态协同修正的多模态场景分割通用方法及系统。

技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。

2、多模态场景分割是计算机视觉领域的一个重要任务，其目标是从多个不同传感器或数据源获取的信息中，准确地标识和分割场景中的对象、区域和特征。这种多模态数据除传统的rgb图像外，还可以包括深度图像(depth)、热图像(thermal)、偏振图像(polarization)和激光雷达图像(lidar)等，它们提供了关于场景的不同视角和信息。

3、随着传感器技术的不断进步，各种不同类型的传感器现在能够为rgb图像提供丰富的互补信息，如图1所示，深度图有效用于识别物体边界，热图在低光条件下能够帮助识别物体，偏振图能够减少反射和遮挡对图像质量的不利影响，激光雷达图能够提供空间信息。然而，现有多模态分割方法主要针对rgb图像和某一特定模态的数据，如acnet在rgb-depth图像上表现出色，但在其他模态的分割任务中表现一般。p>

4、通过自本文档来自技高网...

【技术保护点】

1.基于跨模态协同修正的多模态场景分割方法，其特征是，包括：

2.如权利要求1所述的基于跨模态协同修正的多模态场景分割方法，其特征是，将RGB图输入至RGB编码器进行编码及将X模态图输入至X模态解码器进行编码，具体过程均为：

3.如权利要求1所述的基于跨模态协同修正的多模态场景分割方法，其特征是，通过通道注意力模块对第一编码信息及所述第二编码信息进行处理具体为：

4.如权利要求1所述的基于跨模态协同修正的多模态场景分割方法，其特征是，通过空间注意力模块分别对第一编码信息及所述第二编码信息进行处理具体为：

5.如权利要求1所述的基于跨模态协同...

【技术特征摘要】

1.基于跨模态协同修正的多模态场景分割方法，其特征是，包括：

2.如权利要求1所述的基于跨模态协同修正的多模态场景分割方法，其特征是，将rgb图输入至rgb编码器进行编码及将x模态图输入至x模态解码器进行编码，具体过程均为：

5.如权利要求1所述的基于跨模态协同修正的多模态场景分割方法，其特征是，所述跨模态协同修正模块还包括特征增强模块：

...

【专利技术属性】
技术研发人员：荣学文，郭怡馨，陈振学，刘成云，李贻斌，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人