面向RGB-D图像稠密预测任务的跨模态对比学习方法及系统技术方案

技术编号：38193546 阅读：7 留言：0更新日期：2023-07-20 21:13

本发明专利技术公开了一种面向RGB

全部详细技术资料下载

【技术实现步骤摘要】
面向RGB
‑
D图像稠密预测任务的跨模态对比学习方法及系统

[0001]本专利技术属于计算机视觉和自监督对比学习
，尤其涉及RGB
‑
D跨模态语义分割与显著物体检测技术，主要涉及了一种面向RGB
‑
D图像稠密预测任务的跨模态对比学习方法及系统。

技术介绍

[0002]稠密预测任务是一种给图片的每一个像素都做分类预测的任务，它是一个基础的计算机视觉领域，包括许多视觉任务，例如显著物体检测和语义分割，前者是是捕捉显著性的视觉区域，后者是对图像场景的每个像素进行分类。
[0003]近年来，深度传感器的发展为传统的基于RGB的计算机视觉系统带来了额外的稳定几何结构和上下文线索，由此产生的多模态视觉系统具有两种模态的互补性，并且联合推理大大提高了它们的准确性和鲁棒性。鉴于强大的特征学习能力和深度学习工具的巨大成功，人们提出了多种基于卷积神经网络(CNN)的RGB
‑
D稠密预测任务方法，为了充分融合RGB
‑
D对中的多尺度跨模态，许多现有模型通常配备有多种交叉模态交叉级融合路径与模块，这种设计给模型带来了巨大的复杂性，大量的参数往往需要大规模的数据进行训练来保证有效性，这带来了很大的困难，因为收集多模态数据和标注稠密的像素级别标签既费钱又费力。以前的工作通过借用ImageNet预先训练的权重作为所有模态的适当初始化，避免了标记的多模态数据的稀缺性。然而，ImageNet和稠密预测数据集之间的域差距以及RGB和深度之间的模态差距...

【技术保护点】

【技术特征摘要】
1.面向RGB
‑
D图像稠密预测任务的跨模态对比学习方法，其特征在于:构建RGB
‑
D跨模态自监督框架对编码器进行预训练，并将预训练的编码器参数输入下游RGB
‑
D稠密预测任务的网络模型中，对网络模型进行有监督训练，得到训练后的下游RGB
‑
D稠密预测任务的网络模型，完成推理输出预测结果；所述RGB
‑
D跨模态自监督框架至少包括局部
‑
全局耦合模块和跨模态训练范式，所述局部
‑
全局耦合模块包含多尺度投影头的空间感知跨模态对比度损失，在预训练阶段可以同时学习具有全局理解、局部上下文和多尺度跨模态相关性的特征；所述跨模态训练范式只使用跨模态一致性作为多模态对比损失。2.如权利要求1所述的面向RGB
‑
D图像稠密预测任务的跨模态对比学习方法，其特征在于，具体包括如下步骤：S1，数据集获取：获取RGB
‑
D跨模态图像数据集，分别用于RGB
‑
D跨模态自监督框架对编码器进行预训练和下游RGB
‑
D稠密预测任务的网络模型的训练；S2，编码器选取：采用ResNet50网络结构作为编码器；S3，构建自监督框架：构建RGB
‑
D跨模态自监督框架对步骤S2选取的编码器进行预训练，所述预训练为下游RGB
‑
D稠密预测任务提供RGB
‑
D领域特定的模型初始化参数；S4，预测任务的网络模型训练：将步骤S3获得的自监督预训练的编码器参数输入下游RGB
‑
D稠密预测任务的网络模型中，并对该网络模型进行有监督训练；S5，预测结果输出：根据不同的RGB
‑
D任务，利用步骤S4训练好的下游RGB
‑
D稠密预测任务网络模型完成推理输出预测结果。3.如权利要求2所述的面向RGB
‑
D图像稠密预测任务的跨模态对比学习方法，其特征在于：所述步骤S1的数据集中，采集不同的RGB
‑
D无标注图像数据集作为RGB
‑
D跨模态自监督框架对编码器进行预训练的训练集；利用对应任务的公开有标注数据集作为下游RGB
‑
D稠密预测任务的有监督学习的训练集。4.如权利要求2或3所述的面向RGB
‑
D图像稠密预测任务的跨模态对比学习方法，其特征在于：所述步骤S3具体包括：S31：每一...

【专利技术属性】
技术研发人员：陈浩，陈梓超，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人