【技术实现步骤摘要】
面向RGB
‑
D图像稠密预测任务的跨模态对比学习方法及系统
[0001]本专利技术属于计算机视觉和自监督对比学习
,尤其涉及RGB
‑
D跨模态语义分割与显著物体检测技术,主要涉及了一种面向RGB
‑
D图像稠密预测任务的跨模态对比学习方法及系统。
技术介绍
[0002]稠密预测任务是一种给图片的每一个像素都做分类预测的任务,它是一个基础的计算机视觉领域,包括许多视觉任务,例如显著物体检测和语义分割,前者是是捕捉显著性的视觉区域,后者是对图像场景的每个像素进行分类。
[0003]近年来,深度传感器的发展为传统的基于RGB的计算机视觉系统带来了额外的稳定几何结构和上下文线索,由此产生的多模态视觉系统具有两种模态的互补性,并且联合推理大大提高了它们的准确性和鲁棒性。鉴于强大的特征学习能力和深度学习工具的巨大成功,人们提出了多种基于卷积神经网络(CNN)的RGB
‑
D稠密预测任务方法,为了充分融合RGB
‑
D对中的多尺度跨模态,许多现有模型通常配备有多种交叉模态交叉级融合路径与模块,这种设计给模型带来了巨大的复杂性,大量的参数往往需要大规模的数据进行训练来保证有效性,这带来了很大的困难,因为收集多模态数据和标注稠密的像素级别标签既费钱又费力。以前的工作通过借用ImageNet预先训练的权重作为所有模态的适当初始化,避免了标记的多模态数据的稀缺性。然而,ImageNet和稠密预测数据集之间的域差距以及RGB和深度之间的模态差距 ...
【技术保护点】
【技术特征摘要】
1.面向RGB
‑
D图像稠密预测任务的跨模态对比学习方法,其特征在于:构建RGB
‑
D跨模态自监督框架对编码器进行预训练,并将预训练的编码器参数输入下游RGB
‑
D稠密预测任务的网络模型中,对网络模型进行有监督训练,得到训练后的下游RGB
‑
D稠密预测任务的网络模型,完成推理输出预测结果;所述RGB
‑
D跨模态自监督框架至少包括局部
‑
全局耦合模块和跨模态训练范式,所述局部
‑
全局耦合模块包含多尺度投影头的空间感知跨模态对比度损失,在预训练阶段可以同时学习具有全局理解、局部上下文和多尺度跨模态相关性的特征;所述跨模态训练范式只使用跨模态一致性作为多模态对比损失。2.如权利要求1所述的面向RGB
‑
D图像稠密预测任务的跨模态对比学习方法,其特征在于,具体包括如下步骤:S1,数据集获取:获取RGB
‑
D跨模态图像数据集,分别用于RGB
‑
D跨模态自监督框架对编码器进行预训练和下游RGB
‑
D稠密预测任务的网络模型的训练;S2,编码器选取:采用ResNet50网络结构作为编码器;S3,构建自监督框架:构建RGB
‑
D跨模态自监督框架对步骤S2选取的编码器进行预训练,所述预训练为下游RGB
‑
D稠密预测任务提供RGB
‑
D领域特定的模型初始化参数;S4,预测任务的网络模型训练:将步骤S3获得的自监督预训练的编码器参数输入下游RGB
‑
D稠密预测任务的网络模型中,并对该网络模型进行有监督训练;S5,预测结果输出:根据不同的RGB
‑
D任务,利用步骤S4训练好的下游RGB
‑
D稠密预测任务网络模型完成推理输出预测结果。3.如权利要求2所述的面向RGB
‑
D图像稠密预测任务的跨模态对比学习方法,其特征在于:所述步骤S1的数据集中,采集不同的RGB
‑
D无标注图像数据集作为RGB
‑
D跨模态自监督框架对编码器进行预训练的训练集;利用对应任务的公开有标注数据集作为下游RGB
‑
D稠密预测任务的有监督学习的训练集。4.如权利要求2或3所述的面向RGB
‑
D图像稠密预测任务的跨模态对比学习方法,其特征在于:所述步骤S3具体包括:S31:每一...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。