当前位置: 首页 > 专利查询>东南大学专利>正文

面向RGB-D图像稠密预测任务的跨模态对比学习方法及系统技术方案

技术编号:38193546 阅读:7 留言:0更新日期:2023-07-20 21:13
本发明专利技术公开了一种面向RGB

【技术实现步骤摘要】
面向RGB

D图像稠密预测任务的跨模态对比学习方法及系统


[0001]本专利技术属于计算机视觉和自监督对比学习
,尤其涉及RGB

D跨模态语义分割与显著物体检测技术,主要涉及了一种面向RGB

D图像稠密预测任务的跨模态对比学习方法及系统。

技术介绍

[0002]稠密预测任务是一种给图片的每一个像素都做分类预测的任务,它是一个基础的计算机视觉领域,包括许多视觉任务,例如显著物体检测和语义分割,前者是是捕捉显著性的视觉区域,后者是对图像场景的每个像素进行分类。
[0003]近年来,深度传感器的发展为传统的基于RGB的计算机视觉系统带来了额外的稳定几何结构和上下文线索,由此产生的多模态视觉系统具有两种模态的互补性,并且联合推理大大提高了它们的准确性和鲁棒性。鉴于强大的特征学习能力和深度学习工具的巨大成功,人们提出了多种基于卷积神经网络(CNN)的RGB

D稠密预测任务方法,为了充分融合RGB

D对中的多尺度跨模态,许多现有模型通常配备有多种交叉模态交叉级融合路径与模块,这种设计给模型带来了巨大的复杂性,大量的参数往往需要大规模的数据进行训练来保证有效性,这带来了很大的困难,因为收集多模态数据和标注稠密的像素级别标签既费钱又费力。以前的工作通过借用ImageNet预先训练的权重作为所有模态的适当初始化,避免了标记的多模态数据的稀缺性。然而,ImageNet和稠密预测数据集之间的域差距以及RGB和深度之间的模态差距通常会导致有偏差的初始化和随后的子优化。
[0004]如今,自监督学习(SSL)的蓬勃发展为直接克服多模态稠密预测中的数据不足问题提供了新的可能。作为SSL中最有希望的方向之一,对比学习(旨在学习图像变换中的不变高级特征)已在多个领域得到广泛应用,并在分类任务方面取得了巨大进展。现有的对比学习方法大多遵循实例识别范式,即将输入转换版本分类为同一源图像。这一理念被广泛继承并适用于多模态数据的跨模态识别,例如语音、视频、文本和RGB

D图像。现有的多模态对比学习解决方案,侧重于学习高级的全局表征,但是提取局部线索以推断细节的能力很小。

技术实现思路

[0005]本专利技术正是针对现有技术中RGB

D领域标注数据稀缺和RGB

D跨模态鸿沟针对性设计不足的问题,提供一种面向RGB

D图像稠密预测任务的跨模态对比学习方法及系统,构建RGB

D跨模态自监督框架对编码器进行预训练,并将预训练的编码器参数输入下游RGB

D稠密预测任务的网络模型中,对网络模型进行有监督训练,得到训练后的下游RGB

D稠密预测任务的网络模型,完成推理输出预测结果;本专利技术方法克服了数据不足的问题,也填补了RGB

D跨模态数据的鸿沟,通过本专利技术的预训练方法能提取多尺度模态特定线索和异质跨模态相关性,从而促进下游任务多模态融合。
[0006]为了实现上述目的,本专利技术采取的技术方案是:面向RGB

D图像稠密预测任务的跨
模态对比学习方法,构建RGB

D跨模态自监督框架对编码器进行预训练,并将预训练的编码器参数输入下游RGB

D稠密预测任务的网络模型中,对网络模型进行有监督训练,得到训练后的下游RGB

D稠密预测任务的网络模型,完成推理输出预测结果;
[0007]所述RGB

D跨模态自监督框架至少包括局部

全局耦合模块和跨模态训练范式,所述局部

全局耦合模块包含多尺度投影头的空间感知跨模态对比度损失,在预训练阶段可以同时学习具有全局理解、局部上下文和多尺度跨模态相关性的特征;所述跨模态训练范式只使用跨模态一致性作为多模态对比损失。
[0008]作为本专利技术的一种改进,本方法具体包括如下步骤:
[0009]S1,数据集获取:获取RGB

D跨模态图像数据集,分别用于RGB

D跨模态自监督框架对编码器进行预训练和下游RGB

D稠密预测任务的网络模型的训练;
[0010]S2,编码器选取:采用ResNet50网络结构作为编码器;
[0011]S3,构建自监督框架:构建RGB

D跨模态自监督框架对步骤S2选取的编码器进行预训练,所述预训练为下游RGB

D稠密预测任务提供RGB

D领域特定的模型初始化参数;
[0012]S4,预测任务的网络模型训练:将步骤S3获得的自监督预训练的编码器参数输入下游RGB

D稠密预测任务的网络模型中,并对该网络模型进行有监督训练;
[0013]S5,预测结果输出:根据不同的RGB

D任务,利用步骤S4训练好的下游RGB

D稠密预测任务网络模型完成推理输出预测结果。
[0014]作为本专利技术的一种改进,所述步骤S1的数据集中,采集不同的RGB

D无标注图像数据集作为RGB

D跨模态自监督框架对编码器进行预训练的训练集;利用对应任务的公开有标注数据集作为下游RGB

D稠密预测任务的有监督学习的训练集。
[0015]作为本专利技术的另一种改进,所述步骤S3具体包括:
[0016]S31:每一个训练样本图片x会通过两种不同的数据增强操作t

,t

∈Γ进行变换得到x

,x

,从而产生同个样本的不同视角,其中Γ表示数字增强操作随机裁剪拼接,旋转缩放和翻转;
[0017]S32:每一对RGB和Depth配对图片都分别同样经过步骤S31的数据增强后输入对应的编码器e
θ
与动量编码器e
ξ
进行编码:f

=e
θ
(t

(x

)),f

=e
ξ
(t

(x

)),其中f

和f

为编码后生成的特征图;
[0018]S33:利用空间感知的局部

全局耦合模块对步骤S32生成的特征图进行特征提取:f通过全局池化层得到全局特征图y,通过两种局部池化层得到局部特征图F1、F2,将y,F1、F2三个特征图展开成向量,合并向量,使它们成为包含多尺度特征的一维表示y
*
=concat(y,F1,F2);
[0019]S34:利用不同模态生成的一维向量进行跨模态对比学习预训练,总损失函数为跨模态损失函数:<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向RGB

D图像稠密预测任务的跨模态对比学习方法,其特征在于:构建RGB

D跨模态自监督框架对编码器进行预训练,并将预训练的编码器参数输入下游RGB

D稠密预测任务的网络模型中,对网络模型进行有监督训练,得到训练后的下游RGB

D稠密预测任务的网络模型,完成推理输出预测结果;所述RGB

D跨模态自监督框架至少包括局部

全局耦合模块和跨模态训练范式,所述局部

全局耦合模块包含多尺度投影头的空间感知跨模态对比度损失,在预训练阶段可以同时学习具有全局理解、局部上下文和多尺度跨模态相关性的特征;所述跨模态训练范式只使用跨模态一致性作为多模态对比损失。2.如权利要求1所述的面向RGB

D图像稠密预测任务的跨模态对比学习方法,其特征在于,具体包括如下步骤:S1,数据集获取:获取RGB

D跨模态图像数据集,分别用于RGB

D跨模态自监督框架对编码器进行预训练和下游RGB

D稠密预测任务的网络模型的训练;S2,编码器选取:采用ResNet50网络结构作为编码器;S3,构建自监督框架:构建RGB

D跨模态自监督框架对步骤S2选取的编码器进行预训练,所述预训练为下游RGB

D稠密预测任务提供RGB

D领域特定的模型初始化参数;S4,预测任务的网络模型训练:将步骤S3获得的自监督预训练的编码器参数输入下游RGB

D稠密预测任务的网络模型中,并对该网络模型进行有监督训练;S5,预测结果输出:根据不同的RGB

D任务,利用步骤S4训练好的下游RGB

D稠密预测任务网络模型完成推理输出预测结果。3.如权利要求2所述的面向RGB

D图像稠密预测任务的跨模态对比学习方法,其特征在于:所述步骤S1的数据集中,采集不同的RGB

D无标注图像数据集作为RGB

D跨模态自监督框架对编码器进行预训练的训练集;利用对应任务的公开有标注数据集作为下游RGB

D稠密预测任务的有监督学习的训练集。4.如权利要求2或3所述的面向RGB

D图像稠密预测任务的跨模态对比学习方法,其特征在于:所述步骤S3具体包括:S31:每一...

【专利技术属性】
技术研发人员:陈浩陈梓超
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1