一种结合跨模态信息的深度估计方法、装置、终端及介质制造方法及图纸

技术编号:41759862 阅读:18 留言:0更新日期:2024-06-21 21:40
本发明专利技术所提供的一种结合跨模态信息的深度估计方法、装置、终端及介质,方法包括:将目标图像输入已训练的视觉语言预训练模型中,提取图像特征和场景特征;获取深度文本特征集、类场景特征集以及深度编码本,基于图像特征和深度文本特征集确定深度权重矩阵,基于场景特征、类场景特征集及深度编码本确定目标深度箱;根据目标深度箱中各个深度类别对应的深度值及深度权重矩阵得到深度估计结果。本发明专利技术通过使用视觉语言预训练模型,避免了大量训练步骤,并基于深度文本特征集、类场景特征集以及深度编码本,确定目标图像当前所处场景,实现了对不同场景深度范围的图像按照不同的深度箱进行计算,提高了深度估计的准确性。

【技术实现步骤摘要】

本专利技术涉及图像处理,尤其涉及的是一种结合跨模态信息的深度估计方法、装置、终端及介质


技术介绍

1、大规模的视觉语言预训练模型(vlms)由于结合了视觉和语言的信息,在图像分类任务中非常有效。单目深度估计是计算机视觉的下游任务,在自动驾驶、虚拟现实和机器人
有着重要的应用。但是,常用的基于机器学习或深度学习的传统方法都需要大量的数据需求,而且计算昂贵,耗费的时间长。

2、有的方法提出将视觉语言预训练模型直接用于单目深度估计。这种方法虽然可以免去繁杂的训练过程,但是具有局限性,即,不同的图像对应的场景深度范围并不相同,现有的方法对不同场景深度范围的图像均按照相同的标准进行估计,得到的深度估计结果准确度较差。

3、因此,现有技术存在缺陷,有待改进与发展。


技术实现思路

1、本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种结合跨模态信息的深度估计方法、装置、终端及介质,旨在解决现有技术中基于传统机器学习和深度学习的方法需要花费大量训练时间和算力资源,但是基于预训练大本文档来自技高网...

【技术保护点】

1.一种结合跨模态信息的深度估计方法,其特征在于,所述方法包括:

2.根据权利要求1所述的结合跨模态信息的深度估计方法,其特征在于,提取所述目标图像的图像特征和场景特征,包括:

3.根据权利要求1所述的结合跨模态信息的深度估计方法,其特征在于,所述深度文本特征集是基于预设的深度类别描述信息在训练中更新得到,所述类场景特征集是对预先构建的训练样本集提取不同场景对应的场景特征后得到;所述深度编码本是基于预设的初始深度编码本在训练中更新得到。

4.根据权利要求1所述的结合跨模态信息的深度估计方法,其特征在于,基于所述图像特征和深度文本特征集确定深度权重矩阵,...

【技术特征摘要】

1.一种结合跨模态信息的深度估计方法,其特征在于,所述方法包括:

2.根据权利要求1所述的结合跨模态信息的深度估计方法,其特征在于,提取所述目标图像的图像特征和场景特征,包括:

3.根据权利要求1所述的结合跨模态信息的深度估计方法,其特征在于,所述深度文本特征集是基于预设的深度类别描述信息在训练中更新得到,所述类场景特征集是对预先构建的训练样本集提取不同场景对应的场景特征后得到;所述深度编码本是基于预设的初始深度编码本在训练中更新得到。

4.根据权利要求1所述的结合跨模态信息的深度估计方法,其特征在于,基于所述图像特征和深度文本特征集确定深度权重矩阵,包括:

5.根据权利要求1所述的结合跨模态信息的深度估计方法,其特征在于,根据所述目标深度箱中各个深度类别对应的深度值及所述深度权重矩阵得到深度估计结果,...

【专利技术属性】
技术研发人员:何志海胡雪婷张策余可欧阳健吴昊
申请(专利权)人:南方科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1