【技术实现步骤摘要】
本专利技术涉及图像处理,尤其涉及的是一种结合跨模态信息的深度估计方法、装置、终端及介质。
技术介绍
1、大规模的视觉语言预训练模型(vlms)由于结合了视觉和语言的信息,在图像分类任务中非常有效。单目深度估计是计算机视觉的下游任务,在自动驾驶、虚拟现实和机器人
有着重要的应用。但是,常用的基于机器学习或深度学习的传统方法都需要大量的数据需求,而且计算昂贵,耗费的时间长。
2、有的方法提出将视觉语言预训练模型直接用于单目深度估计。这种方法虽然可以免去繁杂的训练过程,但是具有局限性,即,不同的图像对应的场景深度范围并不相同,现有的方法对不同场景深度范围的图像均按照相同的标准进行估计,得到的深度估计结果准确度较差。
3、因此,现有技术存在缺陷,有待改进与发展。
技术实现思路
1、本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种结合跨模态信息的深度估计方法、装置、终端及介质,旨在解决现有技术中基于传统机器学习和深度学习的方法需要花费大量训练时间和算力资
...【技术保护点】
1.一种结合跨模态信息的深度估计方法,其特征在于,所述方法包括:
2.根据权利要求1所述的结合跨模态信息的深度估计方法,其特征在于,提取所述目标图像的图像特征和场景特征,包括:
3.根据权利要求1所述的结合跨模态信息的深度估计方法,其特征在于,所述深度文本特征集是基于预设的深度类别描述信息在训练中更新得到,所述类场景特征集是对预先构建的训练样本集提取不同场景对应的场景特征后得到;所述深度编码本是基于预设的初始深度编码本在训练中更新得到。
4.根据权利要求1所述的结合跨模态信息的深度估计方法,其特征在于,基于所述图像特征和深度文本特征
...【技术特征摘要】
1.一种结合跨模态信息的深度估计方法,其特征在于,所述方法包括:
2.根据权利要求1所述的结合跨模态信息的深度估计方法,其特征在于,提取所述目标图像的图像特征和场景特征,包括:
3.根据权利要求1所述的结合跨模态信息的深度估计方法,其特征在于,所述深度文本特征集是基于预设的深度类别描述信息在训练中更新得到,所述类场景特征集是对预先构建的训练样本集提取不同场景对应的场景特征后得到;所述深度编码本是基于预设的初始深度编码本在训练中更新得到。
4.根据权利要求1所述的结合跨模态信息的深度估计方法,其特征在于,基于所述图像特征和深度文本特征集确定深度权重矩阵,包括:
5.根据权利要求1所述的结合跨模态信息的深度估计方法,其特征在于,根据所述目标深度箱中各个深度类别对应的深度值及所述深度权重矩阵得到深度估计结果,...
【专利技术属性】
技术研发人员:何志海,胡雪婷,张策,余可,欧阳健,吴昊,
申请(专利权)人:南方科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。