基于CLIP模型和生成式模型的街道深度图生成方法技术

技术编号:42040907 阅读:20 留言:0更新日期:2024-07-16 23:25
本发明专利技术涉及一种基于生成式模型和CLIP模型的街道空间深度图生成方法,首先,通过CLIP模型的文本编码器,生成描述距离的文本编码,通过CLIP模型的图像编码器将街道影像转换为图像编码。将本编码与图像编码进行余弦相似度运算,得到距离的相似度评分。通过多层感知机,将相似度评分转化为原始街道影像各区块的距离编码。引入扩散模型Diffusion作为先验模块,将距离编码映射到相应的图像编码,捕捉距离编码中包含的语义信息。最后,通过图像解码器生成街道影像深度图,实现对街道空间的准确深度建模。该方法利用CLIP模型的跨模态表示能力,有效融合文本和图像信息,提高深度图的生成准确性。该发明专利技术在城市规划、自动驾驶等领域具有广泛应用前景。

【技术实现步骤摘要】

本专利技术涉及单目深度估计领域,具体的说是一种基于clip模型和生成式模型的街道深度图生成方法,利用多模态模型clip以及生成式扩散模型diffusion来对街道深度进行估计,从单幅街道图像中获取场景深度信息的方法,可用于智能汽车和机器人定位等应用领域。


技术介绍

1、深度估计是场景感知中重要的一环,其结果可应用无人驾驶、机器人定位、三维立体重建等方向。传统的深度估计方法采用激光三维雷达获取深度信息,激光三维雷达通过测量激光的激光折返时间精确获取深度信息,但该类方法设备成本高昂,与此同时获得的深度图数据量极大并存在较大冗余,难以在较大范围内得到广泛应用。相较之下,基于图像深度估计方法没有过高的硬件要求,能够直接通过图像得到深度信息,具有更加广泛的应用范围和使用人群。

2、基于图像的深度估计方法根据需求可分为多目深度估计与单目深度估计。在多目深度估计方法中,通过观测得到同一场景的多张图像,对图像进行匹配,利用匹配信息估计出场景深度信息。其中,经典的方法包括从运动中恢复的结构(structure from motion,sfm)、使用单目摄像机捕获本文档来自技高网...

【技术保护点】

1.基于CLIP模型和生成式模型的街道深度图生成方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于CLIP模型和生成式模型的街道深度图生成方法,其特征在于,第一步图像编码和文本编码生成包括以下子步骤:

3.根据权利要求1所述的基于CLIP模型和生成式模型的街道深度图生成方法,其特征在于,第二步图像与文本相似度计算包括以下子步骤:

4.根据权利要求1所述的基于CLIP模型和生成式模型的街道深度图生成方法,其特征在于,第三步距离编码转换包括以下步骤:

5.根据权利要求1所述的基于CLIP模型和生成式模型的街道深度图生成方法,其特征在...

【技术特征摘要】

1.基于clip模型和生成式模型的街道深度图生成方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于clip模型和生成式模型的街道深度图生成方法,其特征在于,第一步图像编码和文本编码生成包括以下子步骤:

3.根据权利要求1所述的基于clip模型和生成式模型的街道深度图生成方法,其特征在于,第二步图像与文本相似度计算包括以下子步骤:

4.根据权利要求1所述的基于clip模型和生成式模型的街道深度图生成方法,其特征在于,第三步距离...

【专利技术属性】
技术研发人员:郭贤黄山蒋捷刘铉迪
申请(专利权)人:北京建筑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1