基于视觉大模型的非结构化场景下通行区域检测方法及装置制造方法及图纸

技术编号:42143411 阅读:27 留言:0更新日期:2024-07-26 23:59
本发明专利技术提出一种基于大型视觉模型ViT的仅使用RGB数据的非结构化场景下可通行区域检测的方法及装置,通过将图片输入预训练的ViT图像编码器提取丰富的语义特征以及隐层的特征,然后将特征输入到设计的分割解码器中,融合特征生成预测掩码,引入交叉熵损失函数更新解码器参数。本发明专利技术解决了在非结构化场景下对可通行区域检测如何达到实时性这一问题,相比与以往的非结构化场景下可通行区域检测的方法,本发明专利技术基于预训练ViT模型,只使用RGB数据,达到了更好的精度以及更快的速度。

【技术实现步骤摘要】

本专利技术属于深度学习目标检测、自动驾驶技术和图像语义分割,具体涉及一种利用大型视觉模型vit实现非结构化场景下可通行区域检测的方法及装置。该方法通过仅对rgb数据进行处理,实现实时非结构化场景下可通行区域的检测,适用于自动驾驶系统中的道路规划辅助功能。


技术介绍

1、近年来,自动驾驶吸引了越来越多的关注和研究。可通行区域检测在自动驾驶中扮演着基础性的角色,对于车辆规划和控制的可导航区域至关重要。大多数研究主要集中在城市道路场景上,这些场景有车道和交通标志等明确特征为特点。相比之下,对非结构化场景的研究较少受到关注。这些无路场景呈现出更高程度的复杂性和多样性,可通行区域的界限不那么明显。车辆需要穿越各种地形,包括草原、沙地、冰面、雪地和泥泞地带,无路场景中可通行区域的边界是模糊的。

2、为了应对上述困难,以前的技术主要依赖于rgb图像与深度信息,例如激光雷达lidar数据的多模态融合。rgb图像更多地关注表面颜色、纹理和其他视觉信息,而lidar数据则更多地关注距离、深度和位置。多模态融合可以帮助这两种模态相互补充,以实现更好的性能,因此多模态本文档来自技高网...

【技术保护点】

1.一种基于视觉大模型的非结构化场景下通行区域检测方法,其特征在于,包括:

2.如权利要求1所述的基于视觉大模型的非结构化场景下通行区域检测方法,其特征在于,该通行区域检测模型的图像编码器为预训练的ViT-S模型;在训练该通行区域检测模型时,仅采用有监督训练方式训练该图像解码器。

3.如权利要求1或2所述的基于视觉大模型的非结构化场景下通行区域检测方法,其特征在于,该编码步骤具体包括:

4.如权利要求1所述的基于视觉大模型的非结构化场景下通行区域检测方法,其特征在于,该解码步骤具体包括:

5.一种基于视觉大模型的非结构化场景下通行区域检测装...

【技术特征摘要】

1.一种基于视觉大模型的非结构化场景下通行区域检测方法,其特征在于,包括:

2.如权利要求1所述的基于视觉大模型的非结构化场景下通行区域检测方法,其特征在于,该通行区域检测模型的图像编码器为预训练的vit-s模型;在训练该通行区域检测模型时,仅采用有监督训练方式训练该图像解码器。

3.如权利要求1或2所述的基于视觉大模型的非结构化场景下通行区域检测方法,其特征在于,该编码步骤具体包括:

4.如权利要求1所述的基于视觉大模型的非结构化场景下通行区域检测方法,其特征在于,该解码步骤具体包括:

5.一种基于视觉大模型的非结构化场景下通行区域检测装置,其特征在于,包括:

6.如权利要求5所述的基于视觉大模型的非结构化场景下通行区域检测装置,其特征在于,该通行区域检测模型的图像编码器为...

【专利技术属性】
技术研发人员:梅继林孙同胡瑜
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1