当前位置: 首页 > 专利查询>同济大学专利>正文

基于三维视觉语言预训练的端到端自动驾驶规划方法技术

技术编号:44929048 阅读:23 留言:0更新日期:2025-04-08 19:09
本发明专利技术涉及一种基于三维视觉语言预训练的端到端自动驾驶规划方法,所述方法包括以下步骤:获取多视角鸟瞰特征X,多视角鸟瞰特征X输入预训练的BEVformer中的BEV编码器计算全局视觉特征;将环境真实描述集成到基于BERT结构的文本注意块中,以获得文本表示;计算分组对齐损失;将全局视觉特征和提示特征输入到语言模型中,语言模型输出词向量,训练基于三维视觉语言预训练的生成式端到端自动驾驶规划模型;将实际的多视角图像输入自动驾驶规划模型,输出实际自动驾驶规划路径。与现有技术相比,本发明专利技术具有提高路径规划实时性和泛化能力等优点。

【技术实现步骤摘要】

本专利技术涉及自动驾驶领域,尤其是涉及基于三维视觉语言预训练的端到端自动驾驶规划方法


技术介绍

1、自动驾驶是一项具有挑战性的任务,需要深入了解自动驾驶汽车的周围环境,以确保安全和高效的现实部署。一个优秀的自动驾驶系统必须具备全面感知驾驶环境并根据道路信息精准做出规划决策的能力。最近,通过利用传感器数据理解驾驶场景并输出规划决策,提出了几种端到端自动驾驶框架并取得了可喜的结果。此外,自动驾驶任务在现实世界中具有广泛的应用前景和商业价值,例如帮助减少人为驾驶失误和降低交通事故率,支持智慧城市的整体规划,降低物流成本等。

2、自动驾驶任务需要解决三大难点:(1)深入理解多视角图像中蕴含的丰富信息,(2)高效且精准地进行推理和决策,(3)在多样化的实际场景中保持稳定表现。针对难点一,一些早期方法在未能透彻理解驾驶场景的情况下,直接生成规划轨迹,导致模型的可解释性较差且训练难以收敛。缺乏对场景深度理解的规划方法无法有效捕捉复杂环境中的关键特征。针对难点二,融合大语言模型(llm)的新兴自动驾驶模型借助其强大的推理能力表现优异。然而,这些模型仅引入了二本文档来自技高网...

【技术保护点】

1.一种基于三维视觉语言预训练的端到端自动驾驶规划方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种基于三维视觉语言预训练的端到端自动驾驶规划方法,其特征在于,BEVformer中的Transformer结构的输出为:

3.根据权利要求2所述的一种基于三维视觉语言预训练的端到端自动驾驶规划方法,其特征在于,全局视觉特征为:

4.根据权利要求3所述的一种基于三维视觉语言预训练的端到端自动驾驶规划方法,其特征在于,检测文本表示Tdet、运动文本表示Tmotion、地图文本表示Tmap为:

5.根据权利要求4所述的一种基于三维...

【技术特征摘要】

1.一种基于三维视觉语言预训练的端到端自动驾驶规划方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种基于三维视觉语言预训练的端到端自动驾驶规划方法,其特征在于,bevformer中的transformer结构的输出为:

3.根据权利要求2所述的一种基于三维视觉语言预训练的端到端自动驾驶规划方法,其特征在于,全局视觉特征为:

4.根据权利要求3所述的一种基于三维视觉语言预训练的端到端自动驾驶规划方法,其特征在于,检测文本表示tdet、运动文本表示tmotion、地图文本表示tmap为:

5.根据权利要求4所述的一种基于三维视觉语言预训练的端到端自动驾驶规划方法,其特征在于,串联文本表示tglobal为:

6.根据权利要求5所述的一种基...

【专利技术属性】
技术研发人员:王瀚漓张焕李腾鹏
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1