单目三维视觉定位方法、装置、设备及存储介质制造方法及图纸

技术编号：46127730 阅读：9 留言：0更新日期：2025-08-15 20:01

本申请公开了一种单目三维视觉定位方法、装置、设备及存储介质，涉及计算机视觉与自然语言处理技术领域，该方法包括：基于待定位目标的描述文本与场景图像，提取出文本特征、视觉特征以及深度特征；对所述文本特征、所述视觉特征以及所述深度特征进行耦合，得到多模态耦合特征；对所述多模态耦合特征进行解码，得到多模态解码特征；基于所述多模态解码特征，确定所述待定位目标的三维视觉定位结果。通过上述方式，实现了视觉特征、文本特征、深度特征之间的跨模态深度耦合，提升不同模态特征的表达能力，提升空间位置信息与高级语义信息的感知能力，能够定位出与文本描述最相关的视觉目标，提高三维目标定位的精度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机视觉与自然语言处理，尤其涉及单目三维视觉定位方法、装置、设备及存储介质。

技术介绍

1、单目三维视觉定位是计算机视觉与自然语言处理交叉领域的重要研究方向，在机器人智能抓取、自动驾驶、机器人导航等场景中具有广泛的应用潜力。其可以将文本描述引入单目三维目标检测任务，核心目标是在给定一张图像和一段自然语言描述的情况下，使检测器能够准确识别出文本描述所指代的目标。然而，在实际应用中，视觉、文本、深度模态之间的特征差异较大，视觉与文本特征的表示不足，细粒度目标特征的存在混淆。

2、上述内容仅用于辅助理解本专利技术的技术方案，并不代表承认上述内容是现有技术。

技术实现思路

1、本申请的主要目的在于提供一种单目三维视觉定位方法、装置、设备及存储介质，旨在解决现有技术中传统单目三维视觉定位使用的多模态特征的表达能力不足，影响三维目标定位的精度的技术问题。

2、为实现上述目的，本申请提供了一种单目三维视觉定位方法，方法包括：

3、基于待定位目标的描述文本与...

【技术保护点】

1.一种单目三维视觉定位方法，其特征在于，所述的方法，包括：

2.如权利要求1所述的方法，其特征在于，所述基于待定位目标的描述文本与场景图像，提取出文本特征、视觉特征以及深度特征的步骤包括：

3.如权利要求1所述的方法，其特征在于，所述对所述文本特征、所述视觉特征以及所述深度特征进行耦合，得到多模态耦合特征的步骤包括：

4.如权利要求1所述的方法，其特征在于，所述对所述多模态耦合特征进行解码，得到多模态解码特征的步骤包括：

5.如权利要求1所述的方法，其特征在于，所述基于所述文本特征与所述多模态耦合特征，计算第一对应关系的步骤包括：

...

【技术特征摘要】

1.一种单目三维视觉定位方法，其特征在于，所述的方法，包括：

2.如权利要求1所述的方法，其特征在于，所述基于待定位目标的描述文本与场景图像，提取出文本特征、视觉特征以及深度特征的步骤包括：

3.如权利要求1所述的方法，其特征在于，所述对所述文本特征、所述视觉特征以及所述深度特征进行耦合，得到多模态耦合特征的步骤包括：

4.如权利要求1所述的方法，其特征在于，所述对所述多模态耦合特征进行解码，得到多模态解码特征的步骤包括：

5.如权利要求1所述的方法，其特征在于，所述基于所述文本特征与所述多模态耦合特征，计算第一对应关系的步骤包括：

6.如权利要求1所述的方法，其特征在于，所述三维视觉定位结果至少包括三维位置、三维姿态以及类别，所述基于所述多模态解...

【专利技术属性】
技术研发人员：李萌，姜军，赵琦，罗明成，胡凯，马健，刘凯，邹龙昊，李伟超，陶小峰，
申请(专利权)人：鹏城实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人