当前位置: 首页 > 专利查询>山东大学专利>正文

基于朝向感知和引导的类别级物体6D位姿估计方法及系统技术方案

技术编号:46571429 阅读:0 留言:0更新日期:2025-10-10 21:17
本发明专利技术公开了一种基于朝向感知和引导的类别级物体6D位姿估计方法及系统,涉及机器人视觉感知技术领域,包括:获取目标物体的RGB图像和点云;将目标物体的RGB图像和该类物体对应的朝向描述文本集输入至朝向感知网络,通过对比学习计算特征相似度,生成朝向描述文本提示;将RGB图像、点云和朝向描述文本提示输入至朝向引导位姿估计网络,提取朝向描述文本提示特征和点云特征,利用朝向描述文本提示特征引导图像特征的提取;融合点云及图像特征并进行跨投影特征交互,得到目标物体的NOCS坐标,同时根据所得特征输出目标物体的6D位姿及3D尺寸。本发明专利技术通过引入朝向这一细粒度语义引导,显著提高模型的跨场景适应性和位姿估计精度。

【技术实现步骤摘要】

本专利技术涉及机器人视觉感知,尤其涉及一种基于朝向感知和引导的类别级物体6d位姿估计方法及系统。


技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。

2、类别级物体6d位姿估计是一项基于视觉的感知任务,旨在从输入图像中预测目标物体在相机坐标系下的位姿,包括三维旋转、三维平移以及三维尺寸。该技术能够泛化到同一类别下的未见物体,实现跨实例的位姿估计,目前已广泛应用于抓取、智能装配及人机交互等基于视觉引导的机器人系统中。

3、当前,大多数基于深度学习的类别级物体6d位姿估计方法主要依赖于单一图像模态信息,未能充分利用多模态数据的互补优势。目前研究表明,文本模态信息能够有效增强视觉任务性能,这促使一些研究利用文本提示来改进类别级物体6d姿态估计。现有的基于文本提示的类别级物体6d位姿估计方法主要分为两种技术范式:基于物体外观描述的方法和基于物体类别描述的方法。这两种方法的本质都是将物体属性信息编码为文本提示,通过多模态模型提取跨模态语义特征来提升位姿估计的准确性。

4、然而,目前基于文本提本文档来自技高网...

【技术保护点】

1.一种基于朝向感知和引导的类别级物体6D位姿估计方法,其特征在于,包括:

2.如权利要求1所述的基于朝向感知和引导的类别级物体6D位姿估计方法,其特征在于,不同类别物体的朝向描述文本集的构建,包括:

3.如权利要求1所述的基于朝向感知和引导的类别级物体6D位姿估计方法,其特征在于,所述朝向感知网络包括参数冻结的CLIP模型及两个参数更新的适配器层,其中,CLIP模型包括图像编码器和文本编码器;

4.如权利要求1所述的基于朝向感知和引导的类别级物体6D位姿估计方法,其特征在于,将目标物体的RGB图像、点云和朝向描述文本提示输入至朝向引导位姿估计网络中,...

【技术特征摘要】

1.一种基于朝向感知和引导的类别级物体6d位姿估计方法,其特征在于,包括:

2.如权利要求1所述的基于朝向感知和引导的类别级物体6d位姿估计方法,其特征在于,不同类别物体的朝向描述文本集的构建,包括:

3.如权利要求1所述的基于朝向感知和引导的类别级物体6d位姿估计方法,其特征在于,所述朝向感知网络包括参数冻结的clip模型及两个参数更新的适配器层,其中,clip模型包括图像编码器和文本编码器;

4.如权利要求1所述的基于朝向感知和引导的类别级物体6d位姿估计方法,其特征在于,将目标物体的rgb图像、点云和朝向描述文本提示输入至朝向引导位姿估计网络中,得到目标物体的nocs坐标,包括:

5.如权利要求4所述的基于朝向感知和引导的类别级物体6d位姿估计方法,其特征在于...

【专利技术属性】
技术研发人员:常发亮郇恒强刘春生王德鑫
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1