基于条件多模态提示的机器人精细化目标定位方法及装置制造方法及图纸

技术编号:44284527 阅读:22 留言:0更新日期:2025-02-14 22:20
本发明专利技术涉及计算机视觉技术领域,提供了一种基于条件多模态提示的机器人精细化目标定位方法及装置,该方法包括:对图像和文本分别进行多次交叉编码,得到目标视觉特征和目标语言特征;在每次交叉编码中,根据第i个视觉特征确定第一提示引导,结合第i个视觉特征得到第i+1个语言特征;根据第i个语言特征确定第二提示引导,并得到第i+1个视觉特征;将映射后的视觉特征和映射后的语言特征进行交叉注意力计算,得到新的视觉特征和新的语言特征,以供机器人调节运动姿态。本发明专利技术所述方法结合了早期和晚期融合的优势,能够根据自由形式的语言表达实现机器人的精确细粒度目标定位,提高了机器人精细化目标定位效率和准确率。

【技术实现步骤摘要】

本专利技术涉及计算机视觉 ,尤其涉及一种基于条件多模态提示的机器人精细化目标定位方法及装置


技术介绍

1、随着人工智能和计算机视觉技术的快速发展,视觉定位技术已经取得了显著的进步,且广泛应用于自动驾驶、智能制造、机器人和无人机导航等领域。

2、通过视觉定位技术,机器人能够更自然地理解并响应用户的操作,这种自然性不仅体现在机器人对用户动作的准确捕捉上,还体现在机器人对用户意图的深入理解上,例如,机器人可以通过视觉定位技术来捕捉患者的运动轨迹,并根据患者的康复需求进行个性化的运动辅助。

3、相关技术中,通常采用两阶段(包括候选生成和跨模态匹配)视觉定位模型探索更有效的跨模态交互,或者在可解释推理方式中选择最佳匹配的候选,从而实现目标检测和定位,但两阶段视觉定位模型为串行架构,模型训练效率受限,且过于依赖候选生成阶段的训练效果,导致模型鲁棒性低;而采用一阶段视觉定位方法进行目标视觉定位时,先通过两类独立的编码器分别提取对应语言特征和视觉特征,再通过聚合模块将两类特征进行跨模态融合,融合后的特征表征能力有限,只能实现目标粗粒度定位(如输出本文档来自技高网...

【技术保护点】

1.一种基于条件多模态提示的机器人精细化目标定位方法,其特征在于,包括:

2.根据权利要求1所述的基于条件多模态提示的机器人精细化目标定位方法,其特征在于,目标视觉特征包括每次交叉编码输出的视觉特征,所述目标语言特征包括最后一次交叉编码输出的语言特征;

3.根据权利要求1所述的基于条件多模态提示的机器人精细化目标定位方法,其特征在于,所述交叉注意力计算通过下式表示:

4.根据权利要求1所述的基于条件多模态提示的机器人精细化目标定位方法,其特征在于,所述视觉编码通过如下步骤实现:

5.根据权利要求1所述的基于条件多模态提示的机器人精细化目标定...

【技术特征摘要】

1.一种基于条件多模态提示的机器人精细化目标定位方法,其特征在于,包括:

2.根据权利要求1所述的基于条件多模态提示的机器人精细化目标定位方法,其特征在于,目标视觉特征包括每次交叉编码输出的视觉特征,所述目标语言特征包括最后一次交叉编码输出的语言特征;

3.根据权利要求1所述的基于条件多模态提示的机器人精细化目标定位方法,其特征在于,所述交叉注意力计算通过下式表示:

4.根据权利要求1所述的基于条件多模态提示的机器人精细化目标定位方法,其特征在于,所述视觉编码通过如下步骤实现:

5.根据权利要求1所述的基于条件多模态提示的机器人精细化目标定位方法,其特征在于,所述根据以图像为初始输入获取的第i个视觉特征确定第一提示引导包括:

6.根据权利要求1所述的基于...

【专利技术属性】
技术研发人员:张宇佳吴君娴李全明孙世颖赵晓光陈程耿超王玉凯
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1