【技术实现步骤摘要】
本专利技术涉及计算机视觉 ,尤其涉及一种基于条件多模态提示的机器人精细化目标定位方法及装置。
技术介绍
1、随着人工智能和计算机视觉技术的快速发展,视觉定位技术已经取得了显著的进步,且广泛应用于自动驾驶、智能制造、机器人和无人机导航等领域。
2、通过视觉定位技术,机器人能够更自然地理解并响应用户的操作,这种自然性不仅体现在机器人对用户动作的准确捕捉上,还体现在机器人对用户意图的深入理解上,例如,机器人可以通过视觉定位技术来捕捉患者的运动轨迹,并根据患者的康复需求进行个性化的运动辅助。
3、相关技术中,通常采用两阶段(包括候选生成和跨模态匹配)视觉定位模型探索更有效的跨模态交互,或者在可解释推理方式中选择最佳匹配的候选,从而实现目标检测和定位,但两阶段视觉定位模型为串行架构,模型训练效率受限,且过于依赖候选生成阶段的训练效果,导致模型鲁棒性低;而采用一阶段视觉定位方法进行目标视觉定位时,先通过两类独立的编码器分别提取对应语言特征和视觉特征,再通过聚合模块将两类特征进行跨模态融合,融合后的特征表征能力有限,只能实现目
...【技术保护点】
1.一种基于条件多模态提示的机器人精细化目标定位方法,其特征在于,包括:
2.根据权利要求1所述的基于条件多模态提示的机器人精细化目标定位方法,其特征在于,目标视觉特征包括每次交叉编码输出的视觉特征,所述目标语言特征包括最后一次交叉编码输出的语言特征;
3.根据权利要求1所述的基于条件多模态提示的机器人精细化目标定位方法,其特征在于,所述交叉注意力计算通过下式表示:
4.根据权利要求1所述的基于条件多模态提示的机器人精细化目标定位方法,其特征在于,所述视觉编码通过如下步骤实现:
5.根据权利要求1所述的基于条件多模态提示
...【技术特征摘要】
1.一种基于条件多模态提示的机器人精细化目标定位方法,其特征在于,包括:
2.根据权利要求1所述的基于条件多模态提示的机器人精细化目标定位方法,其特征在于,目标视觉特征包括每次交叉编码输出的视觉特征,所述目标语言特征包括最后一次交叉编码输出的语言特征;
3.根据权利要求1所述的基于条件多模态提示的机器人精细化目标定位方法,其特征在于,所述交叉注意力计算通过下式表示:
4.根据权利要求1所述的基于条件多模态提示的机器人精细化目标定位方法,其特征在于,所述视觉编码通过如下步骤实现:
5.根据权利要求1所述的基于条件多模态提示的机器人精细化目标定位方法,其特征在于,所述根据以图像为初始输入获取的第i个视觉特征确定第一提示引导包括:
6.根据权利要求1所述的基于...
【专利技术属性】
技术研发人员:张宇佳,吴君娴,李全明,孙世颖,赵晓光,陈程,耿超,王玉凯,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。