【技术实现步骤摘要】
本专利技术涉及人工智能与计算机视觉领域,具体涉及一种基于自然语言指令的三维点云场景目标定位方法。
技术介绍
1、近年来,随着智能机器人和现实场景人机交互的蓬勃发展,基于自然语言描述的三维点云场景内目标定位研究越来越受到人们的关注。人类通过自然语言的方式对移动机器人发出指令,移动机器人根据自然语言描述信息在所处的三维场景中定位出目标物体,将大幅度提升移动机器人的智能化水平。
2、目前基于自然语言描述的三维点云场景内目标定位存在如何降低模型过度依赖目标物体标签、如何抽象出自由式语言描述关系特征、如何跨模态地对自然语言和三维点云信息进行融合处理等问题。目前基于文本语言描述引导的三维点云目标检测方法仍然高度依赖目标物体标签,然而这些标签数据不仅昂贵而且还需要耗费大量的人工标注时间;此外目前的方法没有将复杂无规则的自然语言抽象到一个清晰的结构中,并且将结构中的自然语言特征与三维点云场景进行细粒度的跨模态特征对齐。上述不足均限制了三维目标定位精度,制约了移动机器人以更智能的方式理解人类自然语言并执行相应的后续任务。
【技术保护点】
1.一种基于自然语言指令的三维点云场景目标定位方法,其特征在于,包括:
2.如权利要求1所述的一种基于自然语言指令的三维点云场景目标定位方法,其特征在于,所述将所述初始视觉特征以及所述第一低阶语义三元组输入构建好的多级注意力模型,输出所述物体的预测得分包括:
3.如权利要求2所述的一种基于自然语言指令的三维点云场景目标定位方法,其特征在于,所述多级注意力模型的训练包括:
4.如权利要求3所述的一种基于自然语言指令的三维点云场景目标定位方法,其特征在于,所述根据正样本生成多个视觉负样本以及多个语言负样本包括:
5.如权利要
...【技术特征摘要】
1.一种基于自然语言指令的三维点云场景目标定位方法,其特征在于,包括:
2.如权利要求1所述的一种基于自然语言指令的三维点云场景目标定位方法,其特征在于,所述将所述初始视觉特征以及所述第一低阶语义三元组输入构建好的多级注意力模型,输出所述物体的预测得分包括:
3.如权利要求2所述的一种基于自然语言指令的三维点云场景目标定位方法,其特征在于,所述多级注意力模型的训练包括:
4.如权利要求3所述的一种基于自然语言指令的三维点云场景目标定位方法,其特征在于,所述根据正样本生成多个视觉负样本以及多个语言负样本包括:
5.如权利要求1所述的一种基于自然语言指令的三维点云场景目标定位方法,其特征在于,所述将所述候选物体以及所述第一高阶语义三元组输入训练好的高阶语义三元组对齐网络,输出所述候选物体与所述第一高阶语义三元组的匹配得分包括:
6....
【专利技术属性】
技术研发人员:冯明涛,程嘉明,董伟生,吴成中,王耀南,张亮,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。