一种基于多模态视觉信息的人机交互式目标识别与定位系统及其载体技术方案

技术编号:46492590 阅读:5 留言:0更新日期:2025-09-26 19:11
本发明专利技术涉及机器人感知与智能人机交互领域,设备平台与感知模块,系统安装有Intel RealSense D435i深度相机,用于实时采集包含深度信息的RGB‑D图像序列,同时,嵌入先进的YOLOv8‑Pose深度学习模型,实现对前方场景中人类上半身骨骼关键点的高精度检测、自然交互、手势指引机制、方向推断与目标候选聚合、交互式目标筛选与判定、稳健性增强策略、深度缺失与噪声鲁棒性、残缺目标补全机制,主要实现基于深度视觉、姿态估计和语义理解的人机协作式目标物体识别与定位方法。该技术可适用于服务机器人、智能助理机器人等对自主感知与自然交互有较高要求的实际应用场景,进一步促进了人机共融与智能环境的建设。

【技术实现步骤摘要】

本专利技术涉及机器人感知与智能人机交互领域,涉及一种基于多模态视觉信息的人机交互式目标识别与定位系统及其载体


技术介绍

1、传统的目标物体识别与定位主要利用颜色、形状、纹理等特征,并依赖于单一摄像头的静态图像信息。这种方法在相似物体较多、环境复杂、遮挡严重等情况下,存在区分能力弱和空间定位精度不足等局限。并且部分方法尝试利用深度摄像头实现三维定位,但在用户意图判别方面,依然缺乏与人类自然交互的有效链接。随着深度学习领域的突破,人体骨骼关键点识别技术取得了显著进展,此技术可用于动作分析、手势识别等多种场景,但如何将其与目标物体的空间识别和定位紧密融合,实现更高层次的语义理解和意图推断,仍是亟待解决的难题。

2、以往研究中,多数方法侧重于物体本体检测和单一用户动作分割,缺乏融合深度、语义、时序与空间信息的系统性方案。尤其在存在多个形态极为相似目标物体时,如何通过融合用户自然的指示手势,高效且准确地判定所指物体,并实时输出该物体的三维空间位置,为后续机器人抓取路径规划和自主操作提供依据,是目前视觉与机器人交互领域的前沿技术难点。

3、随本文档来自技高网...

【技术保护点】

1.一种基于多模态视觉信息的人机交互式目标识别与定位系统,其特征在于:

2.根据权利要求1所述的一种基于多模态视觉信息的人机交互式载体,其特征在于:

【技术特征摘要】

1.一种基于多模态视觉信息的人机交互式目标识别与定位系统,其特征在于:

<...

【专利技术属性】
技术研发人员:张智王子豪曹实实熊辉
申请(专利权)人:莫斯元宇苏州智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1