一种基于多模态大视觉语言模型的智能机械臂操作方法和系统技术方案

技术编号:44546030 阅读:18 留言:0更新日期:2025-03-11 14:11
本发明专利技术公开了一种基于多模态大视觉语言模型的机械臂操作方法,首先通过视觉传感器采集机械臂操作场景的图像数据,并结合语音识别模块或文本输入模块获取用户指令,将自然语言指令与视觉场景数据输入至多模态大视觉语言模型进行多模态任务解析。模型对场景中目标物体的类别、位置及其属性进行识别,并结合输入指令生成具体的操作序列。随后,系统根据解析生成的操作序列,直接驱动机械臂执行相应任务,包括目标物体的抓取、移动、放置等具体动作,在任务执行过程中,机械臂根据预先生成的操作序列依次完成动作。本发明专利技术有效解决了现有技术中机械臂对复杂任务指令解析不准确、操作灵活性和适应性不足以及动态环境中实时响应能力较差的问题。

【技术实现步骤摘要】

本专利技术属于智能机械臂操作,更具体地,涉及一种基于多模态大视觉语言模型的智能机械臂操作方法和系统


技术介绍

1、随着人工智能和机器人技术的迅速发展,现代工业和其他应用领域对人机协作的需求日益增加。传统的机器人系统往往依赖于固定的控制算法和人工编程,缺乏灵活性和智能性。

2、具体来说,现有的机器人系统一般可以分为两类:(1)基于控制技术的机器人,主要依赖于控制算法来执行任务,这类机器人通常根据预定的程序进行工作,分为开环控制和闭环控制两种。开环控制机器人不依赖于反馈机制,执行过程中没有实时的环境数据输入,适用于任务简单且无需精确调整的场景;闭环控制系统则通过实时反馈调整机器人的行为,常见于要求精度和灵活性的应用领域,如工业自动化或精密操作;(2)基于感知技术的机器人,其依赖于各种传感器来获取环境信息,包括视觉、声音、触觉等,进而做出相应的反应;视觉导向的机器人通过图像识别技术处理视觉数据,而听觉导向的机器人则通过语音识别技术与环境进行交互;感知能力的不同使得机器人能够在多种应用场景中灵活应对,并进行决策或动作;

>3、然而,上述两种本文档来自技高网...

【技术保护点】

1.一种基于多模态大视觉语言模型的智能机械臂操作方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于多模态大视觉语言模型的智能机械臂操作方法,其特征在于,

3.根据权利要求1或2所述的基于多模态大视觉语言模型的智能机械臂操作方法,其特征在于,步骤(3)包括以下子步骤:

4.根据权利要求1至3中任意一项所述的基于多模态大视觉语言模型的智能机械臂操作方法,其特征在于,步骤(5)包括以下子步骤:

5.根据权利要求4所述的基于多模态大视觉语言模型的智能机械臂操作方法,其特征在于,步骤(6)包括以下子步骤:

6.根据权利要求5所...

【技术特征摘要】

1.一种基于多模态大视觉语言模型的智能机械臂操作方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于多模态大视觉语言模型的智能机械臂操作方法,其特征在于,

3.根据权利要求1或2所述的基于多模态大视觉语言模型的智能机械臂操作方法,其特征在于,步骤(3)包括以下子步骤:

4.根据权利要求1至3中任意一项所述的基于多模态大视觉语言模型的智能机械臂操作方法,其特征在于,步骤(5)包括以下子步骤:

5.根据权利要求4所述的基于多模态大视觉语言模型的智能机械臂操作方法,其特征在于,步骤(6...

【专利技术属性】
技术研发人员:胡胜山潘鹤文李明慧万伟周子淇郭培金
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1