基于多模态大模型的机器人控制方法技术

技术编号：41186774 阅读：2 留言：0更新日期：2024-05-07 22:18

本发明专利技术公开了一种基于多模态大模型的机器人控制方法，包括获取场景信息以及控制指令，并将控制指令分解为多个子任务指令；检测每个所述子任务指令中所包含的目标对象对应的遮罩；使用所述遮罩和所述场景信息重构场景和目标对象的点云，得到价值地图，所述价值地图包括体素值图和目标对象；对于给定的子任务指令，通过累积该子任务指令中包含对象对应的体素值来近似为任务成本；基于各所述子任务指令对应的任务成本，以最小化任务成本为目标规划机器人的运动轨迹；本发明专利技术可使机器人在更细粒度的动作级别进行操作。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，具体涉及一种基于多模态大模型的机器人控制方法。

技术介绍

1、目前机器人作为智能制造的重要组成部分，已经广泛应用于各行各业。但是大部分机器人都是通过示教过程实现生产制造的，编程简单快捷，不需要考虑复杂的轨迹规划，这样往往只能重复对固定位置的物体进行搬运或抓取，无法实现真正的智能化操作。随着工业智能化改造的不断深入，许多企业进行产线升级，逐渐将机器视觉技术引入工作任务中，将视觉系统作为机器人对外界环境感知的一种辅助定位系统，就像给工业机器人装上了眼睛，采集场景信息，由控制器进行处理、判断，进而完成对应的控制指令。

2、根据其所处的环境，机器人可分为普通机器人和特种机器人，其中特种机器人广泛应用于危险排除、拆弹排爆、消防救援、煤矿巡检等领域。这些任务通常在恶劣且具有高度重复性的条件下进行，因此采用机器人执行可使人员摆脱枯燥、危险和劳累的工作，同时提高工作效率，显著降低了人员伤亡和财产损失的风险。

3、智能防爆机器人是特种机器人的一种，专用于在危险环境中执行任务，特别是在可能发生爆炸或火灾等危险情境中，其任务范围包括救援、勘察、监测和处理危险物质等。这类机器人在应对危险情况时发挥着关键作用，不仅能够代替人工进入高风险区域，还能够执行复杂的任务，为人们创造了更安全、更高效的工作环境。通过智能防爆机器人的应用，能够更有效地保护人们的生命安全，减轻人工劳动的负担，同时最大程度地减少潜在的灾害风险。

4、随着大语言模型(large language model，llm)和视觉语言模型

5、在相关技术中，公布号为cn117094419a的专利申请文献中提出一种面向多模态内容输出的大语言模型训练方法，该方法从输出端对大模型进行多模态对齐，通过在模型的输出层加入多个lora插件和门控选择器的组合实现端到端预训练和微调，使大语言模型具有原生的多模态生成能力，提高大语言模型在与人类进行交互时的效率；但这种方法缺少一种反馈，遇到无法执行的行动时，可能会一直错误地执行下去。

6、公布号为cn117207198a的专利申请文献中提出了一种机器人的任务规划方法，该方法首先接收输入的指令信息，并获取机器人当前采集到的多模态状态数据；然后根据指令信息和多模态状态数据进行任务分解和规划，得到指令信息对应的待执行任务序列；但该方案在将复杂指令分解成单步任务后就直接传递给机器人进行对应的函数控制，一般来说这种控制函数是需要预先定义好，如传递给函数起点和终点坐标来进行运动控制，属于点到点的轨迹，比较粗糙。

技术实现思路

1、本专利技术所要解决的技术问题在于如何使机器人在更细粒度的动作级别进行操作。

2、本专利技术通过以下技术手段解决上述技术问题的：

3、提出了一种基于多模态大模型的机器人控制方法，所述方法包括：

4、获取场景信息以及控制指令，并将所述控制指令分解为多个子任务指令；

5、检测每个所述子任务指令中所包含的目标对象对应的遮罩；

6、使用所述遮罩和所述场景信息重构场景和目标对象的点云，得到价值地图，所述价值地图包括体素值图和目标对象；

7、对于给定的子任务指令，通过累积该子任务指令中包含对象对应的体素值来近似为任务成本；

8、基于各所述子任务指令对应的任务成本，以最小化任务成本为目标规划机器人的运动轨迹。

9、进一步地，所述检测每个所述子任务指令中所包含的目标对象对应的遮罩，包括：

10、使用大模型词汇检测器获得每个所述子任务指令中包含的对象；

11、将各所述子任务指令中包含的对象的名词输入到通用目标分割网络中，获得目标对象对应的遮罩。

12、进一步地，所述场景信息包括场景图像的rgb信息和对应的深度信息；所述使用所述遮罩和所述场景信息重构场景和目标对象的点云，得到价值地图，包括：

13、使用所述遮罩和rgb-d信息观察结果重构场景和对象的点云，得到场景的体素值图和场景中的目标对象，组合为所述价值地图。

14、进一步地，所述体素值图的轨迹优化参数包括成本图、旋转图、夹具图及速度图，其中：

15、所述成本图表示从体素空间的离散化坐标映射到实值的成本；

16、所述旋转图表示任务目标相关的坐标的旋转图；

17、所述夹具图表示控制夹具的打开/关闭；

18、所述速度图表用于指定目标对象的速度。

19、进一步地，在所述使用所述遮罩和所述场景信息重构场景和目标对象的点云，得到价值地图之后，所述方法还包括：

20、对所述体素值图进行平滑处理，使所述体素值图变得密集。

21、进一步地，所述任务成本的公式表示为：

22、

23、式中，ftask为每个子任务指令对应的任务成本，是指在第j位置处目标对象e的离散化(x,y,z)位置，表示第i个子任务指令中包含的目标对象e的运动轨迹，v表示体素值图。

24、进一步地，所述基于各所述子任务指令对应的任务成本，以最小化任务成本为目标规划机器人的运动轨迹，包括：

25、基于各所述子任务指令对应的任务成本，构建每个所述子任务指令对应的优化问题：

26、

27、式中，ti是环境状态的演变，是机器人的轨迹，c(ti)表示相关的动力学和运动学约束，ftask表示评估ti完成子任务指令li的程度，fcintrol表示控制成本；

28、求解所述优化问题，确定机器人的运动轨迹。

29、进一步地，所述求解所述优化问题，确定机器人的运动轨迹，包括：

30、使用贪心算法求解所述优化问题，搜索找到一系列无碰撞的末端执行器位置；

31、在每个末端执行器位置，通过其余位置的体素值强制执行体素值图的轨迹优化参数，合成6-dof轨迹；

32、基于所述6-dof轨迹，执行第一个路径点后以设定频率重新规划一个新轨迹作为所述运动轨迹。

33、进一步地，在所述基于各所述子任务指令对应的任务成本，以最小化任务成本为目标规划机器人的运动轨迹之后，所述方法还包括：

34、基于所述运动轨迹控制，使用rrt算法控制所述机器人运动；

35、若机器人完成任务则流程结束；

36、若机器人未完成任务则接收机器人反馈的无法执行的动作状态。

37、进一步地，在机器人在状态si执行子任务指令li时，未能按照预期状态转移到状态si+1时，所述方法还包括：

38、机器人回到状态si，并基本文档来自技高网...

【技术保护点】

1.一种基于多模态大模型的机器人控制方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于多模态大模型的机器人控制方法，其特征在于，所述检测每个所述子任务指令中所包含的目标对象对应的遮罩，包括：

3.如权利要求1所述的基于多模态大模型的机器人控制方法，其特征在于，所述场景信息包括场景图像的RGB信息和对应的深度信息；所述使用所述遮罩和所述场景信息重构场景和目标对象的点云，得到价值地图，包括：

4.如权利要求1所述的基于多模态大模型的机器人控制方法，其特征在于，所述体素值图的轨迹优化参数包括成本图、旋转图、夹具图及速度图，其中：

5.如权利要求1所述的基于多模态大模型的机器人控制方法，其特征在于，在所述使用所述遮罩和所述场景信息重构场景和目标对象的点云，得到价值地图之后，所述方法还包括：

6.如权利要求1所述的基于多模态大模型的机器人控制方法，其特征在于，所述任务成本的公式表示为：

7.如权利要求1所述的基于多模态大模型的机器人控制方法，其特征在于，所述基于各所述子任务指令对应的任务成本，以最小化任务成本

8.如权利要求7所述的基于多模态大模型的机器人控制方法，其特征在于，所述求解所述优化问题，确定机器人的运动轨迹，包括：

9.如权利要求1所述的基于多模态大模型的机器人控制方法，其特征在于，在所述基于各所述子任务指令对应的任务成本，以最小化任务成本为目标规划机器人的运动轨迹之后，所述方法还包括：

10.如权利要求1或9所述的基于多模态大模型的机器人控制方法，其特征在于，在机器人在状态si执行子任务指令li时，未能按照预期状态转移到状态si+1时，所述方法还包括：

...

【技术特征摘要】

1.一种基于多模态大模型的机器人控制方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于多模态大模型的机器人控制方法，其特征在于，所述检测每个所述子任务指令中所包含的目标对象对应的遮罩，包括：

3.如权利要求1所述的基于多模态大模型的机器人控制方法，其特征在于，所述场景信息包括场景图像的rgb信息和对应的深度信息；所述使用所述遮罩和所述场景信息重构场景和目标对象的点云，得到价值地图，包括：

4.如权利要求1所述的基于多模态大模型的机器人控制方法，其特征在于，所述体素值图的轨迹优化参数包括成本图、旋转图、夹具图及速度图，其中：

6....

【专利技术属性】
技术研发人员：梁斌，刘厚德，赵明，兰斌，梁论飞，
申请(专利权)人：江淮前沿技术协同创新中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人