基于多模态大模型的具身智能任务规划器训练方法及系统技术方案

技术编号:41359096 阅读:89 留言:0更新日期:2024-05-20 10:09
本申请涉及具身智能的领域,并公开了一种基于多模态大模型的具身智能任务规划器训练方法,包括以下步骤:对多个具身领域原始数据集的重新格式化,数据集格式为图像‑文本‑机器人动作轨迹对;简明具身规划数据的输出,使得具身规划数据的粒度统一;将具身任务规划问题形式化;将重复使用可用信息不断推理的过程表示在行为树上进行搜索。本申请解决了现有技术中具身智能任务规划缺乏与环境的反馈机制,且对于多模态信息的利用不足的技术问题,实现了在具身规划领域数据上的微调,模型能够基于领域内知识理解生成规划的机器人可执行性,提高了具身智能任务规划器的规划成功率。

【技术实现步骤摘要】

本申请涉及具身智能的领域,尤其是涉及基于多模态大模型的具身智能任务规划器训练方法及系统


技术介绍

1、具身智能是一种以物理机器人身体为基础的智能系统,通过与环境的互动实现感知和行动,该系统通过机器人智能体与周围环境的交互,获取信息、理解问题、做出决策并执行相应行动,从而展现出智能行为和适应性。具身智能任务规划是指将感知到的信息,包括任务指令、目标物体和当前场景,转化为适当的决策,并制定步骤规划,这一过程需要考虑机器人的执行能力以及环境中的变化,以确保规划的行动能够在实施中顺利执行。

2、目前常见的规划方法有利用搜索算法和启发式的层次化任务解耦算法,然而这两种做法都属于链式规划,容易陷入局部最优导致忽略全局最优路径,且上述两种规划方法都缺乏与环境的反馈机制,并对于多模态信息的利用不足。因此,让机器人基于当前环境情况做出更优规划,使得具身规划的可执行性更加可靠,仍然是一个巨大的挑战。


技术实现思路

1、本申请实施例通过提供基于多模态大模型的具身智能任务规划器训练方法及系统,解决了现有技术中具身智能任本文档来自技高网...

【技术保护点】

1.基于多模态大模型的具身智能任务规划器训练方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于多模态大模型的具身智能任务规划器训练方法,其特征在于,图像-文本-机器人动作轨迹对的数据集格式分别对应为一个具身智能任务的指令描述、机器人执行过程中的所有第一视角图像帧,以及对机器人行为每一个步骤的详尽描述。

3.如权利要求1所述的基于多模态大模型的具身智能任务规划器训练方法,其特征在于,行为树的每个节点是一个状态,该状态表示具有到目前为止的输入和中间步骤序列的部分解决方案,该状态表示为s=[x,z1...i],其中,根节点即为s=[x]表示问题输入,每一个中间...

【技术特征摘要】

1.基于多模态大模型的具身智能任务规划器训练方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于多模态大模型的具身智能任务规划器训练方法,其特征在于,图像-文本-机器人动作轨迹对的数据集格式分别对应为一个具身智能任务的指令描述、机器人执行过程中的所有第一视角图像帧,以及对机器人行为每一个步骤的详尽描述。

3.如权利要求1所述的基于多模态大模型的具身智能任务规划器训练方法,其特征在于,行为树的每个节点是一个状态,该状态表示具有到目前为止的输入和中间步骤序列的部分解决方案,该状态表示为s=[x,z1...i],其中,根节点即为s=[x]表示问题输入,每一个中间步骤zi是一个文本表述的单步可执行动作,如果状态s包含的zn为完成输入x要求所需的最后一个步骤,那么将所有中间步骤组合得到y=z1,...,zn,作为最终的任务规划步骤结果。

4.如权利要求3所述的基于多模态大模型的具身智能任务规划器训练方法,其特征在于,在生成行为树上的节点状态时,使用步骤生成器g(pθ,s,k),其中k为超参数,代表需要生成的中间步骤个数,在当前状态s下,通过对中间步骤可能性分布采样,得到k个可...

【专利技术属性】
技术研发人员:孙腾崔伊然董忠
申请(专利权)人:深圳若愚科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1