当前位置: 首页 > 专利查询>清华大学专利>正文

多机器人在线任务分配和执行方法、装置及存储介质制造方法及图纸

技术编号:35488118 阅读:27 留言:0更新日期:2022-11-05 16:42
本公开提供的多机器人在线任务分配和执行方法、装置及存储介质,包括:预训练阶段,构建场景编码模型,将其与分类模型连接,训练场景编码模型以将场景内的语义图进行编码,并在编码中保留位置和语义信息;训练阶段,构建多机器人任务分配和执行模型,对其训练,使之根据任务语言指令和多机器人的视觉观测图像进行动态任务分解和分配,使多机器人协作完成指定任务;测试阶段,给定任务语言指令,多机器人任务分配和执行模型根据该指令和机器人的视觉观测图像在每一步对任务进行动态分解和分配,并为各机器人生成下一步导航的子目标,使多机器人协同完成任务。本公开可推理出语言指令中隐含的信息,对指定任务进行动态分配,并由多机器人协作完成。由多机器人协作完成。由多机器人协作完成。

【技术实现步骤摘要】
多机器人在线任务分配和执行方法、装置及存储介质


[0001]本公开实施例属于多智能体协同感知领域,特别涉及多机器人在线任务分配和执行方法、装置及存储介质。

技术介绍

[0002]多机器人任务规划是一项非常重要的任务,在多机器人任务规划过程中,一个复杂的任务需要被分解成若干具有一定时序关系的子任务,分解得到的子任务被分配给多个不同的机器人,再由多个机器人协同执行各个子任务进而完成给定的复杂任务。多机器人任务规划包含任务分解、任务分配和任务调度过程。目前,已有研究者通过预训练的自然语言模型来解决基于自然语言指令的任务分解问题,提出基于博弈论的协商算法或者最优化方法来解决任务分配问题,使用集群算法来解决任务调度问题。现有的相关研究大多单独解决任务分解、任务分配和任务调度问题,没有考虑综合解决上述问题,现有方法并不能直接应用于复杂的基于语言指令和视觉感知的多机器人任务规划问题。
[0003]多机器人任务规划任务是很重要的任务,在多机器人任务规划在智能服务、工业制造、军事等领域都具有很重要的应用价值。同时,在实际场景中的多机器人任务规划问题还存在着很多挑战。首先,信息不完整的语言指令使得机器人难以直接完成对应的任务。在多机器人执行动作之前需要根据外部知识和现有视觉感知信息推理语言指令中隐含的目标物体才能继续完成任务,例如,对于指令“把书和报纸收起来”,需要根据已有常识和机器人现有的视觉感知信息将其补全为“把书和报纸收到书架上”,机器人才能正常执行任务。第二,在任务执行过程中需要进行动态的任务分解。由于多个机器人能够获取的视觉感知信息是有限的,初始的推理和任务分解结果可能是不正确的,当经过多个机器人对环境的探索后发现当前场景中不存在之前推理出的物体时,此时需要对指令中隐含的物体进行重新推理并对任务进行重新分解。第三,在任务执行过程中需要进行动态的任务分配。由于多个机器人初始时的视觉感知信息有限,其最初的任务分配结果可能是不正确的,机器人执行若干步动作后根据新获得的视觉感知信息发现其距离其他子任务中的目标物体更近,此时重新分配各个机器人执行的子任务以提升多机器人完成任务的效率。

技术实现思路

[0004]本公开旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]为此,本公开第一方面实施例提供的多机器人在线任务分配和执行方法,可实现多个机器人协作完成由语言指令给出的指定任务,根据各个机器人的实时视觉感知信息对指定任务进行动态任务分解和分配,使得多个机器人能够彼此协作并且用尽量短的时间完成指定任务。本公开第一方面实施例提供的多机器人在线任务分配和执行方法,包括:
[0006]预训练阶段:获取预训练数据,每条所述预训练数据包含位置、问题和正确回答;构建场景编码模型,所述场景编码模型以机器人的视觉感知信息作为输入,以编码后的语义图向量作为输出;构建分类模型,所述分类模型以所述编码后的语义图向量和对应所述
预训练数据的问题作为输入,以所述问题的预测回答作为输出,将所述场景编码模型与所述分类模型连接,使用所述预训练数据训练所述场景编码模型以对场景内的语义图进行编码,并且在编码中保留相应的位置和语义信息,得到预训练完毕的场景编码模型;
[0007]训练阶段:生成训练数据,每条所述训练数据包含场景编号、任务语言指令和场景内所有机器人的初始化位置,所述任务语言指令根据场景内存在的物体类型、物体可被执行的动作类型和对应的被操作物体生成,所述所有机器人的初始化位置根据所述任务语言指令中包含的物体位置生成;针对每条所述训练数据,分别生成专家示范结果,每个所述专家示范结果包含任务分解结果、任务分配结果和各机器人在每一时刻执行的动作;构建含有所述预训练完毕的场景编码模型的多机器人任务分配和执行模型,所述多机器人任务分配和执行模型以所述任务语言指令和各机器人当前的视觉感知信息作为输入,以各机器人下一步执行动作的子目标作为输出;使用所述训练数据和所述专家示范结果对所述多机器人任务分配和执行模型进行训练,训练其进行任务分解和分配以及动作子目标生成的能力,得到训练完毕的多机器人任务分配和执行模型;
[0008]测试阶段,所述训练完毕的多机器人任务分配和执行模型根据待测试任务语言指令和各机器人的视觉感知信息在每一步对操作任务进行动态分解和分配,并且为每个机器人生成下一步动作的子目标,使多个机器人协同完成操作任务。
[0009]本公开第一方面实施例提供的多机器人在线任务分配和执行方法,具有以下特点及有益效果:
[0010]1、本公开第一方面实施例提供的多机器人在线任务分配和执行方法,实现了动态的任务规划,根据多个机器人在运动过程中的视觉感知信息对任务进行动态的分解和分配,使得任务分配结果更为合理,多个机器人能够以更快的速度完成指定任务。
[0011]2、本公开第一方面实施例提供的多机器人在线任务分配和执行方法,实现了多个机器人协作感知环境和完成任务,与单机器人相比显著提升了完成任务的效率和成功率。
[0012]3、本公开第一方面实施例提供的多机器人在线任务分配和执行方法,在多机器人执行任务的过程中使用语义信息进行环境感知,引入子目标预测模型进行导航规划,更好得弥合了仿真环境和真实环境中的差异,使得模型能够更好的迁移至真实环境中,更具有实际意义。
[0013]4、本公开第一方面实施例提供的多机器人在线任务分配和执行方法可以应用于机器人领域,例如多个智能服务机器人根据人给出的自然语言指令自动完成任务分配,并且相互协作快速完成指定任务。
[0014]在一些实施例中,预训练阶段,所述问题的形式为“某一个子区域内是否存在某类物体”,根据场景中已知的物体分布获取所述问题的正确回答,为“是”或者“不是”,其中,所述子区域是所述场景内的任意一个空间区域。
[0015]在一些实施例中,预训练阶段,所述场景编码模型包括语义分割网络和由若干卷积层构成的编码网络,所述分类模型由一个全连接层构成,按照以下步骤对所述场景编码模型和所述分类模型进行预训练:
[0016]对于获取的所述预训练数据中的每一个位置,从场景中获取该位置下所有机器人的视觉感知信息,使用所述语义分割网络对所述视觉感知信息进行语义分割并且生成对应的语义点云数据,对所述语义点云数据进行体素化,得到一个维度为C
×
M
×
M的自顶向下的
语义图表示,其中,C为整个环境中包含的物体种类的总数量,M为体素化后语义图表示的边长;将所述语义图表示输入所述编码网络,得到S维的语义图向量,记第j个预训练数据得到的编码后的语义图向量为V
(j)
,j∈[1,P],P为所述预训练数据的总条数;将所述编码后的语义图向量V
(j)
输入所述分类模型,得到对第j个预训练数据中问题的预测回答Pre
(j)

[0017]设置第一损失函数Loss1来约束所述场景编码模型的预训练过程,公式如下:
[0018]Loss1=BiCrossEntroy(G本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多机器人在线任务分配和执行方法,其特征在于,包括:预训练阶段:获取预训练数据,每条所述预训练数据包含位置、问题和正确回答;构建场景编码模型,所述场景编码模型以机器人的视觉感知信息作为输入,以编码后的语义图向量作为输出;构建分类模型,所述分类模型以所述编码后的语义图向量和对应所述预训练数据的问题作为输入,以所述问题的预测回答作为输出,将所述场景编码模型与所述分类模型连接,使用所述预训练数据训练所述场景编码模型以对场景内的语义图进行编码,并且在编码中保留相应的位置和语义信息,得到预训练完毕的场景编码模型;训练阶段:生成训练数据,每条所述训练数据包含场景编号、任务语言指令和场景内所有机器人的初始化位置,所述任务语言指令根据场景内存在的物体类型、物体可被执行的动作类型和对应的被操作物体生成,所述所有机器人的初始化位置根据所述任务语言指令中包含的物体位置生成;针对每条所述训练数据,分别生成专家示范结果,每个所述专家示范结果包含任务分解结果、任务分配结果和各机器人在每一时刻执行的动作;构建含有所述预训练完毕的场景编码模型的多机器人任务分配和执行模型,所述多机器人任务分配和执行模型以所述任务语言指令和各机器人当前的视觉感知信息作为输入,以各机器人下一步执行动作的子目标作为输出;使用所述训练数据和所述专家示范结果对所述多机器人任务分配和执行模型进行训练,训练其进行任务分解和分配以及动作子目标生成的能力,得到训练完毕的多机器人任务分配和执行模型;测试阶段,所述训练完毕的多机器人任务分配和执行模型根据待测试任务语言指令和各机器人的视觉感知信息在每一步对操作任务进行动态分解和分配,并且为每个机器人生成下一步动作的子目标,使多个机器人协同完成操作任务。2.根据权利要求1所述的多机器人在线任务分配和执行方法,其特征在于,预训练阶段,所述问题的形式为“某一个子区域内是否存在某类物体”,根据场景中已知的物体分布获取所述问题的正确回答,为“是”或者“不是”,其中,所述子区域是所述场景内的任意一个空间区域。3.根据权利要求1所述的多机器人在线任务分配和执行方法,其特征在于,预训练阶段,所述场景编码模型包括语义分割网络和由若干卷积层构成的编码网络,所述分类模型由一个全连接层构成,按照以下步骤对所述场景编码模型和所述分类模型进行预训练:对于获取的所述预训练数据中的每一个位置,从场景中获取该位置下所有机器人的视觉感知信息,使用所述语义分割网络对所述视觉感知信息进行语义分割并且生成对应的语义点云数据,对所述语义点云数据进行体素化,得到一个维度为C
×
M
×
M的自顶向下的语义图表示,其中,C为整个环境中包含的物体种类的总数量,M为体素化后语义图表示的边长;将所述语义图表示输入所述编码网络,得到S维的语义图向量,记第j个预训练数据得到的编码后的语义图向量为V
(j)
,j∈[1,P],P为所述预训练数据的总条数;将所述编码后的语义图向量V
(j)
输入所述分类模型,得到对第j个预训练数据中问题的预测回答Pre
(j)
;设置第一损失函数Loss1来约束所述场景编码模型的预训练过程,公式如下:Loss1=BiCrossEntroy(Gt,Pre)式中,Gt代表所有预训练数据的正确回答,Pre=[Pre
(1)
,...,Pre
(j)
,...,Pre
(P)
]代表对所有预训练数据中问题的预测回答,BiCrossEntroy代表二分类交叉熵损失函数;使用自适应动量优化方法更新所述场景编码模型和所述分类模型的参数,迭代训练若
干次直至达到设定上限次数后停止,得到预训练完毕的所述场景编码模型和所述分类模型,在后续阶段仅保留所述场景编码模型,用于生成所述编码后的语义图向量。4.根据权利要求1所述的多机器人在线任务分配和执行方法,其特征在于,训练阶段,生成所述任务语言指令时,针对每一类执行的动作,分别指定目标物体和容器,在每个场景中,根据场景内存在的物体类型、物体可被执行的动作类型和对应的容器类型,生成三类任务语言指令,每类任务语言指令均隐含一个容器类型,其中,第一类任务语言指令中包含一个动作和一个目标物体,需要推理出执行任务的容器;第二类任务语言指令包含一个动作和两个目标物体,这两个目标物体在执行该动作时的容器相同,需要推理出执行任务的共同容器;第三类任务语言指令包含两个动作和两个目标物体并且两个动作需要按顺序执行,需要推理出执行第一个动作的容器;对于每个场景中生成的每一条任务语言指令,生成所述所有机器人可行的初始化位置,规定每两个机器人之间的距离,以及不同机器人与同一个目标物体的距离差均大于第一设定值。5.根据权利要求4所述的多机器人在线任务分配和执行方法,其特征在于,训练阶段,所述多机器人任务分配和执行模型包括场景编码子模型、任务规划子模型、通信子模型和动作执行子模型;所述场景编码子模型采用预训练完毕的所述场景编码模型,所述场景编码子模型以机器人的当前视觉感知信息作为输入,以编码后的当前融合语义图向量作为输出;所述任务规划子模型,包括任务分解网络和任务分配网络,用于从所述任务语言指令中分解出待执行的子任务,并且将所述子任务分配给各个机器人,所述任务规划子模型以任务语言指令作为输入,以各机器人的任务分配结果作为输出;所述任务分解网络根据所述任务语言指令和各个机器人的所述当前融合语义图向量推理所述任务语言指令中隐含的容器类型,并根据所述任务语言指令的类型将任务分解为多个需要执行的子任务;所述任务分配网络根据各个机器人的所述当前融合语义图向量计算各个机器人与目标物体的预测距离,根据不同机器人与目标物体之间的预测距离将需要执行的子任务以子任务编码的形式分配给各个机器人;所述通信子模型,包括注意力机制网络、长短时记忆网络和多头注意力网络,用于处理多个机器人之间共享的信息;所述注意力机制网络和所述长短时记忆网络用于根据各个机器人的当前融合语义图向量、机器人执行的子任务编码和机器人上一步的动作编码生成各个机器人的当前状态编码,所述多头注意力网络用于根据各个机器人的当前状态编码和正在执行的子任务编码生成机器人间的通信信息;所述动作执行子模型,包括子目标预测网络和底层动作执行器,用于生成机器人每一步需要执行的动作,所述动作执行子模型以机器人当前的状态编码、正在执行的子任务编码、当前通信信息以及上一步执行的动作编码作为输入,以下一步执行的动作作为输出;所述子目标预测网络用于生成下一步导航的子目标;所述底层动作执行器根据所述下一步导航的子目标并利用最短路径或启发式搜索算法生成机器人由当前位置到达该子目标的动作序列。6.根据权利要求5所述的多机器人在线任务分配和执行方法,其特征在于,训练阶段,使用所述训练数据和所述专家示范结果对所述多机器人任务分配和执行模型进行迭代训
练,训练过程中,首先固定所述场景编码子模型的参数不变,训练所述任务规划子模型,然后固定所述场景编码子模型和所述任务规划子模型的参数不变,训练所述通信子模型和所述动作执行子模型,最终得到训练完毕的所述多机器人任务分配和执行模型;其中,设置第二损失函数Loss2来约束所述任务规划子模型的训练过程,并使用自适应动量优化方法更新所述任务分解网络和所述任务分配网络的参数,所述第二损失函数Loss2公式如下:Loss2=αLoss<...

【专利技术属性】
技术研发人员:刘华平刘馨竹李兴航郭迪张新钰
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1