当前位置: 首页 > 专利查询>天津大学专利>正文

基于深度强化学习和区域平衡的多机器人任务规划方法技术

技术编号:39154707 阅读:12 留言:0更新日期:2023-10-23 15:00
本发明专利技术提供了一种基于深度强化学习和区域平衡的多机器人任务规划方法。该方法包括:生成用于单机器人焊接路径规划模型训练的样本数据集,构建基于深度神经网络的单机器人焊接路径规划模型;利用训练样本数据集并通过强化学习对单机器人焊接路径规划模型进行训练,得到训练完成的单机器人焊接路径规划模型;利用区域平衡方法将焊接任务区域划分为多个焊接子区域,将多个焊接子区域分配给多个焊接机器人;每个焊接机器人根据所负责的焊接子区域,通过训练完成的单机器人焊接路径规划模型得到所负责焊接子区域的焊接任务规划结果;每个焊接机器人根据自身的焊接任务规划结果对所负责的焊接子区域进行焊接操作,进而完成整个焊接任务区域的焊接作业。个焊接任务区域的焊接作业。个焊接任务区域的焊接作业。

【技术实现步骤摘要】
基于深度强化学习和区域平衡的多机器人任务规划方法


[0001]本专利技术涉及多机器人协作任务规划
,特别是涉及一种基于深度强化学习和区域平衡的多机器人任务规划方法以及电子设备。

技术介绍

[0002]汽车焊装是工业机器人应用的重要场景之一,整车焊装生产线具有数百台机器人进行协同焊装,多机器人焊接工艺规划严重影响整车制造成本与生产效率。为优化配置机器人资源,提高车身制造的效率和质量,须对机器人焊接任务合理规划,将诸多焊点分配给各焊接机器人,并进行有序焊接。然而,多机器人焊接任务规划包括多机器人焊接任务分配、单机器人焊接次序规划等多重 NP

Hard 子问题,是一个高度耦合的优化问题。
[0003]目前多数工厂采用专家调优的方法进行多机器人任务规划,机器人轨迹由人工示教编程完成,该方法存在生产成本高、环境适应能力差等缺陷,而且难以保证同一工位中机器人运动时间平衡,故在生产过程中,机器人等待时间较长。目前的研究通常采用蚁群算法、粒子群算法和遗传算法等传统智能算法,在面对焊点数量众多的大型构件时,难以获得高效的优化结果,导致机器人运行时间长,生产效率低等问题。因此,多机器人任务规划问题是整车焊装工艺规划中的重要挑战之一。

技术实现思路

[0004]鉴于上述问题,本专利技术提供了一种基于深度强化学习和区域平衡的多机器人任务规划方法,以期至少能够解决上述问题之一。
[0005]根据本专利技术的第一个方面,提供了一种基于深度强化学习和区域平衡的多机器人任务规划方法,包括:生成用于单机器人焊接路径规划模型训练的样本数据集,并构建基于深度神经网络的单机器人焊接路径规划模型;利用样本数据集并通过强化学习对单机器人焊接路径规划模型进行训练,得到训练完成的单机器人焊接路径规划模型;利用区域平衡方法将焊接任务区域划分为多个焊接子区域,并将多个焊接子区域分配给多个焊接机器人,其中,每个焊接机器人负责一个焊接子区域;每个焊接机器人根据所负责的焊接子区域,通过训练完成的单机器人焊接路径规划模型得到所负责焊接子区域的焊接任务规划结果;每个焊接机器人根据自身的焊接任务规划结果对所负责的焊接子区域进行焊接操作,进而完成整个焊接任务区域的焊接作业。
[0006]根据本专利技术的实施例,上述生成用于单机器人焊接路径规划模型训练的样本数据集,并构建基于深度神经网络的单机器人焊接路径规划模型包括:在预设尺度的二维平面上生成多组数据集,每个数据集包含多个节点,其中,每个数据集中的第一个节点为焊接机器人的位置坐标,每个数据集中的其余节点为焊点的位置
坐标,将多组数据集作为单机器人焊接路径规划模型训练的样本数据集;单机器人焊接路径规划模型采用基于深度神经网络的编码器

解码器结构,焊接机器人依据解码器的输出确定要进行焊接操作的焊点排序。
[0007]根据本专利技术的实施例,上述编码器执行以下功能:将数据集作为编码器的输入,利用图注意力网络模块计算数据集中每个节点与其多个邻域节点之间的注意力系数,并将多个邻域节点的注意力系数进行加权求和,并将加权求和结果作为数据集中每个节点的特征向量并进行输出。
[0008]根据本专利技术的实施例,上述解码器包括执行以下功能:将数据集中所有节点的特征向量的最大值作为全局嵌入向量,并将数据集中每个节点的特征向量和全局嵌入向量作为解码器的输入,利用解码器的策略网络模块计算数据集中第二个节点到最后一个节点被访问的概率,将数据集中第二个节点到最后一个节点被访问的概率作为焊点被访问的概率,并将焊点被访问的概率作为解码器的输出。
[0009]根据本专利技术的实施例,上述利用解码器的策略网络模块计算数据集中第二个节点到最后一个节点被访问的概率包括:将全局嵌入向量、数据集中第一个节点的特征向量进行拼接以便组成图上下文嵌入向量,利用图上下文嵌入向量和数据集中第二个节点到最后一个节点的特征向量,通过多头注意力机制重新构造图上下文嵌入向量;利用重新构造的图上下文嵌入向量和数据集中第二个节点到最后一个节点的特征向量,通过单头注意力机制计算数据集中第二个节点到最后一个节点被访问的概率。
[0010]根据本专利技术的实施例,上述焊接机器人依据解码器的输出确定要进行焊接操作的焊点排序包括:将焊点被访问的概率由大到小排序,焊接机器人依据排序对焊点进行焊接操作。
[0011]根据本专利技术的实施例,上述利用样本数据集并通过强化学习对单机器人焊接路径规划模型进行训练,得到训练完成的单机器人焊接路径规划模型包括:利用预设的损失函数和预设的奖励函数并通过带基准的强化学习算法对单机器人焊接路径规划模型进行训练,直到满足预设的训练迭代次数,得到训练完成的单机器人焊接路径规划模型。
[0012]根据本专利技术的实施例,上述利用区域平衡方法将焊接任务区域划分为多个焊接子区域,并将多个焊接子区域分配给多个焊接机器人包括:将焊接任务区域内的焊点根据纵坐标的大小进行排序,并根据排序结果和预设的水平划分条件,对焊接任务区域进行水平划分,得到多个水平子区域;将水平子区域内的焊点根据横坐标的大小进行排序,并根据排序结果和预设的垂直划分条件依次对多个水平子区域进行垂直划分,得到多个焊接子区域;将多个焊接子区域分配给多个焊接机器人。
[0013]根据本专利技术的实施例,上述预设的水平划分条件包括:在焊接任务区域内焊点的数量为奇数的情况下,初始的水平划分线的纵坐标为第(n+1)/2个焊点的纵坐标;在焊接任务区域内焊点的数量为偶数的情况下,初始的水平划分线的纵坐标为第n/2个焊点的纵坐标;
预设的垂直划分条件包括:在水平子区域内焊点的数量为奇数的情况下,初始的垂直划分线的横坐标为第(n+1)/2个焊点的横坐标;在水平子区域内焊点的数量为偶数的情况下,初始的垂直划分线的横坐标为第n/2个焊点的横坐标。
[0014]根据本专利技术的第二个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行基于深度强化学习和区域平衡的多机器人任务规划方法。
[0015]本专利技术提供的上述基于深度强化学习和区域平衡的多机器人任务规划方法通过结合深度强化学习和区域平衡算法,能够处理巨大作业区域和海量作业点的任务规划问题,提高了多机器人任务规划的效率和准确性,为求解组合优化问题提供一种全新的思路。此外,深度强化学习方法通过训练神经网络模型对给定的算例构造出符合要求的解,且模型对不同规模的算例具有很好的泛化能力,减小了对特定问题和特定领域知识的依赖程度;区域平衡方法减小了问题求解的复杂性,加快了任务规划问题的求解速度。
附图说明
[0016]图1是根据本专利技术实施例的基于深度强化学习和区域平衡的多机器人任务规划方法的流程图;图2是根据本专利技术实施例的单机器人焊接路径规划模型的结构示意图;图3是根据本专利技术实施例的焊接作业区域分配方法的流程图;图4是根据本专利技术实施例的汽车装配件焊点分布示意图;图5是根据本专利技术实施例的多机器人焊接任务规本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习和区域平衡的多机器人任务规划方法,其特征在于,包括:生成用于单机器人焊接路径规划模型训练的样本数据集,并构建基于深度神经网络的单机器人焊接路径规划模型;利用所述样本数据集并通过强化学习对所述单机器人焊接路径规划模型进行训练,得到训练完成的单机器人焊接路径规划模型;利用区域平衡方法将焊接任务区域划分为多个焊接子区域,并将所述多个焊接子区域分配给多个焊接机器人,其中,每个焊接机器人负责一个所述焊接子区域;每个所述焊接机器人根据所负责的焊接子区域,通过所述训练完成的单机器人焊接路径规划模型得到所负责焊接子区域的焊接任务规划结果;每个所述焊接机器人根据自身的焊接任务规划结果对所负责的焊接子区域进行焊接操作,进而完成整个所述焊接任务区域的焊接作业。2.根据权利要求1所述的方法,其特征在于,生成用于单机器人焊接路径规划模型训练的样本数据集,并构建基于深度神经网络的单机器人焊接路径规划模型包括:在预设尺度的二维平面上生成多组数据集,每个数据集包含多个节点,其中,所述每个数据集中的第一个节点为焊接机器人的位置坐标,所述每个数据集中的其余节点为焊点的位置坐标,将所述多组数据集作为单机器人焊接路径规划模型训练的样本数据集;所述单机器人焊接路径规划模型采用基于深度神经网络的编码器

解码器结构,所述焊接机器人依据解码器的输出确定要进行焊接操作的焊点排序。3.根据权利要求2所述的方法,其特征在于,所述编码器执行以下功能:将所述数据集作为编码器的输入,利用图注意力网络模块计算所述数据集中每个节点与其多个邻域节点之间的注意力系数,并将多个邻域节点的注意力系数进行加权求和,并将加权求和结果作为所述数据集中每个节点的特征向量并进行输出。4.根据权利要求2所述的方法,其特征在于,所述解码器包括执行以下功能:将所述数据集中所有节点的特征向量的最大值作为全局嵌入向量,并将所述数据集中每个节点的特征向量和所述全局嵌入向量作为所述解码器的输入,利用所述解码器的策略网络模块计算所述数据集中第二个节点到最后一个节点被访问的概率,将所述数据集中第二个节点到最后一个节点被访问的概率作为焊点被访问的概率,并将所述焊点被访问的概率作为解码器的输出。5.根据权利要求4所述的方法,其特征在于,利用所述解码器的策略网络模块计算所述数据集中第二个节点到最后一个节点被访问的概率包括:将所述全局嵌入向量、所述数据集...

【专利技术属性】
技术研发人员:穆朝絮张俊楠王珂张勇周三平高泽华唐卓姜泽武
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1