基于深度强化学习和区域平衡的多机器人任务规划方法技术

技术编号：39154707 阅读：12 留言：0更新日期：2023-10-23 15:00

本发明专利技术提供了一种基于深度强化学习和区域平衡的多机器人任务规划方法。该方法包括：生成用于单机器人焊接路径规划模型训练的样本数据集，构建基于深度神经网络的单机器人焊接路径规划模型；利用训练样本数据集并通过强化学习对单机器人焊接路径规划模型进行训练，得到训练完成的单机器人焊接路径规划模型；利用区域平衡方法将焊接任务区域划分为多个焊接子区域，将多个焊接子区域分配给多个焊接机器人；每个焊接机器人根据所负责的焊接子区域，通过训练完成的单机器人焊接路径规划模型得到所负责焊接子区域的焊接任务规划结果；每个焊接机器人根据自身的焊接任务规划结果对所负责的焊接子区域进行焊接操作，进而完成整个焊接任务区域的焊接作业。个焊接任务区域的焊接作业。个焊接任务区域的焊接作业。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习和区域平衡的多机器人任务规划方法

[0001]本专利技术涉及多机器人协作任务规划
，特别是涉及一种基于深度强化学习和区域平衡的多机器人任务规划方法以及电子设备。

技术介绍

[0002]汽车焊装是工业机器人应用的重要场景之一，整车焊装生产线具有数百台机器人进行协同焊装，多机器人焊接工艺规划严重影响整车制造成本与生产效率。为优化配置机器人资源，提高车身制造的效率和质量，须对机器人焊接任务合理规划，将诸多焊点分配给各焊接机器人，并进行有序焊接。然而，多机器人焊接任务规划包括多机器人焊接任务分配、单机器人焊接次序规划等多重 NP
‑
Hard 子问题，是一个高度耦合的优化问题。
[0003]目前多数工厂采用专家调优的方法进行多机器人任务规划，机器人轨迹由人工示教编程完成，该方法存在生产成本高、环境适应能力差等缺陷，而且难以保证同一工位中机器人运动时间平衡，故在生产过程中，机器人等待时间较长。目前的研究通常采用蚁群算法、粒子群算法和遗传算法等传统智能算法，在面对焊点数量众多的大型构件时，难以获得高效的优化结果，导致机器人运行时间长，生产效率低等问题。因此，多机器人任务规划问题是整车焊装工艺规划中的重要挑战之一。

技术实现思路

[0004]鉴于上述问题，本专利技术提供了一种基于深度强化学习和区域平衡的多机器人任务规划方法，以期至少能够解决上述问题之一。
[0005]根据本专利技术的第一个方面，提供了一种基于深度强化学习和区域平衡的多机器人任务规划方法，包括：生...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习和区域平衡的多机器人任务规划方法，其特征在于，包括：生成用于单机器人焊接路径规划模型训练的样本数据集，并构建基于深度神经网络的单机器人焊接路径规划模型；利用所述样本数据集并通过强化学习对所述单机器人焊接路径规划模型进行训练，得到训练完成的单机器人焊接路径规划模型；利用区域平衡方法将焊接任务区域划分为多个焊接子区域，并将所述多个焊接子区域分配给多个焊接机器人，其中，每个焊接机器人负责一个所述焊接子区域；每个所述焊接机器人根据所负责的焊接子区域，通过所述训练完成的单机器人焊接路径规划模型得到所负责焊接子区域的焊接任务规划结果；每个所述焊接机器人根据自身的焊接任务规划结果对所负责的焊接子区域进行焊接操作，进而完成整个所述焊接任务区域的焊接作业。2.根据权利要求1所述的方法，其特征在于，生成用于单机器人焊接路径规划模型训练的样本数据集，并构建基于深度神经网络的单机器人焊接路径规划模型包括：在预设尺度的二维平面上生成多组数据集，每个数据集包含多个节点，其中，所述每个数据集中的第一个节点为焊接机器人的位置坐标，所述每个数据集中的其余节点为焊点的位置坐标，将所述多组数据集作为单机器人焊接路径规划模型训练的样本数据集；所述单机器人焊接路径规划模型采用基于深度神经网络的编码器
‑
解码器结构，所述焊接机器人依据解码器的输出确定要进行焊接操作的焊点排序。3.根据权利要求2所述的方法，其特征在于，所述编码器执行以下功能：将所述数据集作为编码器的输入，利用图注意力网络模块计算所述数据集中每个节点与其多个邻域节点之间的注意力系数，并将多个邻域节点的注意力系数进行加权求和，并将加权求和结果作为所述数据集中每个节点的特征向量并进行输出。4.根据权利要求2所述的方法，其特征在于，所述解码器包括执行以下功能：将所述数据集中所有节点的特征向量的最大值作为全局嵌入向量，并将所述数据集中每个节点的特征向量和所述全局嵌入向量作为所述解码器的输入，利用所述解码器的策略网络模块计算所述数据集中第二个节点到最后一个节点被访问的概率，将所述数据集中第二个节点到最后一个节点被访问的概率作为焊点被访问的概率，并将所述焊点被访问的概率作为解码器的输出。5.根据权利要求4所述的方法，其特征在于，利用所述解码器的策略网络模块计算所述数据集中第二个节点到最后一个节点被访问的概率包括：将所述全局嵌入向量、所述数据集...

【专利技术属性】
技术研发人员：穆朝絮，张俊楠，王珂，张勇，周三平，高泽华，唐卓，姜泽武，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人