基于深度强化学习的多机械臂协同装配方法和系统技术方案

技术编号:26223285 阅读:30 留言:0更新日期:2020-11-04 10:55
本发明专利技术提供了一种基于深度强化学习的多机械臂协同装配方法和系统,包括:多源异构传感网络由机械臂本体信息、六分力传感器信号和深度相机信号构成,所述多源异构传感网络感知机械臂、零件和环境的状态信息,在服务器上构建策略模型,根据实时状态选择最优行为,并向控制器发送控制指令,控制各机械臂相互靠近、调整位姿以及定位装配,实现最大化奖励,完成智能化装配。本发明专利技术直接从高维原始数据中学习,是端到端的控制模式,并且对多模态传感信号进行融合表征,充分提取关键特征信息的同时降低样本的复杂性,提高样本的有效性。

【技术实现步骤摘要】
基于深度强化学习的多机械臂协同装配方法和系统
本专利技术涉及机械臂装配
,具体地,涉及一种基于深度强化学习的多机械臂协同装配方法和系统。尤其地,涉及一种基于深度强化学习的机械臂孔轴装配方法。
技术介绍
单件小批量的航空航天类产品要求生产线具备多品种、多自由度和高可靠性的个性化生产能力。多机械臂系统具有更高的负载能力和执行耦合任务的灵活性,人工神经网络具有较强的拟合非线性映射的能力。因此,将人工神经网络算法应用于多机械臂协同控制系统,有助于提高产品生产线的柔性、智能化和自适应能力,从而满足航空航天类及其类似产品的个性化生产需求。多机械臂协同装配是非嵌入式的、高维的和依赖多源传感输入的复杂控制任务。近五年来,结合深度学习在处理数据方面的优势和强化学习在决策控制方面的优势而诞生的深度强化学习,在很多类似多机械臂协同装配的复杂任务中表现出了与人类水平接近的能力,尤其表现在使用未经处理的像素信号作为输入的许多ATARI视频游戏。因此,本专利技术使用深度强化学习来解决多机械臂协同装配任务的控制问题。专利文献CN109543823A(申请号:201811454906.5)公开了一种基于多模信息描述的柔性装配系统及方法,包括:在机械臂末端零部件与待装配零部件未接触阶段,通过视觉引导将机械臂快速定位在目标位置附近,实现视觉引导粗定位;当机械臂末端零部件与待装配零部件接触后,借助力觉信息和机械臂自身的参数,形成装配状态的多模信息描述,基于深度强化学习方法进行姿态调整,实现装配零部件的力觉调姿精装配。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种基于深度强化学习的多机械臂协同装配方法和系统。根据本专利技术提供的基于深度强化学习的多机械臂协同装配方法,包括:步骤1:利用多源异构传感网络从环境中采集状态信息;步骤2:对状态信息进行特征提取,得到抽象特征;步骤3:对抽象特征进行融合表征;步骤4:将融合表征后的抽象特征作为神经网络的输入参数进行训练,得到策略模型;步骤5:策略模型为从状态空间到动作空间的映射,根据输入的状态输出控制机械臂的控制指令;步骤6:根据控制指令,机械臂执行相应的动作后环境改变,将新的状态信息和奖励值反馈给机械臂用于修正策略模型;步骤7:修正一次策略模型的行为定义为一次交互,并将机械臂完成一次装配任务定义为一个回合,机械臂在一个回合中需要进行多次交互,直到满足终止条件;步骤8:满足终止条件后进入下一个回合,并记录上一个回合的奖励值总和,神经网络沿着最大化奖励值总和的梯度方向更新参数;步骤9:进行多个回合的迭代训练,深度确定性策略梯度算法收敛,多机械臂协同装配任务完成,得到的神经网络为用于控制机械臂协同完成装配任务的最优策略模型;所述多源异构传感网络由机械臂本体信息、六分力传感器信号和深度相机信号构成,所述多源异构传感网络感知机械臂、零件和环境的状态信息,在服务器上构建策略模型,根据实时状态选择最优行为,并向控制器发送控制指令,控制各机械臂相互靠近、调整位姿以及定位装配,实现最大化奖励,完成智能化装配。优选的,机械臂、六分力传感器和深度相机的传感数据是原始高维信号;所述深度相机信号包括RGB图像和深度图像;机械臂本体信息和六分力传感器信号依靠全连接神经网络进行特征提取,深度相机的图像信号依靠卷积神经网络进行特征提取;全连接神经网络和卷神经网络利用自编码器框架进行训练,收敛后进行特征提取。优选的,所述步骤3包括:构建表征神经网络,深度相机信号经过特征提取后,从表征神经网络的第一层神经元输入;机械臂本体信息和六分力传感器信号经过特征提取后,从表征神经网络的倒数第二个隐藏层输入。优选的,使用深度确定性策略梯度框架对代表策略模型的神经网络进行训练;策略模型选择的行为同时用于控制多个机械臂在操作空间的运动增量。优选的,所述步骤6包括:使用奖励重塑的方法,将机械臂在完成装配过程中的奖励细化,在每个状态都获得不同的奖励值,针对不同的装配使用相同的奖励函数。根据本专利技术提供的基于深度强化学习的多机械臂协同装配系统,包括:模块M1:利用多源异构传感网络从环境中采集状态信息;模块M2:对状态信息进行特征提取,得到抽象特征;模块M3:对抽象特征进行融合表征;模块M4:将融合表征后的抽象特征作为神经网络的输入参数进行训练,得到策略模型;模块M5:策略模型为从状态空间到动作空间的映射,根据输入的状态输出控制机械臂的控制指令;模块M6:根据控制指令,机械臂执行相应的动作后环境改变,将新的状态信息和奖励值反馈给机械臂用于修正策略模型;模块M7:修正一次策略模型的行为定义为一次交互,并将机械臂完成一次装配任务定义为一个回合,机械臂在一个回合中需要进行多次交互,直到满足终止条件;模块M8:满足终止条件后进入下一个回合,并记录上一个回合的奖励值总和,神经网络沿着最大化奖励值总和的梯度方向更新参数;模块M9:进行多个回合的迭代训练,深度确定性策略梯度算法收敛,多机械臂协同装配任务完成,得到的神经网络为用于控制机械臂协同完成装配任务的最优策略模型;所述多源异构传感网络由机械臂本体信息、六分力传感器信号和深度相机信号构成,所述多源异构传感网络感知机械臂、零件和环境的状态信息,在服务器上构建策略模型,根据实时状态选择最优行为,并向控制器发送控制指令,控制各机械臂相互靠近、调整位姿以及定位装配,实现最大化奖励,完成智能化装配。优选的,机械臂、六分力传感器和深度相机的传感数据是原始高维信号;所述深度相机信号包括RGB图像和深度图像;机械臂本体信息和六分力传感器信号依靠全连接神经网络进行特征提取,深度相机的图像信号依靠卷积神经网络进行特征提取;全连接神经网络和卷神经网络利用自编码器框架进行训练,收敛后进行特征提取。优选的,所述模块M3包括:构建表征神经网络,深度相机信号经过特征提取后,从表征神经网络的第一层神经元输入;机械臂本体信息和六分力传感器信号经过特征提取后,从表征神经网络的倒数第二个隐藏层输入。优选的,使用深度确定性策略梯度框架对代表策略模型的神经网络进行训练;策略模型选择的行为同时用于控制多个机械臂在操作空间的运动增量。优选的,所述模块M6包括:使用奖励重塑的方法,将机械臂在完成装配过程中的奖励细化,在每个状态都获得不同的奖励值,针对不同的装配使用相同的奖励函数。与现有技术相比,本专利技术具有如下的有益效果:1、本专利技术直接从高维原始数据中学习,是端到端的控制模式,并且对多模态传感信号进行融合表征,充分提取关键特征信息的同时降低样本的复杂性,提高样本的有效性;2、本专利技术引入神经网络,能充分逼近复杂的非线性映射关系;3、本专利技术结合了深度学习的感知能力和强化学习的决策能力,更接近人类思维方式,对未知的情况具备一定的容错决策和纠正优化能力本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的多机械臂协同装配方法,其特征在于,包括:/n步骤1:利用多源异构传感网络从环境中采集状态信息;/n步骤2:对状态信息进行特征提取,得到抽象特征;/n步骤3:对抽象特征进行融合表征;/n步骤4:将融合表征后的抽象特征作为神经网络的输入参数进行训练,得到策略模型;/n步骤5:策略模型为从状态空间到动作空间的映射,根据输入的状态输出控制机械臂的控制指令;/n步骤6:根据控制指令,机械臂执行相应的动作后环境改变,将新的状态信息和奖励值反馈给机械臂用于修正策略模型;/n步骤7:修正一次策略模型的行为定义为一次交互,并将机械臂完成一次装配任务定义为一个回合,机械臂在一个回合中需要进行多次交互,直到满足终止条件;/n步骤8:满足终止条件后进入下一个回合,并记录上一个回合的奖励值总和,神经网络沿着最大化奖励值总和的梯度方向更新参数;/n步骤9:进行多个回合的迭代训练,深度确定性策略梯度算法收敛,多机械臂协同装配任务完成,得到的神经网络为用于控制机械臂协同完成装配任务的最优策略模型;/n所述多源异构传感网络由机械臂本体信息、六分力传感器信号和深度相机信号构成,所述多源异构传感网络感知机械臂、零件和环境的状态信息,在服务器上构建策略模型,根据实时状态选择最优行为,并向控制器发送控制指令,控制各机械臂相互靠近、调整位姿以及定位装配,实现最大化奖励,完成智能化装配。/n...

【技术特征摘要】
1.一种基于深度强化学习的多机械臂协同装配方法,其特征在于,包括:
步骤1:利用多源异构传感网络从环境中采集状态信息;
步骤2:对状态信息进行特征提取,得到抽象特征;
步骤3:对抽象特征进行融合表征;
步骤4:将融合表征后的抽象特征作为神经网络的输入参数进行训练,得到策略模型;
步骤5:策略模型为从状态空间到动作空间的映射,根据输入的状态输出控制机械臂的控制指令;
步骤6:根据控制指令,机械臂执行相应的动作后环境改变,将新的状态信息和奖励值反馈给机械臂用于修正策略模型;
步骤7:修正一次策略模型的行为定义为一次交互,并将机械臂完成一次装配任务定义为一个回合,机械臂在一个回合中需要进行多次交互,直到满足终止条件;
步骤8:满足终止条件后进入下一个回合,并记录上一个回合的奖励值总和,神经网络沿着最大化奖励值总和的梯度方向更新参数;
步骤9:进行多个回合的迭代训练,深度确定性策略梯度算法收敛,多机械臂协同装配任务完成,得到的神经网络为用于控制机械臂协同完成装配任务的最优策略模型;
所述多源异构传感网络由机械臂本体信息、六分力传感器信号和深度相机信号构成,所述多源异构传感网络感知机械臂、零件和环境的状态信息,在服务器上构建策略模型,根据实时状态选择最优行为,并向控制器发送控制指令,控制各机械臂相互靠近、调整位姿以及定位装配,实现最大化奖励,完成智能化装配。


2.根据权利要求1所述的基于深度强化学习的多机械臂协同装配方法,其特征在于,机械臂、六分力传感器和深度相机的传感数据是原始高维信号;
所述深度相机信号包括RGB图像和深度图像;
机械臂本体信息和六分力传感器信号依靠全连接神经网络进行特征提取,深度相机的图像信号依靠卷积神经网络进行特征提取;
全连接神经网络和卷神经网络利用自编码器框架进行训练,收敛后进行特征提取。


3.根据权利要求1所述的基于深度强化学习的多机械臂协同装配方法,其特征在于,所述步骤3包括:构建表征神经网络,深度相机信号经过特征提取后,从表征神经网络的第一层神经元输入;机械臂本体信息和六分力传感器信号经过特征提取后,从表征神经网络的倒数第二个隐藏层输入。


4.根据权利要求1所述的基于深度强化学习的多机械臂协同装配方法,其特征在于,使用深度确定性策略梯度框架对代表策略模型的神经网络进行训练;
策略模型选择的行为同时用于控制多个机械臂在操作空间的运动增量。


5.根据权利要求1所述的基于深度强化学习的多机械臂协同装配方法,其特征在于,所述步骤6包括:使用奖励重塑的方法,将机械臂在完成装配过程中的奖励细化,在每个状态都获得不同的奖励值,针对不同的装配使用相同的奖励函数。


...

【专利技术属性】
技术研发人员:乐心怡李霏马国财方晓猛李钧正庞栋
申请(专利权)人:上海交通大学北京电子工程总体研究所
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1