一种基于深度强化学习与导纳控制的机器人轴孔装配方法组成比例

技术编号：36556035 阅读：16 留言：0更新日期：2023-02-04 17:10

本发明专利技术提供了一种基于深度强化学习与导纳控制的机器人轴孔装配方法，属于智能制造领域；本发明专利技术针对单轴孔搜孔阶段与多轴孔搜孔阶段，分别设计深度强化学习网络Ⅰ和深度强化学习网络Ⅱ来训练搜孔动作的输出，同时在此过程中加入搜孔先验知识，来提高深度强化学习网络的探索训练效率；针对单轴孔插孔阶段与多轴孔插孔阶段，设计基于深度强化学习网络Ⅲ的变导纳控制方法来实现机器人顺利的插孔，同时加入插孔先验知识，若状态为先验状态则直接输出机器人调整姿态，如不是则输入到深度强化学习网络Ⅲ进行训练，提高了机器人插孔的效率；采用本发明专利技术的技术方案，通过深度强化学习网络的训练，输出调整策略，可以控制机器人完成单轴孔与多轴孔的装配。与多轴孔的装配。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习与导纳控制的机器人轴孔装配方法

[0001]本专利技术涉及智能制造领域，更具体地，涉及一种基于深度强化学习与导纳控制的机器人装配方法。

技术介绍

[0002]随着智能制造技术的发展，机器人柔顺装配一直是工业机器人领域的研究重点与热点，但是高性能装配依然面临着许多困难，研究机器人柔顺轴孔装配方法，对机器人在整个装配领域的扩展有着极大的意义。在机器人柔顺轴孔装配领域，主要方法为三大类型：基于被动柔顺控制的装配方法、基于传统控制算法的柔顺装配方法、基于学习算法的机器人柔顺装配方法；基于被动柔顺控制的装配方法与基于传统控制算法的柔顺装配方法都需要对装配的接触模型进行复杂的分析或者进行动力学建模，而一些零件的动力学模型往往很复杂，这给装配算法的涉及带来了极大的困难；基于学习算法的机器人柔顺装配方法往往需要大量的训练数据，学习效率低，而且装配的鲁棒性不高。其次，对于多轴孔装配，装配过程中传统的搜孔与插孔阶段的控制算法，对于不同的装配环境的适应性差，效率低下，因而为了解决上述缺陷，提出一种基于深度强化学习与导纳控制的机器人装配方法。

技术实现思路

[0003]为了解决上述问题，本专利技术旨在公开一种基于深度强化学习与导纳控制的机器人装配方法，尤指一种基于深度强化学习算法对轴孔装配过程中的搜孔、插孔调整策略动作的探索与学习，以实现机器人柔顺装配。
[0004]为了实现上述目的，本专利技术所采用的技术方案主要包括以下过程：
[0005]步骤1、将机器人轴孔装配分为三个阶段：孔外自由近...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习与导纳控制的机器人轴孔装配方法，其特征在于，包括以下步骤：步骤1、将机器人轴孔装配分为三个阶段：孔外自由近孔阶段、孔边搜孔阶段、孔内插孔阶段；同时，区分机器人单轴孔装配与多轴孔装配的方法；步骤2、通过视觉定位的方式，对装配孔进行粗定位，控制机器人运动，使得机器人末端工件到达孔边的位置，机器人进入装配的孔边搜孔阶段；步骤3、孔边搜孔阶段中，首先设计基于人类搜孔经验的搜孔先验知识，预设先验状态与先验动作，组成先验知识记忆库，其次采集机器人的力/力矩信息与位姿信息，作为深度强化学习网络的输入，通过先验状态分类模型判断该输入是否为先验知识，若是，则直接输出相应的动作，如不是则输入到深度强化学习网络进行探索与训练，输出机器人位置或姿态的调整策略动作，使得机器人末端的工件能顺利的搜孔；分别构建针对单轴孔搜孔的深度强化学习网络I与针对多轴孔装配的深度强化学习网络II；步骤4、针对孔边搜孔阶段的深度强化学习网络，设计奖惩函数、训练回合数以及每个回合训练的最大步数；利用深度强化学习网络I与深度强化学习网络II分别对单轴孔搜孔与多轴孔搜孔进行探索训练，直至每回合的步数收敛以及奖励值也收敛；步骤5、孔内插孔阶段，在机械臂末端Z轴方向设定恒定的期望力，其余方向上的力与力矩都为0，同时使机器人末端朝着设定的期望位置运动，采集插孔过程中机器人末端力/力矩信息，将采集到的机器人末端力/力矩与设定的期望力做比较，得到实时的力偏差；将力偏差输入到导纳控制器中，经导纳控制算法计算，输出机器人末端工件的调整姿态；同时通过深度强化学习算法实时优化导纳控制参数，实现变导纳控制；步骤6、设计基于人类插孔经验的插孔先验知识记忆库，包括先验状态与先验经验值，通过构建分类器对深度强化学习网络的输入状态进行甄别，若输入状态为先验状态，则直接输出相对应的先验经验值，继而直接控制机器人工件末端运动；若输入状态不是先验状态，则送入深度强化学习网络中进行训练，得到导纳控制参数；定义需要训练的导纳控制参数，并且对导纳控制算法仿真，通过选择不同的导纳控制参数进行仿真，确定需要训练的导纳控制参数，预先确定导纳控制参数变化范围；步骤7、构建用于变导纳控制的可以输出连续动作的深度强化学习网络III，采集插孔过程中的力/力矩信号、位姿信号，作为深度强化学习的状态输入，深度强化学习网络的输出为导纳控制的参数；设计深度强化学习网络III的奖惩函数，训练回合数，每回合训练的最大步数；步骤8、在孔内插孔阶段，设定机器人末端到达一定的插孔深度且各轴力/力矩在一定的阈值范围内代表插孔成功。2.根据权利要求1中所述的一种基于深度强化学习与导纳控制的机器人轴孔装配方法，其特征在于：所述步骤3中，基于人类搜孔经验的先验动作为机器人末端工件在笛卡尔世界坐标系下X轴与Y轴方向的步进位移，先验状态分类模型的输入包括机器人末端工件在笛卡尔世界坐标系下X轴、Y轴方向的位置、绕X轴、Y轴、Z轴方向的旋转角度。3.根据权利要求1中所述的一种基于深度强化学习与导纳控制的机器人轴孔装配方法，其特征在于：所述步骤3中，深度强化学习网络I的输入为机器人末端工件在笛卡尔世界坐标下X与Y轴的位置信息、绕X轴、Y轴、Z轴方向的旋转量以及机器人末端工件在X轴与Y轴
的力与力矩信息；...

【专利技术属性】
技术研发人员：李明富，邓旭康，谭雅斌，姜瑞森，张黎明，刘振宇，
申请(专利权)人：湘潭大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人