当前位置: 首页 > 专利查询>湘潭大学专利>正文

一种基于深度强化学习与导纳控制的机器人轴孔装配方法组成比例

技术编号:36556035 阅读:16 留言:0更新日期:2023-02-04 17:10
本发明专利技术提供了一种基于深度强化学习与导纳控制的机器人轴孔装配方法,属于智能制造领域;本发明专利技术针对单轴孔搜孔阶段与多轴孔搜孔阶段,分别设计深度强化学习网络Ⅰ和深度强化学习网络Ⅱ来训练搜孔动作的输出,同时在此过程中加入搜孔先验知识,来提高深度强化学习网络的探索训练效率;针对单轴孔插孔阶段与多轴孔插孔阶段,设计基于深度强化学习网络Ⅲ的变导纳控制方法来实现机器人顺利的插孔,同时加入插孔先验知识,若状态为先验状态则直接输出机器人调整姿态,如不是则输入到深度强化学习网络Ⅲ进行训练,提高了机器人插孔的效率;采用本发明专利技术的技术方案,通过深度强化学习网络的训练,输出调整策略,可以控制机器人完成单轴孔与多轴孔的装配。与多轴孔的装配。

【技术实现步骤摘要】
一种基于深度强化学习与导纳控制的机器人轴孔装配方法


[0001]本专利技术涉及智能制造领域,更具体地,涉及一种基于深度强化学习与导纳控制的机器人装配方法。

技术介绍

[0002]随着智能制造技术的发展,机器人柔顺装配一直是工业机器人领域的研究重点与热点,但是高性能装配依然面临着许多困难,研究机器人柔顺轴孔装配方法,对机器人在整个装配领域的扩展有着极大的意义。在机器人柔顺轴孔装配领域,主要方法为三大类型:基于被动柔顺控制的装配方法、基于传统控制算法的柔顺装配方法、基于学习算法的机器人柔顺装配方法;基于被动柔顺控制的装配方法与基于传统控制算法的柔顺装配方法都需要对装配的接触模型进行复杂的分析或者进行动力学建模,而一些零件的动力学模型往往很复杂,这给装配算法的涉及带来了极大的困难;基于学习算法的机器人柔顺装配方法往往需要大量的训练数据,学习效率低,而且装配的鲁棒性不高。其次,对于多轴孔装配,装配过程中传统的搜孔与插孔阶段的控制算法,对于不同的装配环境的适应性差,效率低下,因而为了解决上述缺陷,提出一种基于深度强化学习与导纳控制的机器人装配方法。

技术实现思路

[0003]为了解决上述问题,本专利技术旨在公开一种基于深度强化学习与导纳控制的机器人装配方法,尤指一种基于深度强化学习算法对轴孔装配过程中的搜孔、插孔调整策略动作的探索与学习,以实现机器人柔顺装配。
[0004]为了实现上述目的,本专利技术所采用的技术方案主要包括以下过程:
[0005]步骤1、将机器人轴孔装配分为三个阶段:孔外自由近孔阶段、孔边搜孔阶段、孔内插孔阶段;同时,区分机器人单轴孔装配与多轴孔装配的方法;
[0006]步骤2、通过视觉定位的方式,对孔进行粗定位,控制机器人运动,使得机器人末端工件到达孔边的位置,并于孔接触,机器人进入装配的孔边搜孔阶段;
[0007]所述视觉定位的方法中,首先构建好机器人世界坐标系、工具坐标系、工件坐标系,世界坐标系的原点为机器人基座坐标系的原点;其次在装配孔的周围放置标记物,使用深度相机获取标记物的RGB图像与深度信息,通过相机标定、深度图像校准并且结合机械臂进行手眼标定、标记物识别等操作来实现装配孔粗定位;粗定位得到的坐标为装配孔在机器人世界坐标系的位置与姿态;
[0008]优选的,所述控制机器人运动是指通过程序控制机器人运动;
[0009]步骤3、孔边搜孔阶段中,首先设计基于人类搜孔经验的搜孔先验知识,预设先验状态与先验动作,组成先验知识记忆库,其次采集机器人的力/力矩信息与位姿信息,作为深度强化学习网络的输入,通过先验状态分类模型判断该输入是否为先验知识,若是,则直接输出相应的动作,如不是则输入到深度强化学习网络进行探索与训练;输出机器人位置或姿态的调整策略动作,使得机器人末端的工件能顺利的搜孔;分别构建针对单轴孔搜孔
的深度强化学习网络I与针对多轴孔装配的深度强化学习网络II;
[0010]所述基于人类搜孔经验的搜孔先验知识先验动作包括四个方向的动作A=[+ΔX,

ΔX,+ΔX,

ΔX],ΔX,ΔY分别为机器人末端工件在笛卡尔世界坐标系下X轴与Y轴方向的步进位移,经先验状态分类模型进行分类后,输出上述四个动作中的一个先验动作,调节机器人末端的位置,最终保证机器人能顺利搜孔;
[0011]所述基于人类搜孔经验的搜孔先验知识先验状态分类模型的输入S=[P
X
,P
Y
,R
X
,R
Y
,R
Z
],其中P
X
,P
Y
为机器人末端工件在笛卡尔世界坐标系下X轴、Y轴方向的位置,R
X
,R
Y
,R
z
为机器人末端工件在世界坐标系下绕X轴、Y轴、Z轴方向的旋转角度,加入基于人类搜孔经验的搜孔先验知识的意义为当机器人末端工件需要调整的动作为在孔平面X轴与Y轴的移动量时,不需要通过深度强化学习网络去探索学习动作,而是根据人类经验预设的动作去调整,进而加快搜孔过程中深度强化学习的探索效率;
[0012]优选的,所述先验状态分类模型采用支持向量机(SVM)模型;
[0013]所述力信号通过机器人末端力传感器采集,包括机器人末端工件在三个坐标轴X轴、Y轴、Z轴方向的接触力信号F
X
,F
Y
,F
Z
,绕机器人末端工件的装配力矩信号T
X
,T
Y
,T
Z

[0014]所述针对单轴孔搜孔的深度强化学习网络I的输入S=[P
X
,P
Y
,R
X
,R
Y
,R
Z
,F
X
,F
Y
,T
X
,T
Y
],针对多轴孔装配的深度强化学习网络II的输入为S=[P
X
,P
Y
,R
X
,R
Y
,R
z
,F
X
,F
Y
,T
X
,T
Y
,T
Z
],其中P
X
,P
Y
,R
X
,R
Y
,R
z
为末端工件在笛卡尔世界坐标下X与Y轴的位置信息,绕X轴、Y轴、Z轴方向的旋转量,F
X
,F
Y
,T
X
,T
Y
,T
Z
为机器人末端工件在X轴与Y轴的力与力矩信息及机器人末端工件在Z轴的力矩信息;深度强化学习网络I的输出A=[+ΔR
X


ΔR
X
,+ΔR
Y


ΔR
Y
],深度强化学习网络II的输出A=[+ΔR
X


ΔR
X
,+ΔR
Y


ΔR
Y
,+ΔR
Z


ΔR
z
,]其中ΔR
X
,ΔR
Y
,ΔR
Z
分别是机器人末端工件绕X轴正负方向、绕Y轴正负方向以及绕Z轴正负方向的步进调整量;
[0015]优选的,所述深度强化学习网络I与深度强化学习网络II都采用DQN(Deep Q Network)网络结构,DQN模型的输入经过三个卷积层,两个全连接层的非线性变换,最终在输出层得到每个动作值的Q值,根据Q值来选定最优的动作;DQN算法的更新方式为:输出层得到每个动作值的Q值,根据Q值来选定最优的动作;DQN算法的更新方式为:其中s

和a本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习与导纳控制的机器人轴孔装配方法,其特征在于,包括以下步骤:步骤1、将机器人轴孔装配分为三个阶段:孔外自由近孔阶段、孔边搜孔阶段、孔内插孔阶段;同时,区分机器人单轴孔装配与多轴孔装配的方法;步骤2、通过视觉定位的方式,对装配孔进行粗定位,控制机器人运动,使得机器人末端工件到达孔边的位置,机器人进入装配的孔边搜孔阶段;步骤3、孔边搜孔阶段中,首先设计基于人类搜孔经验的搜孔先验知识,预设先验状态与先验动作,组成先验知识记忆库,其次采集机器人的力/力矩信息与位姿信息,作为深度强化学习网络的输入,通过先验状态分类模型判断该输入是否为先验知识,若是,则直接输出相应的动作,如不是则输入到深度强化学习网络进行探索与训练,输出机器人位置或姿态的调整策略动作,使得机器人末端的工件能顺利的搜孔;分别构建针对单轴孔搜孔的深度强化学习网络I与针对多轴孔装配的深度强化学习网络II;步骤4、针对孔边搜孔阶段的深度强化学习网络,设计奖惩函数、训练回合数以及每个回合训练的最大步数;利用深度强化学习网络I与深度强化学习网络II分别对单轴孔搜孔与多轴孔搜孔进行探索训练,直至每回合的步数收敛以及奖励值也收敛;步骤5、孔内插孔阶段,在机械臂末端Z轴方向设定恒定的期望力,其余方向上的力与力矩都为0,同时使机器人末端朝着设定的期望位置运动,采集插孔过程中机器人末端力/力矩信息,将采集到的机器人末端力/力矩与设定的期望力做比较,得到实时的力偏差;将力偏差输入到导纳控制器中,经导纳控制算法计算,输出机器人末端工件的调整姿态;同时通过深度强化学习算法实时优化导纳控制参数,实现变导纳控制;步骤6、设计基于人类插孔经验的插孔先验知识记忆库,包括先验状态与先验经验值,通过构建分类器对深度强化学习网络的输入状态进行甄别,若输入状态为先验状态,则直接输出相对应的先验经验值,继而直接控制机器人工件末端运动;若输入状态不是先验状态,则送入深度强化学习网络中进行训练,得到导纳控制参数;定义需要训练的导纳控制参数,并且对导纳控制算法仿真,通过选择不同的导纳控制参数进行仿真,确定需要训练的导纳控制参数,预先确定导纳控制参数变化范围;步骤7、构建用于变导纳控制的可以输出连续动作的深度强化学习网络III,采集插孔过程中的力/力矩信号、位姿信号,作为深度强化学习的状态输入,深度强化学习网络的输出为导纳控制的参数;设计深度强化学习网络III的奖惩函数,训练回合数,每回合训练的最大步数;步骤8、在孔内插孔阶段,设定机器人末端到达一定的插孔深度且各轴力/力矩在一定的阈值范围内代表插孔成功。2.根据权利要求1中所述的一种基于深度强化学习与导纳控制的机器人轴孔装配方法,其特征在于:所述步骤3中,基于人类搜孔经验的先验动作为机器人末端工件在笛卡尔世界坐标系下X轴与Y轴方向的步进位移,先验状态分类模型的输入包括机器人末端工件在笛卡尔世界坐标系下X轴、Y轴方向的位置、绕X轴、Y轴、Z轴方向的旋转角度。3.根据权利要求1中所述的一种基于深度强化学习与导纳控制的机器人轴孔装配方法,其特征在于:所述步骤3中,深度强化学习网络I的输入为机器人末端工件在笛卡尔世界坐标下X与Y轴的位置信息、绕X轴、Y轴、Z轴方向的旋转量以及机器人末端工件在X轴与Y轴
的力与力矩信息;...

【专利技术属性】
技术研发人员:李明富邓旭康谭雅斌姜瑞森张黎明刘振宇
申请(专利权)人:湘潭大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1