当前位置: 首页 > 专利查询>山东大学专利>正文

基于近端策略优化算法的机器人快速装配方法及系统技术方案

技术编号:32134904 阅读:22 留言:0更新日期:2022-01-29 19:41
本发明专利技术提出了基于近端策略优化算法的机器人快速装配方法及系统,包括:力检测单元、机械臂及控制系统;所述力检测单元用来获取机械臂末端力信息,并将力信息反馈至控制系统;所述控制系统根据机械臂位姿、机械臂末端装配力/力矩作为状态输入训练近端策略优化算法网络,所述网路输出机械臂所需的动作值,基于所述动作值控制机械臂进行轴孔装配。近端策略优化算法增强了数据的利用效率,不用设置学习率的大小,具有更好的样本复杂性和泛化能力。具有更好的样本复杂性和泛化能力。具有更好的样本复杂性和泛化能力。

【技术实现步骤摘要】
基于近端策略优化算法的机器人快速装配方法及系统


[0001]本专利技术属于机器人装配
,尤其涉及基于近端策略优化算法的机器人快速装配方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]在机器人装配操作中,由于装配模型复杂、环境多变,通常的装配策略并不准确且对不同装配环境的适应能力差。主要有两种方法进行机器人装配操作,基于模型的装配和基于无模型的装配。
[0004]基于模型的装配通过建立一个精确的环境接触模型进行机器人装配,但在实际的工业场景中,噪声干扰、环境多变、装配对象的形状复杂并存在异构型等因素导致建立一个精确的环境接触模型很难办到。
[0005]基于无接触的模型不依赖环境模型的建立,主要通过学习的方法对环境进行探索,得到一种精确的装配策略。一般的学习方法对学习率的要求很高,学习率过高或过低都会导致训练失败,并且奖励函数的设立也对环境的变化十分敏感,设计合适的奖励函数十分困难。
[0006]上述方式的装配导致的问题是:一般的学习方法无法实现对机器人的快速且准确的装配,以及学习过程中各参数的选取十分困难。

技术实现思路

[0007]为克服上述现有技术的不足,本专利技术提供了基于近端策略优化算法的机器人快速装配系统及方法,能够不依赖于环境模型,提高装配策略的泛化能力,减少对学习率等参数的调节。
[0008]为实现上述目的,本专利技术的一个或多个实施例提供了如下技术方案:
[0009]第一方面,公开了基于近端策略优化算法的机器人快速装配系统,包括:
[0010]力检测单元、机械臂及控制系统;
[0011]所述力检测单元用来获取机械臂末端力信息,并将力信息反馈至控制系统;
[0012]所述控制系统根据机械臂位姿、机械臂末端装配力/力矩作为状态输入训练近端策略优化算法网络,所述网路输出机械臂所需的动作值,基于所述动作值控制机械臂进行轴孔装配。
[0013]作为一种实施例子,所述控制系统还包括模糊奖励系统,所述模糊奖励系统由两个模糊层构成,其中第一模糊层的输出是第二模糊层的输入,最终第二模糊层的输出作为负奖励,正奖励由装配所用步数决定。
[0014]作为一种实施例子,所述第一模糊层的输入为最大接触力、最大接触力矩、z轴方向的位移及装配深度,上述输入参数作为轴孔装配参数。
[0015]第二方面,公开了基于近端策略优化算法的机器人快速装配方法,包括:
[0016]控制机械臂螺旋搜孔,判断是否找到孔位,若是,则获取当前状态并输送至近端策略优化算法网络,近端策略优化算法网络输出机械臂动作指令,机械臂基于所接收的指令进行插孔装配,直至装配结束。
[0017]作为一种实施例子,所述机械臂基于所接收的指令进行插孔装配时,还基于获取的当前状态进行模糊逻辑处理,得到阻抗参数,基于阻抗参数及所接收的指令进行插孔装配。
[0018]作为进一步优选的方案,基于获取的当前状态进行模糊逻辑处理,得到阻抗参数,具体为:由机械臂力/力矩和末端位姿通过模糊逻辑得到阻抗值。
[0019]作为进一步优选的方案,所述模糊逻辑通过机械臂力/力矩和末端位姿及阻抗值之间表格得到。
[0020]以上一个或多个技术方案存在以下有益效果:
[0021]为了能够不依赖于环境模型,提高装配策略的泛化能力,减少对学习率等参数的调节,本专利技术结合深度强化学习方法提出了一种基于近端策略优化并结合模糊逻辑的机器人快速装配策略。
[0022]本专利技术搭建的模糊奖励系统用来确定机器人装配所要学习的目标,防止避免复杂奖励函数的设计,并且由于模糊逻辑本身的特点提高了系统整体的鲁棒性。(模糊奖励系统是为了改进学习算法中的奖励函数,利用模糊逻辑对所选取的参数进行处理得到所需的奖励值,从而不需要设计复杂的奖励函数也能达到对网络的训练效果。)
[0023]本专利技术使用的近端策略优化算法根据装配状态输出机器人装配所需的动作值,并不用设置学习率等参数即可在与环境的交互过程中不断训练,提高装配效率,增强了数据的利用效率,具有更好的样本复杂性和泛化能力。
[0024]本专利技术阻抗控制通过对网络输出的装配动作进行补偿,可以加快装配速度,并且本专利技术可以根据具体的接触情况实时调节阻抗参数。
[0025]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0026]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0027]图1为本专利技术实施例机器人轴孔装配系统示意图;
[0028]图2为本专利技术实施例机器人轴孔装配流程图;
[0029]图3为本专利技术实施例模糊奖励系统图;
[0030]图4为本专利技术实施例近端策略优化算法流程。
具体实施方式
[0031]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0032]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。
[0033]在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0034]实施例一
[0035]本实施例公开了基于近端策略优化算法的机器人快速装配系统,如图1所示,由机械臂末端六维力传感器,上位机,机械臂,复杂装配对象(USB、VGA等电子连接件)组成。六维力传感器用来获取机械臂末端力和力矩,并将力信息反馈给上位机训练网络。机械臂是主要的执行机构,用来执行网络输出的动作。装配对象是组成物理接触环境的主要部分,不同的装配对象装配的装配策略也不相同。上位机根据机器人和力传感器反馈回来的状态信息训练近端策略优化算法网络,并搭建模糊奖励系统。
[0036]上述模糊奖励系统由两个模糊层构成,其中第一模糊层的输出是第二模糊层的输入,最终第二模糊层的输出作为负奖励,作为惩罚项以减少装配过程中大接触力产生并加快装配速度,正奖励由装配所用步数决定,作为激励项减少装配所用步数。
[0037]上述第一模糊层的输入为最大接触力、最大接触力矩、z轴方向的位移及装配深度,上述输入参数作为轴孔装配参数。
[0038]实施例二
[0039]本实施例的目的是提供了基于近端策略优化算法的机器人快速装配方法,包括:
[0040]控制机械臂螺旋搜孔,判断是否找到孔位,若是,则获取当前状态并输送至近端策略优化算法网络,近端策略优化算法网络输出机械臂动作指令,机械臂基于所接收的指令进行插孔装配,直至装配结束。
[0041]所述机械臂基于所接收的指令进行插孔装配时,还基于获取的当前状态进行模糊逻辑处理,得到阻抗参数,基于阻抗参数及所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于近端策略优化算法的机器人快速装配系统,其特征是,包括:力检测单元、机械臂及控制系统;所述力检测单元用来获取机械臂末端力信息,并将力信息反馈至控制系统;所述控制系统根据机械臂位姿、机械臂末端装配力/力矩作为状态输入训练近端策略优化算法网络,所述网路输出机械臂所需的动作值,基于所述动作值控制机械臂进行轴孔装配。2.如权利要求1所述的基于近端策略优化算法的机器人快速装配系统,其特征是,所述控制系统还包括模糊奖励系统,所述模糊奖励系统由两个模糊层构成,其中第一模糊层的输出是第二模糊层的输入,最终第二模糊层的输出作为负奖励,正奖励由装配所用步数决定。3.如权利要求2所述的基于近端策略优化算法的机器人快速装配系统,其特征是,所述第一模糊层的输入为最大接触力、最大接触力矩、z轴方向的位移及装配深度,上述输入参数作为轴孔装配参数。4.基于近端策略优化算法的机器人快速装配方法,其特征是,包括:控制机械臂螺旋搜孔,判断是否找到孔位,若是,则获取当前状态并输送至近端策略优化算法网络,近端策略优化算法网络输出机械臂动作指令,机械臂基于所接收的指令进行插孔装配,直至装配结束。5.如权利要求4所述的基于近端策略优化算法的机器人快速装配方法,其特征是,训练近端策略优化算法网络的过程为:将装配状态输入Actor
new
网络,得到一个正态分布,通过这个正态分布来选择机械臂运动的动作,根据当前状态,经由模糊奖励系统计算奖励值,和环境交互后得到新的状态,将获得数据存储;将新的状态输入到critic网络中得...

【专利技术属性】
技术研发人员:宋锐门渔李凤鸣靳李岗王艳红
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1