【技术实现步骤摘要】
基于近端策略优化算法的机器人快速装配方法及系统
[0001]本专利技术属于机器人装配
,尤其涉及基于近端策略优化算法的机器人快速装配方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]在机器人装配操作中,由于装配模型复杂、环境多变,通常的装配策略并不准确且对不同装配环境的适应能力差。主要有两种方法进行机器人装配操作,基于模型的装配和基于无模型的装配。
[0004]基于模型的装配通过建立一个精确的环境接触模型进行机器人装配,但在实际的工业场景中,噪声干扰、环境多变、装配对象的形状复杂并存在异构型等因素导致建立一个精确的环境接触模型很难办到。
[0005]基于无接触的模型不依赖环境模型的建立,主要通过学习的方法对环境进行探索,得到一种精确的装配策略。一般的学习方法对学习率的要求很高,学习率过高或过低都会导致训练失败,并且奖励函数的设立也对环境的变化十分敏感,设计合适的奖励函数十分困难。
[0006]上述方式的装配导致的 ...
【技术保护点】
【技术特征摘要】
1.基于近端策略优化算法的机器人快速装配系统,其特征是,包括:力检测单元、机械臂及控制系统;所述力检测单元用来获取机械臂末端力信息,并将力信息反馈至控制系统;所述控制系统根据机械臂位姿、机械臂末端装配力/力矩作为状态输入训练近端策略优化算法网络,所述网路输出机械臂所需的动作值,基于所述动作值控制机械臂进行轴孔装配。2.如权利要求1所述的基于近端策略优化算法的机器人快速装配系统,其特征是,所述控制系统还包括模糊奖励系统,所述模糊奖励系统由两个模糊层构成,其中第一模糊层的输出是第二模糊层的输入,最终第二模糊层的输出作为负奖励,正奖励由装配所用步数决定。3.如权利要求2所述的基于近端策略优化算法的机器人快速装配系统,其特征是,所述第一模糊层的输入为最大接触力、最大接触力矩、z轴方向的位移及装配深度,上述输入参数作为轴孔装配参数。4.基于近端策略优化算法的机器人快速装配方法,其特征是,包括:控制机械臂螺旋搜孔,判断是否找到孔位,若是,则获取当前状态并输送至近端策略优化算法网络,近端策略优化算法网络输出机械臂动作指令,机械臂基于所接收的指令进行插孔装配,直至装配结束。5.如权利要求4所述的基于近端策略优化算法的机器人快速装配方法,其特征是,训练近端策略优化算法网络的过程为:将装配状态输入Actor
new
网络,得到一个正态分布,通过这个正态分布来选择机械臂运动的动作,根据当前状态,经由模糊奖励系统计算奖励值,和环境交互后得到新的状态,将获得数据存储;将新的状态输入到critic网络中得...
【专利技术属性】
技术研发人员:宋锐,门渔,李凤鸣,靳李岗,王艳红,
申请(专利权)人:山东大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。