System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 部件装配方法组成比例_技高网

部件装配方法组成比例

技术编号:40181015 阅读:11 留言:0更新日期:2024-01-26 23:47
本发明专利技术提供一种部件装配方法,包括:获取机械臂夹持的待安装部件的状态信息;所述状态信息包括三维力、三维力矩和位姿;将所述状态信息输入至装配模型,获取所述装配模型输出的预测动作;基于所述预测动作生成动作指令;所述动作指令用于控制所述机械臂移动;向所述机械臂发送所述动作指令;所述机械臂用于装配所述待安装部件;其中,所述装配模型为基于状态信息样本集合对双延迟性深度确定性策略梯度学习网络进行训练后得到的。本发明专利技术实施例提供的部件装配方法,通过基于双延迟性深度确定性策略梯度学习网络对机械臂的动作进行预测,控制机械臂夹持待安装部件进行安装,实现了部件安装自动化。

【技术实现步骤摘要】

本专利技术涉及制造,尤其涉及一种部件装配方法


技术介绍

1、近年来,我国机器人技术得到了快速发展,机器人在部件装配的任务中也得到了广泛的应用,但应用装配环境也变得越来越复杂,机器人的应用随之受到了局限。如在大重部件轴孔装配领域中,存在轴部件状态的不确定性以及轴孔之间过大的接触力等问题,导致难以实现大重部件装配自动化。

2、目前部件装配任务仍需要依靠人工手动完成,但是人工作业存在效率低和成本高的问题,因此,部件装配自动化成为亟需解决的问题。


技术实现思路

1、本专利技术提供一种部件装配方法,用以解决现有技术中人工装配部件效率低成本高的问题,实现部件装配自动化。

2、本专利技术提供一种部件装配方法,包括:

3、获取机械臂夹持的待安装部件的状态信息;所述状态信息包括三维力、三维力矩和位姿;

4、将所述状态信息输入至装配模型,获取所述装配模型输出的预测动作;

5、基于所述预测动作生成动作指令;所述动作指令用于控制所述机械臂移动;

6、向所述机械臂发送所述动作指令;所述机械臂用于装配所述待安装部件;

7、其中,所述装配模型为基于状态信息样本集合对双延迟性深度确定性策略梯度学习网络进行训练后得到的;所述位姿是基于距离传感器采集的距离信息获得的;所述距离信息为所述待安装部件与目标位置之间的距离。

8、可选地,所述装配模型包括actor1网络、actor2网络、critic1网络、critic2网络、critic3网络和critic4网络;

9、所述actor1网络用于在输入当前时刻状态信息st后,输出所述st对应的当前时刻预测动作at和基于预设奖励公式获得所述st对应的奖励值rt;所述actor1网络还用于基于所述at获得并输出下一时刻状态信息st+1;

10、所述actor2网络用于在输入所述st+1后,输出所述st+1对应的预测动作at+1;

11、所述critic1网络用于在输入所述st+1和所述at+1后,输出对所述st+1和所述at+1的评估值q1;

12、所述critic2网络用于在输入所述st+1和所述at+1后,输出对所述st+1和所述at+1的评估值q2;

13、所述critic3网络用于在输入所述st和所述at后,输出对所述st和所述at的评估值q3;

14、所述critic4网络用于在输入所述st和所述at后,输出对所述st和所述at的评估值q4。

15、可选地,所述预设奖励公式为:

16、

17、其中,r代表奖励值;fr代表径向力,fx代表x轴方向受到的力,fy代表y轴方向受到的力;ft表示预设的径向力阈值;β代表用于缩放调整的超参数。

18、可选地,所述超参数β的取值范围为[0,1]。

19、可选地,所述超参数β的取值为0.5。

20、可选地,所述装配模型按照如下方法进行训练:

21、将状态信息样本st输入至所述装配模型网络,获得所述装配模型输出的预测动作at、奖励值rt、下一时刻状态信息样本st+1、下一时刻的预测动作at+1、评估值q1、评估值q2、评估值q3和评估值q4;

22、基于所述评估值q1、所述评估值q2、所述评估值q3和所述评估值q4更新所述装配模型;

23、重复上述步骤直至所述奖励值rt的代数和符合预设阈值。

24、可选地,所述基于所述评估值q1、所述评估值q2、所述评估值q3和所述评估值q4更新所述装配模型,包括:

25、获取所述q1和所述q2的最小值min(q1,q2);

26、基于所述最小值min(q1,q2)、所述q3和所述q4更新所述critic3网络的参数和所述critic4网络的参数;

27、将所述st和所述at输入至所述更新后的critic3网络,获得所述更新后的critic3网络输出的更新评估值q3′;

28、将所述更新评估值q3′作为损失函数更新所述actor1网络的参数;

29、基于所述更新后的actor1网络的参数,更新所述actor2网络的参数;

30、基于所述更新后的critic3网络的参数,更新critic1网络的参数;

31、基于所述更新后的critic4网络的参数,更新critic2网络的参数。

32、可选地,所述actor1网络和所述actor2网络均包括2k+1层采用tanh函数激活的动作子网络;每层所述动作子网络包括三个全连接层和一个dropout层;

33、所述critic1网络、所述critic2网络、所述critic3网络和所述critic4网络均包括2k+1层采用tanh函数激活的评价子网络;每层所述评价子网络包括三个全连接层;

34、其中,k为正整数。

35、可选地,k的取值为2。

36、可选地,所述位姿是基于距离传感器采集的距离信息获得的;所述距离信息为所述待安装部件与目标位置之间的距离。

37、本专利技术实施例提供的部件装配方法,通过基于双延迟性深度确定性策略梯度学习网络对机械臂的动作进行预测,控制机械臂夹持待安装部件进行安装,实现了部件安装自动化。

本文档来自技高网...

【技术保护点】

1.一种部件装配方法,其特征在于,包括:

2.根据权利要求1所述的部件装配方法,其特征在于,所述装配模型包括Actor1网络、Actor2网络、Critic1网络、Critic2网络、Critic3网络和Critic4网络;

3.根据权利要求2所述的部件装配方法,其特征在于,所述预设奖励公式为:

4.根据权利要求3所述的部件装配方法,其特征在于,所述超参数β的取值范围为[0,1]。

5.根据权利要求4所述的部件装配方法,其特征在于,所述超参数β的取值为0.5。

6.根据权利要求2所述的部件装配方法,其特征在于,所述装配模型按照如下方法进行训练:

7.根据权利要求6所述的部件装配方法,其特征在于,所述基于所述评估值q1、所述评估值q2、所述评估值q3和所述评估值q4更新所述装配模型,包括:

8.根据权利要求2所述的部件装配方法,其特征在于,所述Actor1网络和所述Actor2网络均包括2K+1层采用tanh函数激活的动作子网络;每层所述动作子网络包括三个全连接层和一个Dropout层;

>9.根据权利要求8所述的部件装配方法,其特征在于,K的取值为2。

...

【技术特征摘要】

1.一种部件装配方法,其特征在于,包括:

2.根据权利要求1所述的部件装配方法,其特征在于,所述装配模型包括actor1网络、actor2网络、critic1网络、critic2网络、critic3网络和critic4网络;

3.根据权利要求2所述的部件装配方法,其特征在于,所述预设奖励公式为:

4.根据权利要求3所述的部件装配方法,其特征在于,所述超参数β的取值范围为[0,1]。

5.根据权利要求4所述的部件装配方法,其特征在于,所述超参数β的取值为0.5。

6....

【专利技术属性】
技术研发人员:梁滔陈东生张连新马文治张磊张大朋
申请(专利权)人:中国工程物理研究院机械制造工艺研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1