轴套装配策略模型的强化学习和轴套装配方法、装置制造方法及图纸

技术编号:39413172 阅读:9 留言:0更新日期:2023-11-19 16:04
本发明专利技术提供一种轴套装配策略模型的强化学习和轴套装配方法、装置,其中方法包括:获取轴套在上一步的装配力和轴套的插入深度;基于初始模型,确定以上一步的装配力和插入深度为状态时预测的当前步的装配动作量;基于当前步的装配动作量更新得到当前步的装配力和插入深度,并基于当前步的装配力确定当前步的安全奖励,基于上一装配轮次的步数、上一步的安全奖励和/或当前步的装配动作量确定当前步的效率奖励;基于安全奖励和效率奖励,对初始模型进行参数迭代,得到轴套装配策略模型。本发明专利技术提供的方法、装置,得到了安全性良好且装配效率高的轴套装配策略模型,进而同时提升了基于轴套装配策略模型进行轴套装配的安全性以及装配效率。装配效率。装配效率。

【技术实现步骤摘要】
轴套装配策略模型的强化学习和轴套装配方法、装置


[0001]本专利技术涉及智能装配
,尤其涉及一种轴套装配策略模型的强化学习和轴套装配方法、装置。

技术介绍

[0002]随着制造业的快速发展,对工业零件装配任务的自动化程度也越来越高。轴套是一种常见的工业零件,其装配在制造业中是一项重要的任务。由于轴套装配中轴和孔的配合方式属于过盈配合,往往需要较大的轴向力进行装配。当前主要通过传统的装配方法对轴套进行装配,即采用人工装配或者固定式进行装配。
[0003]但是,此类装配方法为了保证装配过程中的安全性,装配的效率往往较低,并且耗费大量的人力。

技术实现思路

[0004]本专利技术提供一种轴套装配策略模型的强化学习和轴套装配方法、装置,用以解决现有技术中轴套装配效率低的缺陷。
[0005]本专利技术提供一种轴套装配策略模型的强化学习方法,包括:
[0006]获取轴套在上一步的装配力和轴套的插入深度;
[0007]基于初始模型,确定以所述上一步的装配力和所述插入深度为状态时预测的当前步的装配动作量;
[0008]基于所述当前步的装配动作量更新得到当前步的装配力和插入深度,并基于所述当前步的装配力确定当前步的安全奖励,基于上一装配轮次的步数、上一步的安全奖励和/或所述当前步的装配动作量确定当前步的效率奖励;
[0009]基于所述安全奖励和所述效率奖励,对所述初始模型进行参数迭代,得到轴套装配策略模型。
[0010]根据本专利技术提供的一种轴套装配策略模型的强化学习方法,所述基于所述当前步的装配力确定当前步的安全奖励,包括:
[0011]基于径向装配力阈值,以及所述当前步的装配力中的径向力,确定所述当前步的安全奖励。
[0012]根据本专利技术提供的一种轴套装配策略模型的强化学习方法,所述基于径向装配力阈值,以及所述当前步的装配力中的径向力,确定所述当前步的安全奖励,包括:
[0013]基于如下公式确定所述当前步的安全奖励:
[0014][0015]R
S
表示所述当前步的安全奖励;f
r
表示当前步的装配力中的径向力;f
T
表示所述径向装配力阈值。
[0016]根据本专利技术提供的一种轴套装配策略模型的强化学习方法,所述基于上一装配轮
次的步数、上一步的安全奖励和/或所述当前步的装配动作量确定当前步的效率奖励,包括:
[0017]基于上一步的安全奖励和所述当前步的装配动作量中的插入步长,确定步长奖励;
[0018]基于装配步数阈值以及所述上一装配轮次的步数,确定步数奖励;
[0019]基于所述步长奖励和/或所述步数奖励,确定所述当前步的效率奖励。
[0020]根据本专利技术提供的一种轴套装配策略模型的强化学习方法,所述基于上一步的安全奖励和所述当前步的装配动作量中的插入步长,确定步长奖励,包括:
[0021]基于如下公式确定所述步长奖励:
[0022][0023]R
L
表示所述步长奖励;d
z
表示所述当前步的装配动作量中的插入步长;D
T
表示插入步长阈值;R
S
‑1表示所述上一步的安全奖励。
[0024]根据本专利技术提供的一种轴套装配策略模型的强化学习方法,所述基于装配步数阈值以及上一装配轮次的步数,确定步数奖励,包括:
[0025]基于如下公式确定所述步数奖励:
[0026][0027]R
N
表示所述步数奖励;N表示所述上一装配轮次的步数;N
max
表示所述装配步数阈值。
[0028]本专利技术还提供一种轴套装配方法,包括:
[0029]获取轴套的当前装配力和轴套的当前插入深度;
[0030]基于轴套装配策略模型,确定与所述当前装配力和所述当前插入深度对应的目标装配动作量;
[0031]基于所述目标装配动作量进行轴套装配,并返回更新所述当前装配力和所述当前插入深度;
[0032]所述轴套装配策略模型基于如上述任一所述的轴套装配策略模型的强化学习方法得到。
[0033]本专利技术还提供一种轴套装配策略模型的强化学习装置,包括:
[0034]获取单元,获取轴套在上一步的装配力和轴套的插入深度;
[0035]预测单元,基于初始模型,确定以所述上一步的装配力和所述插入深度为状态时预测的当前步的装配动作量;
[0036]奖励单元,基于所述当前步的装配动作量更新得到当前步的装配力和插入深度,并基于所述当前步的装配力确定当前步的安全奖励,基于上一装配轮次的步数、上一步的安全奖励和/或所述当前步的装配动作量确定当前步的效率奖励;
[0037]参数迭代单元,基于所述安全奖励和所述效率奖励,对所述初始模型进行参数迭代,得到轴套装配策略模型。
[0038]本专利技术还提供一种轴套装配装置,包括:
[0039]获取状态单元,获取轴套的当前装配力和轴套的当前插入深度;
[0040]确定动作量单元,基于轴套装配策略模型,确定与所述当前装配力和所述当前插入深度对应的目标装配动作量;
[0041]装配单元,基于所述目标装配动作量进行轴套装配,并返回更新所述当前装配力和所述当前插入深度;
[0042]所述轴套装配策略模型基于上述任一所述的轴套装配策略模型的强化学习方法得到。
[0043]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述轴套装配策略模型的强化学习方法,或,轴套装配方法。
[0044]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述轴套装配策略模型的强化学习方法,或,轴套装配方法。
[0045]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述轴套装配策略模型的强化学习方法,或,轴套装配方法。
[0046]本专利技术提供的轴套装配策略模型的强化学习和轴套装配方法、装置,将轴套在上一步的装配力和轴套的插入深度,通过初始模型,确定当前步的装配动作量,并基于当前步的装配力确定当前步的安全奖励,基于上一装配轮次的步数、上一步的安全奖励和/或当前步的装配动作量确定当前步的效率奖励,通过安全奖励和效率奖励相结合,对初始模型进行参数迭代,得到了安全性良好,并且装配效率高的轴套装配策略模型,进而同时提升了基于轴套装配策略模型进行轴套装配的安全性以及装配效率。
附图说明
[0047]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
...

【技术保护点】

【技术特征摘要】
1.一种轴套装配策略模型的强化学习方法,其特征在于,包括:获取轴套在上一步的装配力和轴套的插入深度;基于初始模型,确定以所述上一步的装配力和所述插入深度为状态时预测的当前步的装配动作量;基于所述当前步的装配动作量更新得到当前步的装配力和插入深度,并基于所述当前步的装配力确定当前步的安全奖励,基于上一装配轮次的步数、上一步的安全奖励和/或所述当前步的装配动作量确定当前步的效率奖励;基于所述安全奖励和所述效率奖励,对所述初始模型进行参数迭代,得到轴套装配策略模型。2.根据权利要求1所述的轴套装配策略模型的强化学习方法,其特征在于,所述基于所述当前步的装配力确定当前步的安全奖励,包括:基于径向装配力阈值,以及所述当前步的装配力中的径向力,确定所述当前步的安全奖励。3.根据权利要求2所述的轴套装配策略模型的强化学习方法,其特征在于,所述基于径向装配力阈值,以及所述当前步的装配力中的径向力,确定所述当前步的安全奖励,包括:基于如下公式确定所述当前步的安全奖励:R
S
表示所述当前步的安全奖励;F
r
表示当前步的装配力中的径向力;F
T
表示所述径向装配力阈值。4.根据权利要求1所述的轴套装配策略模型的强化学习方法,其特征在于,所述基于上一装配轮次的步数、上一步的安全奖励和/或所述当前步的装配动作量确定当前步的效率奖励,包括:基于上一步的安全奖励和所述当前步的装配动作量中的插入步长,确定步长奖励;基于装配步数阈值以及所述上一装配轮次的步数,确定步数奖励;基于所述步长奖励和/或所述步数奖励,确定所述当前步的效率奖励。5.根据权利要求4所述的轴套装配策略模型的强化学习方法,其特征在于,所述基于上一步的安全奖励和所述当前步的装配动作量中的插入步长,确定步长奖励,包括:基于如下公式确定所述步长奖励:R
L
表示所述步长奖励;d
z
表示所述当前步的装配动作量中的插入步长;D
T
表示插入步长阈值;R
S
‑1表示所...

【专利技术属性】
技术研发人员:马旭淼徐德
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1