轴套装配策略模型的强化学习和轴套装配方法、装置制造方法及图纸

技术编号：39413172 阅读：9 留言：0更新日期：2023-11-19 16:04

本发明专利技术提供一种轴套装配策略模型的强化学习和轴套装配方法、装置，其中方法包括：获取轴套在上一步的装配力和轴套的插入深度；基于初始模型，确定以上一步的装配力和插入深度为状态时预测的当前步的装配动作量；基于当前步的装配动作量更新得到当前步的装配力和插入深度，并基于当前步的装配力确定当前步的安全奖励，基于上一装配轮次的步数、上一步的安全奖励和/或当前步的装配动作量确定当前步的效率奖励；基于安全奖励和效率奖励，对初始模型进行参数迭代，得到轴套装配策略模型。本发明专利技术提供的方法、装置，得到了安全性良好且装配效率高的轴套装配策略模型，进而同时提升了基于轴套装配策略模型进行轴套装配的安全性以及装配效率。装配效率。装配效率。

全部详细技术资料下载

【技术实现步骤摘要】
轴套装配策略模型的强化学习和轴套装配方法、装置

[0001]本专利技术涉及智能装配
，尤其涉及一种轴套装配策略模型的强化学习和轴套装配方法、装置。

技术介绍

[0002]随着制造业的快速发展，对工业零件装配任务的自动化程度也越来越高。轴套是一种常见的工业零件，其装配在制造业中是一项重要的任务。由于轴套装配中轴和孔的配合方式属于过盈配合，往往需要较大的轴向力进行装配。当前主要通过传统的装配方法对轴套进行装配，即采用人工装配或者固定式进行装配。
[0003]但是，此类装配方法为了保证装配过程中的安全性，装配的效率往往较低，并且耗费大量的人力。

技术实现思路

[0004]本专利技术提供一种轴套装配策略模型的强化学习和轴套装配方法、装置，用以解决现有技术中轴套装配效率低的缺陷。
[0005]本专利技术提供一种轴套装配策略模型的强化学习方法，包括：
[0006]获取轴套在上一步的装配力和轴套的插入深度；
[0007]基于初始模型，确定以所述上一步的装配力和所述插入深度为状态时预测的当前步的装配动作量；
[0008]基于所述当前步的装配动作量更新得到当前步的装配力和插入深度，并基于所述当前步的装配力确定当前步的安全奖励，基于上一装配轮次的步数、上一步的安全奖励和/或所述当前步的装配动作量确定当前步的效率奖励；
[0009]基于所述安全奖励和所述效率奖励，对所述初始模型进行参数迭代，得到轴套装配策略模型。
[0010]根据本专利技术提供的一种轴套装配策略

【技术保护点】

【技术特征摘要】
1.一种轴套装配策略模型的强化学习方法，其特征在于，包括：获取轴套在上一步的装配力和轴套的插入深度；基于初始模型，确定以所述上一步的装配力和所述插入深度为状态时预测的当前步的装配动作量；基于所述当前步的装配动作量更新得到当前步的装配力和插入深度，并基于所述当前步的装配力确定当前步的安全奖励，基于上一装配轮次的步数、上一步的安全奖励和/或所述当前步的装配动作量确定当前步的效率奖励；基于所述安全奖励和所述效率奖励，对所述初始模型进行参数迭代，得到轴套装配策略模型。2.根据权利要求1所述的轴套装配策略模型的强化学习方法，其特征在于，所述基于所述当前步的装配力确定当前步的安全奖励，包括：基于径向装配力阈值，以及所述当前步的装配力中的径向力，确定所述当前步的安全奖励。3.根据权利要求2所述的轴套装配策略模型的强化学习方法，其特征在于，所述基于径向装配力阈值，以及所述当前步的装配力中的径向力，确定所述当前步的安全奖励，包括：基于如下公式确定所述当前步的安全奖励：R
S
表示所述当前步的安全奖励；F
r
表示当前步的装配力中的径向力；F
T
表示所述径向装配力阈值。4.根据权利要求1所述的轴套装配策略模型的强化学习方法，其特征在于，所述基于上一装配轮次的步数、上一步的安全奖励和/或所述当前步的装配动作量确定当前步的效率奖励，包括：基于上一步的安全奖励和所述当前步的装配动作量中的插入步长，确定步长奖励；基于装配步数阈值以及所述上一装配轮次的步数，确定步数奖励；基于所述步长奖励和/或所述步数奖励，确定所述当前步的效率奖励。5.根据权利要求4所述的轴套装配策略模型的强化学习方法，其特征在于，所述基于上一步的安全奖励和所述当前步的装配动作量中的插入步长，确定步长奖励，包括：基于如下公式确定所述步长奖励：R
L
表示所述步长奖励；d
z
表示所述当前步的装配动作量中的插入步长；D
T
表示插入步长阈值；R
S
‑1表示所...

【专利技术属性】
技术研发人员：马旭淼，徐德，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人