双轴孔装配方法、装置、电子设备和存储介质制造方法及图纸

技术编号:35592405 阅读:17 留言:0更新日期:2022-11-16 15:10
本发明专利技术提供一种双轴孔装配方法、装置、电子设备和存储介质,涉及自动化装配技术领域,所述方法包括:获取力传感器状态和状态目标值;基于力传感器状态,确定演示学习动作量和力反馈控制动作量;将力传感器状态和状态目标值输入至预先训练至收敛状态的装配学习模型,输出动作价值函数、当前时刻力传感器状态下的网络动作量和动作比例系数;基于动作比例系数、网络动作量、演示学习动作量和力反馈控制动作量,确定实际动作量,并基于实际动作量进行双轴孔装配,迭代进行双轴孔装配,且在实际动作量沿z轴方向的平移量之和不小于目标深度的情况下停止装配。本发明专利技术可实现双轴孔装配效率的大幅度提升,且同时具备较高稳定性和适应能力。能力。能力。

【技术实现步骤摘要】
双轴孔装配方法、装置、电子设备和存储介质


[0001]本专利技术涉及自动化装配
,尤其涉及一种双轴孔装配方法、装置、电子设备和存储介质。

技术介绍

[0002]随着智能制造技术的快速发展,工业机器人被越来越多的应用在工业的各种装配领域中,其中,对工业机器人自动且高精度完成最基础的双轴孔装配任务的需求越来越多。
[0003]现有技术中,工业机器人自动完成双轴孔装配任务的方法多采用以下两种:
[0004](1)、力反馈控制算法,可设计已知模型的控制策略,具有较高的稳定性,但其对装配环境的适应性较差;
[0005](2)、演示学习算法,可以对人工示教数据进行学习,对装配环境的不确定性具有较强的适应能力,但其稳定性较差。

技术实现思路

[0006]本专利技术提供一种双轴孔装配方法、装置、电子设备和存储介质,用以解决现有技术中适应性和稳定性无法兼具的缺陷,实现双轴孔装配效率的大幅度提升,且同时具备较高稳定性和适应能力。
[0007]本专利技术提供一种双轴孔装配方法,包括:
[0008]获取力传感器状态和状态目标值,所述状态目标值用于表征最优受力状态和目标深度;
[0009]基于所述力传感器状态,确定演示学习动作量和力反馈控制动作量;
[0010]将所述力传感器状态和所述状态目标值输入至预先训练至收敛状态的装配学习模型,输出动作价值函数、当前时刻力传感器状态下的网络动作量和动作比例系数,其中,所述动作价值函数用于表征力传感器状态下动作选取的优劣程度,所述动作比例系数用于表征所述力反馈控制动作量在实际控制过程中的比例系数;
[0011]基于所述动作比例系数、所述网络动作量、所述演示学习动作量和所述力反馈控制动作量,确定实际动作量,并基于所述实际动作量进行双轴孔装配,迭代进行双轴孔装配,且在所述实际动作量沿z轴方向的平移量之和不小于所述目标深度的情况下停止装配。
[0012]根据本专利技术提供的双轴孔装配方法,所述收敛状态的装配学习模型是基于以下步骤训练得到的,包括:
[0013]将所述力传感器状态和所述状态目标值输入至初始装配学习模型的当前动作选取网络,输出当前时刻的所述网络动作量和动作比例系数;
[0014]基于所述网络动作量,确定所述当前动作选取网络的梯度变化量和奖励函数,并更新所述当前动作选取网络的参数;
[0015]将所述力传感器状态和所述网络动作量输入至初始装配学习模型的当前动作评价网络,输出当前时刻所述网络动作量的动作价值函数;
[0016]基于所述动作价值函数,确定所述当前动作评价网络的损失函数,并基于所述损失函数更新所述当前动作评价网络的参数。
[0017]根据本专利技术提供的双轴孔装配方法,所述基于所述网络动作量,确定所述当前动作选取网络的梯度变化量和奖励函数,并更新所述当前动作选取网络的参数,包括:
[0018]基于所述网络动作量,利用链式法则确定所述梯度变化量;
[0019]基于所述力传感器状态和状态目标值,确定所述奖励函数;
[0020]基于所述梯度变化量和所述奖励函数,更新所述当前动作选取网络的参数,在所述梯度变化量减小到使所述奖励函数收敛的情况下,结束所述当前动作选取网络的更新。
[0021]根据本专利技术提供的双轴孔装配方法,所述基于所述动作价值函数,确定所述当前动作评价网络的损失函数,并基于所述损失函数更新所述当前动作评价网络的参数,包括:
[0022]将所述当前动作选取网络的参数复制至所述装配学习模型的目标动作选取网络,将所述当前动作评价网络的参数复制至所述装配学习模型的目标动作评价网络,确定所述动作价值函数的价值目标值;
[0023]基于所述动作价值函数和所述价值目标值,确定所述当前动作评价网络的损失函数;
[0024]对所述损失函数求梯度下降,并更新所述当前动作评价网络的参数,在所述损失函数小于阈值的情况下,结束所述当前动作评价网络的更新。
[0025]根据本专利技术提供的双轴孔装配方法,所述基于所述力传感器状态,确定演示学习动作量和力反馈控制动作量,包括:
[0026]基于高斯混合模型,确定所述力传感器状态下的演示学习动作量,其中,所述演示学习动作量用于表征力传感器状态下的动作量概率分布,所述高斯混合模型是基于示教过程中力传感器状态和动作量构建的;
[0027]基于力反馈控制模型,确定所述力传感器状态下的力反馈控制动作量,其中,所述力反馈控制模型是基于轴孔内部结构构建的。
[0028]根据本专利技术提供的双轴孔装配方法,所述力传感器状态包括位姿和受力信息。
[0029]本专利技术还提供一种双轴孔装配装置,包括:
[0030]获取模块,用于获取力传感器状态和状态目标值,所述状态目标值用于表征最优受力状态和目标深度;
[0031]第一确定模块,用于基于所述力传感器状态,确定演示学习动作量和力反馈控制动作量;
[0032]输出模块,用于将所述力传感器状态和所述状态目标值输入至预先训练至收敛状态的装配学习模型,输出动作价值函数、当前时刻力传感器状态下的网络动作量和动作比例系数,其中,所述动作价值函数用于表征力传感器状态下动作选取的优劣程度,所述动作比例系数用于表征所述演示学习动作量在实际控制过程中的比例系数;
[0033]第二确定模块,用于基于所述动作比例系数、所述网络动作量、所述演示学习动作量和所述力反馈控制动作量,确定实际动作量,并基于所述实际动作量进行双轴孔装配,迭代进行双轴孔装配,且在所述实际动作量沿z轴方向的平移量之和不小于所述目标深度的情况下停止装配。
[0034]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理
器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述双轴孔装配方法。
[0035]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述双轴孔装配方法。
[0036]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述双轴孔装配方法。
[0037]本专利技术提供的双轴孔装配方法、装置、电子设备和存储介质,通过将力传感器状态和状态目标值同时输入预先训练至收敛状态的装配学习模型,解决装配学习模型中奖励函数的设计难题,以状态目标值为装配目标,提高双轴孔装配效率;此外,基于装配学习模型收敛状态下的动作量和动作比例系数,结合演示学习动作量和力反馈控制动作量,确定用于装配的实际动作量,进一步增加轴孔装配的效率与安全性,同时具备较高稳定性和适应能力。
附图说明
[0038]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种双轴孔装配方法,其特征在于,包括:获取力传感器状态和状态目标值,所述状态目标值用于表征最优受力状态和目标深度;基于所述力传感器状态,确定演示学习动作量和力反馈控制动作量;将所述力传感器状态和所述状态目标值输入至预先训练至收敛状态的装配学习模型,输出动作价值函数、当前时刻力传感器状态下的网络动作量和动作比例系数,其中,所述动作价值函数用于表征力传感器状态下动作选取的优劣程度,所述动作比例系数用于表征所述力反馈控制动作量在实际控制过程中的比例系数;基于所述动作比例系数、所述网络动作量、所述演示学习动作量和所述力反馈控制动作量,确定实际动作量,并基于所述实际动作量进行双轴孔装配,迭代进行双轴孔装配,且在所述实际动作量沿z轴方向的平移量之和不小于所述目标深度的情况下停止装配。2.根据权利要求1所述的双轴孔装配方法,其特征在于,所述收敛状态的装配学习模型是基于以下步骤训练得到的:将所述力传感器状态和所述状态目标值输入至初始装配学习模型的当前动作选取网络,输出当前时刻的所述网络动作量和动作比例系数;基于所述网络动作量,确定所述当前动作选取网络的梯度变化量和奖励函数,并更新所述当前动作选取网络的参数;将所述力传感器状态和所述网络动作量输入至所述初始装配学习模型的当前动作评价网络,输出当前时刻所述网络动作量的动作价值函数;基于所述动作价值函数,确定所述当前动作评价网络的损失函数,并基于所述损失函数更新所述当前动作评价网络的参数。3.根据权利要求2所述的双轴孔装配方法,其特征在于,所述基于所述网络动作量,确定所述当前动作选取网络的梯度变化量和奖励函数,并更新所述当前动作选取网络的参数,包括:基于所述网络动作量,利用链式法则确定所述梯度变化量;基于所述力传感器状态和状态目标值,确定所述奖励函数;基于所述梯度变化量和所述奖励函数,更新所述当前动作选取网络的参数,在所述梯度变化量减小到使所述奖励函数收敛的情况下,结束所述当前动作选取网络的更新。4.根据权利要求2所述的双轴孔装配方法,其特征在于,所述基于所述动作价值函数,确定所述当前动作评价网络的损失函数,并基于所述损失函数更新所述当前动作评价网络的参数,包括:将所述当前动作选取网络的参数复制至所述装配学习模型的目标动作选取网络,将所述当前动作评价网络的参数复制至所述装配学习模型的目标动作评价网络...

【专利技术属性】
技术研发人员:严少华徐德陶显
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1