当前位置: 首页 > 专利查询>清华大学专利>正文

基于深度强化学习的涂装轨迹智能规划方法技术

技术编号:35772670 阅读:17 留言:0更新日期:2022-12-01 14:15
本发明专利技术涉及人工智能技术领域,揭露一种基于深度强化学习的涂装轨迹智能规划方法,通过将喷涂过程抽象为马尔科夫决策过程,利用喷涂过程中喷枪与仿真环境的交互,使得涂装轨迹的确定与待喷涂工件表面的实时状态息息相关;本发明专利技术的基于深度强化学习的涂装轨迹智能规划方法综合考虑了喷涂过程中的工艺参数和喷涂轨迹的耦合影响,有效获取最优的涂装轨迹,有效地解决了改善复杂曲面的涂层厚度控制和喷涂轨迹计算的问题。涂轨迹计算的问题。涂轨迹计算的问题。

【技术实现步骤摘要】
基于深度强化学习的涂装轨迹智能规划方法


[0001]本专利技术涉及人工智能
,尤其涉及一种基于深度强化学习的涂装轨迹智能规划方法、装置及计算机可读存储介质。

技术介绍

[0002]自1959年工业机器人研制成功后,工业机器人因其高速度、高精度、可重复性的特点逐渐取代了各类生产活动中的人力作业。相较于传统的人工喷涂,使用机器人进行自动化喷涂可以解决人工喷涂中难以控制涂层厚度偏差、难以提高作业效率、难以规避有毒溶剂带来的人体伤害等问题。喷涂机器人自推向市场后发展迅速,被广泛应用于航天、汽车等工业制造领域中。
[0003]由于航空航天等工业产品大多尺寸庞大、涂料种类特殊,且具有工艺过程复杂、生产模式多变的特点,对智能喷涂工艺提出了更高的要求,需要基于现有喷涂装置和外部环境,选择最优的喷涂参数和最佳的喷涂轨迹。
[0004]现有技术中,智能喷涂过程中的涂装参数和轨迹多采用工艺试验法或通过过求解以工件表面涂层厚度均匀性为优化目标的优化模型来进行确定。其中,工艺实验法因需要耗费大量的人力物力,且流程复杂,难以满足实时性和安全性的需要。目前,针对优化模型的常用的优化算法有粒子群算法、遗传算法、模拟退火算法等。然而,上述上述传统算法存在的弊端如下:
[0005]1)具有收敛速度慢、控制变量多等问题;
[0006]2)在对优化问题进行求解之前,需要获取所有可能的轨迹,是针对已知轨迹的参数寻优方法,具有求解效率低,难以获得全局最优解,没有综合考虑喷涂轨迹和工艺参数之间的组合优化,泛化能力差,不具备通用性的问题。
[0007]因此,亟需一种能够综合考虑喷涂工艺参数和喷涂轨迹优化的影响的涂装轨迹智能规划方法。

技术实现思路

[0008]本专利技术提供一种基于深度强化学习的涂装轨迹智能规划方法、系统、电子设备及存储介质,以解决现有的技术中的至少一个问题。
[0009]为实现上述目的,本专利技术提供的一种基于深度强化学习的涂装轨迹智能规划方法,应用于电子装置,包括:
[0010]获取待喷涂工件的模型数据,并按照预设的涂装精度标准对待喷涂工件的模型进行格栅化划分,将某一时刻的所有格栅内全部点云涂层厚度的均值进行向量排列,获得初始化的状态向量;
[0011]将初始化状态向量输入预训练好的基于深度强化学习的涂装控制策略模型,获取喷涂动作向量;并根据喷涂动作向量,确定下一时刻的喷涂轨迹;
[0012]在仿真环境下,按照喷涂动作向量所对应的下一时刻的喷涂轨迹执行喷涂动作,
利用漆膜厚度沉积模型,确定每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响;
[0013]根据每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响,更新下一时刻的状态向量;
[0014]根据下一时刻的状态向量,利用预训练好的基于深度强化学习的涂装控制策略模型确定喷涂动作向量所对应的下一时刻的喷涂轨迹;
[0015]循环执行,直至确定喷涂过程中每一时刻的状态向量、喷涂动作向量以及喷涂动作向量所对应的喷涂轨迹。
[0016]进一步,优选的,通过设定最大迭代次数,对基于深度强化学习的涂装控制策略模型进行迭代训练,迭代训练的方法包括:
[0017]随机初始化基于深度强化学习的涂装控制策略模型的参数,初始化网络训练迭代次数为1,并清空深度强化学习的经验回放池;其中,基于深度强化学习的涂装控制策略模型包括以mn维状态向量s为输入,l维动作向量a为输出的Actor网络和Actor
target
网络,以及,以l维动作向量a为输入,数值Q为输出的Critic网络和Critic
target
网络;其中,Critic网络和Critic
target
网络各包括两个网络;基于深度强化学习的涂装控制策略模型的参数包括Actor网络的参数、Actor
target
网络的参数、Critic网络的参数和Critic
target
网络的参数;所述Actor
target
网络的参数通过复制对应的Actor
target
网络的参数得到,Critic
target
网络的参数通过复制对应的Critic网络的参数得到;
[0018]更新状态向量s
t
,基于状态向量s
t
获取Actor网络的输出喷涂动作向量a
t

[0019]基于喷涂动作向量a
t
计算喷涂动作向量对应的喷涂轨迹T,利用漆膜厚度沉积模型更新待喷涂工件的漆膜厚度分布情况,得到状态向量s
t+1

[0020]基于状态向量s
t+1
和奖励函数R计算实时奖励reward;并以s
tb
=done是否成立,判断喷涂过程是否终止;
[0021]根据所获取的状态向量s
t
、喷涂动作向量a
t
、动状态向量s
t+1
和实时奖励reward,确定集合{s
t
,a
t
,s
t+1
,reward,s
tb
};
[0022]将集合{s
t
,a
t
,s
t+1
,reward,s
tb
}存入深度学习的经验回放池D,令t=t+1,循环执行,直至达到经验回放池D的最大容量;
[0023]从经验回放池D中进行m次随机采样,获得{s
j
,a
j
,s
j+1
,reward,s
jb
},j=1,2,...,m,计算当前策略π下理论Q值;
[0024]使用均方差损失函数,通过神经网络的梯度反向传播对Critic网络的参数ω进行更新;
[0025]当迭代次数为延迟更新基数d的整数倍时,使用损失函数通过神经网络的梯度反向传播对Actor网络的参数θ进行更新,并将更新后的Critic网络的参数和Actor网络的参数分别复制给对应的Critic
target
网络和Actor
target
网络;
[0026]进行迭代训练,直至达到设定最大迭代次数;获得训练好的基于深度强化学习的涂装控制策略模型。
[0027]进一步,优选的,状态向量s=(ω0,ω1,ω2,...,ω
mn
‑1)
T
,ω
i
表示数组下标为i的点云簇中所有数据点的漆膜厚度δ的平均值;
[0028]其中,点云簇Ω中数据点Ω
k
处漆膜厚度δ通过以下步骤获取:
[0029]计算喷枪在轨迹点T
i
的停留时间t;
[0030]以轨迹点T
i
为原点,构建局部坐标系Γ
local
和漆膜厚本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的涂装轨迹智能规划方法,应用于电子装置,其特征在于,所述方法包括:获取待喷涂工件的模型数据,并按照预设的涂装精度标准对所述待喷涂工件的模型进行格栅化划分,将某一时刻的所有格栅内全部点云涂层厚度的均值进行向量排列,获得初始化的状态向量;将所述初始化状态向量输入预训练好的基于深度强化学习的涂装控制策略模型,获取喷涂动作向量;并根据所述喷涂动作向量,确定下一时刻的喷涂轨迹;在仿真环境下,按照所述喷涂动作向量所对应的下一时刻的喷涂轨迹执行喷涂动作,利用漆膜厚度沉积模型,确定每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响;根据每条喷涂轨迹对待喷涂工件的漆膜厚度分布情况的影响,更新下一时刻的状态向量;根据下一时刻的状态向量,利用预训练好的基于深度强化学习的涂装控制策略模型确定喷涂动作向量所对应的下一时刻的喷涂轨迹;循环执行,直至确定喷涂过程中每一时刻的状态向量、喷涂动作向量以及所述喷涂动作向量所对应的喷涂轨迹。2.如权利要求1所述的基于深度强化学习的涂装轨迹智能规划方法,其特征在于,通过设定最大迭代次数,对基于深度强化学习的涂装控制策略模型进行迭代训练,所述迭代训练的方法包括:随机初始化所述基于深度强化学习的涂装控制策略模型的参数,初始化网络训练迭代次数为1,并清空深度强化学习的经验回放池;其中,所述基于深度强化学习的涂装控制策略模型包括以mn维状态向量s为输入,l维动作向量a为输出的Actor网络和Actor
target
网络,以及,以l维动作向量a为输入,数值Q为输出的Critic网络和Critic
target
网络;其中,所述的Critic网络和Critic
Target
网络各包括两个网络;所述基于深度强化学习的涂装控制策略模型的参数包括Actor网络的参数、Actor
target
网络的参数、Critic网络的参数和Critic
target
网络的参数;所述Actor
target
网络的参数通过复制对应的Actor
target
网络的参数得到,Critic
target
网络的参数通过复制对应的Critic网络的参数得到;更新状态向量s
t
,基于状态向量s
t
获取Actor网络的输出喷涂动作向量a
t
;基于喷涂动作向量a
t
计算喷涂动作向量对应的喷涂轨迹T,利用漆膜厚度沉积模型更新待喷涂工件的漆膜厚度分布情况,得到状态向量s
t+1
;基于状态向量s
t+1
和奖励函数R计算实时奖励reward;并以s
tb
=done是否成立,判断喷涂过程是否终止;根据所获取的状态向量s
t
、喷涂动作向量a
t
、动状态向量s
t+1
和实时奖励reward,确定集合{s
t
,a
t
,s
t+1
,reward,s
tb
};将所述集合{s
t
,a
t
,s
t+1
,reward,s
tb
}存入所述深度学习的经验回放池D,令t=t+1,循环执行,直至达到经验回放池D的最大容量;从经验回放池D中进行m次随机采样,获得{s
j
,a
j
,s
j+1
,reward,s
jb
},j=1,2,...,m,计算当前策略π下理论Q值;使用均方差损失函数,通过神经网络的梯度反向传播对Critic网络的参数ω进行更新;当迭代次数为延迟更新基数d的整数倍时,使用损失函数通过神经网络的梯度反向传
播对Actor网络的参数θ进行更新,并将更新后的Critic网络的参数和Actor网络的参数分别复制给对应的Critic
target
网络和Actor
target
网络;进行迭代训练,直至达到设定最大迭代次数;获得训练好的基于深度强化学习的涂装控制策略模型。3.如权利要求2中所述的基于深度强化学习的涂装轨迹智能规划方法,其特征在于,状态向量s=(ω0,ω1,ω2,...,ω
mn
‑1)
T
,ω
i
表示数组下标为i的点云簇中所有数据点的漆膜厚度δ的平均值;其中,点云簇Ω中数据点Ω
k
处漆膜厚度δ通过以下步骤获取:计算喷枪在轨迹点T
i
的停留时间t;以轨迹点T
i
为原点,构建局部坐标系Γ
local
和漆膜厚度沉积模型,寻找点云簇Ω中位于涂覆面积中的数据点Ω
k
,计算数据点Ω
k
在时间t内获得的漆膜沉积厚度δ
k
;分别计算轨迹T中各轨迹点对数据点Ω
k
所产生的的漆膜沉积厚度δ
k
,则,最终的漆膜厚度δ为:δ=∑δ
k
。4...

【专利技术属性】
技术研发人员:王国磊李亚昕张剑辉刘兴杰徐嵩艾嘉文吴丹
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1