一种基于数字孪生的机械臂控制方法及系统技术方案

技术编号:36603846 阅读:19 留言:0更新日期:2023-02-04 18:22
本发明专利技术公开了一种基于数字孪生的机械臂抓取控制方法及系统,涉及工业智能制造技术领域,包括:在机械臂运行时,按时间周期性采集状态信息,所述的状态信息经过转换后用于构建机械臂数字孪生体,使用深度强化学习算法对构建的机械臂数字孪生体进行训练;训练过程中,对机械臂的状态信息进行分析,并对状态信息进行存储;训练完成后,得到最优的路径规划,通过最优的路径规划,分析机械臂控制过程可能发生的故障点且对比历史数据结果,得到最优的路径规划数据,将最优的路径规划数据发送给机械臂并控制机械臂的运行;循环以上步骤,直至机械臂准确到达目标点,并完成抓取动作。实现对机械臂工作状态的实时监控,对机械臂的运行路径进行规划。行规划。行规划。

【技术实现步骤摘要】
一种基于数字孪生的机械臂控制方法及系统


[0001]本专利技术涉及工业智能制造
,特别涉及一种基于数字孪生的机械臂控制方法及系统。

技术介绍

[0002]我国我省制造业在信息化水平、自动化程度、质量效能方面依旧矛盾突出,在推进工业自动化、信息化方面的任务紧迫艰巨。
[0003]工业自动化流水生产线是制造业自动化的重要组成装备,工业机械臂是其中的重要组成部分。在工业生产中广泛应用机械臂,不仅可以有效地提升制造业的劳动生产率,还能够有效地提升工业产品的加工精度。因此,应用更有效、更精确的控制技术是工业机械臂发展要求。目前,在真实的机械臂控制应用中,市场上主流的机械臂控制方法为人为指令控制,即示教法,即由工程技术人员去规划机械臂的运动方向、作业步骤及力度控制,并细化至各种参数。这种控制技术方法较复杂,耗时长且工作量大,面对非线性结构的复杂环境时,利用人力去求解最优解显然是极具困难的。而当环境发生变化时,又需要重新示教,极大耗费专业人员的精力。
[0004]数字孪生是一个结合多个学科、在多个维度进行仿真的过程,在这个仿真过程中充分发挥诸如物理模型、传感器、运行历史等数据的作用。近年来,数字孪生得到越来越广泛的传播。同时,得益于物联网、大数据、云计算、人工智能等新一代信息技术的发展,数字孪生的实施已逐渐成为可能。现阶段,除了航空航天领域,数字孪生还被应用于电力、船舶、城市管理、农业、建筑、制造、石油天然气、健康医疗、环境保护等行业。特别是在智能制造领域,数字孪生被认为是一种实现制造信息世界与物理世界交互融合的有效手段。数字孪生的应用价值在于其能够对控制系统的实时监控和控制,实现预测性维护。
[0005]强化学习(Reinforcement Learning,RL),是利用奖励机制来解决智能体与环境交互中实现回报最大化的方法,是机器学习算法的一个分支。深度强化学习(Deep Reinforcement Learning,DRL)近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步。DRL在总结多次学习策略的情况下,以不断改进学习算法。近年来,该方向已经取得了一系列瞩目的进展,比如交通信号控制、机器人控制、未知探索、公交车时刻表优化等。故深度强化学习领域具有较大的潜在研究优势。
[0006]现有技术公开了一种基于数字孪生的机械臂智能装备控制方法及系统,所述的方法包括:创建孪生空间;采集机械臂各关节运行位姿数据;建立数据库,并绘制路径曲线图;获取机械臂各关节最优运动姿态;将规划路径经孪生空间模拟运行后反馈给物理空间。但不足之处在于没有考虑到传统机械臂控制自适应性差,精准度低,在复杂环境下抓取准确率低的问题。

技术实现思路

[0007]本专利技术为了解决传统机械臂控制自适应性差,精准度低,在复杂环境下抓取准确
率低的问题,提出了一种基于数字孪生的机械臂控制方法及系统,通过模糊PID算法提升自适应性和精确度、通过深度学习方法提高复杂环境下的抓取准确率。
[0008]为解决上述技术问题,本专利技术采用的技术方案是:
[0009]一种基于数字孪生的机械臂控制方法,包括:
[0010]在机械臂运行时,按时间周期性采集状态信息,所述的状态信息经过转换后用于构建机械臂数字孪生体,使用深度强化学习算法对构建的机械臂数字孪生体进行训练;
[0011]训练过程中,对机械臂的状态信息进行分析,并对状态信息进行存储;
[0012]训练完成后,得到最优的路径规划,通过最优的路径规划,分析机械臂控制过程可能发生的故障点且对比历史数据结果,得到最优的路径规划数据,将最优的路径规划数据发送给机械臂并控制机械臂的运行;
[0013]通过以上步骤,控制机械臂准确到达目标点,并完成抓取动作。
[0014]本专利技术的工作原理如下:
[0015]通过数字孪生技术在信息化平台上了解机械臂的运行状态,且机械臂与机械臂数字孪生体能够实现双向映射、数据连接和状态交互,从而加快风险评估的时间,实现实时监控运营和预测性维护;通过模糊PID算法对机械臂的控制进行优化,有效补偿动作误差,达到精确控制的目的;通过深度学习算法对机械臂数字孪生体进行训练,解决了不能连续输出动作的问题,提供了最优的路径规划,优化了机械臂的抓取动作。
[0016]优选地,在深度强化学习算法开始训练之前和训练完成之后,都通过模糊 PID控制器对机械臂进行参数优化和误差调整,使用模糊PID算法依次进行模糊化、模糊推理、解模糊处理求得输出值;再将输出值套入模糊PID算法进行调节。
[0017]优选地,所述的深度强化学习方法包括DDPG算法,所述的DDPG算法包括Actor网络和Critic网络;
[0018]在Actor网络中,DDPG算法在每个决策时隙t触发,根据学习的结果在时隙t、接收到系统状态为S
t
时,输出一个对应动作A
t
,动作A
t
是在接收到系统状态为S
t
下,满足奖赏值最大的动作;
[0019]定义映射π:S
t

A
t
;式中,π称为策略,π(a|s)=P[A
t
=a|S
t
=a],P 为状态转移矩阵对于输出的动作A
t
,Critic网络评估预期的回报,通过不断学习后,输出动作的效果更好或奖赏值更大,定义为映射Q(S
t
,A
t
)

R;
[0020]当输出一个对应动作A
t
的同时获得下一个状态S
t+1
和奖励R
t
,每个数据都会同时储存在经验池中;在训练期间为达到长期回报的最大化,需要从经验池中选取样本更新Actor网络和Critic网络的参数,;
[0021]Actor网络在经验池中数据样本为Ω:
[0022]Ω={(S
t
,A
t
)|t∈Γ};
[0023]Critic网络需要的样本Ω
T
包括奖励R
t
和下一个状态S
t+1

[0024]Ω
T
={(S
t
,A
t
,R
t
,S
t+1
)|t∈Γ};
[0025]式中,Γ表示样本索引;
[0026]对于Actor网络,目标是损失最小,定义Actor网络的损失函数为:
[0027]L(θ
u
)=E
Γ
[A
t
log u(S
t
)+(1

A
t
)log(1

u(S
t
))][0028]式中,θ
u
为Actor网络的参数,E
Γ
表示在Γ的样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数字孪生的机械臂控制方法,其特征在于,包括:在机械臂运行时,按时间周期性采集状态信息,所述的状态信息经过转换后用于构建机械臂数字孪生体,使用深度强化学习算法对构建的机械臂数字孪生体进行训练;训练过程中,对机械臂的状态信息进行分析,并对状态信息进行存储;训练完成后,得到最优的路径规划,通过最优的路径规划,分析机械臂控制过程可能发生的故障点且对比历史数据结果,得到最优的路径规划数据,将最优的路径规划数据发送给机械臂并控制机械臂的运行;通过以上步骤,控制机械臂准确到达目标点,并完成抓取动作。2.根据权利要求1中所述的一种基于数字孪生的机械臂控制方法,其特征在于,在深度强化学习算法开始训练之前和训练完成之后,都通过模糊PID控制器对机械臂进行参数优化和误差调整,使用模糊PID算法依次进行模糊化、模糊推理、解模糊处理求得输出值;再将输出值套入模糊PID算法进行调节。3.根据权利要求2中所述的一种基于数字孪生的机械臂控制方法,其特征在于,所述的深度强化学习方法包括DDPG算法,所述的DDPG算法包括Actor网络和Critic网络;在Actor网络中,DDPG算法在每个决策时隙t触发,根据学习的结果在时隙t、接收到系统状态为S
t
时,输出一个对应动作A
t
,动作A
t
是在接收到系统状态为S
t
下,满足奖赏值最大的动作;定义映射π:S
t

A
t
;式中,π称为策略,π(a|s)=P[A
t
=a|S
t
=a],P为状态转移矩阵对于输出的动作A
t
,Critic网络评估预期的回报,通过不断学习后,输出动作的效果更好或奖赏值更大,定义为映射Q(S
t
,A
t
)

R;当输出一个对应动作A
t
的同时获得下一个状态S
t+1
和奖励R
t
,每个数据都会同时储存在经验池中;在训练期间为达到长期回报的最大化,需要从经验池中选取样本更新Actor网络和Critic网络的参数,;Actor网络在经验池中数据样本为Ω:Ω={(S
t
,A
t
)|t∈Γ};Critic网络需要的样本Ω
T
包括奖励R
t
和下一个状态S
t+1
:Ω
T
={(S
t
,A
t
,R
t
,S
t+1
)|t∈Γ};式中,Γ表示样本索引;对于Actor网络,目标是损失最小,定义Actor网络的损失函数为:L(θ
u
)=E
Γ
[A
t
logu(S
t
)+(1

A
t
)log(1

u(S
t
))]式中,θ
u
为Actor网络的参数,E
Γ
表示在Γ的样本中得到矩或称期望,以计算平均交叉熵损失;对于Critic网络,定义Critic网络的损失函数为:L(θ
Q
)=E
Γ
(R
t
+γmaxQ(S

t
,A

t
)

Q(S
t
,A
t
))2式中,θ
Q
为Critic网络的参数,E
Γ
表示在Γ的样本中得到矩或称期望,以计算平均交叉熵损失;随着参数θ
Q
的迭代更新,maxQ为Critic网络计算得到的最大Q值,Q为Critic网络计算得到的当前Q值;u(S
t
)表示Actor网络输入S
t
所产生的输出,γ是折扣因子,通过样本学习不断优化这两个函数的参数获得最优的路径规划;在系统状态S
t
下,输出一个动作A
t
,通过多个动作实现机械臂的目标,并且在此基础上
满足实际工作的其他要求,通过定义奖励函数R来实现;机械臂状态包括每个运动关节的状态,以及由此确定的机械臂末端位置(end_x,end_y),动作包括每个部件的动作。4.根据权利要求3中所述的一种基于数字孪生的机械臂控制方法,其特征在于,所述的奖励函数表示为:R=R1+R2+R3式中,R1为机械臂的坐标位置,R2为机械臂的动作幅度,R3为机械臂是否发生碰撞函数;使用负的直线距离作为奖励函数之一,通过机械臂末端位置的坐标,以及目标点的坐标(obj_x,obj_y),计算得到机械臂末端位置与目标点之间的直线距离,以此机械臂到达最终目标位置:R1=

distR2=

(Δθ+Δη)Δθ=Δθ1+Δθ2+Δθ3+

+Δθ
n
...

【专利技术属性】
技术研发人员:蒋丽陈万葛张开冯润谦岑羽昊邓鉴钰繆家辉
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1