System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于Unity的数字孪生机械臂强化学习训练方法及系统技术方案_技高网

一种基于Unity的数字孪生机械臂强化学习训练方法及系统技术方案

技术编号:40877713 阅读:5 留言:0更新日期:2024-04-08 16:47
本发明专利技术属于机械臂控制相关技术领域,并公开了一种基于Unity的数字孪生机械臂强化学习训练方法及系统。该方法包括:S1构建机械臂和目标物体的数字孪生模型;建立数字孪生模型和真实机械臂的双向通信;S2构建强化学习神经网络,机械臂的位姿和目标物的位置作为输入,机械臂运动的动作向量为输出,设定奖惩函数,以此训练所述强化学习神经网络;S3采集真实机械臂的位姿和实际目标物的位置输入训练后的强化学习神经网络中,输出动作向量,数字孪生模型中的机械臂按照动作向量运动并将每一帧的关节角度实时发送给真实机械臂,真实机械臂跟随运动。通过本发明专利技术,提高机械臂控制建模准确性和实时性,为数字孪生技术在机械臂领域的应用提供可行方案。

【技术实现步骤摘要】

本专利技术属于机械臂控制相关,更具体地,涉及一种基于unity的数字孪生机械臂强化学习训练方法及系统。


技术介绍

1、传统机械臂控制主要依赖于预先编程的路径规划和控制策略,对于复杂环境和实时变化的任务难以适应,存在复杂环境中难以建模、对动态变化的任务变化不敏感、人工调整干预繁琐等痛点。强化学习算法作为一种自主学习的方法,具有适应性强、能够处理动态环境的优势。然而受限于安全、训练成本、机器数量等原因,我们难以直接利用真实机械臂直接进行强化学习训练。

2、现有机械臂路径规划技术大多基于rtt算法,现有的基于强化学习的机械臂路径规划技术受制于机械臂本身的物理属性,难以对机械臂进行真实、快速、有效的训练,且训练结果难以适应动态的机械臂工作环境。


技术实现思路

1、针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于unity的数字孪生机械臂强化学习训练方法及系统,解决现有机械臂强化学习训练技术训练慢、安全性低、训练结果不够理想、训练结果难适应动态环境等问题。

2、为实现上述目的,按照本专利技术的一个方面,提供了一种基于unity的数字孪生机械臂强化学习训练方法,该方法包括下列步骤:

3、s1构建机械臂和目标物体的数字孪生模型,设定所述机械臂的各个关节位姿和目标物体的位置;建立数字孪生模型和真实机械臂的双向通信;

4、s2构建强化学习神经网络,采集当前时刻数字孪生模型中机械臂的位姿作为输入的状态向量,利用所述强化学习神经网络根据数字孪生模型中目标物体的位置输出机械臂运动的动作向量,设定奖惩函数,以此训练所述强化学习神经网络;

5、s3采集真实机械臂的位姿和实际目标物的位置输入所述训练后的强化学习神经网络中,输出真实机械臂运动的动作向量,数字孪生模型中的机械臂按照该输出的动作向量运动并将每一帧的关节角度实时发送给真实机械臂,真实机械臂运动到指定位置,以此实现真实机械臂跟随实际目标物的运动。

6、进一步优选地,在步骤s1中,所述奖惩函数按照下列进行:

7、r=rend+rapproach+rcollision+rtime

8、其中,rend是位置奖励,rapproach是接近奖励,rcollision是碰撞惩罚,rtime耗时惩罚。

9、进一步优选地,所述位置奖励按照下列方式进行:数字孪生模型中机械臂末端到目标物体的距离小于预设阈值,则予以位置奖励。

10、进一步优选地,所述接近奖励按照下列方式进行:当前时刻数字孪生模型中机械臂末端到目标物体的距离小于上一时刻数字孪生模型中机械臂末端到目标物体的距离,则予以接近奖励。

11、进一步优选地,在步骤s1中,所述碰撞惩罚按照下列方式进行:数字孪生机械臂在从初始位置运动朝目标物体运动的过程中,任意两个各个关节或零部件之间有碰撞,则予以碰撞惩罚。

12、进一步优选地,所述耗时惩罚按照下列方式进行:每次数字孪生机械臂在从初始位置运动朝目标物体运动的过程均被予以耗时惩罚。

13、进一步优选地,在步骤s1中,在步骤s1中,所述数字孪生模型的数量为一个或者多个各自独立的数字孪生模型,利用该一个或多个数字孪生模型进行训练,获得所需的强化学习神经网络模型。

14、进一步优选地,在步骤s1中,所述建立数字孪生模型和真实机械臂的双向通信的方式包括基于socket的tcp通信、基于http的通信以及串口通信。

15、按照本专利技术的另一个方面,提供了一种基于unity的数字孪生机械臂强化学习训练方法的系统,该系统包括执行器,该执行器执行上述所述的基于unity的数字孪生机械臂强化学习训练方法。

16、按照本专利技术的又一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行器执行时实现上述所述的基于unity的数字孪生机械臂强化学习训练方法。

17、总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,具备下列有益效果:

18、1.本专利技术中通过在强化学习神经网络模型中设定两个惩罚函数和两个奖励函数,可以在前期加快训练速度、在后期提高训练结果的效果;

19、2.本专利技术中采用虚拟的数字孪生机械臂训练真实的机械臂的运动,相比采用真实的机械臂进行训练,不会对真实机械臂产生负面影响,更加安全可靠,利用多智能体系统大幅提高了训练速度,建立接近真实的物理模型使得训练结果真实可信;

20、3.本专利技术中采用数字孪生技术通过在虚拟环境中构建机械臂的数字模型,提供了一种更灵活、可视化的机械臂建模与训练方法,可以利用虚拟的数字孪生机械臂模型及变化的环境进行强化学习训练,可以直接迁移到真实机械臂中,完成所需任务;

21、4.本专利技术致力于将数字孪生技术与强化学习相融合,通过在unity平台上构建数字孪生机械臂模型,实现对机械臂的实时监控和智能控制,此方法为机械臂控制系统引入了更加灵活和自适应的智能化手段,具有广阔的应用前景;5.本专利技术中将unity应用在机械臂强化学习训练中,设计合理的奖惩函数解决了unity强化学习训练前期梯度下降难以及后期难以得到最优结果的问题;利用unity碰撞体组建解决了机械臂强化学习难以检测碰撞的问题;利用unity灵活的拖拽式交互方式解决了传统机械臂训练结果难以适应可变环境的问题。

本文档来自技高网...

【技术保护点】

1.一种基于Unity的数字孪生机械臂强化学习训练方法,其特征在于,该方法包括下列步骤:

2.如权利要求1所述的一种基于Unity的数字孪生机械臂强化学习训练方法,其特征在于,在步骤S1中,所述奖惩函数按照下列进行:

3.如权利要求2所述的一种基于Unity的数字孪生机械臂强化学习训练方法,其特征在于,所述位置奖励按照下列方式进行:数字孪生模型中机械臂末端到目标物体的距离小于预设阈值,则予以位置奖励。

4.如权利要求2所述的一种基于Unity的数字孪生机械臂强化学习训练方法,其特征在于,所述接近奖励按照下列方式进行:当前时刻数字孪生模型中机械臂末端到目标物体的距离小于上一时刻数字孪生模型中机械臂末端到目标物体的距离,则予以接近奖励。

5.如权利要求2所述的一种基于Unity的数字孪生机械臂强化学习训练方法,其特征在于,在步骤S1中,所述碰撞惩罚按照下列方式进行:数字孪生机械臂在从初始位置运动朝目标物体运动的过程中,任意两个各个关节或零部件之间有碰撞,则予以碰撞惩罚。

6.如权利要求2所述的一种基于Unity的数字孪生机械臂强化学习训练方法,其特征在于,所述耗时惩罚按照下列方式进行:每次数字孪生机械臂在从初始位置运动朝目标物体运动的过程均被予以耗时惩罚。

7.如权利要求1所述的一种基于Unity的数字孪生机械臂强化学习训练方法,其特征在于,在步骤S1中,在步骤S1中,所述数字孪生模型的数量为一个或者多个各自独立的数字孪生模型,利用该一个或多个数字孪生模型进行训练,获得所需的强化学习神经网络模型。

8.如权利要求1所述的一种基于Unity的数字孪生机械臂强化学习训练方法,其特征在于,在步骤S1中,所述建立数字孪生模型和真实机械臂的双向通信的方式包括基于socket的TCP通信、基于HTTP的通信以及串口通信。

9.一种基于Unity的数字孪生机械臂强化学习训练方法的系统,其特征在于,该系统包括执行器,该执行器执行权利要求1-8任一项所述的基于Unity的数字孪生机械臂强化学习训练方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行器执行时实现权利要求1-8任一项所述的基于Unity的数字孪生机械臂强化学习训练方法。

...

【技术特征摘要】

1.一种基于unity的数字孪生机械臂强化学习训练方法,其特征在于,该方法包括下列步骤:

2.如权利要求1所述的一种基于unity的数字孪生机械臂强化学习训练方法,其特征在于,在步骤s1中,所述奖惩函数按照下列进行:

3.如权利要求2所述的一种基于unity的数字孪生机械臂强化学习训练方法,其特征在于,所述位置奖励按照下列方式进行:数字孪生模型中机械臂末端到目标物体的距离小于预设阈值,则予以位置奖励。

4.如权利要求2所述的一种基于unity的数字孪生机械臂强化学习训练方法,其特征在于,所述接近奖励按照下列方式进行:当前时刻数字孪生模型中机械臂末端到目标物体的距离小于上一时刻数字孪生模型中机械臂末端到目标物体的距离,则予以接近奖励。

5.如权利要求2所述的一种基于unity的数字孪生机械臂强化学习训练方法,其特征在于,在步骤s1中,所述碰撞惩罚按照下列方式进行:数字孪生机械臂在从初始位置运动朝目标物体运动的过程中,任意两个各个关节或零部件之间有碰撞,则予以碰撞惩罚。

6.如权利要求2所述的一种基于unity的数字孪生机械臂...

【专利技术属性】
技术研发人员:沈卫明余裕浩曹云康程育奇张以恒
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1