System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种网络训练机械臂自主跟踪靶点的方法、系统及设备技术方案_技高网

一种网络训练机械臂自主跟踪靶点的方法、系统及设备技术方案

技术编号:40657334 阅读:2 留言:0更新日期:2024-03-18 18:48
本发明专利技术提供了一种网络训练机械臂自主跟踪靶点的方法和系统,利用点激光高频捕捉待跟踪的目标靶点,并作为强化学习的输入进行训练,训练后的强化学习模型能够用于实时跟踪机械臂靶点跟踪。本发明专利技术的方法和系统为机械臂现场施工系统提供了必要的环境感知技术,完成目标的实时跟踪。

【技术实现步骤摘要】

本专利技术涉及数字化建造用机械臂自主施工跟踪目标方法。


技术介绍

1、如今,数字化建造作为国家工业智能化浪潮中的一个重要组成部分,正在进入加速发展阶段中。数字化建造技术中最重要的一个部分,是聚焦于利用数字化工业产线描述传统的建造系统,通过数字化智能装配技术,实施大尺度下的智能建筑建造,从而将数字化加工与现场总装配联系起来,实现高效率分步骤的数字化智能建造场景。

2、当前的数字化建造场景需要像搭积木一样将各个钢木结构匹配组装,而每一块“积木”的加工制造需要克服一系列的难点:制造尺度规模大,要求精度高,生产线装配成本高等。为解决上述问题,布局智能化建造工厂,可以借由机械臂实施精准定点加工,并通过实时在线规划加工路径,可以在短时间内低成本架设加工产线,为数字化建筑输送零件。

3、在智能化建造工厂中,有些柔性加工场景需要使机械臂能够在较大的场景范围中完成加工任务,而当前市面上的大臂展机械臂往往需要配合外部轴才能完成大范围加工任务,而外部轴的部署与移动都需要较为庞大的时间与人力成本。另外外部轴也无法实现机械臂纵向范围的大幅度伸展操作。

4、机械臂的末端云台模拟同时可以满足诸多加工工艺的外部轴需求,实现机器人移动位置后的自动准确位置到达,以完成之后的生产任务。


技术实现思路

1、本专利技术的目的就是解决上述已有技术中存在的不足之处,提供一种网络训练机械臂自主跟踪靶点的方法,进行实时跟踪。

2、为达上述目的,本专利技术采取的技术方案如下:

<p>3、一种网络训练机械臂自主跟踪靶点的方法,包括如下步骤:

4、s1,利用机械臂末端轴上的点激光采集靶点数据;

5、s2,对采集到的靶点数据进行必要的数据滤波,去除噪声;

6、s3,滤波后的数据输入q-learning强化学习模型进行训练,记录q表数据,获取训练结果;

7、s4,机械臂响应s3训练好的模型进行控制决策实现跟踪;

8、s5,机械臂移动进入下一个s1-s4循环。

9、点激光长度回调频率极高,且由预训练网络计算激励动作的过程也很快,因而闭环系统产生的控制抖动的数据会影响到目标靶点的追踪效果,需要去除噪声。s2对采集到的靶点数据通过高斯滤波处理,避免高斯噪声的影响。

10、s3所述的q-learning强化学习是利用了sarsa优化后的q-learning学习方法,根据激光数据强化训练机械臂获取动作指令。

11、进一步,s3所述的q-learning强化学习步骤包括:

12、首先初始化q表:

13、s301,根据x、y方向运动范围除以运动分辨率(步长),获得第一维与第二维长度;

14、s302,根据动作指令个数,初始化第三维长度;

15、s303,生成一个mxnx4的q表,每一个值填充为0;

16、然后循环以下步骤:

17、s304,预设机械臂训练初始位置为p1,并移动至该处;

18、s305,对该位置选取动作a1

19、a)将当前机械臂末端笛卡尔空间位置映射到q表中某一位置;

20、b)取该位置当前的动作序列;

21、c)生成随机值,如果该随机值处于预设范围,则选取当前动作序列中所有能达到最大收益的动作,任意选取一个作为指定动作;若该随机值不处于预设范围,则进行直接任意选取一个动作;

22、s306,根据获得动作a1移动机械臂位置,若到达该方向边界则保持不动,保存当前移动后姿态作为观测姿态p2;

23、s307,判断此时激光数据

24、a)如果进入奖励范围,则奖励值r为1,设置循环结束标志(尚未结束);

25、b)如果超出激光范围或动作抵达边界,则奖励值r为-1,设置循环结束标志(尚未结束);

26、c)其他情况奖励值r为0;

27、s308,对观测姿态选取动作,同步骤s305,获取该动作a2;

28、s309,此时收集初始状态p1,第一个选取动作a1,第二个选取动作为a2,新观测姿态p2与奖励值r,进行训练:

29、a)如果步骤s307中是c)情况,则更新目标q值为奖励值与观测姿态下选取的动作所获得的预期收益之和;

30、b)如果步骤s307是a)、b)情况,则目标q值为奖励值r;

31、c)更新当前姿态p1在动作a1下的q值为当前q与目标q的差值乘以学习率;

32、d)完成本轮训练;

33、s310,如果设置循环结束标志则结束循环,否则重复步骤s306-s309;

34、s311,记录q表数据,获取训练结果。

35、以上的q学习过程,在训练结束后获得了一个大小为mxnx4的q表,该表阐述了机械臂末端位于某一位置x、y时,分别选取4个动作时所获得的预期收益值。

36、一种网络训练机械臂自主跟踪靶点系统,包括:

37、采集数据模块,用于通过机械臂末端轴上的点激光采集靶点数据;

38、滤波模块,用于:对采集到的靶点数据进行必要的数据滤波,去除噪声;

39、q-learning训练模块,用于:将滤波后的数据输入q-learning强化学习模型进行训练,记录q表数据,获取训练结果;

40、跟踪模块,用于:机械臂响应q-learning训练模块训练好的模型进行控制决策实现跟踪。

41、在智造工厂内,机械臂在施工系统驱动下移动,采集下一个靶点数据,进入网络训练机械臂自主跟踪靶点系统,实现实时跟踪。

42、滤波模块对采集到的靶点数据通过高斯滤波处理,避免高斯噪声的影响。

43、进一步,q-learning训练模块包括:

44、第一单元,用于初始化q表:

45、首先根据x、y方向运动范围除以运动分辨率(步长),获得第一维与第二维长度;然后根据动作指令个数,初始化第三维长度,生成一个mxnx4的q表,每一个值填充为0;

46、第二单元,用于循环、优化数据:

47、u201,预设机械臂训练初始位置为p1,并移动至该处;

48、u202,对该位置选取动作a1

49、a.将当前机械臂末端笛卡尔空间位置映射到q表中某一位置;

50、b.取该位置当前的动作序列;

51、c.生成随机值,如果该随机值处于预设范围,则选取当前动作序列中所有能达到最大收益的动作,任意选取一个作为指定动作;若该随机值不处于预设范围,则进行直接任意选取一个动作;

52、u203,根据获得动作a1移动机械臂位置,若到达该方向边界则保持不动,保存当前移动后姿态作为观测姿态p2;

53、u204,判断此时激光数据

54、a)如果进入奖励范围,则奖励值r为1,设置循环结束标志(尚未结束);...

【技术保护点】

1.一种网络训练机械臂自主跟踪靶点的方法,包括如下步骤:

2.如权利要求1所述的网络训练机械臂自主跟踪靶点的方法,其特征在于:S3所述的Q-learning强化学习模型训练是利用SARSA优化后的Q-learning学习方法,根据激光数据强化训练机械臂获取动作指令。

3.如权利要求1所述的网络训练机械臂自主跟踪靶点的方法,其特征在于:S3所述的Q-learning强化学习模型训练步骤包括:

4.一种网络训练机械臂自主跟踪靶点系统,包括:

5.如权利要求4所述的网络训练机械臂自主跟踪靶点系统,其特征在于:

6.一种网络训练机械臂自主跟踪靶点的装置或终端,包括一个或多个处理器、存储装置;存储装置,用于存储一个或多个程序;当所述的一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1-3任一所述的网络训练机械臂自主跟踪靶点方法。

7.一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现权利要求1-3任一所述的网络训练机械臂自主跟踪靶点方法。

【技术特征摘要】

1.一种网络训练机械臂自主跟踪靶点的方法,包括如下步骤:

2.如权利要求1所述的网络训练机械臂自主跟踪靶点的方法,其特征在于:s3所述的q-learning强化学习模型训练是利用sarsa优化后的q-learning学习方法,根据激光数据强化训练机械臂获取动作指令。

3.如权利要求1所述的网络训练机械臂自主跟踪靶点的方法,其特征在于:s3所述的q-learning强化学习模型训练步骤包括:

4.一种网络训练机械臂自主跟踪靶点系统,包括:

【专利技术属性】
技术研发人员:胡雨辰张建孟浩
申请(专利权)人:上海大界智能设备有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1