System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于强化学习的机器人运动学参数修正方法及其系统技术方案_技高网

一种基于强化学习的机器人运动学参数修正方法及其系统技术方案

技术编号:41206239 阅读:3 留言:0更新日期:2024-05-07 22:32
本发明专利技术涉及一种基于强化学习的机器人运动学参数修正方法,包括如下步骤:建立Q‑leraning模型;以ε的概率随机执行任一个修改运动学参数的动作,以1‑ε的概率执行当前状态下使Q表取最大值的动作,修改对应的运动学参数;控制机器人执行RCM运动;利用两个拍摄方向互相垂直的摄像装置拍摄机器人的执行元件末端的照片,并识别其坐标;计算新状态S'与采取该行动所获得的奖励r;在新状态S'下更新Q表;判断训练次数是否满足要求,若否,则再次执行训练;若是,则执行下一步;若执行元件末端平均定位精度满足阈值要求,得出最优参数并保存输出Q表。无需使用其他测量设备进行测量误差值,降低设备成本;无需机器人基座到末端执行器的转化标定,简化了计算过程。

【技术实现步骤摘要】

本专利技术涉及机器人控制领域,更具体地,涉及一种基于强化学习的机器人运动学参数修正方法及其系统


技术介绍

1、眼科手术通常需要高度精确的操作,以处理视觉障碍和其他眼部疾病,例如白内障、近视、远视等。传统眼科手术往往依赖于外科医生的手工操作,可能受到手部微小颤动等因素的影响。

2、近年来,眼科手术机器人技术已经成为解决这些挑战的一个重要领域。眼科手术机器人系统能够提供高精度的操作,减少了手术风险,提高了手术成功率。然而,眼科手术机器人通常在制造过程中都会受到制造和组装误差的影响,导致机械臂的实际参数偏离了标称值。这些参数误差可能会导致手术中的定位和操作误差,进而降低手术的准确性和成功率。

3、现有技术对不同的手术机器人采取不同的参数标定方案。有部分手术机器人特制了硬件装置进行参数标定;也有部分方法利用自研算法采用低成本测量设修正误差。而对于眼科手术机器人,目前对眼科手术机器人的标定主要是通过人工经验不断小幅度修改参数使其满足精度要求。

4、而针对上述提出的方法,采用人工根据经验调整的方法不借助传感器设备,但耗时长,需要专业的校正人员;利用激光跟踪仪测量位置的参数标定系统价格昂贵,需要定期校准与标定;而摄像装置标定会引入新误差,叠加在前向和逆向运动学计算中,增加了误差模型的复杂性,降低了运动学参数校准的准确性;训练神经网络模型来拟合机器人的运动学参数的方法需要数据收集、清洗,模型训练与测试,工作量较大。


技术实现思路

1、本专利技术为克服上述现有技术动学参数标定中存在的测量设备成本昂贵、需重复性标定、计算过程复杂的问题,提供一种基于强化学习的机器人运动学参数修正方法,不但能够降低成本和简化运算,同时还能够对机器人运动学参数校正。

2、为解决上述技术问题,本专利技术采用的技术方案是:一种基于强化学习的机器人运动学参数修正方法,包括如下步骤:

3、步骤一:选定需修改的运动学参数及运动学参数初始值、训练次数t、初始状态s0和奖励函数,建立q-leraning模型;

4、步骤二:以ε的概率随机执行任一个修改运动学参数的动作,以1-ε的概率执行当前状态下使q表取最大值的动作,修改对应的运动学参数的当前值;当前值是执行步骤二时运动学参数的当前时刻的值,若是第一次执行步骤二,则当前值为初始值。

5、步骤三:控制机器人执行rcm运动;远程运动中心(rcm):是机器人手术中用于保持手术工具稳定的关键点。手术中为防止患者的切入口进一步扩大,机器人只允许围绕该点作旋转运动或平移。

6、步骤四:利用两个拍摄方向互相垂直的摄像装置拍摄机器人的执行元件末端的照片,并识别获取执行元件末端坐标;根据机器人执行rcm运动前后坐标计算新状态s'与根据奖励函数计算采取该行动所获得的奖励r;

7、步骤五:在新状态s'下,假设执行使q表取最大值的动作a',并利用马尔可夫性质更新q表;

8、步骤六:判断训练次数是否达到t次,若否,则再次执行步骤二至五;若是,则执行步骤七;

9、步骤七:将运动学参数的当前值与人工修正参数进行比较,若执行元件末端平均定位精度满足阈值要求,得出最优参数并保存输出q表。

10、在上述的技术方案中,以机器人的执行元件末端作为固定的rcm点,以两个摄像装置拍摄的图像作为rcm点偏移的判断依据然后进行强化学习,同时根据强化学习的贪心算法,让机器人处于不同的状态下根据ε来执行对应运动学参数修改行动,直至最后rcm点偏移的判断结果满足阈值的要求,也就是执行元件的末端误差小于预设的阈值,此时就得到机器人运动学参数的最优参数,并且后续可根据q表进行调整。

11、优选的,所述q-leraning模型具体如下:

12、状态空间:机器人进行rcm运动前,两摄像装置读取的图像坐标为(x01,y01)和(x02,y02),机器人进行rcm运动后,重新拍摄图像并识别执行元件的末端,两摄像装置拍摄图像下,执行元件的末端坐标分别为(xnew1,ynew1)和(xnew2,ynew2),rcm运动前后的图像坐标x和y分别作差,其结果的有增大、减小和不变三种结果,四个参数的差值结果可以产生3*3*3*3=81种状态,由此定义state=0~80共八十一个状态;

13、动作空间:设置运动学参数的修正精度值和修改方式,所述修改方式为在运动学参数的当前值的基础上增加或减少修正精度值;每个运动参数分别增加、减少或不采取任何动作均设为动作空间中的一种动作;

14、奖励函数:将已训练的过程中最小的rcm偏移记为dis_best,当下一次训练时的误差rcm_err小于dis_best则给予奖励其中k根据训练环境下的rcm_err调整,k取固定值;当rcm_err大于dis_best但比上一次训练的误差要小则给予奖励误差比上一次训练的要大则给予奖励

15、优选的,rcm偏移:在训练的每一步中,设置rcm运动的次数,以欧氏距离作为rcm偏移的判断,取所有rcm运动次数中平均的偏移作为本次训练的偏移,定义rcm偏移为:

16、rcm_err=(xnew1-x01)2+(ynew1-y01)2+(xnew2-x02)2+(ynew2-y02)2。

17、优选的,ε的具体值为:

18、

19、式中,i=0,1,2...t,t为训练次数。

20、优选的,在所述步骤五中,根据下式更新q表:

21、q(s,a)=q(s,a)+α(r+γq(s′,a′)-q(s,a))

22、式中,

23、优选的,在所述步骤一中,选定需修改的运动学参数具体流程为:构建机器人执行末端的基座坐标系下的表达式,表达式中出现的运动学参数作为需更改运动学参数;对需更改运动学参数进行人工调参并查看调参结果,根据调参结果选定需修改的运动学参数。确定最需要修正且修正后最能够改善机器人rcm点偏移的运动学参数,减少需要修正的运动学参数数量,降低运算量。

24、优选的,在所述步骤二中,若执行动作修改后的运动学参数的值与对应的运动学参数的初始值之间的误差大于5%,以一定的概率反向执行动作修改,防止过拟合。

25、以一定的概率对应的函数:

26、

27、q为正数,其取值使得概率f(l修改值-l初始值)的值域为[0,1].

28、上式中,l修改值为修改后的运动学参数的值;l初始值为运动学参数的初始值。

29、优选的,在所述步骤四中,采用harris角点识别获取执行元件末端坐标。

30、优选的,在所述步骤五中,机器人的执行元件末端初始化至两摄像装置图像的中心,避免多次训练导致末端偏移出图像区域。

31、一种用于机器人运动学参数修正的系统,用于执行上述的基于强化学习的机器人运动学参数修正方法;包括机器人、用于拍摄机器人末端且互相垂直的两台摄像装置和分别与所述机器本文档来自技高网...

【技术保护点】

1.一种基于强化学习的机器人运动学参数修正方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于强化学习的机器人运动学参数修正方法,其特征在于,所述Q-leraning模型具体如下:

3.根据权利要求2所述的基于强化学习的机器人运动学参数修正方法,其特征在于,RCM偏移:在训练的每一步中,设置RCM运动的次数,以欧氏距离作为RCM偏移的判断,取所有RCM运动次数中平均的偏移作为本次训练的偏移,定义RCM偏移为:

4.根据权利要求3所述的基于强化学习的机器人运动学参数修正方法,其特征在于,e的具体值为:

5.根据权利要求3所述的基于强化学习的机器人运动学参数修正方法,其特征在于,在所述步骤五中,根据下式更新Q表:

6.根据权利要求1所述的基于强化学习的机器人运动学参数修正方法,其特征在于,在所述步骤一中,选定需修改的运动学参数及运动学参数初始值,具体流程为:构建机器人执行末端的基座坐标系下的表达式,表达式中出现的运动学参数作为需更改运动学参数;对需更改运动学参数进行人工调参并查看调参结果,根据调参结果选定需修改的运动学参数。

7.根据权利要求1所述的基于强化学习的机器人运动学参数修正方法,其特征在于,在所述步骤二中,若执行动作修改后的运动学参数的值与该运动学参数初始值之间的误差大于5%,以一定的概率反向执行动作修改。

8.根据权利要求1所述的基于强化学习的机器人运动学参数修正方法,其特征在于,在所述步骤四中,采用Harris角点识别获取执行元件末端坐标。

9.根据权利要求1所述的基于强化学习的机器人运动学参数修正方法,其特征在于,在所述步骤五中,机器人的执行元件末端初始化至两摄像装置图像的中心。

10.一种用于机器人运动学参数修正的系统,其特征在于,用于执行权利要求1-9任一所述的基于强化学习的机器人运动学参数修正方法;包括机器人、用于拍摄机器人末端且互相垂直的两台摄像装置和分别与所述机器人和所述摄像装置电连接的控制器。

...

【技术特征摘要】

1.一种基于强化学习的机器人运动学参数修正方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于强化学习的机器人运动学参数修正方法,其特征在于,所述q-leraning模型具体如下:

3.根据权利要求2所述的基于强化学习的机器人运动学参数修正方法,其特征在于,rcm偏移:在训练的每一步中,设置rcm运动的次数,以欧氏距离作为rcm偏移的判断,取所有rcm运动次数中平均的偏移作为本次训练的偏移,定义rcm偏移为:

4.根据权利要求3所述的基于强化学习的机器人运动学参数修正方法,其特征在于,e的具体值为:

5.根据权利要求3所述的基于强化学习的机器人运动学参数修正方法,其特征在于,在所述步骤五中,根据下式更新q表:

6.根据权利要求1所述的基于强化学习的机器人运动学参数修正方法,其特征在于,在所述步骤一中,选定需修改的运动学参数及运动学参数初始值,具体流程为:构建机器人执行末端的基座坐标系下的表达式,表达式...

【专利技术属性】
技术研发人员:晏丕松林生智
申请(专利权)人:广州市微眸医疗器械有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1