System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于CPG控制及Q学习的软体机器人路径规划方法技术_技高网

基于CPG控制及Q学习的软体机器人路径规划方法技术

技术编号:40310213 阅读:9 留言:0更新日期:2024-02-07 20:53
一种基于CPG控制及Q学习的软体机器人路径规划方法,包括如下步骤:S1、构建基于Hopf模型的中央模式生成器CPG网络,所述CPG网络的神经元与物理机器鱼的关节成一一对应关系,通过CPG信号给出关节运动指令,以控制机器鱼的游动;S2、利用基于马尔可夫决策过程的Q学习对所述CPG网络控制的机器鱼做游动路径规划。软体机器鱼结合改进的CPG模型和Q学习,构建用于软体机器鱼游动的路径规划方法,充分利用改进的CPG模型能够提高机器鱼的游动效率,减少游动总路径,达成更好的游动效果。

【技术实现步骤摘要】

本专利技术涉及水下机器人,特别是涉及基于cpg控制及q学习的软体机器人路径规划方法。


技术介绍

1、近年来,随着人们对海洋探索的逐渐加深,越来越多的水下探测设备投入使用,其中auv和rov发挥了重要作用。通过长期的进化,自然鱼具有高效、灵活、快速的游泳的特点,这引起了许多研究人员的注意。目前,现有机器人鱼的运动性能仍低于生物鱼,运动姿态的控制已成为机器人鱼发展的重要组成部分。因此,建立一个可以通过调整参数控制的仿生机器鱼并实验多传感融合自动导航的功能是必要的。

2、需要说明的是,在上述
技术介绍
部分公开的信息仅用于对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、本专利技术的主要目的在于克服上述
技术介绍
的缺陷,提供一种基于cpg控制及q学习的软体机器人路径规划方法。

2、为实现上述目的,本专利技术采用以下技术方案:

3、一种基于cpg控制及q学习的软体机器人路径规划方法,包括如下步骤:

4、s1、构建基于hopf模型的中央模式生成器cpg网络,所述cpg网络的神经元与物理机器鱼的关节成一一对应关系,通过cpg信号给出关节运动指令,以控制机器鱼的游动;

5、s2、利用基于马尔可夫决策过程的q学习对所述cpg网络控制的机器鱼做游动路径规划。

6、进一步地:

7、所述基于hopf模型的cpg网络的表达式如下:

8、

9、其中,xi,yi分别代表第i个神经元当前的兴奋和抑制状态,分别代表第i个神经元下一时刻的兴奋和抑制状态,ωi代表第i个神经元的振荡频率,gi表示第i个振荡单元的最大振荡幅值;θ决定振荡器的收敛速度;是最近耦合的两个振荡器相位差,αi是最近耦合振荡器相位差的耦合系数;p(fk)表示对不同传感信号fk的归一化和平滑化函数。

10、优化所述基于hopf模型的所述cpg网络的神经元振荡频率,将hopf模型中的固定频率设置为周期内振荡频率随振荡幅度变化;

11、

12、其中,e是自然常数,ωr和ωd分别为常数,提供游动升力时采用快速振荡速率ωr,减小游动阻力时采用缓慢振荡速率ωd,θ决定振荡器的收敛速度,η用于区分两种振荡频率ωr和ωd的占比。

13、所述机器鱼通过传感反馈获得外部环境信息,所述基于hopf模型的cpg网络设置预处理层对机器鱼传感反馈信号进行归一化和平滑化预处理,经过预处理的反馈信号作为输入源加入所述cpg网络的输入端,以对所述机器鱼的动作进行调整;所述预处理层的表达式如下:

14、

15、其中,σk是各传感器的反馈信号,sgn是符号函数,限定传感反馈信号的阈值。

16、所述基于马尔可夫决策过程的q学习包括:

17、构建q学习框架,其动作值函数为下式:

18、

19、其中,st表示当前t时刻的状态,at表示当前t时刻的动作状态,α表示学习因子,r表示执行完当前动作的奖励值,γ表示折扣因子,a表示所有当前可执行动作的集合,π*表示最佳策略,q*表示最佳策略可以获得的值函数,根据该式迭代获得唯一最优解:π*=argmaxaq*(st,at),并设置基于动作的奖励函数,引导机器鱼通过q学习算法寻找最小路径。

20、所述奖励函数设定如下:

21、

22、其中,机器鱼所处平面设置为15*15大小的区域,障碍物不可逾越,区域边界不可逾越,机器鱼成功到达指定位置加100分,遇到障碍物减100分,如果执行动作后的下一位置pt+1距离终点的距离lt+1小于上一时刻位置pt+1距离终点位置lt,该动作加20分,反之如果执行动作后的下一位置pt+1距离终点的距离lt+1大于上一时刻位置pt+1距离终点位置lt,该动作减20分,遇到区域边界不加分。

23、改变转向时的游动频率,形成非对称摆动。

24、一种计算机可读存储介质,存储有计算机程序,所述计算机程序由处理器执行时,实现所述的路径规划方法。

25、一种软体机器人,包括物理机器鱼和处理器,所述处理器经配置以执行如所述的路径规划方法。

26、本专利技术具有如下有益效果:

27、本专利技术提供了一种基于cpg控制和q学习的软体机器人路径规划方法,其中,改进了基于hopf模型的中央模式生成器cpg控制网络,减少了网络的关节间的耦合关系,提高了在线计算效率;通过设置一个预处理层对多种传感反馈信号做归一化和平滑化处理,模拟上层控制中枢的决策对下层控制中枢的影响,提高了机器鱼的智能性和灵活性。李雅普诺夫方法证明了改进后的cpg网络的稳定性,该cpg网络可以自发生成稳定的闭环控制信号。通过改变转向时的游动频率,形成非对称摆动,可减小机器鱼的转弯半径。本专利技术的路径规划方法中,利用基于马尔可夫决策过程的q学习对改进cpg网络控制的机器鱼做路径规划,提高了机器鱼的智能性和灵活性。本专利技术的软体机器鱼结合改进的cpg模型和q学习,构建用于软体机器鱼游动的路径规划方法,充分利用改进cpg模型提高机器鱼的游动效率,减少游动总路径,达成更好的游动效果。

28、本专利技术的改进cpg网络作为机器鱼的控制方法,并结合高精度的数字舵机可以提高其运动精确度,提高游动速度以及效率。

29、结合在机器鱼鱼体上安装的多种传感器和程序设置预处理层,机器鱼可以将外部传感反馈经过预处理层后直接作为cpg网络的输入端,改变机器鱼的动作,完成与环境间的交互。cpg网络模拟了生物高层控制中枢对底层控制中枢的影响,提高了机器鱼的仿生性和智能性。

30、利用李雅普诺夫方法证明了经过改进的cpg算法的稳定性和收敛性,其作为无源的轻量型神经网络可以为机器鱼提供自发产生的振荡信号,保证了机器鱼游动的系统稳定性和抗干扰性。

31、利用q学习框架对机器鱼进行了路径规划训练,结合机器鱼的视觉反馈,可以达到精准识别,自动规避障碍的功能,提高了机器鱼在自主游动时的灵活性。

32、本专利技术实施例中的其他有益效果将在下文中进一步述及。

本文档来自技高网...

【技术保护点】

1.一种基于CPG控制及Q学习的软体机器人路径规划方法,其特征在于,包括如下步骤:

2.如权利要求1所述的路径规划方法,其特征在于,所述基于Hopf模型的CPG网络的表达式如下:

3.如权利要求2所述的路径规划方法,其特征在于,优化所述基于Hopf模型的所述CPG网络的神经元振荡频率,将Hopf模型中的固定频率设置为周期内振荡频率随振荡幅度变化;

4.如权利要求2所述的路径规划方法,其特征在于,所述机器鱼通过传感反馈获得外部环境信息,所述基于Hopf模型的CPG网络设置预处理层对机器鱼传感反馈信号进行归一化和平滑化预处理,经过预处理的反馈信号作为输入源加入所述CPG网络的输入端,以对所述机器鱼的动作进行调整;所述预处理层的表达式如下:

5.如权利要求1至4任一项所述的路径规划方法,其特征在于,所述基于马尔可夫决策过程的Q学习包括:

6.如权利要求5所述的路径规划方法,其特征在于,所述奖励函数设定如下:

7.如权利要求1至6任一项所述的路径规划方法,其特征在于,改变转向时的游动频率,形成非对称摆动。

>8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序由处理器执行时,实现如权利要求1至7任一项所述的路径规划方法。

9.一种软体机器人,包括物理机器鱼和处理器,其特征在于,所述处理器经配置以执行如权利要求1至7任一项所述的路径规划方法。

...

【技术特征摘要】

1.一种基于cpg控制及q学习的软体机器人路径规划方法,其特征在于,包括如下步骤:

2.如权利要求1所述的路径规划方法,其特征在于,所述基于hopf模型的cpg网络的表达式如下:

3.如权利要求2所述的路径规划方法,其特征在于,优化所述基于hopf模型的所述cpg网络的神经元振荡频率,将hopf模型中的固定频率设置为周期内振荡频率随振荡幅度变化;

4.如权利要求2所述的路径规划方法,其特征在于,所述机器鱼通过传感反馈获得外部环境信息,所述基于hopf模型的cpg网络设置预处理层对机器鱼传感反馈信号进行归一化和平滑化预处理,经过预处理的反馈信号作为输入源加入所述cpg网络的输入端,以对所述机...

【专利技术属性】
技术研发人员:曲钧天王云飞
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1