System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于强化学习的小型仿生鼠机器人的运动控制方法技术_技高网

一种基于强化学习的小型仿生鼠机器人的运动控制方法技术

技术编号:40767088 阅读:3 留言:0更新日期:2024-03-25 20:16
本发明专利技术涉一种基于强化学习的小型仿生鼠机器人的运动控制方法。首先根据仿生鼠机器人的结构特点构建了基于最小化有效信息提取的信息处理流,定义了强化学习过程中的基本要素,包括状态S,奖励函数R,动作空间A;基于最小化有效信息提取的信息处理,定义基于网络的控制决策过程;在无障碍的初始简单场景下,通过学习迭代过程训练机器鼠获得基础行走步态;最后,基于无障碍场景下的训练参数,继续在各种不同障碍场景中训练机器鼠,获得跨越障碍物的适应性步态。本发明专利技术针对小型鼠类四足机器人的结构特点设计了状态空间、动作空间、奖励函数,具有更好的控制效果;学习迭代算法采用端对端的控制方式,实现更加简单且在应对复杂地形时表现较好。

【技术实现步骤摘要】

本专利技术涉及四足机器人运动控制,更具体地,涉及一种基于强化学习的小型仿生鼠机器人的运动控制方法


技术介绍

1、四足机器人是一种目前应用广泛的机器人,经常被用于许多不同的场景,因此在运动控制过程中实现高效的步态并适应不同的地形是很重要的。目前常用两类方法为基于建模计算的控制方法和基于强化学习的方法。但基于建模计算的方法行为模式单一、适应性较差;已有的强化学习方法大多基于大型刚性机器人,小型柔性机器人,可配置资源远少于大型机器人,无法直接使用传统的强化学习方法。

2、现有专利一种基于drl的四足机器人路径规划方法,首先通过四足机器人自带的rgb-d相机对环境进行预扫描,基于栅格法对运动环境进行建模得到环境地图,进而分解为一系列具有二值信息的栅格单元,得到初始状态,将其作为深度卷积神经网络的输入,引入注意力机制优化网络结构以解决深度强化学习dqn算法未能很好利用关键局部信息的问题;通过端对端训练,结合四足机器人的运动特点设置奖励函数,利用置信区间上界探索策略对神经网络进行训练,得到四足机器人所能够执行的八个动作的q值;最后运用人工势场算法不断探测环境中的动态障碍物并进行实时避碍,实现有效的四足机器人路径规划。该方法利用视觉传感器的信息处理提出了一种复杂地形下的四足机器人控制方法,在路径规划、障碍跨越等方面取得了很好地效果,但由于小型机器人内部空间较小、可搭载的传感器数目有限,不具备观测环境图像信息的能力,因此该方法难以在小型机器人上使用。


技术实现思路

1、本专利技术为克服上述现有技术中的缺陷,提供一种基于强化学习的小型仿生鼠机器人的运动控制方法,具有更好的控制效果,实现更加简单且在应对复杂地形时表现较好。

2、为解决上述技术问题,本专利技术采用的技术方案是:

3、一种基于强化学习的小型仿生鼠机器人的运动控制方法,包括以下步骤:

4、首先根据仿生鼠机器人的结构特点构建了基于最小化有效信息提取的信息处理流,定义了强化学习过程中的基本要素,包括状态s,奖励函数r,动作空间a;基于最小化有效信息提取的信息处理流,定义基于网络的控制决策过程;

5、接着在无障碍的初始简单场景下,通过学习迭代过程训练机器鼠获得基础行走步态;最后,基于无障碍场景下的训练参数,继续在各种不同障碍场景中训练机器鼠,获得跨越障碍物的适应性步态;

6、在具体的控制过程中,对于任意时刻t,根据状态空间定义获取当前的状态st,通过actor网络na获取当前采取的动作at以及选中动作at的概率pt和奖励值rt;在具体的学习迭代过程中,首先通过控制方法在环境中采样若干(st,at,pt,rt)存入经验缓冲池m,当m已满时,利用经验回放计算损失函数l,再通过梯度下降的方法优化actor网络na参数θa和critic网络nc参数θc。

7、本专利技术提出了一种基于强化学习的小型仿生鼠四足机器人的运动控制方法,主要克服了现有四足机器人强化学习方法不适合小型机器人的缺点。本控制方法基于小型鼠类机器人的结构特点设计了状态空间、动作空间、奖励函数,使用基于ppo算法设计的学习迭代方法,训练机器鼠自适应地学习各种场景下的运动方法,让小型四足机器人既能自主学习如何行走,又能学会如何通过各种障碍。

8、在其中一个实施例中,基于最小化有效信息提取的信息处理的流程包括:

9、s11.首先基于机器鼠结构,在满足性能前提下选择最精简化的传感数据;速度传感器读数v=(vx,vy,vz),其中vx、vy、vz分别为速度传感器在x、y、z轴的读数;姿态传感器读数q,q是用于表征姿态的四元组;位于机器人各关节处的传感器读数pq,记录了铰链转动角度或滑动器滑动的距离;xn,yn,zn表示当前位置的三维坐标;

10、s12.定义状态空间s=<v,q,pq>;

11、s13.由速度传感器读数通过时间积分计算当前时刻的累计位移

12、s14.定义跌倒惩罚函数常数h为高度阈值,用于判断机器人是否跌倒;

13、s15.基于累计位移和跌倒惩罚函数,定义奖励函数其中α、β为参数表示各部分的重要程度,为机器人运动目标方向的单位向量;

14、s16.通过端对端的方式定义动作空间:

15、a=(q1,q2,q3,q4,q5,q6,q7,q8)

16、其中,每个数据分量对应机器鼠每个舵机转动角度。

17、在其中一个实施例中,决策控制执行的过程包括:

18、s21.初始化actor网络na,通过参数θa定义na;

19、s22.将当前状态st输入na得到动作空间的概率分布p(st;θa);

20、s23.对概率分布p(st;θa)采样得到动作at、选中动作at的概率pt;

21、s24.机器人执行计算出的动作,从环境中得到奖励值rt。

22、在其中一个实施例中,学习迭代过程具体包括:

23、s31.首先在无障碍场景初始化actor网络na参数θa和critic网络nc参数θc;

24、s32.通过决策控制方法获得当前状态st下的选择的动作at、选中动作at的概率pt和奖励值rt;

25、s33.将(st,at,pt,rt)加入经验缓冲池m;

26、s34.重复s32~s33若干次直至缓冲池m已满;

27、s35.对经验缓冲池m中的每个状态计算折扣奖励值rt=rt+γ1rt+1+

28、γ2rt+2+...+γnrt+n,其中常数γ为奖励折扣因子,rt+n为结束状态或缓冲池m中最后加入的状态;

29、s36.在缓冲池m中抽取一个mini-batch用于训练网络na、nc;

30、s37.重复步骤s36若干次,之后清空经验缓冲池m;

31、s38.重复步骤s32~s37若干次,直至训练完成;

32、s39.基于训练后得到的参数θa、θc,在不同的障碍场景下重复步骤s32~s38,获得适应不同场景运动的智能体参数。

33、在其中一个实施例中,所述的步骤s36具体包括:

34、s361.将mini-batch中的at输入网络na得到新的概率分布p(st;θa)及其交叉熵s(st;θa);

35、s362.用新的概率分布p(st;θa)计算出at出现的概率qt;

36、s363.将st输入网络nc得到评价值vt,则优势值函数at=rt-vt;

37、s364.计算损失函数其中θ=(θa,θc),c1、c2是表示重要性的参数,表示期望值,表示偏导;为rt与vt的均方误差,

38、

39、s365.通过损失函数使用梯度下降法更新nc的参数和na的参数其中ξ为学习率。

40、本专利技术还提供一种基于强化学习的小型仿生鼠机器人的运动控制系统,包括:

41、最本文档来自技高网...

【技术保护点】

1.一种基于强化学习的小型仿生鼠机器人的运动控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于强化学习的小型仿生鼠机器人的运动控制方法,其特征在于,基于最小化有效信息提取的信息处理流的流程包括:

3.根据权利要求2所述的基于强化学习的小型仿生鼠机器人的运动控制方法,其特征在于,决策控制执行的过程包括:

4.根据权利要求2所述的基于强化学习的小型仿生鼠机器人的运动控制方法,其特征在于,学习迭代过程具体包括:

5.根据权利要求4所述的基于强化学习的小型仿生鼠机器人的运动控制方法,其特征在于,所述的步骤S36具体包括:

6.一种基于强化学习的小型仿生鼠机器人的运动控制系统,其特征在于,包括:

7.根据权利要求6所述的基于强化学习的小型仿生鼠机器人的运动控制系统,其特征在于,所述的最小化有效信息提取模块包括:

8.根据权利要求7所述的基于强化学习的小型仿生鼠机器人的运动控制系统,其特征在于,决策执行模块包括:

9.根据权利要求7所述的基于强化学习的小型仿生鼠机器人的运动控制系统,其特征在于,学习迭代模块包括:

10.根据权利要求9所述的基于强化学习的小型仿生鼠机器人的运动控制系统,其特征在于,所述的训练模块包括:

...

【技术特征摘要】

1.一种基于强化学习的小型仿生鼠机器人的运动控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于强化学习的小型仿生鼠机器人的运动控制方法,其特征在于,基于最小化有效信息提取的信息处理流的流程包括:

3.根据权利要求2所述的基于强化学习的小型仿生鼠机器人的运动控制方法,其特征在于,决策控制执行的过程包括:

4.根据权利要求2所述的基于强化学习的小型仿生鼠机器人的运动控制方法,其特征在于,学习迭代过程具体包括:

5.根据权利要求4所述的基于强化学习的小型仿生鼠机器人的运动控制方法,其特征在于,所述的步骤s36...

【专利技术属性】
技术研发人员:黄凯张子韬赵子健陶若怡
申请(专利权)人:人工智能与数字经济广东省实验室广州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1