基于近端策略训练的可变形机器人避障方法技术

技术编号:36186612 阅读:29 留言:0更新日期:2022-12-31 20:52
本发明专利技术提供了基于近端策略训练的可变形机器人避障方法,适合在可变形机器人的避障模型上应用。训练避障模型的方法包括:针对每个训练样本根据环境信息生成多个策略;针对每个策略利用奖惩函数处理轨迹得到累计奖励;根据多个累计奖励以及概率确定期望奖励;对期望奖励进行求导得到第一导数;基于策略梯度算法根据第一导数对初始参数进行更新得到目标参数;控制拟态可变形机器人利用经训练的避障模型在环境信息中行走,在拟态可变形机器人与障碍物信息发生碰撞的情况下迭代地利用其他的训练样本进行避障模型的训练得到新的经训练的避障模型的目标参数;在拟态可变形机器人与障碍物信息不发生碰撞的情况下将经训练的避障模型确定为目标避障模型。模型确定为目标避障模型。模型确定为目标避障模型。

【技术实现步骤摘要】
基于近端策略训练的可变形机器人避障方法


[0001]本公开涉及机器人
,更具体地,涉及一种基于策略梯度的近端策略优化训练避障模型的方法、拟态可变形机器人的避障方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]拟态变形机器人在作业过程中要避免与障碍物碰撞,也要避免与其他机器人或抓取目标相碰撞,在面对不同环境和任务时需要进行复杂非线性变形以切换到不同的拟态运动模式,当该智能机器人面临的避障场景包含动态障碍物时,将对避障算法的灵活性和有效性提出更加严格的要求。
[0003]在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下问题:传统基于刚体模型的线性和非线性控制理论无法达到令人满意的避障效果。

技术实现思路

[0004]有鉴于此,本公开实施例提供了一种基于策略梯度的近端策略训练避障模型的方法、拟态可变形机器人的避障方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0005]本公开实施例的一个方面提供了一种基于策略梯度的近端策略训练避障模型的方法,避障模型应用于拟态可变形机器人,方法包括:
[0006]针对每个行走阶段的训练样本集中的每个训练样本,根据环境信息,生成多个策略,其中,训练样本包括利用拟态可变形机器人获取的包括障碍物信息的环境信息,每个策略包括拟态可变形机器人在外部环境中行走的轨迹,轨迹包括多个离散的动作和与每个动作对应的状态,动作是利用包括初始参数的策略函数生成的,其中,上述动作包括以下至少一种:蛇形变形动作、球形变形动作以及方形或矩形变形动作;
[0007]针对每个策略,利用奖惩函数处理轨迹,得到轨迹的累计奖励,其中,奖惩函数是根据初始参数对应的奖励确定的,不同拟态的行走阶段的上述奖惩函数和上述策略函数均不相同;
[0008]根据与多个策略对应的多个累计奖励以及与每个轨迹对应的概率,确定策略的期望奖励,其中,概率表征拟态可变形机器人根据当前状态从多个策略对应的轨迹中选择当前策略的轨迹的几率;
[0009]对期望奖励进行求导处理,得到第一导数;
[0010]基于策略梯度算法,根据第一导数对初始参数进行更新,得到经训练的避障模型的目标参数;
[0011]控制拟态可变形机器人利用经训练的避障模型在上述行走阶段的环境信息中行走,在拟态可变形机器人与障碍物信息发生碰撞的情况下,迭代地利用其他的训练样本进行避障模型的训练,得到新的经训练的避障模型的目标参数;
[0012]在拟态可变形机器人与障碍物信息不发生碰撞的情况下,将经训练的避障模型确定为上述行走阶段的目标避障模型。
[0013]本公开实施例的另一个方面提供了一种拟态可变形机器人的避障方法,包括:
[0014]针对每个目标行走阶段,获取上述拟态可变形机器人的多个超声波传感器采集的包括目标障碍物信息的目标环境信息;
[0015]利用经训练的目标避障模型处理上述目标环境信息,输出上述目标行走阶段的目标轨迹,其中,上述目标轨迹包括在上述目标环境中行走的多个离散的目标动作和与每个上述目标动作对应的目标状态,其中,上述目标动作包括以下至少一种:蛇形变形动作、球形变形动作和矩形变形动作;
[0016]上述拟态可变形机器人根据上述目标轨迹执行上述目标行走阶段的行走操作,其中,上述行走操作能够避免上述拟态可变形机器人与上述目标障碍物信息发生碰撞。
[0017]本公开实施例的另一个方面提供了一种基于策略梯度的近端策略训练避障模型的装置,包括:
[0018]生成模块,用于针对每个行走阶段的训练样本集中的每个训练样本,根据环境信息,生成多个策略,其中,训练样本包括利用拟态可变形机器人获取的包括障碍物信息的环境信息,每个策略包括拟态可变形机器人在外部环境中行走的轨迹,轨迹包括多个离散的动作和与每个动作对应的状态,动作是利用包括初始参数的策略函数生成的,其中,上述动作包括以下至少一种:蛇形变形动作、球形变形动作以及方形或矩形变形动作;
[0019]第一得到模块,用于针对每个策略,利用奖惩函数处理轨迹,得到轨迹的累计奖励,其中,奖惩函数是根据初始参数对应的奖励确定的,不同拟态行走阶段的上述奖惩函数和上述策略函数均不相同;
[0020]第一确定模块,用于根据与多个策略对应的多个累计奖励以及与每个轨迹对应的概率,确定策略的期望奖励,其中,概率表征拟态可变形机器人根据当前状态从多个策略对应的轨迹中选择当前策略的轨迹的几率;
[0021]第二得到模块,用于对期望奖励进行求导处理,得到第一导数;
[0022]第三得到模块,用于基于策略梯度算法,根据第一导数对初始参数进行更新,得到经训练的避障模型的目标参数;
[0023]仿真模块,用于控制拟态可变形机器人利用经训练的避障模型在上述行走阶段的环境信息中行走,在拟态可变形机器人与障碍物信息发生碰撞的情况下,迭代地利用其他的训练样本进行避障模型的训练,得到新的经训练的避障模型的目标参数;
[0024]第二确定模块,用于在拟态可变形机器人与障碍物信息不发生碰撞的情况下,将经训练的避障模型确定为上述行走阶段的目标避障模型。
[0025]本公开实施例的另一个方面提供了一种拟态可变形机器人的避障装置,包括:
[0026]获取模块,用于针对每个目标行走阶段,获取拟态可变形机器人的多个超声波传感器采集的包括目标障碍物信息的目标环境信息,通过确定拟态可变形机器人与障碍物之间的距离建立状态空间;
[0027]输出模块,用于利用目标避障模型处理目标环境信息,输出上述目标行走阶段的目标轨迹,其中,目标轨迹包括在目标环境中行走的多个离散的目标动作和与每个目标动作对应的目标状态,其中,上述目标动作包括以下至少一种:蛇形变形动作、球形变形动作
以及方形或矩形变形动作;
[0028]执行模块,用于拟态可变形机器人根据目标轨迹执行上述目标行走阶段的行走操作,其中,上述行走操作能够避免上述拟态可变形机器人与上述目标障碍物信息发生碰撞。
[0029]本公开实施例的另一个方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的方法。
[0030]本公开实施例的另一个方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
[0031]本公开实施例的另一个方面提供了一种计算机程序产品,所述计算机程序产品包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
[0032]根据本公开的实施例,通过对训练样本确定对应的策略,并基于策略确定对应轨迹的期望奖励,从而对其进行求导确定的第一导数进行初始参数的更新,从而获得目标避障模型,拟态可变形机器人在使用该目标避障模型在环境中行走时能够处理较为复杂的避障场景,且在较为复杂的避障场景中能够实现较为优秀的避障效果,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于策略梯度的近端策略优化训练避障模型的方法,所述避障模型应用于拟态可变形机器人,所述方法包括:针对每个行走阶段的训练样本集中的每个训练样本,根据所述环境信息,生成多个策略,其中,所述训练样本包括利用所述拟态可变形机器人获取的包括障碍物信息的环境信息,每个所述策略包括所述拟态可变形机器人在外部环境中行走的轨迹,所述轨迹包括多个离散的动作和与每个所述动作对应的状态,所述动作是利用包括初始参数的策略函数生成的,其中,所述动作包括以下至少一种:蛇形变形动作、球形变形动作以及方形或矩形变形动作;针对每个所述策略,利用奖惩函数处理所述轨迹,得到所述轨迹的累计奖励,其中,所述奖惩函数是根据所述初始参数对应的奖励确定的,不同拟态的行走阶段的所述奖惩函数和所述策略函数均不相同;根据与多个所述策略对应的多个所述累计奖励以及与每个所述轨迹对应的概率,确定所述策略的期望奖励,其中,所述概率表征所述拟态可变形机器人根据当前状态从多个策略对应的轨迹中选择当前策略的轨迹的几率;对所述期望奖励进行求导处理,得到第一导数;基于策略梯度算法,根据所述第一导数对所述初始参数进行更新,得到经训练的避障模型的目标参数;控制所述拟态可变形机器人利用所述经训练的避障模型在所述行走阶段的所述环境信息中行走,在所述拟态可变形机器人与所述障碍物信息发生碰撞的情况下,迭代地利用其他的所述训练样本进行避障模型的训练,得到新的经训练的避障模型的目标参数;在所述拟态可变形机器人与所述障碍物信息不发生碰撞的情况下,将所述经训练的避障模型确定为所述行走阶段的目标避障模型。2.根据权利要求1所述的方法,其中,所述根据所述环境信息,生成多个策略,包括:利用所述策略函数根据所述环境信息生成多个当前的动作;针对每个所述多个当前的动作,利用价值函数处理所述当前的动作和状态,得到与所述当前的动作相对应的当前的价值;利用优势函数处理所述当前的动作和所述当前的价值,生成下一个动作。3.根据权利要求1所述的方法,所述策略梯度算法包括梯度上升方法;其中,所述基于策略梯度算法,根据所述第一导数对所述初始参数进行更新,得到经训练的避障模型的目标参数,包括:利用对数函数求导公式对所述第一导数进行转换处理,得到第二导数;基于所述梯度上升方法,利用多个所述训练样本对应的多个所述累计奖励,确定奖励期望平均值;根据所述奖励期望平均值和所述第二导数,确定第三导数;根据所述第三导数和所述初始参数,确定所述目标参数。4.根据权利要求3所述的方法,其中,所述奖惩函数R如公式(1)所示:
其中,θ表示初始参数,R
θ
表示初始参数对应的累计奖励,当D<d时R
θ
=250,当D>d时R
θ


150,k为折扣因子;D表示拟态可变形机器人距障碍物的惩罚距离,d表示拟态可变形机器人距障碍物的最小距离;所述第一导数如公式(2)所示,对数函数求导公式如公式(3)所示,所述第二导数如公式(4)所示,所述第三导数如公式(5)所示:如公式(5)所示:如公式(5)所示:如公式(5)所示:其中,τ表示轨迹;R表示累计奖励;θ表示初始参数;p
θ
表示概率;表示奖励期望平均值;N表示训练样本的个数;n表示第n个训练样本;a表示动作;s表示状态;t表示第t个;T表示动作或状态的总数。5.根据权利要求1所述的方法,其中,所述...

【专利技术属性】
技术研发人员:单光存丁则剑谭昊易
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1