基于近端策略训练的可变形机器人避障方法技术

技术编号：36186612 阅读：29 留言：0更新日期：2022-12-31 20:52

本发明专利技术提供了基于近端策略训练的可变形机器人避障方法，适合在可变形机器人的避障模型上应用。训练避障模型的方法包括：针对每个训练样本根据环境信息生成多个策略；针对每个策略利用奖惩函数处理轨迹得到累计奖励；根据多个累计奖励以及概率确定期望奖励；对期望奖励进行求导得到第一导数；基于策略梯度算法根据第一导数对初始参数进行更新得到目标参数；控制拟态可变形机器人利用经训练的避障模型在环境信息中行走，在拟态可变形机器人与障碍物信息发生碰撞的情况下迭代地利用其他的训练样本进行避障模型的训练得到新的经训练的避障模型的目标参数；在拟态可变形机器人与障碍物信息不发生碰撞的情况下将经训练的避障模型确定为目标避障模型。模型确定为目标避障模型。模型确定为目标避障模型。

全部详细技术资料下载

【技术实现步骤摘要】
基于近端策略训练的可变形机器人避障方法

[0001]本公开涉及机器人
，更具体地，涉及一种基于策略梯度的近端策略优化训练避障模型的方法、拟态可变形机器人的避障方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]拟态变形机器人在作业过程中要避免与障碍物碰撞，也要避免与其他机器人或抓取目标相碰撞，在面对不同环境和任务时需要进行复杂非线性变形以切换到不同的拟态运动模式，当该智能机器人面临的避障场景包含动态障碍物时，将对避障算法的灵活性和有效性提出更加严格的要求。
[0003]在实现本公开构思的过程中，专利技术人发现相关技术中至少存在如下问题：传统基于刚体模型的线性和非线性控制理论无法达到令人满意的避障效果。

技术实现思路

[0004]有鉴于此，本公开实施例提供了一种基于策略梯度的近端策略训练避障模型的方法、拟态可变形机器人的避障方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0005]本公开实施例的一个方面提供了一种基于策略梯度的近端策略训练避障模型的方法，避障模型应用于拟态可变形机器人，方法包括：
[0006]针对每个行走阶段的训练样本集中的每个训练样本，根据环境信息，生成多个策略，其中，训练样本包括利用拟态可变形机器人获取的包括障碍物信息的环境信息，每个策略包括拟态可变形机器人在外部环境中行走的轨迹，轨迹包括多个离散的动作和与每个动作对应的状态，动作是利用包括初始参数的策略函数生成的，其中，上述动作包括以下至少一种：蛇形变形动作、...

【技术保护点】

【技术特征摘要】
1.一种基于策略梯度的近端策略优化训练避障模型的方法，所述避障模型应用于拟态可变形机器人，所述方法包括：针对每个行走阶段的训练样本集中的每个训练样本，根据所述环境信息，生成多个策略，其中，所述训练样本包括利用所述拟态可变形机器人获取的包括障碍物信息的环境信息，每个所述策略包括所述拟态可变形机器人在外部环境中行走的轨迹，所述轨迹包括多个离散的动作和与每个所述动作对应的状态，所述动作是利用包括初始参数的策略函数生成的，其中，所述动作包括以下至少一种：蛇形变形动作、球形变形动作以及方形或矩形变形动作；针对每个所述策略，利用奖惩函数处理所述轨迹，得到所述轨迹的累计奖励，其中，所述奖惩函数是根据所述初始参数对应的奖励确定的，不同拟态的行走阶段的所述奖惩函数和所述策略函数均不相同；根据与多个所述策略对应的多个所述累计奖励以及与每个所述轨迹对应的概率，确定所述策略的期望奖励，其中，所述概率表征所述拟态可变形机器人根据当前状态从多个策略对应的轨迹中选择当前策略的轨迹的几率；对所述期望奖励进行求导处理，得到第一导数；基于策略梯度算法，根据所述第一导数对所述初始参数进行更新，得到经训练的避障模型的目标参数；控制所述拟态可变形机器人利用所述经训练的避障模型在所述行走阶段的所述环境信息中行走，在所述拟态可变形机器人与所述障碍物信息发生碰撞的情况下，迭代地利用其他的所述训练样本进行避障模型的训练，得到新的经训练的避障模型的目标参数；在所述拟态可变形机器人与所述障碍物信息不发生碰撞的情况下，将所述经训练的避障模型确定为所述行走阶段的目标避障模型。2.根据权利要求1所述的方法，其中，所述根据所述环境信息，生成多个策略，包括：利用所述策略函数根据所述环境信息生成多个当前的动作；针对每个所述多个当前的动作，利用价值函数处理所述当前的动作和状态，得到与所述当前的动作相对应的当前的价值；利用优势函数处理所述当前的动作和所述当前的价值，生成下一个动作。3.根据权利要求1所述的方法，所述策略梯度算法包括梯度上升方法；其中，所述基于策略梯度算法，根据所述第一导数对所述初始参数进行更新，得到经训练的避障模型的目标参数，包括：利用对数函数求导公式对所述第一导数进行转换处理，得到第二导数；基于所述梯度上升方法，利用多个所述训练样本对应的多个所述累计奖励，确定奖励期望平均值；根据所述奖励期望平均值和所述第二导数，确定第三导数；根据所述第三导数和所述初始参数，确定所述目标参数。4.根据权利要求3所述的方法，其中，所述奖惩函数R如公式(1)所示：
其中，θ表示初始参数，R
θ
表示初始参数对应的累计奖励，当D<d时R
θ
＝250，当D>d时R
θ
＝
‑
150，k为折扣因子；D表示拟态可变形机器人距障碍物的惩罚距离，d表示拟态可变形机器人距障碍物的最小距离；所述第一导数如公式(2)所示，对数函数求导公式如公式(3)所示，所述第二导数如公式(4)所示，所述第三导数如公式(5)所示：如公式(5)所示：如公式(5)所示：如公式(5)所示：其中，τ表示轨迹；R表示累计奖励；θ表示初始参数；p
θ
表示概率；表示奖励期望平均值；N表示训练样本的个数；n表示第n个训练样本；a表示动作；s表示状态；t表示第t个；T表示动作或状态的总数。5.根据权利要求1所述的方法，其中，所述...

【专利技术属性】
技术研发人员：单光存，丁则剑，谭昊易，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人