基于高斯核损失函数的近端策略优化训练加速方法技术

技术编号:38970965 阅读:25 留言:0更新日期:2023-09-28 09:34
本发明专利技术提供了一种基于高斯核损失函数的近端策略优化训练加速方法,用于对双关节机器人自动化控制的训练过程进行加速,主要包括以下步骤:将工程问题建立成强化学习环境模型,利用姿态传感器获取双关节机器人当前的状态信息,将获得的状态信息作为神经网络的输入,输出可选动作的概率分布,利用基于高斯核损失函数的近端策略优化对网络进行训练,以逐步改善机器人的控制策略,通过连续的训练迭代,可以得到双关节机器人自动化控制的最优策略。与现有技术相比,本发明专利技术方法能够加快双关节机器人自动化控制的训练速度,更快学到最优控制策略。该优化策略还可以进一步应用于更复杂的欠驱动机器人系统中,为实现更高级别的自动化控制提供了有力的工具。制提供了有力的工具。制提供了有力的工具。

【技术实现步骤摘要】
基于高斯核损失函数的近端策略优化训练加速方法


[0001]本专利技术涉及一种基于高斯核损失函数的近端策略优化训练加速方法,用于对双关节机器人自动化控制的训练过程进行加速,属于欠驱动机器人领域。

技术介绍

[0002]欠驱动机器人系统是指具有自由度少于需要控制的维度的机器人系统。双关节机器人由两个旋转的机械臂组成。然而,控制机械臂的运动只能通过对驱动头施加力矩,而无法直接控制两个机械臂,这使得双关节机器人成为一个欠驱动系统。欠驱动机器人系统相对于完全驱动的系统更具挑战性,因为在欠驱动情况下,机器人必须学会有效地利用其自由度以实现所需的运动。通过强化学习,可以训练智能体学习欠驱动系统的控制策略,使得机第二机械臂的自由端达到目标高度。
[0003]本专利技术提供了一种新的双关节机器人控制算法,该算法能够更快地学习双关节机器人达到目标状态的最优行动策略。这对于开发更复杂的欠驱动机器人系统的控制算法和方法非常有价值。

技术实现思路

[0004]针对上述问题,本专利技术的目的在于提供一种基于高斯核损失函数的近端策略优化训练加速方法,用于对双关节机器人自动化控制的训练过程进行加速,能够更快学到最优控制策略,可以改善欠驱动系统的性能,并辅助欠驱动机器人实现目标。
[0005]为实现上述目的,本专利技术提供了一种基于高斯核损失函数的近端策略优化训练加速方法,用于加速双关节机器人自动化控制的训练过程,主要包括以下步骤:步骤1、针对双关节机器人的作业要求建立强化学习环境模型,实例化已训练好的神经网络模型;步骤2、利用姿态传感器获得双关节机器人当前的状态信息;步骤3、将所述状态信息输入到所述神经网络模型中,得到当前状态下动作的概率分布,根据概率选择当前状态下的动作;步骤4、执行所述动作,进入下一个状态,获得奖励,重复步骤2

4,得到在当前策略下的一条轨迹;步骤5、对于一次采样得到数据,利用基于高斯核损失函数的近端策略优化对采集到的参数进行更新,从而优化当前策略;步骤6、重复步骤2

5,直到策略收敛或达到最大训练轮次。
[0006]进一步的,所述步骤1中,所述强化学习环境模型中的环境是稀疏奖励环境,将智能体完成任务时的奖励设为0,未完成要求时每个时间步奖励为

1。
[0007]进一步的,所述步骤2具体为通过姿态传感器对当前第一机械臂相对于竖直方向的角度、所述第一机械臂的旋转方向、所述第一机械臂
相对于第二机械臂的角度、所述第二机械臂的旋转方向、所述第一机械臂上端的角速度、所述第一机械臂和所述第二机械臂连接处的角速度获得、、、,经处理后生成t时刻状态信息。
[0008]进一步的,双关节机器人得到的当前状态下动作的概率分布为当前所有可选择的动作的概率分布。
[0009]进一步的,所述步骤4中,以0时刻为一次数据采集的开始时刻,以T时刻为结束时刻,通过重复步骤2

4,得到在当前策略下的一条轨迹。
[0010]进一步的,所述结束时刻是所述第二机械臂的自由端达到目标高度或该次采样达到最大步长的时刻,其中所述目标高度构造为。
[0011]进一步的,所述步骤5中,近端策略优化的actor网络目标函数构造为:其中,,为优势函数,记
[0012][0013]其中为状态和的高斯核损失函数,为该次采样轨迹的长度,,为折扣系数,因此critic网络的损失函数构造为,通过对目标函数进行梯度上升,损失函数进行梯度下降,以优化参数得到更优策略。
[0014]进一步的,所述步骤6中,计算,当KL散度小于预设的阈值时即可认为策略已经达到收敛。
[0015]相较于现有技术,本专利技术的有益效果如下:本专利技术能够加速双关节机器人自动化控制的训练速度,更快学到最优控制策略,改善欠驱动系统的性能,并辅助欠驱动机器人实现目标。
附图说明
[0016]为了更详细地阐述本专利技术实施例的技术方案,以下将针对实施例的附图进行简要说明。显然,下文中所提到的附图仅包含本专利技术的一些实施例,并非对本专利技术的限制。
[0017]图1是符合本专利技术优选实施例的近端策略优化加速方法的算法示意图。
[0018]图2是本专利技术近端策略优化加速方法的具体环境示意图。
[0019]图3是本专利技术近端策略优化加速方法与传统方法的对比图。
具体实施方式
[0020]为了使本专利技术实施例的目标、技术方案和优势更为清晰,以下内容将借助于附图对本专利技术实施例的技术策略进行详尽、全面的阐述。显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。根据本专利技术实施例的描述,本领域中具备一定技术水平的人员可得出的所有其他实施例,都应视为本专利技术的保护范围所涵盖。
[0021]具体实施例如图1和图2所示,包括以下步骤:S1、根据实际作业要求搭建强化学习模型环境,考虑当前作业需求如下:一个由两个机械臂构成,且仅在连接处有一个驱动头的机器人需要驱动机械臂的自由端达到目标高度。由于两个机械臂仅由一个驱动头来驱动,满足欠驱动系统的定义,控制机械臂运动到目标高度是很困难的。强化学习环境搭建如图2所示,双关节机器人是我们需要训练的智能体,在驱动头处可以选择施加顺时针方向的扭矩、不施加扭矩、施加逆时针方向的扭矩三个动作;状态信息,包括第一机械臂相对于竖直方向的角度和所述第一机械臂相对于第二机械臂的角度、两个机械臂的旋转方向和角速度和;机器人每进行一步给予

1的奖励,机械臂自由端达到目标高度奖励为0。
[0022]S2、机器人利用姿态传感器获得状态信息,包括第一机械臂相对于竖直方向的角度和第一机械臂相对于第二机械臂的角度、两个机械臂的旋转方向和角速度和。
[0023]S3、将当前状态下观测到的状态信息输入训练好的神经网络,获取双关节机器人当前所有可选择的动作的概率分布,根据概率选择当前状态下的动作。具体的,对于概率分布应满足所有动作的可能性求和为1。
[0024]S4、机器人执行了动作,获取了即时奖励,进入了下一个状态,重复步骤2

4可以得到当前控制策略下的一条实际采样的轨迹,其中0时刻为一次数据采集的开始时刻,T时刻为结束时刻。具体的,其中结束时刻可以为第二机械臂的自由端达到目标高度或该次采样达到最大步长的时刻,目标高度构造为。
[0025]S5、构造近端策略优化的actor网络目标:其中,,为优势函数,截断函数clip的设置为0.2,记
[0026][0027]其中为状态和的高斯核损失函数,高斯函数的设置为,为该次采样轨迹的长度,,为折扣系数,设置为0.98,critic网络
的损失函数构造为,设置为0.47,对目标函数进行梯度上升,损失函数进行梯度下降,以此优化参数得到更优策略。
[0028]S6、双关节机器人将会判断策略是否收敛或者策略训练是否达到最大训练迭代次数。优选的,最大训练迭代次数为500次。
[0029]如图3所示,将本文提出的方法与传统训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于高斯核损失函数的近端策略优化加速方法,用于对双关节机器人自动化控制的训练过程进行加速,其特征在于,主要包括以下步骤:步骤1、针对双关节机器人的作业要求建立强化学习环境模型,实例化已训练好的神经网络模型;步骤2、利用姿态传感器获得双关节机器人当前的状态信息;步骤3、将所述状态信息输入到所述神经网络模型中,得到当前状态下动作的概率分布,根据概率选择当前状态下的动作;步骤4、执行所述动作,进入下一个状态,获得奖励,重复步骤2

4,得到在当前策略下的一条轨迹;步骤5、对于一次采样得到数据,利用基于高斯核损失函数的近端策略优化对采集到的参数进行更新,从而优化当前策略;步骤6、重复步骤2

5,直到策略收敛或达到最大训练轮次。2.根据权利要求1所述的近端策略优化加速方法,其特征在于:所述步骤1中,所述强化学习环境模型中的环境是稀疏奖励环境,将智能体完成任务时的奖励设为0,未完成要求时每个时间步奖励为

1。3.根据权利要求1所述的近端策略优化加速方法,其特征在于:所述步骤2具体为通过姿态传感器对当前第一机械臂相对于竖直方向的角度、所述第一机械臂的旋转方向、所述第一机械臂相对于第二机械臂的角度、所述第二机械臂的旋...

【专利技术属性】
技术研发人员:陈兴国罗镇宇巩宇
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1