基于高斯核损失函数的近端策略优化训练加速方法技术

技术编号：38970965 阅读：25 留言：0更新日期：2023-09-28 09:34

本发明专利技术提供了一种基于高斯核损失函数的近端策略优化训练加速方法，用于对双关节机器人自动化控制的训练过程进行加速，主要包括以下步骤：将工程问题建立成强化学习环境模型，利用姿态传感器获取双关节机器人当前的状态信息，将获得的状态信息作为神经网络的输入，输出可选动作的概率分布，利用基于高斯核损失函数的近端策略优化对网络进行训练，以逐步改善机器人的控制策略，通过连续的训练迭代，可以得到双关节机器人自动化控制的最优策略。与现有技术相比，本发明专利技术方法能够加快双关节机器人自动化控制的训练速度，更快学到最优控制策略。该优化策略还可以进一步应用于更复杂的欠驱动机器人系统中，为实现更高级别的自动化控制提供了有力的工具。制提供了有力的工具。制提供了有力的工具。

全部详细技术资料下载

【技术实现步骤摘要】
基于高斯核损失函数的近端策略优化训练加速方法

[0001]本专利技术涉及一种基于高斯核损失函数的近端策略优化训练加速方法，用于对双关节机器人自动化控制的训练过程进行加速，属于欠驱动机器人领域。

技术介绍

[0002]欠驱动机器人系统是指具有自由度少于需要控制的维度的机器人系统。双关节机器人由两个旋转的机械臂组成。然而，控制机械臂的运动只能通过对驱动头施加力矩，而无法直接控制两个机械臂，这使得双关节机器人成为一个欠驱动系统。欠驱动机器人系统相对于完全驱动的系统更具挑战性，因为在欠驱动情况下，机器人必须学会有效地利用其自由度以实现所需的运动。通过强化学习，可以训练智能体学习欠驱动系统的控制策略，使得机第二机械臂的自由端达到目标高度。
[0003]本专利技术提供了一种新的双关节机器人控制算法，该算法能够更快地学习双关节机器人达到目标状态的最优行动策略。这对于开发更复杂的欠驱动机器人系统的控制算法和方法非常有价值。

技术实现思路

[0004]针对上述问题，本专利技术的目的在于提供一种基于高斯核损失函数的近端策略优化训练加速方法，用于对双关节机器人自动化控制的训练过程进行加速，能够更快学到最优控制策略，可以改善欠驱动系统的性能，并辅助欠驱动机器人实现目标。
[0005]为实现上述目的，本专利技术提供了一种基于高斯核损失函数的近端策略优化训练加速方法，用于加速双关节机器人自动化控制的训练过程，主要包括以下步骤：步骤1、针对双关节机器人的作业要求建立强化学习环境模型，实例化已训练好的神经网络模型；步...

【技术保护点】

【技术特征摘要】
1.一种基于高斯核损失函数的近端策略优化加速方法，用于对双关节机器人自动化控制的训练过程进行加速，其特征在于，主要包括以下步骤：步骤1、针对双关节机器人的作业要求建立强化学习环境模型，实例化已训练好的神经网络模型；步骤2、利用姿态传感器获得双关节机器人当前的状态信息；步骤3、将所述状态信息输入到所述神经网络模型中，得到当前状态下动作的概率分布，根据概率选择当前状态下的动作；步骤4、执行所述动作，进入下一个状态，获得奖励，重复步骤2
‑
4，得到在当前策略下的一条轨迹；步骤5、对于一次采样得到数据，利用基于高斯核损失函数的近端策略优化对采集到的参数进行更新，从而优化当前策略；步骤6、重复步骤2
‑
5，直到策略收敛或达到最大训练轮次。2.根据权利要求1所述的近端策略优化加速方法，其特征在于：所述步骤1中，所述强化学习环境模型中的环境是稀疏奖励环境，将智能体完成任务时的奖励设为0，未完成要求时每个时间步奖励为
‑
1。3.根据权利要求1所述的近端策略优化加速方法，其特征在于：所述步骤2具体为通过姿态传感器对当前第一机械臂相对于竖直方向的角度、所述第一机械臂的旋转方向、所述第一机械臂相对于第二机械臂的角度、所述第二机械臂的旋...

【专利技术属性】
技术研发人员：陈兴国，罗镇宇，巩宇，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人