基于强化学习的关节模组不等式约束最优鲁棒控制方法技术

技术编号:31020733 阅读:56 留言:0更新日期:2021-11-30 03:08
本发明专利技术涉及基于强化学习的关节模组不等式约束最优鲁棒控制方法,包括:在仿真平台上搭建关节模组虚拟仿真环境,构建强化学习神经网络模型;初始化关节模组虚拟仿真环境;调整强化学习神经网络模型中多层神经元之间的连接权值;随机失活强化学习神经网络模型的一部分神经元,输出关节模组的控制参数信息;收集当前关节模组虚拟仿真环境下的训练数据集;将强化学习神经网络训练得到的最优参数输入到不等式约束最优鲁棒控制器内,将电机运行轨迹约束在一个指定的范围内并显著提高其控制精度。本发明专利技术采用粒子群最优算法来调整强化学习神经网络模型中多层神经元之间的连接权值,可以显著提高电机控制精度且能将电机的运行轨迹约束在一个指定的范围内。迹约束在一个指定的范围内。迹约束在一个指定的范围内。

【技术实现步骤摘要】
基于强化学习的关节模组不等式约束最优鲁棒控制方法


[0001]本专利技术涉及机器人控制
,尤其是一种基于强化学习的关节模组不等式约束最优鲁棒控制方法。

技术介绍

[0002]关节模组已经广泛得应用于中小型电力驱动领域,如航空航天、机器人、电动汽车等领域。有关于它的高性能控制是一个多变量、高度耦合和时变的非线性系统,传统控制方法中需要得到电机精确的系统参数。然而,结构不确定性,如系统参数变化、系统建模不足,和非结构不确定性,如负载转矩扰动、控制目标多样性等,可能会影响关节模组特别是永磁同步电机系统的伺服性能。提高关节模组的鲁棒性和动态性能是解决系统不确定性的有效方法。
[0003]现有的针对关节模组的控制方法主要包括以下两个方面:第一,在控制器搭建完毕后,参数需要从零开始盲目调节,并不知道电机控制的最优阈值;第二,现有鲁棒控制方法不能够很好的将关节模组控制在一个指定范围内,且精确度不够,可能会使关节模组运行偏离轨迹,在现实的生产生活中可能会因此导致一些重大事故。

技术实现思路

[0004]本专利技术的目的在于提供一种本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的关节模组不等式约束最优鲁棒控制方法,其特征在于:该方法包括下列顺序的步骤:(1)首先在仿真平台上搭建具备神经网络训练能力的关节模组虚拟仿真环境,构建具备Dropout随机失活神经元方法的强化学习神经网络模型;(2)初始化关节模组虚拟仿真环境;(3)采用改进的粒子群优化算法调整强化学习神经网络模型中多层神经元之间的连接权值,实现面向关节模组轨迹跟踪控制的强化学习神经网络的自适应学习;(4)随机失活强化学习神经网络模型的一部分神经元,将预先设定的干扰参数输入到每个关节模组虚拟仿真环境中,控制强化学习神经网络结合每个关节模组虚拟仿真环境,输出关节模组的控制参数信息;(5)判断关节模组虚拟仿真环境训练终止条件,收集当前关节模组虚拟仿真环境下的训练数据集;(6)将强化学习神经网络训练得到的最优参数输入到不等式约束最优鲁棒控制器内,首先通过模糊方法来消除电机的非线性和不确定性,再通过不等式约束将电机运行轨迹限制在一个指定的范围内并显著提高其控制精度。2.根据权利要求1所述的基于强化学习的关节模组不等式约束最优鲁棒控制方法,其特征在于:在步骤(1)中,所述强化学习神经网络为全连接网络,包括两个隐含层和一个池化层,每层包含256个节点,激活函数选择Relu函数,且通过Dropout随机失活神经元方法来防止过拟合现象。3.根据权利要求1所述的基于强化学习的关节模组不等式约束最优鲁棒控制方法,其特征在于:所述步骤(2)初始化关节模组虚拟仿真环境包括初始化关节模组所在的仿真环境、初始化电机初始位置和负载重量以及扰动项。4.根据权利要求1所述的基于强化学习的关节模组不等式约束最优鲁棒控制方法,其特征在于:所述步骤(3)包括以下步骤:(3a)将多层神经元之间的连接权值的选取问题转化为最优化问题,最优化问题的目标函数即输出向量与期望信号向量的范数,如式(1)所示,期望信号即关节模组目标运行位置坐标,输出向量即关节模组的实际运行位置:式(1)中,Error为最优化问题的目标函数,xd(k)、yd(k)分别为关节模组第k步的期望速度及期望加速度值,y
x
(k)、y
y
(k)为第k步的实际速度及实际加速度值;(3b)确定每个连接权值的取值范围,即确定寻优范围;(3c)在寻优范围内随机初始化一群粒子,即粒子群,包括初始化粒子的初始位置与初始速度,用位置、速度和适应度这三个指标表示粒子特征,位置表示强化学习神经网络模型中所有的连接权值取值,速度表示每个粒子演化的方向,适应度值由适应度函数求得,即每个粒子对应的目标函数;粒子的速度依据粒子的当前位置、当前速度﹑粒子的历史最佳位置Pbest与粒子群中最优粒子的位置Gbest更新,粒子的速度的更新公式如式(2)所示:
式(2)中,id为粒子群中粒子的编号,为第i代粒子的速度,为第i代粒子在第i代之前的历史最佳位置,为第i代粒子群中最优粒子的位置;ω(i)为第i代粒子的惯性权重,其大小决定速度在多大程度上继承上一代粒子的运动速度;c1,c2为加速度因子,取值为非负常数;r1,r2为0到1之间的随机数;是第i代粒子的位置;初始化时ω的取值ω
start
为0.9,迭代结束时ω
start
的取值ω
end
为0.01,在迭代过程...

【专利技术属性】
技术研发人员:甄圣超王君刘晓黎
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1