System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于强化学习和最优控制,具体涉及一种基于强化学习的全向小车轨迹跟踪最优控制方法的设计。
技术介绍
1、全向小车由于其灵活的运动能力和高效的机动性能,广泛应用于工业自动化、物流运输以及服务机器人等领域。随着自动化和人工智能技术的不断发展,仅仅追求控制性能的提升已经无法满足实际应用的需求,如何解决控制性能与输入能耗的优化问题越来越受到相关专家学者的关注和研究。
2、然而,传统的最优控制算法在应对全向小车这类非线性系统时,常常面临 hjb(哈密尔顿-雅可比-贝尔曼)方程求解困难的问题。这是因为 hjb方程的非线性和耦合特性使得解析求解几乎不可能。此外,传统最优控制算法在设计初始控制策略时,通常需要确保策略的容许性,这进一步增加了设计全向小车轨迹跟踪最优控制器的复杂性。
3、目前,主流的全向小车轨迹跟踪最优控制方法包括自适应动态规划、模糊控制和强化学习等,上述算法均有不同的参数更新律设计方法,但是大多数更新律的设计均存在一定的局限性,对初始控制策略的限制,对严格反馈系统的处理,都会导致算法实现的复杂性,以及无法实现更优的控制性能与输入能耗的权衡。
技术实现思路
1、本专利技术的目的是为了解决传统最优控制方法求解困难以及初始控制策略须为容许控制的条件限制的问题,提出了一种基于强化学习的全向小车轨迹跟踪最优控制方法。
2、本专利技术的技术方案为:一种基于强化学习的全向小车
3、s1.建立全向小车的轨迹运动学模型和动力学模型;
4、s2.基于全向小车的轨迹运动学模型和动力学模型,设计基于神经网络求解的全向小车轨迹跟踪最优控制算法;
5、s3.基于全向小车的轨迹跟踪最优控制算法和持续激励条件,分析全向小车系统的一致最终有界稳定性,完成基于强化学习的全向小车轨迹跟踪最优控制。
6、本专利技术的有益效果是:
7、通过引入神经网络对最优值函数和最优控制策略进行逼近,并设计含有稳定项的网络权重更新律,实现对全向小车轨迹跟踪的最优控制,解决了传统最优控制方法求解困难的问题,并解除了初始控制策略须为容许控制的条件限制。
8、作为优选,所述步骤s1中具体包括以下公式:
9、选取由三个直流电机作为动力装置的全向小车作为被控对象,所述三个直流电机分别驱动三个以120°为间隔均匀分布的麦克纳姆轮,通过车轮的差速转动实现小车的全向运动,所述全向小车的轨迹运动学模型和动力学模型建模为:
10、
11、其中,表示全向小车的位置、和方位角三维列向量的导数,表示全向小车的线速度、和角速度的三维列向量,表示三维列向量的导数,表示以方位角为参数的系统矩阵,,表示维常数矩阵,,表示小车质量,表示小车转动惯量,表示维状态矩阵,,表示角速度,表示维常数矩阵,,表示从小车几何中心到车轮的平均距离,表示系统控制输入三维列向量,表示电机扭矩常数;
12、将全向小车的轨迹运动学模型和动力学模型建模进行整理得到严格反馈形式:
13、
14、其中,表示全向小车的位置、和方位角三维列向量,表示全向小车的线速度、和角速度的三维列向量,表示控制输入,,、、和均表示系统矩阵,,,,,表示车轮半径。
15、作为优选,所述步骤s2具体包括以下分步骤:
16、s21.基于全向小车的轨迹运动学模型和动力学模型,设定全向小车待跟踪的参考轨迹,并引入跟踪误差同时计算得到跟踪误差动态;
17、s22.基于跟踪误差动态定义全向小车跟踪性能指标,根据值函数定义得到哈密尔顿方程;
18、s23.根据哈密尔顿方程,得到待求解的 hjb等式;
19、s24.引入神经网络对 hjb等式中的最优值函数进行逼近,并根据 hjb方程的解析关系,对控制策略进行更新;
20、s25.定义 hjb等式的残差项,根据残差归一化梯度下降法设计神经网络权重更新律;
21、s26.在神经网络权重更新律中引入稳定项,得到引入稳定项的神经网络权重更新律,完成基于强化学习的全向小车轨迹跟踪最优控制算法的设计。
22、作为优选,步骤s21中所述全向小车待跟踪的参考轨迹的表述公式为:
23、
24、其中,表示全向小车的参考位置、和参考方位角三维列向量,表示全向小车的参考线速度、和参考角速度三维列向量,和分别表示和的导数,、和均表示系统矩阵;
25、所述跟踪误差包括跟踪误差和跟踪误差,其计算公式为:
26、
27、其中,表示全向小车的位置、和方位角三维列向量,表示全向小车的线速度、和角速度的三维列向量;
28、所述跟踪误差动态的表述公式为:
29、
30、其中,表示小车当前的状态,上标表示矩阵的转置,表示列向量的导数,表示小车的参考轨迹,表示列向量的导数,表示系统矩阵,,表示关于和的对角矩阵,,、、和均表示系统矩阵,表示控制输入。
31、作为优选,步骤s22中所述跟踪性能指标的函数公式为:
32、
33、其中,表示跟踪性能指标,表示跟踪误差的加权二次型,,上标表示矩阵的转置,和表示3维正定矩阵,表示控制输入,表示积分变量;
34、所述值函数的公式为:
35、
36、其中,表示值函数;
37、所述哈密尔顿方程的表述公式为:
38、
39、其中,表示哈密尔顿函数,表示值函数对跟踪误差的偏导数,和表示系统矩阵。
40、作为优选,步骤s23中所述 hjb等式为:
41、
42、其中,表示哈密尔顿函数,表示跟踪误差,表示对应的最优控制策略,表示最优值函数对跟踪误差的偏导。
43、作为优选,所述步骤s24中包括以下公式:
44、
45、其中,表示最优值函数,表示理想的评估网络权重,上标表示矩阵的转置,表示激活函数向量,表示逼近误差,表示评估网络神经元数量;
46、
47、其中,表示最优控制策略,表示3维正定矩阵的逆,表示系统矩阵的转置,表示激活函数向量对跟踪误差的偏导数,表示逼近误差的导数;
48、根据 weierstrass高阶近似理论,对最优值函数和最优控制策略进行近似,得到最优值函数的估计值和最优控制策略的估计值;
49、所述最优值函数的估计值的公式为:
50、
...【技术保护点】
1.一种基于强化学习的全向小车轨迹跟踪最优控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于强化学习的全向小车轨迹跟踪最优控制方法,其特征在于,所述步骤S1中具体包括以下公式:
3.根据权利要求1所述的基于强化学习的全向小车轨迹跟踪最优控制方法,其特征在于,所述步骤S2具体包括以下分步骤:
4.根据权利要求3所述的基于强化学习的全向小车轨迹跟踪最优控制方法,其特征在于,步骤S21中所述全向小车待跟踪的参考轨迹的表述公式为:
5.根据权利要求3所述的基于强化学习的全向小车轨迹跟踪最优控制方法,其特征在于,步骤S22中所述跟踪性能指标的函数公式为:
6.根据权利要求3所述的基于强化学习的全向小车轨迹跟踪最优控制方法,其特征在于,步骤S23中所述HJB等式为:
7.根据权利要求3所述的基于强化学习的全向小车轨迹跟踪最优控制方法,其特征在于,所述步骤S24中包括以下公式:
8.根据权利要求7所述的基于强化学习的全向小车轨迹跟踪最优控制方法,其特征在于,所述步骤S25中包括以下公式:
...【技术特征摘要】
1.一种基于强化学习的全向小车轨迹跟踪最优控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于强化学习的全向小车轨迹跟踪最优控制方法,其特征在于,所述步骤s1中具体包括以下公式:
3.根据权利要求1所述的基于强化学习的全向小车轨迹跟踪最优控制方法,其特征在于,所述步骤s2具体包括以下分步骤:
4.根据权利要求3所述的基于强化学习的全向小车轨迹跟踪最优控制方法,其特征在于,步骤s21中所述全向小车待跟踪的参考轨迹的表述公式为:
5.根据权利要求3所述的基于强化学习的全向小车轨迹跟踪最优控制方法,其特征在于,步骤s22中所述跟踪性能指标的函数公式为:
6.根据权利要求3所...
【专利技术属性】
技术研发人员:龙江,张涛,金才君,郭阳明,刘尊,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。