System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于强化学习的固定翼无人机控制策略的确定方法技术_技高网

一种基于强化学习的固定翼无人机控制策略的确定方法技术

技术编号:40957611 阅读:7 留言:0更新日期:2024-04-18 20:34
本申请提供了一种基于强化学习的固定翼无人机控制策略的确定方法,涉及飞行控制技术领域,包括:根据参考信号和固定翼无人机的动力学模型,构建增广系统;根据增广系统和价值函数,推导贝尔曼方程和最优控制策略的表达式;基于强化学习中的策略迭代方法,重构增广系统,再结合价值函数、重构的增广系统、贝尔曼方程和最优控制策略的表达式,确定策略迭代方程;在预定时间段内施加初始控制策略和初始参考信号,统计跟踪误差;将初始控制策略和跟踪误差代入策略迭代方程;迭代求解收敛时得到最优控制策略。将强化学习算法应用于固定翼无人机的控制策略求解,仅使用设定的初始控制策略和可测得的跟踪误差即可求解出最优控制策略,以提升控制效果。

【技术实现步骤摘要】

本申请涉及飞行控制,尤其是涉及一种基于强化学习的固定翼无人机控制策略的确定方法


技术介绍

1、固定翼无人机的飞行控制技术是无人机系统中的关键技术之一,然而,固定翼无人机是一个集多变量、不确定、非线性、快时变、强耦合、静不稳定及欠驱动为一体的复杂被控对象,其飞行控制技术一直是航空领域研究的重点和难点。

2、目前,经典控制理论的传统控制方法,如pid控制算法,其中参数的整定工作需要工程师的自身经验,因此十分繁琐。故研究者们将现代控制技术相关方法应用在无人机控制系统中。但是传统线性增益控制方法与现代控制方法未考虑控制系统的最优性,缺少对飞行控制系统控制最优性的评价指标,使得控制效果不理想。同时,无人机作为复杂的被控对象,因为其存在的强耦合、强非线性动态以及不确定的模型参数等原因,使得针对无人机的最优控制问题仍存在诸多挑战。例如,传统的最优控制方法常会将无人机线性化后再求解最优控制策略,但没有对无人机的非线性动态进行研究,导致在无人机在进行大幅度机动时控制策略失效。又例如,构建哈密顿-雅各比-贝尔曼(hjb)方程求解得到最优控制策略,但由于无人机非线性动态的存在和模型参数的不确定性,直接求解的方式难以实现,只能针对无人机标称系统求解,但这样仅能得到针对标称系统的最优控制,而非实际无人机系统的最优控制,控制效果也不理想。


技术实现思路

1、有鉴于此,本申请的目的在于提一种基于强化学习的固定翼无人机控制策略的确定方法,结合智能算法和最优控制理论,将强化学习算法应用于固定翼无人机的控制策略求解,仅使用设定的初始控制策略和可测得的跟踪误差即可求解出无人机的最优控制策略,能够提升对固定翼无人机的控制效果。

2、本申请实施例提供了一种基于强化学习的固定翼无人机控制策略的确定方法,所述控制策略应用于无人机控制系统;所述控制策略的控制目标为根据接收到的参考信号控制固定翼无人机跟随所述参考信号运动;所述确定方法包括:

3、根据所述参考信号和所述固定翼无人机的动力学模型,构建所述固定翼无人机的增广系统;

4、根据所述固定翼无人机的增广系统和价值函数,推导贝尔曼方程和最优控制策略的表达式;其中,所述价值函数根据所述控制策略的控制目标定义得到;

5、基于强化学习中的策略迭代方法,重构所述固定翼无人机的增广系统;

6、结合所述价值函数、重构的增广系统、所述贝尔曼方程和所述最优控制策略的表达式,确定待求解的策略迭代方程;

7、对所述无人机控制系统在预定时间段内施加初始控制策略和初始参考信号,统计所述固定翼无人机在所述预定时间段内的相对于所述初始参考信号的跟踪误差;其中,所述初始控制策略包括控制所述无人机控制系统稳定的基本控制策略和探索噪声策略;

8、将所述初始控制策略和跟踪误差代入所述策略迭代方程,并对所述策略迭代方程进行迭代求解;

9、其中,当所述策略迭代方程的迭代求解收敛时,得到所述固定翼无人机的最优控制策略。

10、本申请实施例还提供了一种基于强化学习的固定翼无人机控制策略的确定装置,所述控制策略应用于无人机控制系统;所述控制策略的控制目标为根据接收到的参考信号控制固定翼无人机跟随所述参考信号运动;所述确定装置包括:

11、构建模块,用于根据所述参考信号和所述固定翼无人机的动力学模型,构建所述固定翼无人机的增广系统;

12、推导模块,用于根据所述固定翼无人机的增广系统和价值函数,推导贝尔曼方程和最优控制策略的表达式;其中,所述价值函数根据所述控制策略的控制目标定义得到;

13、重构模块,用于基于强化学习中的策略迭代方法,重构所述固定翼无人机的增广系统;

14、确定模块,用于结合所述价值函数、重构的增广系统、所述贝尔曼方程和所述最优控制策略的表达式,确定待求解的策略迭代方程;

15、控制模块,用于对所述无人机控制系统在预定时间段内施加初始控制策略和初始参考信号,统计所述固定翼无人机在所述预定时间段内的相对于所述初始参考信号的跟踪误差;其中,所述初始控制策略包括控制所述无人机控制系统稳定的基本控制策略和探索噪声策略;

16、求解模块,用于将所述初始控制策略和跟踪误差代入所述策略迭代方程,并对所述策略迭代方程进行迭代求解;

17、其中,当所述策略迭代方程的迭代求解收敛时,得到所述固定翼无人机的最优控制策略。

18、本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的一种基于强化学习的固定翼无人机控制策略的确定方法的步骤。

19、本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的一种基于强化学习的固定翼无人机控制策略的确定方法的步骤。

20、本申请实施例提供的一种基于强化学习的固定翼无人机控制策略的确定方法,结合智能算法和最优控制理论,将强化学习算法应用于固定翼无人机的控制策略求解,仅使用设定的初始控制策略和可测得的跟踪误差即可求解出无人机的最优控制策略,能够提升对固定翼无人机的控制效果。

21、为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

本文档来自技高网...

【技术保护点】

1.一种基于强化学习的固定翼无人机控制策略的确定方法,其特征在于,所述控制策略应用于无人机控制系统;所述控制策略的控制目标为根据接收到的参考信号控制固定翼无人机跟随所述参考信号运动;所述确定方法包括:

2.根据权利要求1所述的确定方法,其特征在于,所述无人机控制系统包括位置控制层和姿态控制层;所述位置控制层中的位置控制器根据接收到的位置参考信号、所述固定翼无人机的位置状态量和位置控制策略反解出姿态参考信号,并发送至所述姿态控制层;

3.根据权利要求2所述的确定方法,其特征在于,当所述控制策略为所述角速率控制器中的角速率控制策略时,所述固定翼无人机关于角速率状态量的动力学模型表示为:

4.根据权利要求3所述的确定方法,其特征在于,根据所述固定翼无人机的增广系统和价值函数,推导贝尔曼方程和最优控制策略的表达式,包括:

5.根据权利要求4所述的确定方法,其特征在于,所述重构的增广系统的表达式为:

6.根据权利要求5所述的确定方法,其特征在于,所述结合所述价值函数、重构的增广系统、所述贝尔曼方程和所述最优控制策略的表达式,确定待求解的策略迭代方程,包括:

7.根据权利要求1所述的确定方法,其特征在于,对所述策略迭代方程进行迭代求解,包括:

8.一种基于强化学习的固定翼无人机控制策略的确定装置,其特征在于,所述控制策略应用于无人机控制系统;所述控制策略的控制目标为根据接收到的参考信号控制固定翼无人机跟随所述参考信号运动;所述确定装置包括:

9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至7任一所述的一种基于强化学习的固定翼无人机控制策略的确定方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述的一种基于强化学习的固定翼无人机控制策略的确定方法的步骤。

...

【技术特征摘要】

1.一种基于强化学习的固定翼无人机控制策略的确定方法,其特征在于,所述控制策略应用于无人机控制系统;所述控制策略的控制目标为根据接收到的参考信号控制固定翼无人机跟随所述参考信号运动;所述确定方法包括:

2.根据权利要求1所述的确定方法,其特征在于,所述无人机控制系统包括位置控制层和姿态控制层;所述位置控制层中的位置控制器根据接收到的位置参考信号、所述固定翼无人机的位置状态量和位置控制策略反解出姿态参考信号,并发送至所述姿态控制层;

3.根据权利要求2所述的确定方法,其特征在于,当所述控制策略为所述角速率控制器中的角速率控制策略时,所述固定翼无人机关于角速率状态量的动力学模型表示为:

4.根据权利要求3所述的确定方法,其特征在于,根据所述固定翼无人机的增广系统和价值函数,推导贝尔曼方程和最优控制策略的表达式,包括:

5.根据权利要求4所述的确定方法,其特征在于,所述重构的增广系统的表达式为:

6.根据权利要求5所述的确定方法,其特征在于,所述结合所述价值函...

【专利技术属性】
技术研发人员:刘昊刘德元任梓铭钟森
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1