一种基于强化学习的无人机主动容错控制方法技术

技术编号：24250977 阅读：186 留言：0更新日期：2020-05-22 23:17

本发明专利技术公开了一种基于强化学习的无人机主动容错控制方法，具体包括两个阶段，前期离线训练阶段：通过采集无人机运行时产生的历史姿态与控制器输出的数据，对强化学习的容错控制器的评价网络进行训练更新，而本发明专利技术中评价网络采用遗传算法优化极限学习机进行优化，提升了训练速度和训练精度；系统运行与在线训练阶段：在无人机运行过程中，利用强化学习评价网络进行实时在线更新，在无人机主动容错控制过程中通过在线更新实现强化学习容错控制器的自我学习和自我完善，并通过动态扩容更新算法实现极限学习机的实时在线更新。本发明专利技术采用增量式策略对强化学习方法进行优化，实现对最优容错控制策略的渐近逼近，能够更好实现无人机的容错控制。

An active fault tolerant control method of UAV Based on Reinforcement Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的无人机主动容错控制方法
本专利技术涉及一种基于强化学习的无人机主动容错控制方法，具体涉及一种基于极限学习机和增量式策略强化学习的无人机主动容错控制方法，属于无人机主动容错控制

技术介绍
随着航空航天技术的不断发展，飞行控制系统的规模变得越来越庞大，系统的复杂度也不断地增加。在飞行控制系统不断进步的同时，系统的稳定性也面临着巨大的挑战。任何类型的故障都可以导致系统性能的折损甚至是瘫痪，造成控制系统的不稳定，从而带来巨大的损失。因此，如何减小甚至是消除系统故障所带来的危险是一个值得研究的问题，为了克服传感器、执行器和其他部件的故障，国内外学者们在故障诊断与容错控制这一研究方向上做出了很多的努力。近年来的研究工作大多聚焦在系统控制器的设计上，大多采用基于模型的方法对系统控制器进行重构，而由于科学技术的发展，飞行控制系统的复杂度越来越庞大，这也为对飞控系统的数学建模带来了巨大的挑战，由于基于模型的方法能够成功实现的前提是对系统的精准建模，所以随着控制系统越来越复杂，基于模型的方法的局限性也体现了出...

【技术保护点】
1.一种基于强化学习的无人机主动容错控制方法，其特征在于，包括如下步骤：/n步骤1，建立无人机动力学模型，对无人机进行故障注入，得到故障情况下的无人机飞行器故障模型；/n步骤2，定义五种不同的增量式策略，包括无补偿动作、补偿执行器故障的正向动作、补偿执行器故障的负向动作、补偿传感器故障的正向动作、补偿传感器故障的负向动作，依次用一种增量式策略遍历无人机飞行器故障模型，并通过传感器采集每种增量式策略下的无人机姿态数据；/n步骤3，利用无人机姿态数据对基于遗传算法-极限学习机的强化学习评价网络进行训练，得到训练好的强化学习评价网络；/n步骤4，根据步骤2无补偿动作策略遍历无人机飞行器故障模型时，采...

【技术特征摘要】
1.一种基于强化学习的无人机主动容错控制方法，其特征在于，包括如下步骤：
步骤1，建立无人机动力学模型，对无人机进行故障注入，得到故障情况下的无人机飞行器故障模型；
步骤2，定义五种不同的增量式策略，包括无补偿动作、补偿执行器故障的正向动作、补偿执行器故障的负向动作、补偿传感器故障的正向动作、补偿传感器故障的负向动作，依次用一种增量式策略遍历无人机飞行器故障模型，并通过传感器采集每种增量式策略下的无人机姿态数据；
步骤3，利用无人机姿态数据对基于遗传算法-极限学习机的强化学习评价网络进行训练，得到训练好的强化学习评价网络；
步骤4，根据步骤2无补偿动作策略遍历无人机飞行器故障模型时，采集到的无人机姿态数据对状态转移预测网络进行训练，得到训练好的状态转移预测网络；
步骤5，设置训练数据集为空，在无人机飞行控制系统运行过程中，每个采样周期采集一次姿态角数据Sk，将五种不同的增量式策略分别与姿态角数据Sk组成输入数据输入到当前强化学习评价网络，得到当前姿态角下采取各个不同的增量式策略分别对应的奖励值；
步骤6，根据不同的增量式策略对应的奖励值结合ε-Greedy策略选择当前姿态角下最优的增量式策略并执行该策略，得到系统即时回报值Q(Scurrent,Acurrent)；
步骤7，根据当前姿态角数据和当前状态转移预测网络，预测下一个采样周期的姿态角，得到下一个采样周期姿态角预测值；
步骤8，对下一个采样周期姿态角预测值重复步骤5和步骤6，得到下一个采样周期对应的最优的增量式策略，以及系统即时回报值Q(Snext,Anext)，计算需要更新的奖励值
步骤9，将当前姿态角数据Sk、当前姿态角下最优的增量式策略、需要更新的奖励值作为新的数据样本，扩容到当前训练数据集中，利用当前训练数据集对当前强化学习评价网络进行更新；
步骤10，对于每个采样周期，重复步骤5-步骤9，直至完成飞行任务。

2.根据权利要求1所述基于强化学习的无人机主动容错控制方法，其特征在于，步骤1所述故障情况下的无人机飞行器故障模型，具体为：

其中，x∈R4×1为系统...

【专利技术属性】
技术研发人员：任坚，刘剑慰，杨蒲，葛志文，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人