【技术实现步骤摘要】
一种固定翼无人机自主控制协作策略训练方法
本专利技术涉及一种基于分层强化学习和多智能体强化学习的固定翼无人机自主控制协作策略训练方法,无人机自主控制协作策略
技术介绍
对于传统的固定翼无人机自主控制协作策略,主要是采用自动化控制的方法,人工建模,制定策略。依赖相关领域专家的制定飞行规则。成本高昂且由于复杂变化的环境下场景变化频繁,存在大量的没有在飞行规则中没有考虑到的情况。因此通常飞行规则无法处理复杂变化的环境,能力较低。最近,随着机器学习的技术蓬勃发展,强化学习为无人机自主控制策略带来了新的解决方案。强化学习是机器学习的一个分支,相较于机器学习经典的有监督学习、无监督学习问题,强化学习最大的特点是在交互中学习(LearningfromInteraction)。Agent在与环境的交互中根据获得的奖励或惩罚不断的学习知识,更加适应环境。RL学习的范式非常类似于我们人类学习知识的过程,也正因此,RL被视为实现通用AI重要途径。通过强化学习的方法,构建动力学仿真环境模拟器,设计合理的奖赏函数,在模拟器环境中训练 ...
【技术保护点】
1.一种固定翼无人机自主控制协作策略训练方法,其特征在于:采用了分层强化学习的方法将无人机协作策略分为高层策略和底层策略;所述高层策略用于协作策略;所述底层策略用于飞行控制;基于动力学构建固定翼无人机操控仿真环境E
【技术特征摘要】
1.一种固定翼无人机自主控制协作策略训练方法,其特征在于:采用了分层强化学习的方法将无人机协作策略分为高层策略和底层策略;所述高层策略用于协作策略;所述底层策略用于飞行控制;基于动力学构建固定翼无人机操控仿真环境Es,用于训练无人机飞行控制及协作目标达成;构建简化的剥离了飞行控制的抽象环境Ea,用于预训练协作策略;所述底层策略通过监督学习的方式学习得到;将高层策略和底层策略进行策略融合,最终将训练好的自主控制协作策略用于真实环境中;
使用APEX_QMIX算法,根据抽象环境Ea提供的观测信息进行协作策略的预训练,根据固定翼无人机操控仿真环境Es提供的观测信息进行融合策略的训练。
2.根据权利要求1所述的固定翼无人机自主控制协作策略训练方法,其特征在于:所述高层策略接受观测信息,给出飞行的目标点,控制无人机的协作;所述底层策略接受高层策略的目标点,选择最佳的飞行方式,以最快最优的方式飞到目标点。
3.根据权利要求1所述的固定翼无人机自主控制协作策略训练方法,其特征在于:基于动力学构建固定翼无人机操控仿真环境Es的模拟器Em_s;构建简化的剥离了飞行控制的抽象环境Ea的模拟器Em_a;所述模拟器Em_s用于近似模拟马尔科夫过程<S,A,P,R>,提供与真实场景下无人机一致的观测信息,并提供与真实无人机一致的操控指令,操控指令包括控制飞行的三个基本角度变化指令以及控制无人机飞行速度的油门控制指令;所述三个基本角度变化指令包括俯仰指令、翻滚指令和偏航指令;所述操控指令的形式为A=<Δv,Δα,Δβ,Δγ>,空间大小为R4。
4.根据权利要求3所述的固定翼无人机自主控制协作策略训练方法,其特征在于:酥松模拟器Em_a不涉及真实场景下...
【专利技术属性】
技术研发人员:俞扬,詹德川,周志华,王超,袁雷,陈立坤,黄宇洋,庞竟成,
申请(专利权)人:南京大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。