【技术实现步骤摘要】
本专利技术涉及一种无人机机动策略离线建模方法,属于无人机智能体决策控制建模。
技术介绍
1、无人机空中博弈场景下,博弈双方如何根据当前态势选择精确有效的机动决策是重要的研究方向。基于数据驱动的无人机机动策略建模技术成为研究热点,并取得了诸多成果。在如alpha dogfight等赛事中,智能体均表现出超越人类专家的水平,利用智能体作为陪练对手提高训练效能成为了共识。目前机动策略建模方法中普遍基于在线强化学习算法,即智能体通过与环境交互采样数据,利用奖励函数引导策略收敛。然而在实际策略建模中,受限于模拟设备中飞机模型仿真加速比低、难以并行化等问题,采用在线建模方法的环境探索成本较高。利用离线数据的主流建模方法主要分为基于离线强化学习和模仿学习技术的两类。模仿学习算法受限于数据次优、分布不唯一等问题,策略模型表现不佳。因此离线强化学习技术成为当前主要研究方向,目前在无人机机动策略建模领域研究较少。
2、离线强化学习与强化学习相似,不同点在于强化学习通过与环境交互反复试错,并在探索(exploration)与利用(exploita
...【技术保护点】
1.无人机机动策略离线建模方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的无人机机动策略离线建模方法,其特征在于:所述步骤s1中,所述任务轨迹为人人博弈或人机博弈数据获得状态-动作元组,其中r为奖励函数。
3.根据权利要求1或2所述的无人机机动策略离线建模方法,其特征在于:所述步骤s2中的PIQL算法,将红方飞机自身状态与红蓝双机相对态势解耦,策略模型分解为策略引导网络和策略网络;
4.根据权利要求3所述的无人机机动策略离线建模方法,其特征在于:所述步骤s2中的网络模型包括策略网络,策略引导网络,价值网络,动作价值网络,所
...【技术特征摘要】
1.无人机机动策略离线建模方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的无人机机动策略离线建模方法,其特征在于:所述步骤s1中,所述任务轨迹为人人博弈或人机博弈数据获得状态-动作元组,其中r为奖励函数。
3.根据权利要求1或2所述的无人机机动策略离线建模方法,其特征在于:所述步骤s2中的piql算法,将红方飞机自身状态与红蓝双机相对态势解耦,策略模型分解为策略引导网络和策略网络;
4.根据权利要求3所述的无人机机动策略离线建模方法,其特征在于:所述步骤s2中的网络模型包括策略网络,策略引导网络,价值网络,动作价值网络,所述动作价值网络包含当前网络和目标网络,
5.根据权利要求4所述的无人机机动策略离线建模方法,其特征在于:所述步骤s2中的损失函数包括策略损失函数、策略引导损失函数、价值损失函数和动作价值损...
【专利技术属性】
技术研发人员:林靖博,付宇鹏,肖媛,
申请(专利权)人:中国人民解放军海军航空大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。