一种基于在线/离线混合强化学习的机动决策训练方法技术

技术编号：42660376 阅读：40 留言：0更新日期：2024-09-10 12:18

本发明专利技术属于无人机技术领域，具体涉及一种基于在线/离线混合强化学习的机动决策训练方法。本发明专利技术技术方案包含以下几个步骤：搭建飞行仿真环境，设计飞行竞赛规则；搭建在线/离线混合SAC策略模型，并对网络参数进行设计；建立无人机连续动作空间模型；建立策略模型的状态空间输入；设计无人机飞行竞赛奖励函数；搭建飞行竞赛训练框架并基于框架训练混合在线/离线混合SAC策略模型。本发明专利技术通过混合专家模型离线训练数据和智能体在线训练数据进行策略更新。在提高了训练效率的情况下，使智能体具备更高的智能化决策水平。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于无人机，具体涉及一种基于在线/离线混合强化学习的机动决策训练方法。

技术介绍

1、在未来，具备低成本、高载荷、高灵活性等特点的无人机有望成为各领域的重要组成部分。然而，复杂多变的作业环境对无人机的挑战也逐渐显现。为了提高无人机的作业水平，自主智能决策成为必不可少的发展方向。通过研究和应用先进的人工智能技术，使无人机能够在不同作业场景上做出自主决策，适应变化的作业环境，将为未来的应用提供更高的优势。因此，无人机自主智能决策的发展趋势是不可忽视的。

2、随着人工智能算法的发展，基于强化学习的无人机自主决策算法逐渐成为研究热点。传统基于规则的无人机自主决策算法难以适应复杂的作业环境，基于强化学习算法的无人机自主决策算法能够克服传统算法难以适应复杂作业环境的问题。强化学习分为离线强化学习和在线强化学习，在线强化学习中智能体(agent)在与环境实时交互的过程中学习最优策略，单圣哲提出基于自博弈强化学习的无人机智能决策方法，通过“左右互搏”的方式提高智能体的作业水平。杨凯达结合联盟训练与sac算法训练智能体进行自主决策，...

【技术保护点】

1.一种基于在线/离线混合强化学习的机动决策训练方法，其特征在于，包括以下步骤：

2.如权利要求1所述的在线/离线混合强化学习的机动决策训练方法，其特征在于，在步骤S1中，无人机六自由度动力学模型是以无人机的质心为机体坐标系原点，无人机六自由度动力学模型通过无人机六自由度动力学方程描述，无人机六自由度动力学方程如下：

3.如权利要求2所述的在线/离线混合强化学习的机动决策训练方法，其特征在于，在步骤S1中，无人机控制模型具体为：驾驶杆的横向移动控制无人机的偏航运动，驾驶杆的纵向移动控制无人机的俯仰运动；脚蹬控制无人机的滚转运动；油门杆控制无人机发动机推力大小；根据...

【技术特征摘要】

1.一种基于在线/离线混合强化学习的机动决策训练方法，其特征在于，包括以下步骤：

2.如权利要求1所述的在线/离线混合强化学习的机动决策训练方法，其特征在于，在步骤s1中，无人机六自由度动力学模型是以无人机的质心为机体坐标系原点，无人机六自由度动力学模型通过无人机六自由度动力学方程描述，无人机六自由度动力学方程如下：

3.如权利要求2所述的在线/离线混合强化学习的机动决策训练方法，其特征在于，在步骤s1中，无人机控制模型具体为：驾驶杆的横向移动控制无人机的偏航运动，驾驶杆的纵向移动控制无人机的俯仰运动；脚蹬控制无人机的滚转运动；油门杆控制无人机发动机推力大小；根据无人机六自由度动力学方程，通过解耦无人机所受的合外力和力矩；所述合外力为升力、阻力、侧力和推力的合力；所述力矩为滚转力矩、俯仰力矩和偏航力矩，构建无人机的控制方程如下：

4.如权利要求1所述的在线/离线混合强化学习的机动决策训练方法，其特征在于，在步骤s1中，建立飞行仿真环境是在环境初始化时会实例化生成两架无人机，两架无人机的飞行区域限定在一个lkm×wkm×hkm的长方形空间内，两架无人机的初始状态包括位置、速度、姿态角和航迹角在限定范围内随机初始化。

5.如权利要求1所述的在线/离线混合强化学习的机动决策训练方法，其特征在于，在步骤s1中，飞行竞赛规则为：在线/离线混合sac策略模型控制的无人机和基于规则的专家模型控制的无人机进行飞行竞赛，双方无人机均能获取对方无人机的位置信息和速度信息，通过对相对位置与相对角度条件进行占位得分判断，若有一方获得的占位得分达到规定值或者有一方失速或坠地，则判定一局竞赛结束，并根据最后结果来评判胜负。

6.如权利要求1所述的在...

【专利技术属性】
技术研发人员：刘波，杨兴昊，陈肇江，王浩龙，赵柳航，刘泽一，
申请(专利权)人：中国航空研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人