System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无人机机动策略离线建模方法技术_技高网

无人机机动策略离线建模方法技术

技术编号:41209102 阅读:2 留言:0更新日期:2024-05-09 23:31
本发明专利技术涉及一种无人机机动策略离线建模方法,属于无人机智能体决策控制建模技术领域。针对传统强化学习算法环境探索成本高、专家经验利用不足的问题,该方法包括以下步骤:s1:采集多条任务轨迹,构建示例数据集,其中表示第n条飞行轨迹,为模型训练提供数据支持;s2:采用基于策略引导的隐式Q学习算法即PIQL算法构建网络模型和定义损失函数;s3:采用步骤s1中的采样数据,计算策略梯度和价值梯度,进而计算步骤s2中的损失函数;s4:更新步骤s2中的网络模型参数,重复s3,直到回报函数R<subgt;t</subgt;收敛或达到最大仿真步长;s5:部署策略网络和策略引导网络构成机动策略模型,基于飞行仿真平台验证机动策略模型;完全利用离线数据,无需与环境交互。

【技术实现步骤摘要】

本专利技术涉及一种无人机机动策略离线建模方法,属于无人机智能体决策控制建模。


技术介绍

1、无人机空中博弈场景下,博弈双方如何根据当前态势选择精确有效的机动决策是重要的研究方向。基于数据驱动的无人机机动策略建模技术成为研究热点,并取得了诸多成果。在如alpha dogfight等赛事中,智能体均表现出超越人类专家的水平,利用智能体作为陪练对手提高训练效能成为了共识。目前机动策略建模方法中普遍基于在线强化学习算法,即智能体通过与环境交互采样数据,利用奖励函数引导策略收敛。然而在实际策略建模中,受限于模拟设备中飞机模型仿真加速比低、难以并行化等问题,采用在线建模方法的环境探索成本较高。利用离线数据的主流建模方法主要分为基于离线强化学习和模仿学习技术的两类。模仿学习算法受限于数据次优、分布不唯一等问题,策略模型表现不佳。因此离线强化学习技术成为当前主要研究方向,目前在无人机机动策略建模领域研究较少。

2、离线强化学习与强化学习相似,不同点在于强化学习通过与环境交互反复试错,并在探索(exploration)与利用(exploitation)之间进行平衡以达到更好的表现,而离线强化学习只能从静态的离线数据集来训练智能体,受到分布偏移(distributional shift)的严重影响,即对分布外(out-of-distribution , ood)动作价值高估,导致选择实际价值低的动作。

3、为了解决ood动作高估问题,主要有两类离线强化学习方法。一类基于离线策略强化学习算法(off-policy rl),加以策略约束正则项从而降低外推误差(extrapolationerror),如bcq,td3-bc等算法。另一类与模仿学习相似,只对分布内状态-动作重要性采样进行策略学习,如awr,iql,por等。离线策略强化学习算法和模仿学习通常属于在线(on-line)算法需要与环境交互,不能实现仅依靠数据完成建模,时间和资源成本高。


技术实现思路

1、本专利技术的目的在于针对传统强化学习算法环境探索成本高、专家经验利用不足的问题,提出一种无人机机动策略离线建模方法,该方法能够完全利用离线数据,无需与环境交互,降低了成本。

2、为了解决上述问题,本申请的无人机机动策略离线建模方法是通过以下技术方案实现的:

3、无人机机动策略离线建模方法,其特殊之处在于:包括以下步骤:

4、s1:采集多条任务轨迹,构建示例数据集,其中表示第n条飞行轨迹,为模型训练提供数据支持;

5、s2:采用基于策略引导的隐式q学习算法即piql算法构建网络模型和定义损失函数;

6、s3:采用步骤s1中的采样数据,计算策略梯度和价值梯度,进而计算步骤s2中的损失函数;

7、s4:更新步骤s2中的网络模型参数,重复s3,直到回报函数rt收敛或达到最大仿真步长;

8、s5:部署策略网络和策略引导网络构成机动策略模型,基于飞行仿真平台验证机动策略模型;

9、s6:输出机动策略模型。

10、优选的,所述步骤s1中,所述任务轨迹为人人博弈或人机博弈数据获得状态-动作元组,其中r为奖励函数;

11、优选的,所述步骤s2中的piql算法,将红方飞机自身状态与红蓝双机相对态势解耦,策略模型分解为策略引导网络和策略网络;

12、所述策略引导网络预测下一时刻相对态势,作为策略网络的部分输入,所述策略网络根据自身状态和预测的相对态势执行机动动作;

13、优选的,所述步骤s2中的网络模型包括策略网络,策略引导网络,价值网络,动作价值网络,所述动作价值网络包含当前网络和目标网络,

14、其中a表示动作,s表示当前时刻状态,,为智能体自身状态,为博弈双方相对态势,表示下一时刻状态,为策略引导网络输出与的拼接,如,,,,,代表网络参数;

15、优选的,所述步骤s2中的损失函数包括策略损失函数、策略引导损失函数、价值损失函数和动作价值损失函数;

16、所述策略损失函数表示为:

17、,

18、策略损失函数基于隐式优势权重回归(awr)技术构造,用以求解最大化动作价值的动作,的好坏与正相关,越大说明下的越好,损失函数就是去更新策略网络和动作价值网络逼近这个最好的结果,此时策略网络产生最大动作价值动作,同时使采样动作符合示例策略分布;

19、所述策略引导损失函数表示为:

20、,

21、策略引导结合awr和min-max理论,使策略引导网络预测下一步状态倾向于对己方威胁状态, 是衡量状态的好坏,而损失函数里这个负号表示让预测的状态不要是好的,也就是对己方有威胁;

22、所述价值损失函数表示为:,

23、其中,通过训练得到状态价值的最优估计,即为动作价值期望上界;

24、动作价值损失函数表示为:

25、,为折扣系数,约束当前策略随机采样的动作价值上界;

26、优选的,所述步骤s3中,所述策略梯度的计算方法为:,;

27、所述价值梯度的计算方法为:,;

28、计算出策略梯度后,计算相应的策略损失函数和策略引导损失函数,

29、计算出价值梯度后,计算相应的状态价值损失函数和动作价值损失函数;

30、优选的,所述步骤s4中更新步骤s2中的网络模型参数,所述网络模型参数包括初始化网络参数,,,,和初始化超参数,其中代表学习率,为折扣系数,为算法中超参数;

31、优选的,所述步骤s4中的回报函数rt表示为,回报函数rt收敛是指rt不再继续稳定增长;

32、离线强化学习与强化学习相似,状态转移过程表现为马尔可夫决策过程(mdp),, s表示状态空间, a表示动作空间,表示初始状态分布概率,表示环境状态转移概率,表示奖励函数,表示折扣系数;策略目标为获得回合最大回报,

33、;

34、优选的,所述步骤s5中的机动策略模型为:

35、;

36、优选的,所述步骤s6机动策略模型输出为飞机升降舵、副翼、方向舵和油门指令,即;

37、自身状态定义为,其中、、表示飞机姿态角,、表示当前角速度,表示当前高度,表示速度矢量;

38、双方相对态势定义为,其中、分别表示ned坐标系下的相对速度矢量和相对位置矢量,表示方位角,表示目标进入角。

39、本申请将策略引导与极小极大定理相结合,提出了piql算法用来实现离线的无人机机动策略建模,完全依靠离线数据完成,无需与环境交互,降低成本。价值评估和策略提取解耦,提高了模型训练的稳定性。基于极小极大定理,策略学习时最小化引导态势的价值,最大化执行策略的动作价值,从而提高模型部署的博弈智能水平。

40、本申请提出了基于策略引导的隐式本文档来自技高网...

【技术保护点】

1.无人机机动策略离线建模方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的无人机机动策略离线建模方法,其特征在于:所述步骤s1中,所述任务轨迹为人人博弈或人机博弈数据获得状态-动作元组,其中r为奖励函数。

3.根据权利要求1或2所述的无人机机动策略离线建模方法,其特征在于:所述步骤s2中的PIQL算法,将红方飞机自身状态与红蓝双机相对态势解耦,策略模型分解为策略引导网络和策略网络;

4.根据权利要求3所述的无人机机动策略离线建模方法,其特征在于:所述步骤s2中的网络模型包括策略网络,策略引导网络,价值网络,动作价值网络,所述动作价值网络包含当前网络和目标网络,

5.根据权利要求4所述的无人机机动策略离线建模方法,其特征在于:所述步骤s2中的损失函数包括策略损失函数、策略引导损失函数、价值损失函数和动作价值损失函数;

6.根据权利要求5所述的无人机机动策略离线建模方法,其特征在于:所述步骤s3中,所述策略梯度的计算方法为:,;

7.根据权利要求6所述的无人机机动策略离线建模方法,其特征在于:所述步骤s4中更新步骤s2中的网络模型参数,所述网络模型参数包括初始化网络参数,,,,和初始化超参数,其中代表学习率,为折扣系数,为算法中超参数。

8.根据权利要求7所述的无人机机动策略离线建模方法,其特征在于:所述步骤s4中的回报函数Rt表示为,回报函数Rt收敛是指Rt不再继续稳定增长。

9.根据权利要求8所述的无人机机动策略离线建模方法,其特征在于:所述步骤s5中的机动策略模型为:。

10.根据权利要求9所述的无人机机动策略离线建模方法,其特征在于:所述步骤s6机动策略模型输出为飞机升降舵、副翼、方向舵和油门指令,即;

...

【技术特征摘要】

1.无人机机动策略离线建模方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的无人机机动策略离线建模方法,其特征在于:所述步骤s1中,所述任务轨迹为人人博弈或人机博弈数据获得状态-动作元组,其中r为奖励函数。

3.根据权利要求1或2所述的无人机机动策略离线建模方法,其特征在于:所述步骤s2中的piql算法,将红方飞机自身状态与红蓝双机相对态势解耦,策略模型分解为策略引导网络和策略网络;

4.根据权利要求3所述的无人机机动策略离线建模方法,其特征在于:所述步骤s2中的网络模型包括策略网络,策略引导网络,价值网络,动作价值网络,所述动作价值网络包含当前网络和目标网络,

5.根据权利要求4所述的无人机机动策略离线建模方法,其特征在于:所述步骤s2中的损失函数包括策略损失函数、策略引导损失函数、价值损失函数和动作价值损...

【专利技术属性】
技术研发人员:林靖博付宇鹏肖媛
申请(专利权)人:中国人民解放军海军航空大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1