System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于DDPG的融合无人机运动姿态的路径规划方法技术_技高网

一种基于DDPG的融合无人机运动姿态的路径规划方法技术

技术编号:40359016 阅读:8 留言:0更新日期:2024-02-09 14:45
本发明专利技术公开了一种基于DDPG的融合无人机运动姿态的路径规划方法,首先进行无人机运动学建模,然后设置兵器推演环境,初始化智能体神经网络并创建经验缓冲池,然后再进行现实网络与环境进行交互,更新现实网络和目标网络,重复进行训练直至训练出的模型收敛。本发明专利技术有效提高了在复杂环境中智能体动作决策的正确性,增加了任务完成度并降低了对智能体本身的损伤。

【技术实现步骤摘要】

本专利技术属于无人机,具体涉及一种无人机运动姿态的路径规划方法。


技术介绍

1、在强对抗环境中,由于智能体数量、种类、所涉及到的军种各有不同,实景模拟难度较大,整个环境又处在实时变化中,对智能体的动作或任务进行决策时,要考虑的因素极多,因此在兵器推演领域中,ddpg算法在智能体路径规划方面具有广泛的应用价值。例如,智能体需要通过多雷达探测区域,到达指定地点进行作战时,无法通过实际训练找寻智能体飞行的最佳路径,这时就首先需要根据真实情况:雷达探测区域、需要训练的智能体型号等创建模型,在该模型上对智能体进行训练,直至训练出的智能体在绝大多数情况下可以选择最安全、最快的路径进行飞行,从而快速高效的到达目标点进行作战。随着战场环境变化复杂多样,作战武器种类增加,这种如何运用算法对智能体进行训练,从而达到最终目标的研究具有重要意义。

2、无人机由于体积小,成本低,环境适应力强,在各个领域被广泛使用。目前在对无人机路径规划的研究中,多是将无人机视为质点模型进行研究,主要是为使无人机避免与当前已知的障碍物碰撞,并没有建立无人机运动学模型和无人机的姿态约束,当加入多种约束性条件时,算法所选择出的路径也会发生改变,因此将影响无人机飞行的各种姿态约束加入到路径规划的研究中是必要的。

3、近年来,在智能体对抗领域中,大多采用深度强化学习进行研究,使用较多的单智能体算法为dqn,ddpg等,这些算法使得智能体对环境探索速度加快,作战胜率提高;在无人机路径规划的研究方面,目前常用的单无人机路径规划算法有蚁群算法和快速搜索随机树算法,这些算法都在一定程度上取得了良好的效果。

4、现有的智能体对抗和无人机路径规划方法中大多未考虑无人机本身机动性能和外部威胁因素对路径规划的影响,且在强对抗环境中,外部环境信息存在一定的不确定性在遇到外部环境变化时,因自身性能限制,无人机存在无法按照原有方法进行路径改变;蚁群算法和快速搜索随机树算法都需要不同次数的迭代来完成对无人机的路径规划,且由于约束性条件增加,算法的时间复杂度和空间复杂度提高,在大范围环境下,计算能力急剧增加,收敛速度变慢。


技术实现思路

1、为了克服现有技术的不足,本专利技术提供了一种基于ddpg的融合无人机运动姿态的路径规划方法,首先进行无人机运动学建模,然后设置兵器推演环境,初始化智能体神经网络并创建经验缓冲池,然后再进行现实网络与环境进行交互,更新现实网络和目标网络,重复进行训练直至训练出的模型收敛。本专利技术有效提高了在复杂环境中智能体动作决策的正确性,增加了任务完成度并降低了对智能体本身的损伤。

2、本专利技术解决其技术问题所采用的技术方案包括如下步骤:

3、步骤1:无人机运动学建模;

4、步骤1-1:最大爬升角;

5、从航迹节点(xi-1,yi-1,zi-1)到航迹节点(xi,yi,zi)的爬升角根据公式(1)进行计算:

6、

7、其中,θ表示爬升角,n表示航迹点总数,i表示第几个航迹节点;

8、步骤1-2:最小转弯半径;

9、设无人机最小转弯半径为rmin,若rk≥rmin,则该航迹可飞,若航迹中有任意一点不符合该条件,则该航迹不可飞;rk指无人机转弯半径;

10、步骤2:设置兵器推演环境;

11、所述兵器推演环境包括己方实体属性信息、敌方实体属性信息、所处地理位置信息、评分板、天气;

12、所述己方实体属性信息包括类型、位置、血量、所载武器类别、攻击或可探测范围、剩余弹药量;所述敌方实体属性包括类型、位置、所载武器类别、攻击或可探测范围,不包括剩余弹药量;所述评分板记录在推演过程中的双方战损与消耗情况、评分变化过程、推演总分数;所述天气包括降雨量,风力,平均气温;

13、步骤3:初始化智能体神经网络;

14、步骤3-1:定义现实actor网络和现实critic网络;

15、所述现实actor网络为三层神经网络,第一层神经元数量为a1,第二层神经元数量为a2,第三层神经元数量为动作空间维度;前两层激活函数为relu,第三层激活函数为tanh;

16、所述现实critic网络为三层全连接神经网络,第一层神经元数量为a3,第二层神经元数量为a4,第三层神经元数量为1,激活函数全部为relu;

17、分别复制现实actor网络和现实critic网络到目标actor网络和目标critic网络;

18、步骤4:创建经验缓冲池;

19、经验缓冲池中存放推演过程中的四元组(s,a,r,s'),其中s为当前状态,a为s经过actor网络选择的动作,r为状态s下执行动作a的奖励值,s'为状态s下执行动作a后的状态;

20、步骤5:现实网络与环境进行交互;

21、输入状态s到现实actor网络得到动作a,对环境施加动作a,环境返回下一时刻的状态s'和奖励r;将状态s和动作a共同输入到现实critic网络中,得到对状态s下执行动作a的评分q(s,a),将每一次得到的四元组(s,a,r,s')保存至经验缓冲池中;

22、步骤6:更新现实网络;

23、步骤6-1:更新critic网络;

24、当探索采样数量到达设置的最少数时,开始更新网络参数;通过随机采样将通过现实actor网络得到的状态s'输入到目标actor网络中,得到动作a',将s'和a'输入到目标critic网络中,得到s'状态下执行动作a'的评分q(s',a');计算目标q值为q',和损失值l,当损失值最小时,对现实critic网络中的参数θq进行更新;更新过程中用到的公式有:

25、目标q值:q'=r+gam max q(s',a')             (2)

26、其中gam max q(·)表示s′状态下执行不同动作后计算出的最大q值;

27、损失值:

28、

29、其中,si表示第i个时间步的状态,ai表示第i个时间步的动作,yi=ri+γq′(si+1,μ′(si+1|θμ′)|θq′),其中γ为衰减因子,θμ'为目标actor网络参数,θq'为目标critic网络参数,ri表示第i个时间步时的奖励值,μ'表示探索策略,si+1表示第i+1个时间步的状态;

30、步骤6-2:更新actor网络;

31、使用梯度上升策略更新现实actor网络参数θμ,公式如下:

32、

33、其中,n表示该回合中总的时间步数,μ表示动作策略,s表示第i个时间步的状态;

34、步骤7:更新目标网络;

35、对目标actor网络和目标critic网络进行更新;对目标网络的更新采用软更新方式,引入学习率τ,将原本的目标网络参数和新的目标网络参数做加权平均,然后赋值给目标网络,公式如下:

36、θq′←τθq+(1本文档来自技高网...

【技术保护点】

1.一种基于DDPG的融合无人机运动姿态的路径规划方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于DDPG的融合无人机运动姿态的路径规划方法,其特征在于,所述a1=400,a2=300,a3=400,a4=300。

【技术特征摘要】

1.一种基于ddpg的融合无人机运动姿态的路径规划方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一...

【专利技术属性】
技术研发人员:傅妍芳李秦洁杨博曹子建魏佳宁雷凯麟孙泽龙陈冠男刘昕晨
申请(专利权)人:西安工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1