System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 火星探测器动力下降段的对抗式逆强化学习着陆方法技术_技高网

火星探测器动力下降段的对抗式逆强化学习着陆方法技术

技术编号:40227979 阅读:8 留言:0更新日期:2024-02-02 22:31
本发明专利技术涉及一种火星探测器动力下降段的对抗式逆强化学习着陆方法。其中的方法包括:获取火星探测器的当前状态,以及初始化对抗式逆强化学习网络模型的网络参数,模型设置有策略网络和判别网络,采用专家数据库进行训练,根据当前状态,通过策略网络生成一系列的状态动作对轨迹,通过判别网络计算状态动作对轨迹的奖励值,以生成新的最优动作轨迹,将最优动作轨迹作为控制命令输出,并从最优动作轨迹中采样数据以更新策略网络的网络参数。本发明专利技术通过对抗式逆强化学习算法完成火星探测器着陆时动力下降段的着陆任务,通过设计策略网络、判别网络及网络训练各项参数,使得控制器能够满足执行机构故障、引力场未知状况下的着陆要求。

【技术实现步骤摘要】

本专利技术涉及火星探测器动力下降段的对抗式逆强化学习着陆方法,属于航天领域。


技术介绍

1、自1961年俄罗斯用宇宙飞船首次完成绕地球飞行并安全返回以来,到人类第一次完成太空行走、建立空间站、登上月球、探索火星等,人类在航天领域进行了大量的理论研究、实际探索,并在这个过程中积累了大量的数据,如何利用已有的数据来促进航天领域的智能化进程,是目前一个重要的研究方向。

2、火星探测器传统的着陆控制方法通常需要根据探测器不同的状态设计相应的制律,普遍使用的方法有:apollo制导算法、滑模变结构控制、最优控制、模型预测控制等。随着技术的不断发展、对控制器智能化程度的要求不断提高,基于神经网络的控制方法也逐渐应用到着陆任务的控制器设计中来。传统的实时制导算法通常需要上层控制器基于当前状态进行实时轨迹规划,然后设计控制器来跟踪轨迹,输出控制量;而基于神经网络的算法可以实现从状态到控制量的直接映射,直接替代上述两种控制器。硬件技术水平的不断升级,人们可以快速接收、处理、访问、使用数据库中的数据,用以支持完成各种各样的任务。大量被标记数据被用在深度神经网络的训练中,机器学习算法逐渐显示出巨大的作用,其中模仿学习作为一种新的智能算法,它将现有的成功着陆的数据作为专家数据,并利用专家数据进行离线训练,能够得到与专家相同甚至更优的策略。

3、模仿学习是一种通过模仿专家行为的学习模式,它能够使智能体像专家一样进行智能决策。它通常分为两种类型:行为克隆(behavior cloning,简称bc)、对抗式模仿学习(adversarial imitation learning,简称ail)。目前来说,模仿学习在自动驾驶等领域研究与落地应用较多,在航天领域的研究比较简单且较少,大多数都集中在监督学习方法上。


技术实现思路

1、本专利技术提供一种火星探测器动力下降段的对抗式逆强化学习着陆方法,旨在至少解决现有技术中存在的技术问题之一。

2、本专利技术的技术方案涉及一种火星探测器动力下降段的对抗式逆强化学习着陆方法,根据本专利技术的方法包括以下步骤:

3、s100、获取火星探测器的当前状态,以及初始化对抗式逆强化学习网络模型的网络参数;其中,所述对抗式逆强化学习模型设置有策略网络和判别网络,并且采用专家数据库进行训练;

4、s200、根据所述当前状态,通过所述策略网络生成一系列的状态动作对轨迹;

5、s300、通过所述判别网络计算所述状态动作对轨迹的奖励值,以生成新的最优动作轨迹;

6、s400、将所述最优动作轨迹作为控制命令输出,并从所述最优动作轨迹中采样数据以更新所述策略网络的网络参数。

7、其中,所述专家数据包括三轴位置、速度和推力矢量。

8、进一步,其中,所述策略网络和所述判别网络均采用前馈神经网络结构。

9、进一步,对于所述步骤s200,所述策略网络采用基于近端策略优化算法的actor-critic网络结构,所述策略网络的网络更新包括以下步骤:

10、s210、初始化actor网络参数θ0和critic网络参数φ0;

11、s220、通过当前策略πk=π(θk)生成一系列状态动作对轨迹dk={τi};计算累积奖励

12、s230、利用当前critic网络计算优势函数

13、s240、更新化actor网络,以最大化近端策略优化算法的目标函数:

14、

15、式中,θk+1表示第k+1次更新时的actor网络参数;t表示完成一次任务的时间,s表示当前状态,a表示当前动作,θk表示第k次更新时的actor网络参数,θ表示actor网络参数,l(s,a,θk,θ)表示actor网络的损失函数;

16、s250、更新化actor网络:

17、

18、式中,φk+1表示第k+1次更新时的critic网络参数;vφ表示为critic网络;st表示t时刻的状态值。

19、进一步,所述actor网络通过以下损失函数更新网络参数:

20、

21、式中,l(s,a,θk,θ)表示actor网络的损失函数;πθ(a|s)表示当前策略;表示旧策略;表示优势函数;(1+ε)表示新旧策略的比值的最大取值,(1-ε)表示新旧策略的比值的最小取值,ε表示超参数限制新策略的偏离距离;函数clip(·)的作用是限制优势函数的取值范围;

22、其中,优势函数a用于衡量某个状态下选择某个动作的合理性,其表示如下:

23、

24、式中,v(st)表示状态值函数,q(st,at)表示状态动作值函数。

25、进一步,对于所述步骤s300,所述判别网络通过以下损失函数更新网络参数:

26、

27、式中,lairl(π,d)表示所述判别网络的损失函数;eπ表示当前策略的期望;表示专家策略的期望;(s,a)为专家动作对,d表示判别网络,π表示正在更新的策略,πe表示专家策略;s’表示执行动作a后的状态;lgπ是log(s,a)的简写,d表示当前状态是否为终态。

28、进一步,其中,当策略达到最优时,奖励函数dθ,φ表示如下:

29、

30、其中,fθ,φ表示如下:

31、fθ,φ(s,a,s′)=gθ(s,a)+γhφ(s′)-hφ(s)

32、式中,gθ为奖励函数的近似网络;hφ用于微调奖励值,表示状态为s′时状态价值的估值;表示状态为s时状态价值的估值;γ表示折扣因子。

33、进一步,其中,所述策略网络的奖励计算方式如下:

34、rθ,φ(s,a,s′,lgπ,d)=logdθ,φ(s,a,s′,lgπ,d)-log(1-dθ,φ(s,a,s′,lgπ,d))

35、式中,rθ,φ表示所述策略网络的奖励值。

36、进一步,所述前馈神经网络结构的包括依次连接的输入层、隐藏层和输出层,所述输入层的神经元个数由输入状态数决定;所述输出层的神经元个数由动作维度决定。

37、本专利技术的技术方案还涉及计算机可读存储介质,其上储存有程序指令,所述程序指令被处理器执行时实施上述的方法。

38、本专利技术的技术方案还涉及火星探测器动力下降段的对抗式逆强化学习着陆系统,所述系统包括计算机装置,该计算机装置包含上述计算机可读存储介质。

39、本专利技术的有益效果如下:

40、本专利技术实施例的方法通过对抗式逆强化学习算法完成火星探测器着陆时动力下降段的着陆任务,通过设计策略网络、判别网络及网络训练各项参数,使得训练得到的控制器能够满足执行机构故障、引力场未知状况下的着陆要求。本专利技术专利结合了专家数据,可充分利用现有的成功数据来帮助训练,这些数据可以通过理论获取,也可以是实际数据。本专利技术专利使用了目前较新的模仿学习算法应用于航天领域的着陆问题,与强化学本文档来自技高网...

【技术保护点】

1.一种对抗式逆强化学习着陆方法,应用于火星探测器,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,其中,所述策略网络和所述判别网络均采用前馈神经网络结构。

3.根据权利要求2所述的方法,其特征在于,对于所述步骤S200,所述策略网络采用基于近端策略优化算法的Actor-Critic网络结构,所述策略网络的网络更新包括以下步骤:

4.根据权利要求3所述的方法,其特征在于,所述actor网络通过以下损失函数更新网络参数:

5.根据权利要求2所述的方法,其特征在于,对于所述步骤S300,所述判别网络通过以下损失函数更新网络参数:

6.根据权利要求5所述的方法,其特征在于,其中,当策略达到最优时,奖励函数Dθ,φ表示如下:

7.根据权利要求6所述的方法,其特征在于,其中,所述策略网络的奖励计算方式如下:

8.根据权利要求2所述的方法,其特征在于,所述前馈神经网络结构的包括依次连接的输入层、隐藏层和输出层,所述输入层的神经元个数由输入状态数决定;所述输出层的神经元个数由动作维度决定。

9.一种计算机可读存储介质,其上储存有程序指令,所述程序指令被处理器执行时实施如权利要求1至8中任一项所述的方法。

10.一种火星探测器动力下降段的对抗式逆强化学习着陆系统,其特征在于,包括:

...

【技术特征摘要】

1.一种对抗式逆强化学习着陆方法,应用于火星探测器,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,其中,所述策略网络和所述判别网络均采用前馈神经网络结构。

3.根据权利要求2所述的方法,其特征在于,对于所述步骤s200,所述策略网络采用基于近端策略优化算法的actor-critic网络结构,所述策略网络的网络更新包括以下步骤:

4.根据权利要求3所述的方法,其特征在于,所述actor网络通过以下损失函数更新网络参数:

5.根据权利要求2所述的方法,其特征在于,对于所述步骤s300,所述判别网络通过以下损失函数更新网络参数:<...

【专利技术属性】
技术研发人员:龚有敏刘佳佳吴新裕梅杰马广富
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1