基于DQN模拟航空器自动着陆的方法及相关设备技术

技术编号：21685348 阅读：25 留言：0更新日期：2019-07-24 14:28

本发明专利技术公开了一种基于DQN模拟航空器自动着陆的方法及相关设备，涉及深度学习领域，该方法包括：对每个时间片t，获取模拟航空器的当前状态st；基于DQN确定所述模拟航空器在当前状态st下要执行的动作at；控制所述模拟航空器执行所述动作at，确定所述模拟航空器执行完所述动作at后的状态st+1；基于所述状态st+1与预设的目标状态的匹配结果，确定所述模拟航空器是否着陆成功。该方法提高了模拟航空器自动着陆的效率。

DQN-based simulation of aircraft automatic landing method and related equipment

全部详细技术资料下载

【技术实现步骤摘要】
基于DQN模拟航空器自动着陆的方法及相关设备
本专利技术涉及深度学习领域，特别是涉及基于DQN模拟航空器自动着陆的方法及相关设备。
技术介绍
在进行航空器的自动模拟着陆过程中，一般使用机器学习模型进行所述模拟过程。在对所述航空器着陆的交互场景进行模拟时，使用有监督的学习无法有效进行，而一般的无监督的学习也无法从一堆未标记的样本中发现隐藏的结构/知识，无法达到交互场景中要获得最大“奖励”以达到训练目标的目的。
技术实现思路
基于此，为解决相关技术中如何从技术层面上更加高效地模拟航空器自动着陆所面临的技术问题，本专利技术提供了一种基于DQN模拟航空器自动着陆的方法及相关设备。第一方面，提供了一种基于DQN模拟航空器自动着陆的方法，包括：对每个时间片t，获取模拟航空器的当前状态st；基于DQN确定所述模拟航空器在当前状态st下要执行的动作at；控制所述模拟航空器执行所述动作at，确定所述模拟航空器执行完所述动作at后的状态st+1；基于所述状态st+1与预设的目标状态的匹配结果，确定所述模拟航空器是否着陆成功。在本公开的一示例性实施例中，基于DQN确定所述模拟航空器在当前状态st下要执行的动作at，包括：将所述模拟航空器的当前状态st输入DQN，得到预设的动作集中每个动作a与所述当前状态st对应的预期收益Q(s,a)；基于所述预期收益Q(s,a)，确定所述模拟航空器在当前状态st下要执行的动作at。在本公开的一示例性实施例中，基于所述预期收益Q(s,a)，确定所述模拟航空器在当前状态st下要执行的动作at，包括：确定所述预期收益Q(s,a)中值最大的Q(s,a)所对...

【技术保护点】
1.一种基于DQN模拟航空器自动着陆的方法，其特征在于，包括：对每个时间片t，获取模拟航空器的当前状态st；基于DQN确定所述模拟航空器在当前状态st下要执行的动作at，所述DQN是指基于Q‑learning算法的深度卷积神经网络；控制所述模拟航空器执行所述动作at，确定所述模拟航空器执行完所述动作at后的状态st+1；基于所述状态st+1与预设的目标状态的匹配结果，确定所述模拟航空器是否着陆成功。

【技术特征摘要】
1.一种基于DQN模拟航空器自动着陆的方法，其特征在于，包括：对每个时间片t，获取模拟航空器的当前状态st；基于DQN确定所述模拟航空器在当前状态st下要执行的动作at，所述DQN是指基于Q-learning算法的深度卷积神经网络；控制所述模拟航空器执行所述动作at，确定所述模拟航空器执行完所述动作at后的状态st+1；基于所述状态st+1与预设的目标状态的匹配结果，确定所述模拟航空器是否着陆成功。2.根据权利要求1所述的方法，其特征在于，所述基于DQN确定所述模拟航空器在当前状态st下要执行的动作at，包括：将所述模拟航空器的当前状态st输入DQN，得到预设的动作集中每个动作a与所述当前状态st对应的预期收益Q(s,a)；基于所述预期收益Q(s,a)，确定所述模拟航空器在当前状态st下要执行的动作at。3.根据权利要求2所述的方法，其特征在于，所述基于所述预期收益Q(s,a)，确定所述模拟航空器在当前状态st下要执行的动作at，包括：确定所述预期收益Q(s,a)中值最大的Q(s,a)所对应的动作amax；基于贪婪算法，以预设概率P选取动作amax作为所述at，以概率(1-P)从所述动作集中随机选取一个a作为所述at。4.根据权利要求1所述的方法，其特征在于，所述控制所述模拟航空器执行所述动作at，确定所述模拟航空器执行完所述动作at后的状态st+1之后，包括：确定所述模拟航空器执行完所述动作at后，获得的实际收益rt；将<st,at,rt,st+1>作为一个经验样本，置于经验池中；基于所述经验池，对所述DQN进行更新。5.根据权利要求4所述的方法，其特征在于，所述经验池中的经验样本还通过以下方法获得：从历史模拟航空器的历史模拟记录中随机选...

【专利技术属性】
技术研发人员：于凤英，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人