基于DQN模拟航空器自动着陆的方法及相关设备技术

技术编号:21685348 阅读:25 留言:0更新日期:2019-07-24 14:28
本发明专利技术公开了一种基于DQN模拟航空器自动着陆的方法及相关设备,涉及深度学习领域,该方法包括:对每个时间片t,获取模拟航空器的当前状态st;基于DQN确定所述模拟航空器在当前状态st下要执行的动作at;控制所述模拟航空器执行所述动作at,确定所述模拟航空器执行完所述动作at后的状态st+1;基于所述状态st+1与预设的目标状态的匹配结果,确定所述模拟航空器是否着陆成功。该方法提高了模拟航空器自动着陆的效率。

DQN-based simulation of aircraft automatic landing method and related equipment

【技术实现步骤摘要】
基于DQN模拟航空器自动着陆的方法及相关设备
本专利技术涉及深度学习领域,特别是涉及基于DQN模拟航空器自动着陆的方法及相关设备。
技术介绍
在进行航空器的自动模拟着陆过程中,一般使用机器学习模型进行所述模拟过程。在对所述航空器着陆的交互场景进行模拟时,使用有监督的学习无法有效进行,而一般的无监督的学习也无法从一堆未标记的样本中发现隐藏的结构/知识,无法达到交互场景中要获得最大“奖励”以达到训练目标的目的。
技术实现思路
基于此,为解决相关技术中如何从技术层面上更加高效地模拟航空器自动着陆所面临的技术问题,本专利技术提供了一种基于DQN模拟航空器自动着陆的方法及相关设备。第一方面,提供了一种基于DQN模拟航空器自动着陆的方法,包括:对每个时间片t,获取模拟航空器的当前状态st;基于DQN确定所述模拟航空器在当前状态st下要执行的动作at;控制所述模拟航空器执行所述动作at,确定所述模拟航空器执行完所述动作at后的状态st+1;基于所述状态st+1与预设的目标状态的匹配结果,确定所述模拟航空器是否着陆成功。在本公开的一示例性实施例中,基于DQN确定所述模拟航空器在当前状态st下要执行的动作at,包括:将所述模拟航空器的当前状态st输入DQN,得到预设的动作集中每个动作a与所述当前状态st对应的预期收益Q(s,a);基于所述预期收益Q(s,a),确定所述模拟航空器在当前状态st下要执行的动作at。在本公开的一示例性实施例中,基于所述预期收益Q(s,a),确定所述模拟航空器在当前状态st下要执行的动作at,包括:确定所述预期收益Q(s,a)中值最大的Q(s,a)所对应的动作amax;基于贪婪算法,以预设概率P选取动作amax作为所述at,以概率(1-P)从所述动作集中随机选取一个a作为所述at。在本公开的一示例性实施例中,控制所述模拟航空器执行所述动作at,确定所述模拟航空器执行完所述动作at后的状态st+1之后,包括:确定所述模拟航空器执行完所述动作at后,获得的实际收益rt;将<st,at,rt,st+1>作为一个经验样本,置于经验池中;基于所述经验池,对所述DQN进行更新。在本公开的一示例性实施例中,经验池中的经验样本还通过以下方法获得:从历史模拟航空器的历史模拟记录中随机选取一时间片k,确定所述历史模拟航空器对应的状态sk、执行的动作ak、执行动作ak后的状态sk+1、获得的实际收益rk;将<sk,ak,rk,sk+1>作为一个经验样本,置于经验池中。在本公开的一示例性实施例中,基于所述经验池,对所述DQN进行更新,包括:从所述经验池中随机选取预定数目个经验样本;基于反向传播算法与所述预定数目个经验样本,对所述DQN进行更新。在本公开的一示例性实施例中,基于所述状态st+1与预设的目标状态的匹配结果,确定所述模拟航空器是否着陆成功,包括:确定所述状态st+1中每个变量与预设的目标状态中对应的变量的相似度;如果所述状态st+1中每个变量与预设的目标状态中对应的变量的相似度均大于或等于与所述变量对应的预设阈值,则判定所述模拟航空器着陆成功。根据本公开的第二方面,提供了一种基于DQN模拟航空器自动着陆的装置,包括:获取模块,用于对每个时间片t,获取模拟系统中模拟航空器的当前状态st;第一确定模块,用于基于DQN确定所述模拟航空器在当前状态st下要执行的动作at;第二确定模块,用于控制所述模拟航空器执行所述动作at,确定所述模拟航空器执行完所述动作at后的状态st+1;第三确定模块,用于基于所述状态st+1与预设的目标状态的匹配结果,确定所述模拟航空器是否着陆成功。根据本公开的第三方面,提供了一种基于DQN模拟航空器自动着陆的电子设备,包括:存储器,配置为存储可执行指令。处理器,配置为执行所述存储器中存储的可执行指令,以执行以上所述的方法。根据本公开的第四方面,提供一种计算机可读存储介质,其存储有计算机程序指令,当所述计算机指令被计算机执行时,使计算机执行以上所述的方法。与传统技术中基于一般强化学习进行航空器的模拟着陆相比,本公开的实施例通过使用基于Q-learning的增强学习算法,即DQN,进行航空器的模拟着陆,提高了模拟航空器自动着陆的效率。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。附图说明图1示出根据本公开一示例实施方式的基于DQN模拟航空器自动着陆的流程图。图2示出根据本公开一示例实施方式的基于DQN模拟航空器自动着陆的装置的方框图。图3示出根据本公开一示例实施方式的基于DQN确定所述模拟航空器在当前状态st下要执行的动作at的详细流程图。图4示出根据本公开一示例实施方式的基于所述预期收益Q(s,a),确定所述模拟航空器在当前状态st下要执行的动作at的详细流程图。图5示出根据本公开一示例实施方式的控制所述模拟航空器执行所述动作at,确定所述模拟航空器执行完所述动作at后的状态st+1之后的详细流程图。图6示出根据本公开一示例实施方式的获得经验池中的经验样本的详细流程图。图7示出根据本公开一示例实施方式的基于所述经验池,对所述DQN进行更新的详细流程图。图8示出根据本公开一示例实施方式的基于所述状态st+1与预设的目标状态的匹配结果,确定所述模拟航空器是否着陆成功的详细流程图。图9示出根据本公开一示例实施方式的基于DQN模拟航空器自动着陆的系统架构图。图10示出根据本公开一示例实施方式的基于DQN模拟航空器自动着陆的电子设备图。图11示出根据本公开一示例实施方式的基于DQN模拟航空器自动着陆的计算机可读存储介质图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。本公开的目的在于从技术方面提高模拟航空器自动着陆的效率。根据本公开一个实施例的基于DQN模拟航空器自动着陆的方法,包括:对每个时间片t,获取模拟航空器的当前状态st;基于DQN确定所述模拟航空器在当前状态st下要执行的动作at;控制所述模拟航空器执行所述动作at,确定所述模拟航空器执行完所述动作at后的状态st+1;基于所述本文档来自技高网...

【技术保护点】
1.一种基于DQN模拟航空器自动着陆的方法,其特征在于,包括:对每个时间片t,获取模拟航空器的当前状态st;基于DQN确定所述模拟航空器在当前状态st下要执行的动作at,所述DQN是指基于Q‑learning算法的深度卷积神经网络;控制所述模拟航空器执行所述动作at,确定所述模拟航空器执行完所述动作at后的状态st+1;基于所述状态st+1与预设的目标状态的匹配结果,确定所述模拟航空器是否着陆成功。

【技术特征摘要】
1.一种基于DQN模拟航空器自动着陆的方法,其特征在于,包括:对每个时间片t,获取模拟航空器的当前状态st;基于DQN确定所述模拟航空器在当前状态st下要执行的动作at,所述DQN是指基于Q-learning算法的深度卷积神经网络;控制所述模拟航空器执行所述动作at,确定所述模拟航空器执行完所述动作at后的状态st+1;基于所述状态st+1与预设的目标状态的匹配结果,确定所述模拟航空器是否着陆成功。2.根据权利要求1所述的方法,其特征在于,所述基于DQN确定所述模拟航空器在当前状态st下要执行的动作at,包括:将所述模拟航空器的当前状态st输入DQN,得到预设的动作集中每个动作a与所述当前状态st对应的预期收益Q(s,a);基于所述预期收益Q(s,a),确定所述模拟航空器在当前状态st下要执行的动作at。3.根据权利要求2所述的方法,其特征在于,所述基于所述预期收益Q(s,a),确定所述模拟航空器在当前状态st下要执行的动作at,包括:确定所述预期收益Q(s,a)中值最大的Q(s,a)所对应的动作amax;基于贪婪算法,以预设概率P选取动作amax作为所述at,以概率(1-P)从所述动作集中随机选取一个a作为所述at。4.根据权利要求1所述的方法,其特征在于,所述控制所述模拟航空器执行所述动作at,确定所述模拟航空器执行完所述动作at后的状态st+1之后,包括:确定所述模拟航空器执行完所述动作at后,获得的实际收益rt;将<st,at,rt,st+1>作为一个经验样本,置于经验池中;基于所述经验池,对所述DQN进行更新。5.根据权利要求4所述的方法,其特征在于,所述经验池中的经验样本还通过以下方法获得:从历史模拟航空器的历史模拟记录中随机选...

【专利技术属性】
技术研发人员:于凤英王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1