对战方法及装置制造方法及图纸

技术编号:38209587 阅读:21 留言:0更新日期:2023-07-21 17:00
本公开提供了一种对战方法及装置,该对战方法包括:接收当前场景下仿真器发送的仿真信息;基于仿真信息,得到针对当前场景的至少一个作战单元的信息;针对至少一个作战单元中每个作战单元,执行以下操作:将针对作战单元的信息输入到作战单元对应的第一智能体,得到至少一个第一任务;将至少一个第一任务输入到各自对应的第二智能体,得到每个第一任务对应的至少一个第二任务,其中,至少一个第二任务是用于实现对应的第一任务的多个任务;将所有第二任务返回给仿真器,以便仿真器通过执行所有第二任务完成一次对战。第二任务完成一次对战。第二任务完成一次对战。

【技术实现步骤摘要】
对战方法及装置


[0001]本申请涉及强化学习领域,以下描述涉及一种对战方法及装置。

技术介绍

[0002]兵棋是一种模拟全要素、全流程下的作战各方对抗活动的工具,通过作战各方决策的相互影响,相互博弈进行交互训练,可以用于制定和评估作战计划方案、论证武器装备效能、试验和检验作战计划、训练军官指挥决策能力。现代计算机兵棋系统与仿真技术和信息技术结合,融合作战运筹分析中的科学化内容,加入云计算、人工智能等新型技术元素,可以模拟大规模的联合作战行动。
[0003]目前,针对兵棋系统的博弈推演方法研究中常采用三种方法:1.基于行为树的专家规则推演方法;2.使用传统军事运筹学推演方法;3.使用端到端的强化学习算法推演方法。其中,第3种方法

使用端到端的强化学习算法推演方法,是将兵棋推演中的决策问题建模成马尔可夫决策过程,将智能体与环境进行交互,通过当前步骤的观测状态以及上一步动作的奖励来确定输出的决策动作,但是,端到端的强化学习方法得到的是黑盒模型,即根据输入信息得到最终的决策,而最终的决策不具备可解释性,不符合兵棋推演的试验本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种对战方法,其中,所述对战方法包括:接收当前场景下仿真器发送的仿真信息;基于所述仿真信息,得到针对所述当前场景的至少一个作战单元的信息;针对所述至少一个作战单元中每个作战单元,执行以下操作:将针对所述作战单元的信息输入到所述作战单元对应的第一智能体,得到至少一个第一任务;将所述至少一个第一任务输入到各自对应的第二智能体,得到每个第一任务对应的至少一个第二任务,其中,所述至少一个第二任务是用于实现对应的第一任务的多个任务;将所有第二任务返回给所述仿真器,以便所述仿真器通过执行所述所有第二任务完成一次对战。2.根据权利要求1中所述的对战方法,其中,在所述作战单元符合预设条件的情况下,所述第一智能体为强化学习智能体;在所述作战单元不符合预设条件的情况下,所述第一智能体为知识规则智能体。3.根据权利要求2中所述的对战方法,其中,在所述第一智能体为强化学习智能体的情况下,所述第一智能体通过如下方式进行训练:在所述当前场景下仿真器完成对战的次数未超过预设阈值的情况下,执行如下循环:接收所述当前场景下仿真器发送的仿真信息;基于所述仿真信息,得到针对所述当前场景的至少一个作战单元的信息;针对所述至少一个作战单元中每个作战单元,执行以下操作:将针对所述作战单元的信息输入到所述作战单元对应的第一智能体,得到至少一个预估第一任务;将所述至少一个预估第一任务输入到各自对应的第二智能体,得到每个预估第一任务对应的至少一个预估第二任务,其中,所述至少一个预估第二任务是用于实现对应的预估第一任务的多个任务;将所述所有预估第二任务返回给所述仿真器,以便所述仿真器通过执行所述所有预估第二任务完成一次对战;基于预设奖励函数和所述仿真信息得到的中间奖励值,调整所述第一智能体;在所述当前场景下仿真器完成对战的次数超过所述预设阈值的情况下,结束对所述第一智能体的训练。4.根据权利要求1或2中所述的对战方法,其中,所述基于所述仿真信息,得到针对所述当前场景的至少一个作战单元的信息,包括:从所述仿真信息中获取标准格式的基础态势信息集合,所述标准格式与所述第一智能体的输入格式一致;基于所述基础态势信息集合进行评估分析,确定针对所述当前场景的至少一个作战单元对应的作战计划;基于所述作战计划和所述基础态势信息集合,得到针...

【专利技术属性】
技术研发人员:张秉桢
申请(专利权)人:北京旗顺科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1