一种决策动作确定方法、装置、设备及介质制造方法及图纸

技术编号:36798720 阅读:18 留言:0更新日期:2023-03-08 23:23
本申请提供了一种决策动作确定方法、装置、设备及介质。通过获取态势表征,将所述态势表征同时输入智能体集合中,得到每个智能体对应的动作分布和动作选定结果,根据动作树层关系将每个智能体对应的动作分布和动作选定结果输入策略集成模块,处理得到决策动作,并调整所述智能体集合;响应于执行至动作树的叶子结点,将若干个决策动作生成决策动作集合。由于深度强化学习技术本身的特性,单一智能体可能出现的决策不准确的问题。用多个智能体共同决策是一个简单且有效的方法,可以大大缓解上述问题。由此,实现了集成智能体的综合性能,增强数据驱动型智能体在兵棋推演中的泛化能力和稳健性,最大限度地应对未知场景。最大限度地应对未知场景。最大限度地应对未知场景。

【技术实现步骤摘要】
一种决策动作确定方法、装置、设备及介质


[0001]本申请涉及人工智能领域
,尤其涉及一种决策动作确定方法、装置、设备及介质。

技术介绍

[0002]计算机兵棋演习系统(以下称兵棋系统)在当前信息化战争模拟对抗中扮演了重要角色。随着人工智能(Artificial Intelligence, AI)技术的发展,使用智能体扮演红军或蓝军与真人对抗成为可能。目前的兵棋智能体主要有知识驱动型、数据驱动型和知识与数据混合驱动型三种。知识驱动型的代表技术是知识图谱和行为树,数据驱动型的代表技术是深度强化学习。
[0003]然而,兵棋是一种极其复杂的系统,信息不完美、长程决策、非对称、高不确定性和随机性等等问题使得各种技术路线都举步维艰。本专利技术主要针对数据驱动型技术路线中使用深度强化学习技术构建的指挥官架构的兵棋智能体,即一个智能体控制想定中所有的演习单位。强化学习是一种智能体不断与环境交互改善自身策略的机器学习方法。智能体在训练时有很大的随机性,可能很少到达某些态势,并且随着策略的逐步收敛,智能体也会更加偏向于到达常见的态势。因此单一智能体可能出现某些情况下决策不准确的问题,面对陌生的态势手足无措,现有技术中智能体的泛化能力和稳健性有待提高。

技术实现思路

[0004]有鉴于此,本申请实施例提供了一种决策动作确定方法、装置、设备及介质,旨在提高智能体的泛化能力和稳健性的基础上,确定决策动作。
[0005]本申请第一方面提供一种决策动作确定方法,所述方法包括:获取态势表征;将所述态势表征同时输入智能体集合中,得到每个智能体对应的动作分布和动作选定结果,所述智能体集合包括若干个智能体;根据动作树层关系将每个智能体对应的动作分布和动作选定结果输入策略集成模块,处理得到决策动作,并调整所述智能体集合;响应于执行至动作树的叶子结点,将若干个决策动作生成决策动作集合。
[0006]可选的,所述根据动作树层关系将每个智能体对应的动作分布和动作选定结果输入策略集成模块,处理得到决策动作,并调整所述智能体集合,包括:处理步骤:针对动作树的某一层,遍历若干个智能体该层输出的动作分布,利用集成方法确定决策动作;响应于智能体选定的动作和采样结果不一致,丢弃该智能体的动作分布,从智能体集合中剔除该智能体;根据动作树层关系重复执行所述处理步骤,直至动作树的叶子结点。
[0007]可选的,所述响应于执行至动作树的叶子结点,将若干个决策动作生成决策动作
集合之后,还包括:对调整后的智能体集合进行分布融合处理,生成融合动作分布,所述融合动作分布用于利用集成方法确定出不进行删减的决策动作。
[0008]可选的,所述若干个智能体包括相同的,转化为神经网络的动作树。
[0009]可选的,所述动作树包括一个根节点和若干个不同层级的动作子节点,所述动作树包括若干个层级,所述层级包括若干个一级动作子节点,所述一级动作子节点包括被选中概率分布加和为1的若干个二级动作子节点。
[0010]本申请第二方面提供了一种决策动作确定装置,所述装置包括:获取模块,用于获取态势表征;第一处理模块,用于将所述态势表征同时输入智能体集合中,得到每个智能体对应的动作分布和动作选定结果,所述智能体集合包括若干个智能体;第二处理模块,用于根据动作树层关系将每个智能体对应的动作分布和动作选定结果输入策略集成模块,处理得到决策动作,并调整所述智能体集合;决策动作集合生成模块,用于响应于执行至动作树的叶子结点,将若干个决策动作生成决策动作集合。
[0011]可选的,所述若干个智能体包括相同的,转化为神经网络的动作树。
[0012]可选的,所述装置还包括:融合动作分布生成模块,用于对调整后的智能体集合进行分布融合处理,生成融合动作分布,所述融合动作分布用于利用集成方法确定出不进行删减的决策动作。
[0013]本申请第三方面提供一种电子设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如本申请实施例第一方面提供的决策动作确定方法。
[0014]本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行本申请实施例第一方面提供的决策动作确定方法。
[0015]本申请实施例提供了一种决策动作确定方法、装置、设备及介质。在执行所述方法时,将所述态势表征同时输入智能体集合中,得到每个智能体对应的动作分布和动作选定结果,所述智能体集合包括若干个智能体;根据动作树层关系将每个智能体对应的动作分布和动作选定结果输入策略集成模块,处理得到决策动作,并调整所述智能体集合;响应于执行至动作树的叶子结点,将若干个决策动作生成决策动作集合。由于深度强化学习技术本身的特性,单一智能体可能出现的决策不准确的问题。用多个智能体共同决策是一个简单且有效的方法,可以大大缓解上述问题。由此,实现了集成智能体的综合性能,增强数据驱动型智能体在兵棋推演中的泛化能力和稳健性,最大限度地应对未知场景。
附图说明
[0016]为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1为本申请实施例提供的决策动作确定的方法的一种方法流程图;图2为本申请实施例提供的神经网络结构图;图3为本申请实施例提供的决策动作确定的装置的一种结构示意图。
具体实施方式
[0018]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0019]正如前文所述,计算机兵棋演习系统在当前信息化战争模拟对抗中扮演了重要角色。随着人工智能(Artificial Intelligence, AI)技术的发展,使用智能体扮演红军或蓝军与真人对抗成为可能。目前的兵棋智能体主要有知识驱动型、数据驱动型和知识与数据混合驱动型三种。知识驱动型的代表技术是知识图谱和行为树,数据驱动型的代表技术是深度强化学习。然而兵棋是一种极其复杂的系统,信息不完美、长程决策、非对称、高不确定性和随机性等等问题使得各种技术路线都举步维艰。本专利技术主要针对数据驱动型技术路线中使用深度强化学习技术构建的指挥官架构的兵棋智能体,即一个智能体控制想定中所有的演习单位。强化学习是一种智能体不断与环境交互改善自身策略的机器学习方法。智能体在训练时有很大的随机性,可能很少到达某些态势,并且随着策略的逐步收敛,智能体也会更加偏向于到达常见的态势。因此单一智能体可能出现某些情况下决策不准确的问题,面对陌本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种决策动作确定方法,其特征在于,包括:获取态势表征;将所述态势表征同时输入智能体集合中,得到每个智能体对应的动作分布和动作选定结果,所述智能体集合包括若干个智能体;根据动作树层关系将每个智能体对应的动作分布和动作选定结果输入策略集成模块,处理得到决策动作,并调整所述智能体集合;响应于执行至动作树的叶子结点,将若干个决策动作生成决策动作集合。2.根据权利要求1所述的方法,其特征在于,所述根据动作树层关系将每个智能体对应的动作分布和动作选定结果输入策略集成模块,处理得到决策动作,并调整所述智能体集合,包括:处理步骤:针对动作树的某一层,遍历若干个智能体该层输出的动作分布,利用集成方法确定决策动作;响应于智能体选定的动作和采样结果不一致,丢弃该智能体的动作分布,从智能体集合中剔除该智能体;根据动作树层关系重复执行所述处理步骤,直至动作树的叶子结点。3.根据权利要求1所述的方法,其特征在于,所述响应于执行至动作树的叶子结点,将若干个决策动作生成决策动作集合之后,还包括:对调整后的智能体集合进行分布融合处理,生成融合动作分布,所述融合动作分布用于利用集成方法确定出不进行删减的决策动作。4.根据权利要求1所述的方法,其特征在于,所述若干个智能体包括相同的,转化为神经网络的动作树。5.根据权利要求4所述的方法,其特征在于,所述动作树包括一个根节点和若干个不同层级的动作子节点,所述动作树包括若干个层级,所述层级包括若干个一...

【专利技术属性】
技术研发人员:厉子凡
申请(专利权)人:白杨时代北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1