一种决策动作确定方法、装置、设备及介质制造方法及图纸

技术编号：36798720 阅读：18 留言：0更新日期：2023-03-08 23:23

本申请提供了一种决策动作确定方法、装置、设备及介质。通过获取态势表征，将所述态势表征同时输入智能体集合中，得到每个智能体对应的动作分布和动作选定结果，根据动作树层关系将每个智能体对应的动作分布和动作选定结果输入策略集成模块，处理得到决策动作，并调整所述智能体集合；响应于执行至动作树的叶子结点，将若干个决策动作生成决策动作集合。由于深度强化学习技术本身的特性，单一智能体可能出现的决策不准确的问题。用多个智能体共同决策是一个简单且有效的方法，可以大大缓解上述问题。由此，实现了集成智能体的综合性能，增强数据驱动型智能体在兵棋推演中的泛化能力和稳健性，最大限度地应对未知场景。最大限度地应对未知场景。最大限度地应对未知场景。

全部详细技术资料下载

【技术实现步骤摘要】
一种决策动作确定方法、装置、设备及介质

[0001]本申请涉及人工智能领域
，尤其涉及一种决策动作确定方法、装置、设备及介质。

技术介绍

[0002]计算机兵棋演习系统（以下称兵棋系统）在当前信息化战争模拟对抗中扮演了重要角色。随着人工智能（Artificial Intelligence, AI）技术的发展，使用智能体扮演红军或蓝军与真人对抗成为可能。目前的兵棋智能体主要有知识驱动型、数据驱动型和知识与数据混合驱动型三种。知识驱动型的代表技术是知识图谱和行为树，数据驱动型的代表技术是深度强化学习。
[0003]然而，兵棋是一种极其复杂的系统，信息不完美、长程决策、非对称、高不确定性和随机性等等问题使得各种技术路线都举步维艰。本专利技术主要针对数据驱动型技术路线中使用深度强化学习技术构建的指挥官架构的兵棋智能体，即一个智能体控制想定中所有的演习单位。强化学习是一种智能体不断与环境交互改善自身策略的机器学习方法。智能体在训练时有很大的随机性，可能很少到达某些态势，并且随着策略的逐步收敛，智能体也会更加偏向于到达常见的态势。因此单一智能体可能出现某些情况下决策不准确的问题，面对陌生的态势手足无措，现有技术中智能体的泛化能力和稳健性有待提高。

技术实现思路

[0004]有鉴于此，本申请实施例提供了一种决策动作确定方法、装置、设备及介质，旨在提高智能体的泛化能力和稳健性的基础上，确定决策动作。
[0005]本申请第一方面提供一种决策动作确定方法，所述方法包括：获取态势表征；将所述态势表征同...

【技术保护点】

【技术特征摘要】
1.一种决策动作确定方法，其特征在于，包括：获取态势表征；将所述态势表征同时输入智能体集合中，得到每个智能体对应的动作分布和动作选定结果，所述智能体集合包括若干个智能体；根据动作树层关系将每个智能体对应的动作分布和动作选定结果输入策略集成模块，处理得到决策动作，并调整所述智能体集合；响应于执行至动作树的叶子结点，将若干个决策动作生成决策动作集合。2.根据权利要求1所述的方法，其特征在于，所述根据动作树层关系将每个智能体对应的动作分布和动作选定结果输入策略集成模块，处理得到决策动作，并调整所述智能体集合，包括：处理步骤：针对动作树的某一层，遍历若干个智能体该层输出的动作分布，利用集成方法确定决策动作；响应于智能体选定的动作和采样结果不一致，丢弃该智能体的动作分布，从智能体集合中剔除该智能体；根据动作树层关系重复执行所述处理步骤，直至动作树的叶子结点。3.根据权利要求1所述的方法，其特征在于，所述响应于执行至动作树的叶子结点，将若干个决策动作生成决策动作集合之后，还包括：对调整后的智能体集合进行分布融合处理，生成融合动作分布，所述融合动作分布用于利用集成方法确定出不进行删减的决策动作。4.根据权利要求1所述的方法，其特征在于，所述若干个智能体包括相同的，转化为神经网络的动作树。5.根据权利要求4所述的方法，其特征在于，所述动作树包括一个根节点和若干个不同层级的动作子节点，所述动作树包括若干个层级，所述层级包括若干个一...

【专利技术属性】
技术研发人员：厉子凡，
申请(专利权)人：白杨时代北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人