【技术实现步骤摘要】
兵棋强随机博弈的策略演化训练方法、装置、设备及介质
[0001]本专利技术涉及智能博弈学习
,尤其涉及一种兵棋强随机博弈的策略演化训练方法
、
装置
、
设备及介质
。
技术介绍
[0002]兵棋推演是一个典型的强随机博弈过程,其交战裁决一般遵循“攻击等级确定和修正
、
战损结果查询和修正”的基本流程,在战果查询和修正过程中需要两次“掷色子”得到随机数分别查表得到最终战损
。
这使得兵棋推演对抗过程的状态转移具有极大不确定性,相同态势下同样的动作得到的战损结果可能相差甚远,导致同一个策略取得的奖励存在较大波动,强化学习训练过程的状态价值具有高方差等问题,使得算法训练过程不稳定,算法收敛更加困难
。
[0003]同时,兵棋推演是一个多异构智能体异步协同决策过程
。
兵棋推演是一个复杂环境下的不完美信息博弈对抗过程,对手策略存在极大未知性与不确定性
。
针对固定对手的学习容易使策略“过拟合”对手,这样学出来的策略通常很脆弱,容易被对手找到弱点并进行剥削利用
。
采用朴素的自博弈训练方法,策略之间进行自我博弈,容易使策略陷入循环克制的困境,策略的决策能力难以进一步演化提升
。
技术实现思路
[0004]本专利技术提供一种兵棋强随机博弈的策略演化训练方法
、
装置
、
设备及介质,用以解决现有技术中高方差状态价值导致的强化学习训练 ...
【技术保护点】
【技术特征摘要】
1.
一种兵棋强随机博弈的策略演化训练方法,其特征在于,包括:基于兵棋推演对抗平台,获取强随机博弈
、
多异构智能体异步协同的兵棋决策问题;基于所述兵棋决策问题,确定设计了回退与替换机制的自博弈强化学习训练框架;所述自博弈强化学习训练框架包括生成器
、
对手池
、
学习器
、
数据回放模块;所述自博弈强化学习训练框架的动作空间是重构得到的;获取所述自博弈强化学习训练框架进行强化学习时确定当前策略与旧策略之间的概率比例;所述概率比例是基于有效动作掩码确定的;所述有效动作掩码反映在当前状态,动作是否为合法动作;基于所述概率比例,确定策略网络对应的策略损失,以及基于算子掩码,确定价值网络对应的价值损失;所述算子掩码反映在当前状态,算子是否存在合法动作;基于所述策略损失和所述价值损失,对所述自博弈强化学习训练框架进行参数迭代,得到兵棋推演决策模型
。2.
根据权利要求1所述的兵棋强随机博弈的策略演化训练方法,其特征在于,所述基于所述概率比例,确定策略网络对应的策略损失,以及基于算子掩码,确定价值网络对应的价值损失,包括:基于第一截断参数和所述概率比例,确定策略网络对应的策略损失;基于第二截断参数
、
第三截断参数和算子掩码,确定价值网络对应的价值损失
。3.
根据权利要求1所述的兵棋强随机博弈的策略演化训练方法,其特征在于,所述基于所述兵棋决策问题,确定自博弈强化学习训练框架,包括:获取所述兵棋决策问题的原始动作空间;对所述原始动作空间进行重构,得到重构动作空间;所述重构动作空间包括机动
、
射击
、
夺控
、
状态转换和空动作;基于所述重构动作空间,确定所述自博弈强化学习训练框架
。4.
根据权利要求1所述的兵棋强随机博弈的策略演化训练方法,其特征在于,所述生成器用于在每次对抗中,从所述对手池中选择一个对手和训练模型进行对抗,并将产生的对抗结果发送至所述数据回放模块;所述训练模型是以长短时记忆网络为核心的神经网络模型,所述训练模型的输入是兵棋推演原始状态特征,输出是兵棋推演动作指令;所述对手池包括多个红蓝智能体模型,各红蓝智能体模型维护一个分数,所述生成器根据所述分数进行对手采样,所述对手池根据所述对抗结果更新所述各红蓝智能体模型对应的分数;所述学习器用于从所述数据回放模块采样数据,并计算所述策略损失和所述价值损失,所述生成器每隔固定步长,将所述训练模型更新为最新网络参数;所述数据回放模块用于存放所述生成器产生的所述对抗结果
。5.
根据权利要求4所述的兵棋强随机博弈的策略演化训练方法,其特征在于,所述训练模型包括第一分支和第二分支;所述第一分支用于提取标量特征
、
算子特征
、
地图特征和迷你地图特征,并基于所述标量特征
、
所述算子特征
、
所述地图特征和所述迷你地图特征进行特征融合,得到融合特征,将所述融合特征输入至所述策略...
【专利技术属性】
技术研发人员:李丽娟,兴军亮,余照科,范国梁,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。