【技术实现步骤摘要】
面向不完全信息博弈的集成策略学习方法、装置和设备
[0001]本申请涉及人工智能领域,特别是涉及一种面向不完全信息博弈的集成策略学习方法、装置和计算机设备。
技术介绍
[0002]大规模不完全信息博弈是人工智能中的热点研究领域,在城市安全、反恐维稳、边境缉毒以及野生动物保护等领域都具有广泛应用。不完全信息博弈是防御者和攻击者相互对抗的形式化描述。以专家知识、博弈理论、强化学习等为典型代表的博弈求解范式,在求解不完全信息博弈时具有不同缺点。例如:博弈论中的纳什均衡是一种在统计意义上的不败策略,但并非最优策略。强化学习可以在有限对局中取得较好的效果,但容易被利用。专家知识的方法在求解大规模的博弈问题时,具有很好的可解释性和可靠性,但固化的知识容易被对手发现规律加以利用。
[0003]现有技术中,针对同一博弈问题,即使已构建专家知识、博弈理论和强化学习等不同决策模型,但多种决策无法有效集成,更无法处理不完全信息。因此,现有策略集成技术存在适应性不佳的问题。
技术实现思路
[0004]基于此,有必要针对上述技术问题,提供一种能够提高策略表现效果的面向不完全信息博弈的集成策略学习方法、装置和计算机设备。
[0005]一种面向不完全信息博弈的集成策略学习方法,所述方法包括:
[0006]获取对抗场景中博弈双方的训练数据;所述训练数据中包括对手池信息、多个迭代版本的智能体与所述对手池信息中不同对手对抗的动作状态数据、推荐策略信息、基础决策模型输出的基础策略信息;所述基础决策模型为预先设计的, ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种面向不完全信息博弈的集成策略学习方法,其特征在于,所述方法包括:获取对抗场景中博弈双方的训练数据;所述训练数据中包括对手池信息、多个迭代版本的智能体与所述对手池信息中不同对手对抗的动作状态数据、推荐策略信息、基础决策模型输出的基础策略信息;所述基础决策模型为预先设计的,数量至少有两个;所述对手池信息中对手的信息为不完全信息;将所述训练数据输入预先设计的集成策略学习模型中;所述集成策略学习模型包括梯度更新网络和神经演化模块;所述梯度更新网络包括长短时记忆网络模块,注意力机制模块,全连接网络模块和输出模块;所述神经演化模块包括中心化评估模块、基因编码模块和进化操作模块;通过所述长短时记忆网络模块根据每个智能体的所述动作状态数据提取对抗轨迹特征信息,通过所述注意力机制模块对所述基础策略信息进行加权集成得到第一集成策略信息,通过所述全连接网络根据所述对抗轨迹特征信息和所述第一集成策略进行进一步处理,并通过所述输出模块激活输出,得到每个智能体的预测策略信息;以所述推荐策略信息为标签信息,根据所述预测策略信息和所述标签信息对所述梯度更新网络进行有监督训练,得到训练好的梯度更新网络,通过所述训练好的梯度更新网络根据所述训练数据输出所述训练数据的第二集成策略信息;通过所述中心化评估模块根据所述训练数据的第二集成策略信息将对应的智能体与所述对手池信息中的每个对手分别对抗,评估并去除对抗得分值中的运气因素值,再对所述第二集成策略进行评估得到精确的策略评估值;通过所述基因编码模块将所述训练数据的第二集成策略信息表示为参数待优化的神经网络;通过所述进化操作模块将所有所述参数待优化的神经网络的参数构成种群,根据对应的所述策略评估值将所述种群分为精英层和存活层,通过交叉操作算子和变异操作算子进行多代种群演化,以对所述参数待优化的神经网络进行优化;其中,所述精英层中的个体对变异免疫,所述存活层中的个体必须经过变异才能进入下一代;在迭代过程中,通过计算所述精英层中个体的策略评估值选取表现优异的智能体,并通过预设的测试数据集对所述表现优异的智能体的集成策略进行测试,得到表现最优的智能体及其对应的最优集成策略信息。2.根据权利要求1所述的方法,其特征在于,所述基础决策模型之间是独立且异构的。3.根据权利要求2所述的方法,其特征在于,通过所述长短时记忆网络模块根据每个智能体的所述动作状态数据提取对抗轨迹特征信息,包括:根据所述动作状态数据进行特征设计与编码,得到每个智能体的历史轨迹的编码特征;通过所述长短时记忆网络模块根据所述编码特征提取对抗轨迹特征信息。4.根据权利要求3所述的方法,其特征在于,通过所述中心化评估模块根据所述测试数据的第二集成策略信息将所述智能体与所述对手池信息中的每个对手分别对抗,还包括:获取所述对手池信息中的对手信息;所述对手信息包括对手的动作信息、行动信息,轨迹信息;通过预先设计的对手建模模块根据所述对手信息推理出对手的私有信息;所述私有信
息包括对手的意图信息、目标信息和风格信息;通过所述中心化评估模块根据所述测试数据的第二集成策略信息和所述对手的私有信息,将所述智能体与所述对手池信息中的每个对手分别对抗。5.根据权利要求4所述的方法,其特征在于,以所述推荐策略信息为标签信息,根据所述预测策略信息和所述标签信息对所述梯度更新网络进行有监督训练,得到训练好的梯度更新网络,包括:以所述推荐策略信息为标签信息;根据所述第二集成策略信息和所述标签信息求取均方根得到误差;根据所述误差以反向传播的方式对所述梯度更新网络的参数进行更新,得到训练好的梯度更新网络。6.根据权利要求5所述的方法,其特征在于,通过所述中心化评估模块根据所述训练数据的第二集成策略信息将对应的智能体与所述对手池信息中的每个对手分别对抗,评估并去除对抗得分值中的运气因素值,再对所述第二集成策略进行评估得到精确的策略评估值,包括:通过所述中心化评估模块根据所述训练数据的第二集成策略信息将对应的智能体与所述对手池信息中的每个对手分别对抗,得到对抗得分值;计算所述对抗得分值中运气因素值的评估值为:其中,c(z)为运气因素值,e
ij
表示第i轮种群进化代中第j个智能体,为智能体e
技术研发人员:陈少飞,袁唯淋,胡振震,陆丽娜,李鹏,陈佳星,苏炯铭,刘鸿福,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。