【技术实现步骤摘要】
基于多智能体强化学习的去混淆游戏策略模型生成方法
[0001]本专利技术设计多智能体强化学习、深度学习、因果推理等领域,尤其涉及一种基于因果推理的去混淆游戏策略模型生成方法。
技术介绍
[0002]多智能体系统在现实生活中有着广泛的应用,比如交通控制,网络路由,机器人技术,游戏角色控制等。通过将庞大的系统分解为小的多个子系统,可以将复杂的问题分解为多个易于处理的问题。在多智能体系统中,各个智能体相互通信,相互合作,以达成共同的目标。对于多智能体系统来说,鲁棒性,可靠性,高效性是其发挥自身功能的关键因素。多智能体强化学习是实现多智能体系统的关键技术,其优势在于,各个智能体可以在不知道环境的情况下,仅仅通过与环境的交互便可以学习到合理的行为模式。深度学习的发展使得各个智能体学习更加庞而复杂的模型,可以学习处理更加复杂的子任务。基于以上优势,使用深度学习来实现多智能体强化学习已经成为近些年来的研究热点。
[0003]在游戏场景中,通过将每个单元视作单独的智能体,各个智能体相互协,可以有效的学习出游戏场景中的控制策略。“中心化训练
‑
分布式执行”是多智能体强化学习中的标准范式,其中值分解是最主流的方法之一。值分解方法需要对每个智能体进行信用分配。现有的方法大多建立一层神经网络并利用环境全局状态信息去估计出各个智能体的信用,再用信用值去估计联合动作价值函数。然而,这种方式忽略了环境是混杂因子这一事实。由于环境这一混杂因子的存在,削弱了信用分配对于联合动作价值函数的直接因果效应,从而影响了整个多智能体系 ...
【技术保护点】
【技术特征摘要】
1.一种基于多智能体强化学习的去混淆游戏策略模型生成方法,其特征在于,包括如下步骤:S1、查找游戏场景中每一个需要和环境进行交互且能够被游戏玩家控制的独立角色,将每个独立角色视为一个游戏智能体;S2、对每个游戏智能体进行单独建模得到自身游戏策略模型,每个自身游戏策略模型的输入为对应角色自身在游戏环境中的观测,输出为对应角色的局部动作价值;S3、构建一个中心评判器,其输入为游戏场景中所有游戏智能体的局部动作价值、特征和全局状态,输出为联合动作价值;S4、每个游戏智能体与游戏环境进行交互从而获取当前的观测,再依据自身游戏策略模型估计出游戏智能体的特征以及每个可行动作的价值,并根据价值确定下一时间步需要采取的行动;S5、将所有游戏智能体的特征作为图网络的节点构建全局轨迹图,利用全局轨迹图的特征和全局状态的特征完成对每个游戏智能体的信用分配,并由中心评判器依据每个游戏智能体的局部动作价值以及分配到的信用估计出所有游戏智能体的联合动作价值;S6、所有游戏智能体按照S4中确定采取的行动同时各自执行行动,并与游戏环境进行交互,游戏环境进行即时反馈,提供游戏整体状态和实时奖励;S7、依据游戏环境提供的实时奖励,使用反向传播算法,训练整个多智能体系统,同时更新每个游戏智能体的自身游戏策略模型以及中心评判器的参数;S8、不断重复步骤S4~S7,对游戏策略模型进行迭代训练,直至达到设定的终止条件为止,游戏场景中每一个独立角色均得到已训练的游戏策略模型。2.如权利要求1所述的基于多智能体强化学习的去混淆游戏策略模型生成方法,其特征在于,所述S4的具体包括以下子步骤:S401、对于游戏场景中的每个游戏智能体i,通过与游戏环境进行交互,得到该游戏智能体的观测变量o
i
;S402、对于每个游戏智能体i,建立门控循环单元GRU,由门控循环单元GRU根据该游戏智能体的历史信息h
i
以及观测变量o
i
提取出该游戏智能体的特征τ
i
;S403、对于每个游戏智能体i,建立多层感知机MLP,由多层感知机MLP根据特征τ
i
估计出该游戏智能体在下一时间步的每个可行动作的价值;S404、对于每个游戏智能体i,基于预先选定的探索策略,根据所有可行动作的价值确定下一时间步将要执行的动作a
i
,并记录动作a
i
的价值Q
i
。3.如权利要求1所述的基于多智能体强化学习的去混淆游戏策略模型生成方法,其特征在于,所述S5的具体包括以下子步骤:S501、存储游戏场景中的所有游戏智能体的特征{τ1,τ2,
…
,τ
N
},N为游戏智能体的数量;S502、构建全局轨迹图G=<V,E>,其中图的节点V={τ1,τ2,
…
,τ
N
},将任意两个节点进行连接,构成全局轨迹图的边E;S503、通过带有多头注意力机制的图神经网络GNN提取全局轨迹图G的特征f
G
,其中H为多头注意力机制中的注意力头数量,f
G1
,f
...
【专利技术属性】
技术研发人员:况琨,李佳晖,王趵翔,刘扶芮,肖俊,吴飞,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。