【技术实现步骤摘要】
本专利技术涉及强化学习领域,具体涉及一种面向多智能体强化学习决策优化的可视分析方法。
技术介绍
1、近年来,随着强化学习(reinforcement learning)在多个应用领域取得了令人瞩目的成果,并且考虑到在现实场景中通常会同时存在多个决策个体(智能体),部分研究者逐渐将眼光从单智能体领域延伸到多智能体。
2、由于多智能体环境相较于单智能体环境的复杂和多变,多智能体强化学习更难以看出真正的训练效果,难以判断智能体是否学习到策略以及学习到了什么样的策略、哪些因素是智能体做出决策的关键信息。目前还没有针对多智能体强化学习的分析工具,相较于单智能体环境,生活中更经常遇到的是多个智能体需要进行交互的多智能体环境。而在多智能体环境下,由于各智能体之间的相互影响、相互作用,随着智能体数量的增加和智能体动作更加复杂,想要达到训练预期也更加困难。
3、最重要的,因为多智能体环境的复杂性,单独通过一些简单的训练数据很难分析出一个智能体的行为是否影响其他智能体的决策、影响哪些智能体、产生怎样的影响、哪些因素造成这种影响等问题
...【技术保护点】
1.一种面向多智能体强化学习决策优化的可视分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的面向多智能体强化学习决策优化的可视分析方法,其特征在于,步骤S1具体过程为:基于SMAC训练环境训练若干多智能体强化学习网络,得到各种多智能体强化学习模型在难易度不同的训练环境下的训练数据;
3.根据权利要求2所述的面向多智能体强化学习决策优化的可视分析方法,其特征在于,步骤S2具体过程为:随机均匀的剔除掉部分数据并对其余数据按照使用频率进行拆分。
4.根据权利要求3所述的面向多智能体强化学习决策优化的可视分析方法,其特征在于,步
...【技术特征摘要】
1.一种面向多智能体强化学习决策优化的可视分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的面向多智能体强化学习决策优化的可视分析方法,其特征在于,步骤s1具体过程为:基于smac训练环境训练若干多智能体强化学习网络,得到各种多智能体强化学习模型在难易度不同的训练环境下的训练数据;
3.根据权利要求2所述的面向多智能体强化学习决策优化的可视分析方法,其特征在于,步骤s2具体过程为:随机均匀的剔除掉部分数据并对其余数据按照使用频率进行拆分。
4.根据权利要求3所述的面向多智能体强化学习决策优化的可视分析方法,其特征在于,步骤s3具体过程为:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。