一种面向多智能体强化学习决策优化的可视分析方法技术

技术编号：40075107 阅读：19 留言：0更新日期：2024-01-17 01:00

本发明专利技术公开了一个面向多智能体强化学习决策优化的可视分析方法，该方法首先训练多智能体强化学习网络，并收集训练数据进行预处理。其次使用预处理后的训练数据，制作可视化图表，进行整个训练过程的整体展示。然后通过训练过程中收集的强化学习网络产生的数据和智能体与训练交互产生的数据，查找和分析训练过程中的问题。最后进行决策优化，通过分析出的问题提出优化方案对训练进行优化，提高训练精度并针对性解决训练中存在的问题。本发明专利技术具有出色的数据分析能力，获取关于智能体学习过程和性能的宏观视角，帮助用户地理解智能体的决策和行动，优化学习策略和网络设计。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及强化学习领域，具体涉及一种面向多智能体强化学习决策优化的可视分析方法。

技术介绍

1、近年来，随着强化学习(reinforcement learning)在多个应用领域取得了令人瞩目的成果，并且考虑到在现实场景中通常会同时存在多个决策个体(智能体)，部分研究者逐渐将眼光从单智能体领域延伸到多智能体。

2、由于多智能体环境相较于单智能体环境的复杂和多变，多智能体强化学习更难以看出真正的训练效果，难以判断智能体是否学习到策略以及学习到了什么样的策略、哪些因素是智能体做出决策的关键信息。目前还没有针对多智能体强化学习的分析工具，相较于单智能体环境，生活中更经常遇到的是多个智能体需要进行交互的多智能体环境。而在多智能体环境下，由于各智能体之间的相互影响、相互作用，随着智能体数量的增加和智能体动作更加复杂，想要达到训练预期也更加困难。

3、最重要的，因为多智能体环境的复杂性，单独通过一些简单的训练数据很难分析出一个智能体的行为是否影响其他智能体的决策、影响哪些智能体、产生怎样的影响、哪些因素造成这种影响等问题...

【技术保护点】

1.一种面向多智能体强化学习决策优化的可视分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向多智能体强化学习决策优化的可视分析方法，其特征在于，步骤S1具体过程为：基于SMAC训练环境训练若干多智能体强化学习网络，得到各种多智能体强化学习模型在难易度不同的训练环境下的训练数据；

3.根据权利要求2所述的面向多智能体强化学习决策优化的可视分析方法，其特征在于，步骤S2具体过程为：随机均匀的剔除掉部分数据并对其余数据按照使用频率进行拆分。

4.根据权利要求3所述的面向多智能体强化学习决策优化的可视分析方法，其特征在于，步骤S3具体过程为：<...

【技术特征摘要】

1.一种面向多智能体强化学习决策优化的可视分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向多智能体强化学习决策优化的可视分析方法，其特征在于，步骤s1具体过程为：基于smac训练环境训练若干多智能体强化学习网络，得到各种多智能体强化学习模型在难易度不同的训练环境下的训练数据；

3.根据权利要求2所述的面向多智能体强化学习决策优化的可视分析方法，其特征在于，步骤s2具体过程为：随机均匀的剔除掉部分数据并对其余数据按照使用频率进行拆分。

4.根据权利要求3所述的面向多智能体强化学习决策优化的可视分析方法，其特征在于，步骤s3具体过程为：

【专利技术属性】
技术研发人员：吴向阳，顾浩嵚，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人