使面向多智能体的强化学习可解释的方法、装置及介质制造方法及图纸

技术编号：41219515 阅读：2 留言：0更新日期：2024-05-09 23:40

本发明专利技术提供了一种使面向多智能体的强化学习可解释的方法、装置及介质，该方法包括：S1，在创建的仿真环境中，构建环境信息空间、智能体动作状态空间及对应的奖励机制；S2，在仿真环境中对各智能体进行训练，并从仿真环境返回的信息中获得各智能体的经验数据；S3，根据奖励值的大小，从经验数据中选择奖励值较大的、预定数量的样本，并提取样本中的智能体状态特征信息和智能体执行的动作信息；S4，对所提取的样本中的智能体状态特征信息和智能体执行的动作信息进行可解释性处理。利用上述技术方案，给出了对强化学习策略的解释，可帮助人们理解模型的策略、验证人类角度的策略猜想，并进而提供优化策略及奖励等内容的方向。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度强化学习，尤其涉及使面向多智能体的强化学习可解释的方法、装置及介质。

技术介绍

1、随着人工智能(ai,artificial intelligence)和机器学习(ml，machinelearning,)研究的不断深入，在计算机视觉、自然语言处理、强化学习等研究领域研究的都取得了相应的成绩,并逐渐有了一些实际的应用。虽然机器学习算法对于很多问题具有良好表现,但由于算法缺乏可解释性,模型实际使用中常受到质疑,尤其在安全敏感的应用领域如自动驾驶、医疗等中，缺乏可解释性已经成为机器学习的瓶颈问题之一。

2、强化学习作为机器学习的重要分支之一，在游戏、技术科学领域取得了优异的表现。但是，强化学习也同样面临着可解释性不足的痛点，即在实际应用中“难以被理解”，也因此“难以被信任”，这导致了强化学习在对安全敏感的业务领域如医疗、自动驾驶等中的发展受到了较大的限制。

3、强化学习缺乏可解释性的主要表现为：第一，模型结构如黑盒；人们通常难以理解模型反馈的决策结果，无法确切地知道背后的决策依据以及做出的决策是否可靠；第二，难以应用到真实世界；仿真环境与真实世界存在较大差异，而强化学习在仿真环境下开展大规模训练时，难以避免对仿真环境的过拟合；当过拟合发生时，模型学到的知识是否在现实场景下同样有效，没有一套有效的评估手段和解释；第三，相似任务的策略泛化困难；强化学习策略通常与环境存在强耦合,难以被应用到相似环境中。甚至在同样的环境下,环境参数的微小变化也会极大影响模型性能；这影响了模型的泛化能力,难以确定模型在相似任务中的表现。

技术实现思路

1、针对现有技术的上述问题，本专利技术的实施例提供了一种使面向多智能体的强化学习可解释的方法、装置及介质，以帮助人们理解面向多智能体强化学习模型的策略。

2、为了实现上述目的，一方面，提供一种使面向多智能体强化学习可解释的方法，包括以下步骤：

3、s1，在创建的仿真环境中，设置各智能体状态特征，构建环境信息空间、智能体动作状态空间及对应的奖励机制；

4、s2，在所述仿真环境中对各智能体进行训练，并从所述仿真环境返回的信息中获得各智能体的经验数据，所述经验数据包括从所述仿真环境返回的智能体的状态特征、智能体执行的动作信息和环境对智能体反馈的奖励值；

5、s3，根据奖励值的大小，从所述经验数据中选择奖励值较大的、预定数量的样本，并提取所述样本中的智能体状态特征信息和智能体执行的动作信息；

6、s4，对所提取的所述样本中的智能体状态特征信息和智能体执行的动作信息进行可解释性处理，所述可解释性处理包括统计分析，所述统计分析包括如下步骤中的一项或多项：

7、s41，根据所述样本中智能体执行的动作信息，获得各动作的动作执行数量，并根据动作执行数量的高低分析智能体决策的偏好；

8、s42，分析所述样本中的智能体状态特征信息与所述奖励值之间的相关性；

9、s43，针对预先标注的核心状态特征，分析除所述核心状态特征之外的其它状态特征的出现频率与所述核心状态特征之间的相关程度。

10、优选地，所述的方法，其中，所述步骤s2包括：

11、将所述经验数据存入数据采样器；

12、从所述数据采样器读取所述经验数据，并解析所述经验数据的格式；

13、对所述经验数据的格式进行校验，获得经过校验后的所述经验数据。

14、优选地，所述的方法，其中，所述步骤s41包括：

15、将动作按照场次进行统计，形成场均动作，并获得各动作的动作执行数量；

16、根据各动作的动作执行数量的高低确定各动作的执行比例；

17、根据各动作的执行比例的高低分析智能体决策的偏好；

18、确定智能体决策的偏好与预设的人的意志之间的关联关系。

19、优选地，所述的方法，其中，所述步骤s42包括：

20、确定所述样本中的智能体状态特征信息与任务的达成率之间的相关性。

21、优选地，所述的决策解释方法，其中，所述步骤s43包括：

22、分析所有其它状态特征与选定的核心状态特征之间的相关性；和/或，

23、分析选定的单一其它状态特征和选定的核心状态特征之间的相关性。

24、优选地，所述的决策解释方法，其中，所述可解释性处理还包括：

25、以所述样本中的智能体状态特征信息和智能体执行的动作信息为输入，使用预定的软决策树模型进行模仿策略训练，得到可解释的深度学习网络决策树。

26、优选地，所述的方法，还包括：使用选定的展示形式通过可解释性展示平台展示所述可解释性处理的结果。

27、优选地，所述的方法，其中，所述可解释性展示平台展示的内容包括如下中的一项或多项：

28、各动作场均执行次数柱状图；

29、各个特征或动作和达成率的关系折线图；

30、全量特征重要性表格；

31、所述单一其它特征与选定核心特征的关系表；

32、深度学习网络决策树的网络展开图。

33、另一方面，提供了一种使面向多智能体的强化学习可解释的装置，包括存储器和处理器，所述存储器存储有至少一段程序，所述至少一段程序由处理器执行以实现如上文任一所述的方法。

34、又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器执行以实现如文任一所述的方法。

35、上述技术方案具有如下技术效果：

36、本专利技术实施例的技术方案通过所提取的所述样本中的智能体状态特征信息和智能体执行的动作信息进行统计分析，辅助人类了解强化学习模型学到的策略，可以验证人类的策略猜想，并对训练的不足的之处进行调整优化，并最终提升强化学习训练效果和适应性。

37、在进一步的技术方案中，通过统计分析和模仿策略分析，从感知维度和模仿角度等方面给出具体的解释及展示，从而可以辅助人们探索强化学习黑盒空间、理解模型的策略模拟策略、辅助优化模型训练、并提高算法解决问题的能力。

本文档来自技高网...

【技术保护点】

1.一种使面向多智能体强化学习可解释的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤S2包括：

3.根据权利要求1所述的方法，其特征在于，所述步骤S41包括：

4.根据权利要求1所述的方法，其特征在于，所述步骤S42包括：

5.根据权利要求1所述的方法，其特征在于，所述步骤S43包括：

6.根据权利要求1所述的方法，其特征在于，所述可解释性处理还包括：

7.根据权利要求1或6所述的方法，其特征在于，还包括：使用选定的展示形式通过可解释性展示平台展示所述可解释性处理的结果。

8.根据权利要求7所述的方法，其特征在于，所述可解释性展示平台展示的内容包括如下中的一项或多项：

9.一种使面向多智能体的强化学习可解释的装置，其特征在于，包括存储器和处理器，所述存储器存储有至少一段程序，所述至少一段程序由处理器执行以实现如权利要求1至8任一所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处

...

【技术特征摘要】

1.一种使面向多智能体强化学习可解释的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤s2包括：

3.根据权利要求1所述的方法，其特征在于，所述步骤s41包括：

4.根据权利要求1所述的方法，其特征在于，所述步骤s42包括：

5.根据权利要求1所述的方法，其特征在于，所述步骤s43包括：

6.根据权利要求1所述的方法，其特征在于，所述可解释性处理还包括：

7.根据权利要求1或6所述的方法，其特征在于，还包括：...

【专利技术属性】
技术研发人员：钱智毅，黄在斌，洪万福，谢运启，卢超，
申请(专利权)人：厦门渊亭信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人