基于大语言模型的多智能体强化学习探索方法及装置制造方法及图纸

技术编号：42019951 阅读：13 留言：0更新日期：2024-07-16 23:12

本申请涉及大语言模型技术领域，特别涉及一种基于大语言模型的多智能体强化学习探索方法及装置，其中，方法包括：基于预设的至少一个提示模板，利用大语言模型生成关键状态判别函数；基于关键状态判别函数在采样的轨迹中寻找具有显示语义和表达的任务相关的关键状态；将关键状态作为先验信息形式得到多智能体强化学习探索结果。本申请可以通过大语言模型在一轮对话中生成关键状态判别函数来进行后续的关键状态识别，将大语言模型的语言形式的知识引入到决策任务中，极大地减少了由于频繁调用大语言模型带来的成本的同时，可以有效地推动多智能体高效探索。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及大语言模型，特别涉及一种基于大语言模型的多智能体强化学习探索方法及装置。

技术介绍

1、强化学习是机器学习领域研究的一个前沿研究领域，旨在针对序列决策问题求解最优策略。多智能体强化学习需要更进一步地考虑多个智能体的决策问题，这在现实场景中有许多应用，也是目前研究的一个热门方向。在强化学习和多智能体强化学习领域中，实现高效探索是研究者们的一个不懈追求。大语言模型在强化学习和多智能体强化学习领域中显示出了巨大的潜力，在多种下游任务中表现出了引人注目的能力，有越来越多的工作研究开始利用大语言模型丰富的内在知识和能力来解决决策问题。

2、相关技术中，常用的探索方法是引入随机探索或者鼓励最大化多样性或新奇性，这些方法虽然在一些场景下取得了不错的效果，但是由于缺乏有效的与任务相关的引导，因此表现出了明显的冗余探索。还有一些方法强调在代理互动过程中鼓励有影响力的行为，可能会导致意外的联盟或需要额外的人类先验知识。此外，某些研究关注基于子目标的方法，利用子目标来引导有效的探索。

3、而将大语言模型引入决策问题中也仍然存在困难。一个主要挑战在于如何将大语言模型的语言知识整合进通常以符号形式表示的特定任务中。创建语言双胞胎任务是一种方法，但需要大量的人工并且产生显著的成本。一些研究利用大语言模型作为高层规划器，假设存在执行低级控制或能够翻译符号形式状态的预定义模型。尽管取得了显著的进展，但它们过于依赖可能难以获取的高质量低级控制器或翻译模型，这限制了它们的应用，特别是在各种实际情境中。像基于大语言模型的奖励设计或微

4、然而，相关技术中的探索方法要么需要人类专业知识来设计子目标，要么在识别有用的子目标方面存在困难，因此将任务相关信息整合到子目标中时较为困难，且由于难以引入任务相关的先验信息等原因，探索效率较低，如何将大语言模型引入决策问题中，降低成本与时间，满足各种实际情境的应用，实现高效探索，亟待解决。

技术实现思路

1、本申请提供一种基于大语言模型的多智能体强化学习探索方法及装置，以解决相关技术中的探索方法要么需要人类专业知识来设计子目标，要么在识别有用的子目标方面存在困难，因此将任务相关信息整合到子目标中时较为困难，且由于难以引入任务相关的先验信息等原因，探索效率较低，如何将大语言模型引入决策问题中，降低成本与时间，满足各种实际情境的应用，实现高效探索等问题。

2、本申请第一方面实施例提供一种基于大语言模型的多智能体强化学习探索方法，包括以下步骤：基于预设的至少一个提示模板，利用大语言模型生成关键状态判别函数；基于所述关键状态判别函数在采样的轨迹中寻找具有显示语义和表达的任务相关的关键状态；将所述关键状态作为先验信息形式得到多智能体强化学习探索结果。

3、可选地，在本申请的一个实施例中，所述基于所述关键状态判别函数在采样的轨迹中寻找具有显示语义和表达的任务相关的关键状态，包括：接收任一时间步的状态，作为输入变量，并输出表示当前输入状态是否属于其对应的关键状态的布尔值，以对所述轨迹中的每个状态进行识别和标注，得到识别和标注结果；根据所述识别和标注结果确定所述关键状态。

4、可选地，在本申请的一个实施例中，所述将所述关键状态作为先验信息形式得到多智能体强化学习探索结果，包括：在所述轨迹的子轨迹的每个时间步引入内在奖励，以根据所述内在奖励指引所述多智能体训练，并结合外在奖励得到基于子空间的后见内在奖励；基于所述基于子空间的后见内在奖励，利用树状结构记录所述关键状态之间的转换关系以进行基于记忆的探索。

5、可选地，在本申请的一个实施例中，所述内在奖励的表达式为：

6、

7、其中，表示t时间步基于关键状态κm的内在奖励(intrinsic reward)，i表示内在奖励标识，st代表t时刻的状态，m是某一子轨迹的标签，κm是该子轨迹对应的关键状态，||·||代表一种距离度量，如曼哈顿距离；为子空间映射函数，将完整状态空间映射到其中的部分元素组成的子空间vm中，其中e表示状态空间中的某一元素，vm表示状态空间中部分元素张成的子空间，如假设状态空间有5维，其中只有第2和第3维度与奖励有关，则只选择这两个维度来计算距离；φm(κ)表示子空间映射函数。

8、可选地，在本申请的一个实施例中，所述后见内在奖励为：

9、

10、其中，r(t)表示t时间步的后见内在奖励，表示t时间步基于关键状态κm的内在奖励(intrinsic reward)，re(t)表示外在奖励(extrinsic reward)，α、β分别表示外在奖励和内在奖励的缩放因子(scaling factors)。

11、可选地，在本申请的一个实施例中，所述基于子空间的后见内在奖励，利用树状结构记录所述关键状态之间的转换关系以进行基于记忆的探索，包括：基于所述轨迹的关键状态链，在关键状态记忆树中查找对应的枝干，以采样出满足预设最有可能条件的下一个关键状态；将所述下一个关键状态作为轨迹中最后一个子轨迹的目标，以将所述后见内在奖励应用到整条轨迹中。

12、本申请第二方面实施例提供一种基于大语言模型的多智能体强化学习探索装置，包括：生成模块，用于基于预设的至少一个提示模板，利用大语言模型生成关键状态判别函数；寻找模块，用于基于所述关键状态判别函数在采样的轨迹中寻找具有显示语义和表达的任务相关的关键状态；探索模块，用于将所述关键状态作为先验信息形式得到多智能体强化学习探索结果。

13、可选地，在本申请的一个实施例中，所述寻找模块，包括：接收单元，用于接收任一时间步的状态，作为输入变量，并输出表示当前输入状态是否属于其对应的关键状态的布尔值，以对所述轨迹中的每个状态进行识别和标注，得到识别和标注结果；确定单元，用于根据所述识别和标注结果确定所述关键状态。

14、可选地，在本申请的一个实施例中，所述探索模块，包括：训练单元，用于在所述轨迹的子轨迹的每个时间步引入内在奖励，以根据所述内在奖励指引所述多智能体训练，并结合外在奖励得到基于子空间的后见内在奖励；记录单元，用于基于所述基于子空间的后见内在奖励，利用树状结构记录所述关键状态之间的转换关系以进行基于记忆的探索。

15、可选地，在本申请的一个实施例中，所述内在奖励的表达式为：

16、

17、其中，表示t时间步基于关键状态κm的内在奖励(intrinsic reward)，i表示内在奖励标识，st代表t时刻的状态，m是某一子轨迹的标签，κm是该子轨迹对应的关键状态，||·||代表一种距离度量，如曼哈顿距离；为子空间映射函数，将完整状态空间映射到其中的部分元素组成的子空间vm中，其中e表示状态空间中的某一元素，vm表示状态空间中部分元素张成的子空间，如假设状态空间有5维，其中只有第2和第3维度与奖励有关，则只选择这两个维度来计算距离；φm本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的多智能体强化学习探索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述基于所述关键状态判别函数在采样的轨迹中寻找具有显示语义和表达的任务相关的关键状态，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述关键状态作为先验信息形式得到多智能体强化学习探索结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述内在奖励的表达式为：

5.根据权利要求3或4所述的方法，其特征在于，所述后见内在奖励为：

6.根据权利要求4所述的方法，其特征在于，所述基于子空间的后见内在奖励，利用树状结构记录所述关键状态之间的转换关系以进行基于记忆的探索，包括：

7.一种基于大语言模型的多智能体强化学习探索装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-6任一项所述的基于大语言模型的多智能体强化学习探索方法。

9.一种计算

10.一种计算机程序产品，其特征在于，所述计算机程序被执行时，以用于实现如权利要求1-6任一项所述的基于大语言模型的多智能体强化学习探索方法。

...

【技术特征摘要】

1.一种基于大语言模型的多智能体强化学习探索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述基于所述关键状态判别函数在采样的轨迹中寻找具有显示语义和表达的任务相关的关键状态，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述关键状态作为先验信息形式得到多智能体强化学习探索结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述内在奖励的表达式为：

5.根据权利要求3或4所述的方法，其特征在于，所述后见内在奖励为：

6.根据权利要求4所述的方法，其特征在于，所述基于子空间的后见内在奖励，利用树状结构记录所述关键状态之间的转换关系以进行基于记...

【专利技术属性】
技术研发人员：季向阳，曲云，王博源，蒋雨航，邵键准，刘畅，王琦，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人