【技术实现步骤摘要】
本申请涉及大语言模型,特别涉及一种基于大语言模型的多智能体强化学习探索方法及装置。
技术介绍
1、强化学习是机器学习领域研究的一个前沿研究领域,旨在针对序列决策问题求解最优策略。多智能体强化学习需要更进一步地考虑多个智能体的决策问题,这在现实场景中有许多应用,也是目前研究的一个热门方向。在强化学习和多智能体强化学习领域中,实现高效探索是研究者们的一个不懈追求。大语言模型在强化学习和多智能体强化学习领域中显示出了巨大的潜力,在多种下游任务中表现出了引人注目的能力,有越来越多的工作研究开始利用大语言模型丰富的内在知识和能力来解决决策问题。
2、相关技术中,常用的探索方法是引入随机探索或者鼓励最大化多样性或新奇性,这些方法虽然在一些场景下取得了不错的效果,但是由于缺乏有效的与任务相关的引导,因此表现出了明显的冗余探索。还有一些方法强调在代理互动过程中鼓励有影响力的行为,可能会导致意外的联盟或需要额外的人类先验知识。此外,某些研究关注基于子目标的方法,利用子目标来引导有效的探索。
3、而将大语言模型引入决策问题中也仍然存
...【技术保护点】
1.一种基于大语言模型的多智能体强化学习探索方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述基于所述关键状态判别函数在采样的轨迹中寻找具有显示语义和表达的任务相关的关键状态,包括:
3.根据权利要求1所述的方法,其特征在于,所述将所述关键状态作为先验信息形式得到多智能体强化学习探索结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述内在奖励的表达式为:
5.根据权利要求3或4所述的方法,其特征在于,所述后见内在奖励为:
6.根据权利要求4所述的方法,其特征在于,所述基于
...【技术特征摘要】
1.一种基于大语言模型的多智能体强化学习探索方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述基于所述关键状态判别函数在采样的轨迹中寻找具有显示语义和表达的任务相关的关键状态,包括:
3.根据权利要求1所述的方法,其特征在于,所述将所述关键状态作为先验信息形式得到多智能体强化学习探索结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述内在奖励的表达式为:
5.根据权利要求3或4所述的方法,其特征在于,所述后见内在奖励为:
6.根据权利要求4所述的方法,其特征在于,所述基于子空间的后见内在奖励,利用树状结构记录所述关键状态之间的转换关系以进行基于记...
【专利技术属性】
技术研发人员:季向阳,曲云,王博源,蒋雨航,邵键准,刘畅,王琦,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。