一种基于智能体优化的不完全信息游戏交互方法、存储介质、设备及计算机程序产品技术

技术编号:42467939 阅读:27 留言:0更新日期:2024-08-21 12:53
本发明专利技术公开了一种基于智能体优化的不完全信息游戏交互方法、存储介质、设备及计算机程序产品,包括:将收集的每个游戏信念输入智能体重玩相同的不完全信息游戏,更新游戏信念,进行游戏信念纠错,生成指令;将指令整合到提示中,根据提示中对应的指令使智能体再次重玩相同的不完全信息游戏,若重玩的游戏分数有提高,保留指令;否则,删除指令;将保留的指令基于DFS策略优化,筛选出最优的指令;在新的不完全信息游戏中,本方游戏玩家的智能体根据最优的指令、游戏共有信息和对应游戏玩家的私有信息,生成动作,其他游戏对手的智能体也生成动作,将所有动作输入到不完全信息游戏中进行交互。本发明专利技术提升智能体在不完全信息游戏中的交互能力。

【技术实现步骤摘要】

本专利技术属于不完全信息交互,具体地,涉及一种基于智能体优化的不完全信息游戏交互方法、存储介质、设备及计算机程序产品


技术介绍

1、设计一个具有强大解决问题能力的人工智能体来处理不完全信息游戏一直是学术界的愿景,这需要智能体在各种任务中拥有学习和泛化能力。大语言模型(largelanguage model,llm)的出现揭示了这一愿景,尤其是它们可以在一系列任务中快速推广,许多基于llm的系统显示出显著增强的性能,如问答、代码生成和现实世界应用。

2、尽管取得了这些成就,但构建一个人性化的智能体仍然是一项具有挑战性的工作。首先,不完全信息游戏的应用场景是智能体只能访问自己的状态和公共信息,而不知道其他人的状态,而大多数基于大型语言模型的智能体都是通过复杂的提示为特定任务设计的,包括详细的任务描述和行为规范,在不完全信息游戏中,由于信息不完善且更加复杂,设计的战略行为更为复杂。其次,不完全信息游戏的应用场景中可能存在多个智能体,它们可能相互影响,即一个智能体的行为可能会导致环境的变化,而其他智能体是不可预测的,且大多数基于大型语言模型的智能体不本文档来自技高网...

【技术保护点】

1.一种基于智能体优化的不完全信息游戏交互方法,其特征在于,具体包括如下步骤:

2.根据权利要求1所述的一种基于智能体优化的不完全信息游戏交互方法,其特征在于,步骤1中游戏信念是将不完全信息游戏中游戏共有信息和某一游戏玩家的游戏私有信息作为智能体的输入,由智能体生成的自我信念和环境信念的集合。

3.根据权利要求1所述的一种基于智能体优化的不完全信息游戏交互方法,其特征在于,步骤2中指令生成的过程具体为:将第n次重玩相同的不完全信息游戏的过程、游戏信念纠错后的游戏信念序列、第n次重玩相同的不完全信息游戏的最终结果、第n次重玩相同的不完全信息游戏的游戏分数输入智能体的...

【技术特征摘要】

1.一种基于智能体优化的不完全信息游戏交互方法,其特征在于,具体包括如下步骤:

2.根据权利要求1所述的一种基于智能体优化的不完全信息游戏交互方法,其特征在于,步骤1中游戏信念是将不完全信息游戏中游戏共有信息和某一游戏玩家的游戏私有信息作为智能体的输入,由智能体生成的自我信念和环境信念的集合。

3.根据权利要求1所述的一种基于智能体优化的不完全信息游戏交互方法,其特征在于,步骤2中指令生成的过程具体为:将第n次重玩相同的不完全信息游戏的过程、游戏信念纠错后的游戏信念序列、第n次重玩相同的不完全信息游戏的最终结果、第n次重玩相同的不完全信息游戏的游戏分数输入智能体的大型语言模型中,生成由行动准则和世界建模组成的指令。

4.根据权利要求1所述的一种基于智能体优化的不完全信息游戏交互方法,其特征在于,重玩相同的不完全信息游戏的条件为:具有相同的对手和相同的初始游戏条件。

5.根据权利要求1所述的一种基于智能体优化的不完全信息游戏交互方法,其特征在于,步骤3中指令从提示中删除的具体过程为:...

【专利技术属性】
技术研发人员:汤柯张文祺吴海鲁伟明李鹏
申请(专利权)人:中科南京软件技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1