【技术实现步骤摘要】
本专利技术属于不完全信息交互,具体地,涉及一种基于智能体优化的不完全信息游戏交互方法、存储介质、设备及计算机程序产品。
技术介绍
1、设计一个具有强大解决问题能力的人工智能体来处理不完全信息游戏一直是学术界的愿景,这需要智能体在各种任务中拥有学习和泛化能力。大语言模型(largelanguage model,llm)的出现揭示了这一愿景,尤其是它们可以在一系列任务中快速推广,许多基于llm的系统显示出显著增强的性能,如问答、代码生成和现实世界应用。
2、尽管取得了这些成就,但构建一个人性化的智能体仍然是一项具有挑战性的工作。首先,不完全信息游戏的应用场景是智能体只能访问自己的状态和公共信息,而不知道其他人的状态,而大多数基于大型语言模型的智能体都是通过复杂的提示为特定任务设计的,包括详细的任务描述和行为规范,在不完全信息游戏中,由于信息不完善且更加复杂,设计的战略行为更为复杂。其次,不完全信息游戏的应用场景中可能存在多个智能体,它们可能相互影响,即一个智能体的行为可能会导致环境的变化,而其他智能体是不可预测的,且大多数基于大
...【技术保护点】
1.一种基于智能体优化的不完全信息游戏交互方法,其特征在于,具体包括如下步骤:
2.根据权利要求1所述的一种基于智能体优化的不完全信息游戏交互方法,其特征在于,步骤1中游戏信念是将不完全信息游戏中游戏共有信息和某一游戏玩家的游戏私有信息作为智能体的输入,由智能体生成的自我信念和环境信念的集合。
3.根据权利要求1所述的一种基于智能体优化的不完全信息游戏交互方法,其特征在于,步骤2中指令生成的过程具体为:将第n次重玩相同的不完全信息游戏的过程、游戏信念纠错后的游戏信念序列、第n次重玩相同的不完全信息游戏的最终结果、第n次重玩相同的不完全信息游戏的
...【技术特征摘要】
1.一种基于智能体优化的不完全信息游戏交互方法,其特征在于,具体包括如下步骤:
2.根据权利要求1所述的一种基于智能体优化的不完全信息游戏交互方法,其特征在于,步骤1中游戏信念是将不完全信息游戏中游戏共有信息和某一游戏玩家的游戏私有信息作为智能体的输入,由智能体生成的自我信念和环境信念的集合。
3.根据权利要求1所述的一种基于智能体优化的不完全信息游戏交互方法,其特征在于,步骤2中指令生成的过程具体为:将第n次重玩相同的不完全信息游戏的过程、游戏信念纠错后的游戏信念序列、第n次重玩相同的不完全信息游戏的最终结果、第n次重玩相同的不完全信息游戏的游戏分数输入智能体的大型语言模型中,生成由行动准则和世界建模组成的指令。
4.根据权利要求1所述的一种基于智能体优化的不完全信息游戏交互方法,其特征在于,重玩相同的不完全信息游戏的条件为:具有相同的对手和相同的初始游戏条件。
5.根据权利要求1所述的一种基于智能体优化的不完全信息游戏交互方法,其特征在于,步骤3中指令从提示中删除的具体过程为:...
【专利技术属性】
技术研发人员:汤柯,张文祺,吴海,鲁伟明,李鹏,
申请(专利权)人:中科南京软件技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。