智能体训练方法、游戏对战方法、装置及电子设备制造方法及图纸

技术编号：41097645 阅读：29 留言：0更新日期：2024-04-25 13:55

本申请提供一种智能体训练方法、游戏对战方法、装置及电子设备，涉及人工智能、网络游戏技术领域。通过初始智能体，在目标游戏的至少一局游戏中针对游戏角色执行至少一次控制操作，每次控制操用于调控初始智能体基于样本游戏事件控制游戏角色进行游戏；每次控制操作时，可通过初始智能体，获取游戏角色在该次控制操作对应的目标事件的事件元组特征，并基于该事件元组特征以及游戏角色的游戏状态特征，预测动作概率分布和状态价值，基于动作概率分布控制游戏角色执行游戏动作；并基于各次控制操作对应的执行结果和状态价值对该初始智能体进行迭代训练，得到智能体。使得智能体持续优化学习游戏竞技能力和完成事件的能力，提高智能体的可控性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能、网络游戏，本申请涉及一种智能体训练方法、游戏对战方法、装置及电子设备。

技术介绍

1、随着互联网技术的发展，网络游戏的类型越来越多，例如，moba（multiplayeronline battle arena，多人在线战术竞技游戏）中，玩家通常被分为两个或多个阵营，在分散的游戏地图中互相竞争，每个玩家控制所选的游戏角色与对方进行对战。本领域中，游戏中的游戏角色不仅可以由玩家控制，还可以由人工智能（artificial intelligence，ai）模型（如智能体）控制游戏角色进行游戏。

2、相关技术中，采用强化学习算法，采用自对弈方式让智能体在训练过程中不断探索和优化，从而学习到智能体认为的最优策略。

3、然而，智能体通常以端到端方式设计的，该方式使得使用者无法介入对智能体的调控，即使智能体在游戏对战中做出不合理行为，使用者也难以控制其行为，因而导致缺乏对智能体的可控性。

技术实现思路

1、本申请提供了一种智能体训练方法、游戏对战方法、装置及电...

【技术保护点】

1.一种智能体训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述游戏角色在所述控制操作对应的目标事件的事件元组特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标事件的事件风格和事件资源，生成所述目标事件的事件元组特征，包括：

4.根据权利要求2所述的方法，其特征在于，所述游戏奖励至少包括与所述目标事件的完成程度对应的事件奖励；

5.根据权利要求4所述的方法，其特征在于，所述执行结果还包括执行所述游戏动作前后的状态差异，所述游戏奖励还包括与所述状态差异对应的状态奖励；

...

【技术特征摘要】

1.一种智能体训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述游戏角色在所述控制操作对应的目标事件的事件元组特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标事件的事件风格和事件资源，生成所述目标事件的事件元组特征，包括：

4.根据权利要求2所述的方法，其特征在于，所述游戏奖励至少包括与所述目标事件的完成程度对应的事件奖励；

6.根据权利要求1所述的方法，其特征在于，所述每次控制操作的执行过程，还包括：

7.根据权利要求6所述的方法，其特征在于，所述获取针对所述游戏角色的游戏轨迹，包括以下至少一项：

8.根据权利要求1-7中任一项所述的方法，其特征在于，所述基于各次控制操作对应的执行结果和状态价值，对所述初...

【专利技术属性】
技术研发人员：王伟轩，陈文慧，王亮，付强，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人