【技术实现步骤摘要】
本申请涉及人工智能、网络游戏,本申请涉及一种智能体训练方法、游戏对战方法、装置及电子设备。
技术介绍
1、随着互联网技术的发展,网络游戏的类型越来越多,例如,moba(multiplayeronline battle arena,多人在线战术竞技游戏)中,玩家通常被分为两个或多个阵营,在分散的游戏地图中互相竞争,每个玩家控制所选的游戏角色与对方进行对战。本领域中,游戏中的游戏角色不仅可以由玩家控制,还可以由人工智能(artificial intelligence,ai)模型(如智能体)控制游戏角色进行游戏。
2、相关技术中,采用强化学习算法,采用自对弈方式让智能体在训练过程中不断探索和优化,从而学习到智能体认为的最优策略。
3、然而,智能体通常以端到端方式设计的,该方式使得使用者无法介入对智能体的调控,即使智能体在游戏对战中做出不合理行为,使用者也难以控制其行为,因而导致缺乏对智能体的可控性。
技术实现思路
1、本申请提供了一种智能体训练方法、游戏对战方法、装置及电
...【技术保护点】
1.一种智能体训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取所述游戏角色在所述控制操作对应的目标事件的事件元组特征,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述目标事件的事件风格和事件资源,生成所述目标事件的事件元组特征,包括:
4.根据权利要求2所述的方法,其特征在于,所述游戏奖励至少包括与所述目标事件的完成程度对应的事件奖励;
5.根据权利要求4所述的方法,其特征在于,所述执行结果还包括执行所述游戏动作前后的状态差异,所述游戏奖励还包括与所述状态差异对应的状
...
【技术特征摘要】
1.一种智能体训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取所述游戏角色在所述控制操作对应的目标事件的事件元组特征,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述目标事件的事件风格和事件资源,生成所述目标事件的事件元组特征,包括:
4.根据权利要求2所述的方法,其特征在于,所述游戏奖励至少包括与所述目标事件的完成程度对应的事件奖励;
5.根据权利要求4所述的方法,其特征在于,所述执行结果还包括执行所述游戏动作前后的状态差异,所述游戏奖励还包括与所述状态差异对应的状态奖励;
6.根据权利要求1所述的方法,其特征在于,所述每次控制操作的执行过程,还包括:
7.根据权利要求6所述的方法,其特征在于,所述获取针对所述游戏角色的游戏轨迹,包括以下至少一项:
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述基于各次控制操作对应的执行结果和状态价值,对所述初...
【专利技术属性】
技术研发人员:王伟轩,陈文慧,王亮,付强,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。