【技术实现步骤摘要】
模型训练的方法、基于交互式应用的对象控制方法及装置
本申请涉及人工智能领域,尤其涉及模型训练的方法、基于交互式应用的对象控制方法及装置。
技术介绍
回合制战斗是游戏中的一种战斗模式,即属于同一方的多个战斗角色通过轮流发动技能,且战斗双方采用轮流攻击的对战方式。如果其中一方的当前战斗角色战亡,则轮到该战亡方的另一战斗角色进行下一轮对战,以此类推,直到其中一方的所有战斗角色均战亡,才会结束回合制战斗。目前,在回合制战斗中一方为真实玩家,而另一方可以非玩家角色(Non-PlayerCharacter,NPC)。NPC主要通过建立决策树的方式来发动攻击,其中,决策树可以通过对相关特征的选取来建立树结构,每个父节点下的子节点表示该节点所有的行为策略。然而,对于建立决策树的方式而言,由于局限于样本数据量较小,NPC能够产生的动作策略比较单一,往往缺乏协作和配合,因此,NPC与真实玩家的操作差异较大,难以在对战的过程中提升NPC与真实玩家的对战水平。
技术实现思路
本申请实施例提供了一种模型训练的方法、基于交互式应用的对象控制方法及装置,能够实现多个NPC之间的协作与配合,减小NPC与真实玩家的操作差异,提升NPC与真实玩家的对战水平。有鉴于此,本申请第一方面提供一种模型训练的方法,包括:获取第一对象所对应的第一状态信息以及第二对象所对应的第二状态信息,其中,第一状态信息与第二状态信息属于第一交互回合所对应的状态信息;基于第一状态信息,通过第一待训练交战网络模型获取第一动 ...
【技术保护点】
1.一种模型训练的方法,其特征在于,包括:/n获取第一对象所对应的第一状态信息以及第二对象所对应的第二状态信息,其中,所述第一状态信息与所述第二状态信息属于第一交互回合所对应的状态信息;/n基于所述第一状态信息,通过第一待训练交战网络模型获取第一动作信息;/n基于所述第二状态信息,通过第二待训练交战网络模型获取第二动作信息;/n基于所述第一状态信息、所述第二状态信息、所述第一动作信息以及所述第二动作信息,通过判别网络模型获取价值期望,其中,所述判别网络模型与所述第一待训练交战网络模型具有一一对应的关系;/n根据所述价值期望对所述第一待训练交战网络模型的模型参数进行更新,得到第一交战网络模型。/n
【技术特征摘要】
1.一种模型训练的方法,其特征在于,包括:
获取第一对象所对应的第一状态信息以及第二对象所对应的第二状态信息,其中,所述第一状态信息与所述第二状态信息属于第一交互回合所对应的状态信息;
基于所述第一状态信息,通过第一待训练交战网络模型获取第一动作信息;
基于所述第二状态信息,通过第二待训练交战网络模型获取第二动作信息;
基于所述第一状态信息、所述第二状态信息、所述第一动作信息以及所述第二动作信息,通过判别网络模型获取价值期望,其中,所述判别网络模型与所述第一待训练交战网络模型具有一一对应的关系;
根据所述价值期望对所述第一待训练交战网络模型的模型参数进行更新,得到第一交战网络模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一状态信息,通过第一待训练交战网络模型获取第一动作信息,包括:
基于所述第一状态信息,通过所述第一待训练交战网络模型所包括的全连接层,获取第一状态特征向量;
基于所述第一状态特征向量,通过所述第一待训练交战网络模型所包括的动作输出层,获取N个第一动作输出向量,其中,所述N为大于或等于1的整数;
基于所述N个第一动作输出向量,通过所述第一待训练交战网络模型所包括的操作输出层,获取第一策略信息,其中,所述第一策略信息包括(a×N)个第一元素,所述a为大于或等于1的整数;
从所述第一策略信息中确定第一目标元素所对应的第一动作信息,其中,所述第一目标元素为所述(a×N)个第一元素中的最大值。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一状态特征向量,通过所述第一待训练交战网络模型所包括的动作输出层,获取N个第一动作输出向量,包括:
基于所述第一状态特征向量,通过所述第一待训练交战网络模型所包括的动作输出层,获取N个第一动作特征向量;
根据所述N个第一动作特征向量以及N个操作掩模向量,获取所述N个第一动作输出向量,其中,所述第一动作特征向量与所述操作掩模向量具有一一对应的关系,所述操作掩模向量为根据所述第一交互回合下的可用操作生成的。
4.根据权利要求1所述的方法,其特征在于,所述基于所述第二状态信息,通过第二待训练交战网络模型获取第二动作信息,包括:
基于所述第二状态信息,通过所述第二待训练交战网络模型所包括的全连接层,获取第二状态特征向量;
基于所述第二状态特征向量,通过所述第二待训练交战网络模型所包括的动作输出层,获取N个第二动作输出向量,其中,所述N为大于或等于1的整数;
基于所述N个第二动作输出向量,通过所述第二待训练交战网络模型所包括的操作输出层,获取第二策略信息,其中,所述第二策略信息包括(a×N)个第二元素,所述a为大于或等于1的整数;
从所述第二策略信息中确定第二目标元素所对应的第二动作信息,其中,所述第二目标元素为所述(a×N)个第二元素中的最大值。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第二状态特征向量,通过所述第二待训练交战网络模型所包括的动作输出层,获取N个第二动作输出向量,包括:
基于所述第二状态特征向量,通过所述第二待训练交战网络模型所包括的动作输出层,获取N个第二动作特征向量;
根据所述N个第二动作特征向量以及N个操作掩模向量,获取所述N个第二动作输出向量,其中,所述第二动作特征向量与所述操作掩模向量具有一一对应的关系,所述操作掩模向量为根据所述第一交互回合下的可用操作生成的。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述基于所述第一状态信息、所述第二状态信息、所述第一动作信息以及所述第二动作信息,通过判别网络模型获取价值期望,包括:
对所述第一状态信息以及所述第二状态信息进行拼接处理,得到全局状态信息;
对所述第一动作信息以及所述第二动作信息进行拼接处理,得到全局动作信息;
基于所述全局状态信息以及所述全局动作信息,通过所述判别网络模型所包括的全连接层,获取所述价值期望。
7.根据权利要求1所述的方法,其特征在于,所述根据所述价值期望对所述第一待训练交战网络模型的模型参数进行更新,得到第一交战网络模型之后,所述方法还包括:
获取所述第一对象所对应的第三状态信息以及所述第二对象所对应的第四状态信息,其中,所述第三状态信息与所述第四状态信息属于第二交互回合所对应的状态信息;
基于所述第三状态信息,通过所述第一交战网络模型获取第三动作信息;
基于所述第四状态信息,通过第二交战网络模型获取第四动作信息,其中,所述第二交战网络模型为对所述第二待训练交战网络模型的模型参数进行更新后得到的;
获取所述第二交战回合所对应的目标奖励值;
根据所述目标奖励值、所述第三动作信息以及...
【专利技术属性】
技术研发人员:常天元,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。