模型训练的方法、基于交互式应用的对象控制方法及装置制造方法及图纸

技术编号:24508791 阅读:38 留言:0更新日期:2020-06-17 03:24
本申请公开了一种应用于人工智能领域的模型训练方法,包括:获取第一对象所对应的第一状态信息以及第二对象所对应的第二状态信息;基于第一状态信息,通过第一待训练交战网络模型获取第一动作信息;基于第二状态信息,通过第二待训练交战网络模型获取第二动作信息;基于第一状态信息、第二状态信息、第一动作信息以及第二动作信息,通过判别网络模型获取价值期望;根据价值期望对第一待训练交战网络模型的模型参数进行更新,得到第一交战网络模型。本申请还公开了一种基于交互式应用的对象控制方法及装置。本申请能够实现多个非玩家角色之间的协作与配合,减小非玩家角色与真实玩家的操作差异,提升非玩家角色与真实玩家的对战水平。

Model training method, object control method and device based on interactive application

【技术实现步骤摘要】
模型训练的方法、基于交互式应用的对象控制方法及装置
本申请涉及人工智能领域,尤其涉及模型训练的方法、基于交互式应用的对象控制方法及装置。
技术介绍
回合制战斗是游戏中的一种战斗模式,即属于同一方的多个战斗角色通过轮流发动技能,且战斗双方采用轮流攻击的对战方式。如果其中一方的当前战斗角色战亡,则轮到该战亡方的另一战斗角色进行下一轮对战,以此类推,直到其中一方的所有战斗角色均战亡,才会结束回合制战斗。目前,在回合制战斗中一方为真实玩家,而另一方可以非玩家角色(Non-PlayerCharacter,NPC)。NPC主要通过建立决策树的方式来发动攻击,其中,决策树可以通过对相关特征的选取来建立树结构,每个父节点下的子节点表示该节点所有的行为策略。然而,对于建立决策树的方式而言,由于局限于样本数据量较小,NPC能够产生的动作策略比较单一,往往缺乏协作和配合,因此,NPC与真实玩家的操作差异较大,难以在对战的过程中提升NPC与真实玩家的对战水平。
技术实现思路
本申请实施例提供了一种模型训练的方法、基于交互式应用的对象控制方法及装置,能够实现多个NPC之间的协作与配合,减小NPC与真实玩家的操作差异,提升NPC与真实玩家的对战水平。有鉴于此,本申请第一方面提供一种模型训练的方法,包括:获取第一对象所对应的第一状态信息以及第二对象所对应的第二状态信息,其中,第一状态信息与第二状态信息属于第一交互回合所对应的状态信息;基于第一状态信息,通过第一待训练交战网络模型获取第一动作信息;基于第二状态信息,通过第二待训练交战网络模型获取第二动作信息;基于第一状态信息、第二状态信息、第一动作信息以及第二动作信息,通过判别网络模型获取价值期望,其中,判别网络模型与第一待训练交战网络模型具有一一对应的关系;根据价值期望对第一待训练交战网络模型的模型参数进行更新,得到第一交战网络模型。本申请第二方面提供一种基于交互式应用的对象控制方法,包括:获取第一对象所在目标交互回合所对应的目标状态信息;根据第一对象获取第一交战网络模型,其中,第一交战网络模型为上述权利要求1至10中任一项的第一交战网络模型;基于目标状态信息,通过第一交战网络模型获取目标动作信息;根据目标动作信息确定第一索引值以及第二索引值,其中,第一索引值用于指示被攻击对象,第二索引值用于指示交互操作类型;根据第一索引值以及第二索引值,控制第一对象向被攻击对象发起交互操作类型所对应的交互操作。本申请第三方面提供一种模型训练装置,包括:获取模块,用于获取第一对象所对应的第一状态信息以及第二对象所对应的第二状态信息,其中,第一状态信息与第二状态信息属于第一交互回合所对应的状态信息;获取模块,还用于基于第一状态信息,通过第一待训练交战网络模型获取第一动作信息;获取模块,还用于基于第二状态信息,通过第二待训练交战网络模型获取第二动作信息;获取模块,还用于基于第一状态信息、第二状态信息、第一动作信息以及第二动作信息,通过判别网络模型获取价值期望,其中,判别网络模型与第一待训练交战网络模型具有一一对应的关系;训练模块,用于根据获取模块获取的价值期望对第一待训练交战网络模型的模型参数进行更新,得到第一交战网络模型。在一种可能的设计中,在本申请实施例的第三方面的第一种实现方式中,获取模块,具体用于获取第一对象所对应的第一属性信息、第一余量信息、第一职业信息、第一排列信息、回合次数信息以及第一操作信息中的至少一种,其中,第一余量信息为第一对象在第一交互回合下所对应的余量信息;根据第一属性信息、第一余量信息、第一职业信息、第一排列信息、回合次数信息以及第一操作信息中的至少一种,生成第一状态信息,其中,第一状态信息包括P个特征维度,P为大于或等于1的整数;获取第二对象所对应的第二属性信息、第二余量信息、第二职业信息、第二排列信息、回合次数信息以及第二操作信息中的至少一种,其中,第二余量信息为第二对象在第一交互回合下所对应的余量信息;根据第二属性信息、第二余量信息、第二职业信息、第二排列信息、回合次数信息以及第二操作信息中的至少一种,生成第二状态信息,其中,第二状态信息包括P个特征维度。在一种可能的设计中,在本申请实施例的第三方面的第二种实现方式中,获取模块,具体用于基于第一状态信息,通过第一待训练交战网络模型所包括的全连接层,获取第一状态特征向量;基于第一状态特征向量,通过第一待训练交战网络模型所包括的动作输出层,获取N个第一动作输出向量,其中,N为大于或等于1的整数;基于N个第一动作输出向量,通过第一待训练交战网络模型所包括的操作输出层,获取第一策略信息,其中,第一策略信息包括(a×N)个第一元素,a为大于或等于1的整数;从第一策略信息中确定第一目标元素所对应的第一动作信息,其中,第一目标元素为(a×N)个第一元素中的最大值。在一种可能的设计中,在本申请实施例的第三方面的第三种实现方式中,获取模块,具体用于基于第一状态特征向量,通过第一待训练交战网络模型所包括的动作输出层,获取N个第一动作特征向量;根据N个第一动作特征向量以及N个操作掩模向量,获取N个第一动作输出向量,其中,第一动作特征向量与操作掩模向量具有一一对应的关系,操作掩模向量为根据第一交互回合下的可用操作生成的。在一种可能的设计中,在本申请实施例的第三方面的第四种实现方式中,获取模块,具体用于基于第二状态信息,通过第二待训练交战网络模型所包括的全连接层,获取第二状态特征向量;基于第二状态特征向量,通过第二待训练交战网络模型所包括的动作输出层,获取N个第二动作输出向量,其中,N为大于或等于1的整数;基于N个第二动作输出向量,通过第二待训练交战网络模型所包括的操作输出层,获取第二策略信息,其中,第二策略信息包括(a×N)个第二元素,a为大于或等于1的整数;从第二策略信息中确定第二目标元素所对应的第二动作信息,其中,第二目标元素为(a×N)个第二元素中的最大值。在一种可能的设计中,在本申请实施例的第三方面的第五种实现方式中,获取模块,具体用于基于第二状态特征向量,通过第二待训练交战网络模型所包括的动作输出层,获取N个第二动作特征向量;根据N个第二动作特征向量以及N个操作掩模向量,获取N个第二动作输出向量,其中,第二动作特征向量与操作掩模向量具有一一对应的关系,操作掩模向量为根据第一交互回合下的可用操作生成的。在一种可能的设计中,在本申请实施例的第三方面的第六种实现方式中,获取模块,具体用于对第一状态信息以及第二状态信息进行拼接处理,得到全局状态信息;对第一动作信息以及第二动作信息进行拼接处理,得到全局动作信息;基于全局状态信息以及全局动作信息,通过判别网络模型所包括的全连接层,获取价值期望。在一种可能的设计中本文档来自技高网...

【技术保护点】
1.一种模型训练的方法,其特征在于,包括:/n获取第一对象所对应的第一状态信息以及第二对象所对应的第二状态信息,其中,所述第一状态信息与所述第二状态信息属于第一交互回合所对应的状态信息;/n基于所述第一状态信息,通过第一待训练交战网络模型获取第一动作信息;/n基于所述第二状态信息,通过第二待训练交战网络模型获取第二动作信息;/n基于所述第一状态信息、所述第二状态信息、所述第一动作信息以及所述第二动作信息,通过判别网络模型获取价值期望,其中,所述判别网络模型与所述第一待训练交战网络模型具有一一对应的关系;/n根据所述价值期望对所述第一待训练交战网络模型的模型参数进行更新,得到第一交战网络模型。/n

【技术特征摘要】
1.一种模型训练的方法,其特征在于,包括:
获取第一对象所对应的第一状态信息以及第二对象所对应的第二状态信息,其中,所述第一状态信息与所述第二状态信息属于第一交互回合所对应的状态信息;
基于所述第一状态信息,通过第一待训练交战网络模型获取第一动作信息;
基于所述第二状态信息,通过第二待训练交战网络模型获取第二动作信息;
基于所述第一状态信息、所述第二状态信息、所述第一动作信息以及所述第二动作信息,通过判别网络模型获取价值期望,其中,所述判别网络模型与所述第一待训练交战网络模型具有一一对应的关系;
根据所述价值期望对所述第一待训练交战网络模型的模型参数进行更新,得到第一交战网络模型。


2.根据权利要求1所述的方法,其特征在于,所述基于所述第一状态信息,通过第一待训练交战网络模型获取第一动作信息,包括:
基于所述第一状态信息,通过所述第一待训练交战网络模型所包括的全连接层,获取第一状态特征向量;
基于所述第一状态特征向量,通过所述第一待训练交战网络模型所包括的动作输出层,获取N个第一动作输出向量,其中,所述N为大于或等于1的整数;
基于所述N个第一动作输出向量,通过所述第一待训练交战网络模型所包括的操作输出层,获取第一策略信息,其中,所述第一策略信息包括(a×N)个第一元素,所述a为大于或等于1的整数;
从所述第一策略信息中确定第一目标元素所对应的第一动作信息,其中,所述第一目标元素为所述(a×N)个第一元素中的最大值。


3.根据权利要求2所述的方法,其特征在于,所述基于所述第一状态特征向量,通过所述第一待训练交战网络模型所包括的动作输出层,获取N个第一动作输出向量,包括:
基于所述第一状态特征向量,通过所述第一待训练交战网络模型所包括的动作输出层,获取N个第一动作特征向量;
根据所述N个第一动作特征向量以及N个操作掩模向量,获取所述N个第一动作输出向量,其中,所述第一动作特征向量与所述操作掩模向量具有一一对应的关系,所述操作掩模向量为根据所述第一交互回合下的可用操作生成的。


4.根据权利要求1所述的方法,其特征在于,所述基于所述第二状态信息,通过第二待训练交战网络模型获取第二动作信息,包括:
基于所述第二状态信息,通过所述第二待训练交战网络模型所包括的全连接层,获取第二状态特征向量;
基于所述第二状态特征向量,通过所述第二待训练交战网络模型所包括的动作输出层,获取N个第二动作输出向量,其中,所述N为大于或等于1的整数;
基于所述N个第二动作输出向量,通过所述第二待训练交战网络模型所包括的操作输出层,获取第二策略信息,其中,所述第二策略信息包括(a×N)个第二元素,所述a为大于或等于1的整数;
从所述第二策略信息中确定第二目标元素所对应的第二动作信息,其中,所述第二目标元素为所述(a×N)个第二元素中的最大值。


5.根据权利要求4所述的方法,其特征在于,所述基于所述第二状态特征向量,通过所述第二待训练交战网络模型所包括的动作输出层,获取N个第二动作输出向量,包括:
基于所述第二状态特征向量,通过所述第二待训练交战网络模型所包括的动作输出层,获取N个第二动作特征向量;
根据所述N个第二动作特征向量以及N个操作掩模向量,获取所述N个第二动作输出向量,其中,所述第二动作特征向量与所述操作掩模向量具有一一对应的关系,所述操作掩模向量为根据所述第一交互回合下的可用操作生成的。


6.根据权利要求1至5中任一项所述的方法,其特征在于,所述基于所述第一状态信息、所述第二状态信息、所述第一动作信息以及所述第二动作信息,通过判别网络模型获取价值期望,包括:
对所述第一状态信息以及所述第二状态信息进行拼接处理,得到全局状态信息;
对所述第一动作信息以及所述第二动作信息进行拼接处理,得到全局动作信息;
基于所述全局状态信息以及所述全局动作信息,通过所述判别网络模型所包括的全连接层,获取所述价值期望。


7.根据权利要求1所述的方法,其特征在于,所述根据所述价值期望对所述第一待训练交战网络模型的模型参数进行更新,得到第一交战网络模型之后,所述方法还包括:
获取所述第一对象所对应的第三状态信息以及所述第二对象所对应的第四状态信息,其中,所述第三状态信息与所述第四状态信息属于第二交互回合所对应的状态信息;
基于所述第三状态信息,通过所述第一交战网络模型获取第三动作信息;
基于所述第四状态信息,通过第二交战网络模型获取第四动作信息,其中,所述第二交战网络模型为对所述第二待训练交战网络模型的模型参数进行更新后得到的;
获取所述第二交战回合所对应的目标奖励值;
根据所述目标奖励值、所述第三动作信息以及...

【专利技术属性】
技术研发人员:常天元
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1