决策模型的训练方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:33291337 阅读:23 留言:0更新日期:2022-05-01 00:10
本申请实施例公开了一种决策模型的训练方法、装置、设备、存储介质及程序产品,属于人工智能领域。该方法包括:获取各个虚拟角色对应的模型池,模型池中包含虚拟角色对应的各个决策模型,决策模型用于指示虚拟角色在对战时采用的对战策略;在第n轮迭代过程中,基于虚拟角色间对局过程中的对局数据,对各个虚拟角色的第n决策模型进行更新训练,得到各个虚拟角色的第n+1决策模型,以及将各个第n+1决策模型分别添加至对应虚拟角色的模型池中;在满足迭代训练结束条件的情况下,将模型池中最后一轮训练得到的决策模型确定为虚拟角色的目标决策模型。通过针对各个虚拟角色分别训练对应特定决策模型的方式,提高各个虚拟角色对战时的对战胜率。对战胜率。对战胜率。

【技术实现步骤摘要】
决策模型的训练方法、装置、设备、存储介质及程序产品


[0001]本申请实施例涉及人工智能领域,特别涉及一种决策模型的训练方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]目前,在格斗游戏中,玩家可进行人机对战,即玩家可与具备一定策略与决策能力的游戏人工智能体(Artificial Intelligence,AI)进行对战。
[0003]相关技术中,可利用强化学习的方式训练得到AI进行作战。训练过程中,利用不同角色的对战数据对AI决策模型进行训练,优化AI对战策略,从而提高AI对战胜率。该种方式下训练得到的AI决策模型可适用于所有角色,为通用型决策模型。
[0004]然而,格斗游戏中不同角色具有不同的角色特性,比如,包括远攻型、近战型以及防御型的角色,而不同角色在对战时需采用不同策略,若采用通用型决策模型控制虚拟角色进行对战,则可能限制角色特性,AI对战胜率受限。

技术实现思路

[0005]本申请实施例提供了一种决策模型的训练方法、装置、设备、存储介质及程序产品,有助于提高各个虚拟角色基于决策模型对战时本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种决策模型的训练方法,其特征在于,所述方法包括:获取各个虚拟角色对应的模型池,所述模型池中包含所述虚拟角色对应的各个决策模型,所述决策模型用于指示所述虚拟角色在对战时采用的对战策略;在第n轮迭代过程中,基于所述虚拟角色间对局过程中的对局数据,对各个所述虚拟角色的第n决策模型进行更新训练,得到各个所述虚拟角色的第n+1决策模型,以及将各个所述第n+1决策模型分别添加至对应虚拟角色的模型池中,所述第n决策模型是所述模型池中上一轮迭代过程训练得到的模型;在满足迭代训练结束条件的情况下,将所述模型池中最后一轮训练得到的决策模型确定为所述虚拟角色的目标决策模型。2.根据权利要求1所述的方法,其特征在于,所述基于所述虚拟角色间对局过程中的对局数据,对各个所述虚拟角色的第n决策模型进行更新训练,得到各个所述虚拟角色的第n+1决策模型,以及将各个所述第n+1决策模型分别添加至对应虚拟角色的模型池中,包括:基于第i虚拟角色与其他虚拟角色间对局过程中的对局数据,对所述第i虚拟角色的第n决策模型进行更新训练,得到所述第i虚拟角色的第n+1决策模型;将所述第i虚拟角色的第n+1决策模型添加至所述第i虚拟角色对应的模型池中;基于第i+1虚拟角色与其他虚拟角色间对局过程中的对局数据,对所述第i+1虚拟角色的第n决策模型进行更新训练,得到所述第i+1虚拟角色的第n+1决策模型;在将各个所述虚拟角色的第n+1决策模型添加至对应虚拟角色的模型池的情况下,进入第n+1轮迭代过程。3.根据权利要求2所述的方法,其特征在于,所述基于第i虚拟角色与其他虚拟角色间对局过程中的对局数据,对第i角色的第n决策模型进行更新训练,得到所述第i角色的第n+1决策模型,包括:从对战虚拟角色对应的模型池中进行第m次模型采样,得到第m对战决策模型,所述对战虚拟角色是各个所述虚拟角色中除所述第i虚拟角色之外的虚拟角色;基于所述第i虚拟角色的第m

1次优化后的第n决策模型与所述第m对战决策模型,控制所述第i虚拟角色与所述第m对战决策模型所属的第m对战虚拟角色进行对战,得到第m对战结果;基于所述第m对战结果对所述第m

1次优化后的第n决策模型进行参数优化,得到所述第i虚拟角色的第m次优化后的第n决策模型;在满足策略收敛条件的情况下,停止对所述第i虚拟角色的第n决策模型进行参数优化,以及将最后一次优化后的第n决策模型确定为所述第i虚拟角色的第n+1决策模型。4.根据权利要求3所述的方法,其特征在于,所述从对战虚拟角色对应的模型池中进行第m次模型采样,得到第m对战决策模型,包括:从所述对战虚拟角色中进行第m次角色采样,得到所述第m对战虚拟角色;从所述第m对战虚拟角色对应的模型池中进行第m次模型采样,得到所述第m对战决策模型,其中,角色采样与模型采样为虚拟遗憾最小化CFR采样。5.根据权利要求4所述的方法,其特征在于,所述从所述对战虚拟角色中进行第m次角色采样,得到所述第m对战虚拟角色,包括:基于所述对战虚拟角色的第m角色权重,从所述对战虚拟角色中采样得到所述第m对战
虚拟角色;所述从所述第m对战虚拟角色对应的模型池中进行第m次模型采样,得到所述第m对战决策模型,包括:基于所述第m对战虚拟角色对应的模型池中决策模型的第m模型权重,从所述第m对战虚拟角色对应模型池中采样得到所述第m对战决策模型;其中,所述角色权重与所述模型权重与所述第i虚拟角色的对战失败率呈正相关关系。6.根据权利要求5所述的方法,其特征在于,所述控制所述第i虚拟角色与所述第m对战决策模型所属的第m对战虚拟角色进行对战,得到第m对战结果之后,所述方法还包括:基于所述第m对战结果,更新所述第m对战虚拟角色的第一失败率以及所述第m对战决策模型的第二失败率,所述第一失败率是指所述第i虚拟角色与对战虚拟角色对战时第i虚拟角色的失败率,所述第二失败率是指基于对战决策模型,控制所述对战虚拟角色与所述第i虚拟角色对战时所述第i虚拟角色的失败率;基于所述第一失败率更新所述第m角色权重,得到第m+1角色权重;基于所述第二失败率更新所述第m模型权重,得到第m+1模型权重。7.根据权利要求6所述的方法,其特征在于,所述基于所述第二失败率更新所述第m模型权重,得到第m+1模型权重,包括:基于所述第二...

【专利技术属性】
技术研发人员:曹琪扬刘若尘廖詩颺周圆
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1