一种游戏人工智能控制方法、装置、设备及存储介质制造方法及图纸

技术编号:39261619 阅读:6 留言:0更新日期:2023-10-30 12:14
本申请涉及游戏技术领域,尤其涉及一种游戏人工智能控制方法、装置、设备及存储介质,该方法为:基于选定的各原游戏角色和新游戏角色,获得多个游戏角色组合,基于所述多个游戏角色组合,分别执行游戏模拟对局,获得相应的游戏对战数据,这样,借助强化学习训练策略模型,用于模拟人类玩家操控新游戏角色完成模拟对局,从而预估新游戏角色上线后正式服务器之后的真实胜率以及特性强度,提升了游戏研发效率。率。率。

【技术实现步骤摘要】
一种游戏人工智能控制方法、装置、设备及存储介质


[0001]本申请涉及游戏
,尤其涉及一种游戏人工智能控制方法、装置、设备及存储介质。

技术介绍

[0002]随着网络技术的飞速发展,网络游戏越来越受到人们的喜爱,游戏设计者为了游戏的丰富性和可玩性,通常会制作大量可选的游戏角色和游戏装备,给予游戏玩家更多选择上的自由,但是不论在多人游戏中还是单机游戏中,当游戏玩家使用了自己喜爱的游戏角色,或者选择了一种自己喜欢的游戏装备后发现明显弱于其他选项,游戏玩家将会获得不平等的糟糕体验,进而导致该游戏角色或游戏装备逐渐被游戏玩家所抛弃,降低了游戏的丰富性和可玩性。
[0003]相关技术下,为了确保游戏中不出现明显强于或弱于其他同类设计的选项,以新游戏角色为例,通常会将新游戏角色首先发布在体验服务器,供游戏玩家试玩,游戏设计者对体验服务器中游戏玩家的游戏数据进行统计分析,从而预估新游戏角色在正式服务器中的综合强度。
[0004]然而,体验服务器的游戏玩家较少,游戏的心态与正式服务器差异较大,例如,游戏玩家在体验服务器的对局中态度随意,无竞技精神等。因此,利用该方法进行新游戏角色的综合强度预测存在较大的偏差,并且,多人游戏的每一场对局平均需要十几分钟以上才能结束,采用该方法收集对局数据需要较长的时间,导致新游戏角色的开发周期较长。

技术实现思路

[0005]本申请提供了一种游戏人工智能控制方法及相关装置,用以提高新游戏角色的开发效率。
[0006]第一方面,本申请实施例提供了一种游戏人工智能控制方法,所述方法包括:
[0007]基于选定的各原游戏角色和新游戏角色,获得多个游戏角色组合;
[0008]基于多个游戏角色组合,分别执行游戏模拟对局,获得相应的游戏对战数据,其中,在基于一个游戏角色组合执行游戏模拟对局时,执行以下操作:
[0009]每间隔预设数量的游戏帧,基于当前游戏帧表征的游戏状态信息,针对至少一个后续游戏帧中的各游戏角色,分别获得相应的初始动作指令;
[0010]对各初始动作指令进行预设调整,获得相应的目标动作指令,并采用各目标动作指令,分别控制相应的游戏角色完成对战动作。
[0011]第二方面,本申请实施例还提供了一种游戏人工智能控制装置,所述装置包括:
[0012]分组模块,用于基于选定的各原游戏角色和新游戏角色,获得多个游戏角色组合;
[0013]处理模块,用于基于多个游戏角色组合,分别执行游戏模拟对局,获得相应的游戏对战数据,其中,在基于一个游戏角色组合执行游戏模拟对局时,执行以下操作:
[0014]每间隔预设数量的游戏帧,基于当前游戏帧表征的游戏状态信息,针对至少一个
后续游戏帧中的各游戏角色,分别获得相应的初始动作指令;
[0015]对各初始动作指令进行预设调整,获得相应的目标动作指令,并采用各目标动作指令,分别控制相应的游戏角色完成对战动作。
[0016]在一种可能的实现方式中,基于当前游戏帧表征的游戏状态信息,针对至少一个后续游戏帧中的各游戏角色,分别获得相应的初始动作指令时,处理模块用于:
[0017]基于游戏状态信息,提取当前游戏帧的背景空间特征,各游戏角色各自的战力特征,以及当前游戏帧的对局状态特征;
[0018]将背景空间特征和对局状态特征,分别与各游戏角色各自的战力特征进行特征融合,获得多个目标融合特征;
[0019]基于多个目标融合特征,针对至少一个后续游戏帧中的各游戏角色,分别获得相应的初始动作指令。
[0020]在一种可能的实现方式中,对各初始动作指令进行预设调整,获得相应的目标动作指令时,处理模块用于:
[0021]基于各原游戏角色的历史实战数据获得拟人化参数集,拟人化参数集用于控制对战动作的延迟状态;
[0022]基于拟人化参数集分别对各初始动作指令进行调整,获得相应的目标动作指令。
[0023]在一种可能的实现方式中,基于各原游戏角色的历史实战数据获得拟人化参数集时,处理模块用于:
[0024]基于各原游戏角色,获得多个样本游戏角色组合,并基于多个样本游戏角色组合,分别执行样本游戏模拟对局,获得相应的样本游戏对战数据;
[0025]基于获得的各样本游戏对战数据,获得各原游戏角色对应的强度测试结果;
[0026]根据各原游戏角色的历史实战数据,获得各原游戏角色的实战综合强度;
[0027]基于各原游戏角色的强度测试结果,和各原游戏角色的实战综合强度,获得拟人化参数集。
[0028]在一种可能的实现方式中,基于多个样本游戏角色组合,分别执行样本游戏模拟对局,获得相应的样本游戏对战数据时,处理模块用于:
[0029]在基于一个样本游戏角色组合执行样本游戏模拟对局时,执行以下操作:
[0030]每间隔预设数量的样本游戏帧,基于当前样本游戏帧表征的游戏状态信息,针对至少一个后续样本游戏帧中的各游戏角色,分别获得相应的多个候选样本指令,以及多个候选样本指令对应的收益评估值,收益评估值用于衡量候选样本指令执行后为样本游戏模拟对局带来的收益;
[0031]基于多个候选样本指令对应的收益评估值,确定当前样本游戏帧表征的游戏状态信息对应的权重矩阵,并基于权重矩阵,确定多个候选样本指令各自对应的执行概率;
[0032]基于多个候选样本指令各自对应的执行概率,针对各游戏角色,分别筛选出符合预设概率要求的目标样本指令,并采用各目标样本指令,分别控制相应的游戏角色完成对战动作。
[0033]在一种可能的实现方式中,基于获得的各样本游戏对战数据,获得各原游戏角色对应的强度测试结果之后,处理模块还用于:
[0034]基于各原游戏角色和新游戏角色,获得多个新的样本游戏角色组合,并基于多个
新的样本游戏角色组合,分别执行新的样本游戏模拟对局,获得相应的新的样本游戏对战数据;
[0035]基于获得的新的样本游戏对战数据,获得新游戏角色的强度测试变化率;
[0036]当强度测试变化率满足预设的收敛条件时,确定针对新游戏角色进行人工智能控制的控制环境达到稳定状态。
[0037]在一种可能的实现方式中,收益评估值包括以下至少一种:
[0038]表征候选样本指令为当前的游戏角色带来的经验增长和资源增长的第一子收益评估值;
[0039]表征候选样本指令为当前的游戏角色带来击杀和助攻的第二子收益评估值;
[0040]表征候选样本指令导致当前的样本模拟对局胜负的第三子收益评估值。
[0041]在一种可能的实现方式中,基于选定的各原游戏角色和新游戏角色组成的游戏角色池,获得多个游戏角色组合之前,处理模块还用于:
[0042]获取待上线游戏版本的目标版本信息,基于目标版本信息与运行中的历史版本对应的历史版本信息之间的差异,对游戏模拟对局的执行环境进行更新。
[0043]在一种可能的实现方式中,基于多个游戏角色组合,分别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种游戏人工智能控制方法,其特征在于,包括:基于选定的各原游戏角色和新游戏角色,获得多个游戏角色组合;基于所述多个游戏角色组合,分别执行游戏模拟对局,获得相应的游戏对战数据,其中,在基于一个游戏角色组合执行游戏模拟对局时,执行以下操作:每间隔预设数量的游戏帧,基于当前游戏帧表征的游戏状态信息,针对至少一个后续游戏帧中的各游戏角色,分别获得相应的初始动作指令;对各初始动作指令进行预设调整,获得相应的目标动作指令,并采用各目标动作指令,分别控制相应的游戏角色完成对战动作。2.如权利要求1所述的方法,其特征在于,所述基于当前游戏帧表征的游戏状态信息,针对至少一个后续游戏帧中的各游戏角色,分别获得相应的初始动作指令,包括:基于所述游戏状态信息,提取所述当前游戏帧的背景空间特征,所述各游戏角色各自的战力特征,以及所述当前游戏帧的对局状态特征;将所述背景空间特征和所述对局状态特征,分别与所述各游戏角色各自的战力特征进行特征融合,获得多个目标融合特征;基于所述多个目标融合特征,针对至少一个后续游戏帧中的各游戏角色,分别获得相应的初始动作指令。3.如权利要求1所述的方法,其特征在于,所述对各初始动作指令进行预设调整,获得相应的目标动作指令,包括:基于各原游戏角色的历史实战数据获得拟人化参数集,所述拟人化参数集用于控制对战动作的延迟状态;基于所述拟人化参数集分别对各初始动作指令进行调整,获得相应的目标动作指令。4.如权利要求3所述的方法,其特征在于,所述基于各原游戏角色的历史实战数据获得拟人化参数集,包括:基于所述各原游戏角色,获得多个样本游戏角色组合,并基于所述多个样本游戏角色组合,分别执行样本游戏模拟对局,获得相应的样本游戏对战数据;基于获得的各样本游戏对战数据,获得所述各原游戏角色对应的强度测试结果;根据所述各原游戏角色的历史实战数据,获得所述各原游戏角色的实战综合强度;基于所述各原游戏角色的强度测试结果,和所述各原游戏角色的实战综合强度,获得所述拟人化参数集。5.如权利要求4所述的方法,其特征在于,所述基于所述多个样本游戏角色组合,分别执行样本游戏模拟对局,获得相应的样本游戏对战数据,包括:在基于一个样本游戏角色组合执行样本游戏模拟对局时,执行以下操作:每间隔所述预设数量的样本游戏帧,基于当前样本游戏帧表征的游戏状态信息,针对至少一个后续样本游戏帧中的各游戏角色,分别获得相应的多个候选样本指令,以及所述多个候选样本指令对应的收益评估值,所述收益评估值用于衡量候选样本指令执行后为所述样本游戏模拟对局带来的收益;基于所述多个候选样本指令对应的收益评估值,确定所述当前样本游戏帧表征的游戏状态信息对应的权重矩阵,并基于所述权重矩阵,确定所述多个候选样本指令各自对应的执行概率;
基于所述多个候选样本指令各自对应的执行概率,针对所述各游戏角色,分别筛选出符合预设概率要求的目标样本指令,并采用各目标样本指令,分别控制相应的游戏角色完成对战动作。6.如权利要求4所述的方法,其特征在于,所述基于获得的各样本游戏对战数据,获得所述各原游戏角色对应的强度测试结果之后,还包括...

【专利技术属性】
技术研发人员:程起上杨夏陈光伟袁林俞承驰杨光
申请(专利权)人:深圳市腾讯网络信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1