FPS游戏的AI模型训练方法、装置、设备和存储介质制造方法及图纸

技术编号:30892451 阅读:16 留言:0更新日期:2021-11-22 23:33
本发明专利技术公开了一种FPS游戏的AI模型训练方法,包括:基于FPS游戏的AI模型获取虚拟角色在当前时间步的第一状态动作价值以及在下一时间步的第二状态动作价值;计算第一状态动作价值和第二状态动作价值的价值差值作为预测奖励;根据预测奖励和实际奖励计算损失函数;实际奖励通过预设的奖励机制计算得到;奖励机制包括:确定虚拟角色在预设的移动方向上的路况类型,根据路况类型和虚拟角色的实际移动方向计算实际奖励;根据损失函数对模型进行优化,直至损失函数收敛。采用本发明专利技术实施例,能够针对复杂的游戏场景进行有效的局面分析,使得训练后的AI模型输出的虚拟角色行为能够更好的模拟真实人类行为,提高用户的游戏体验。提高用户的游戏体验。提高用户的游戏体验。

【技术实现步骤摘要】
FPS游戏的AI模型训练方法、装置、设备和存储介质


[0001]本专利技术涉及模型训练方法,尤其涉及一种FPS游戏的AI模型训练方法、装置、设备和存储介质。

技术介绍

[0002]随着电子竞技行业的逐步发展,第一人称视觉类射击游戏(First

personshootinggame,FPS)越来越受到广泛的关注。对于FPS游戏而言,为保证用户在游戏过程中的良好体验,往往需要构建AI模型并对其进行训练,从而使得该AI模型能够良好地应用在FPS游戏中。现有的游戏模型一般仅能处理相对较为简单的游戏场景,并遵循基础的游戏规则提供游戏策略。虚拟角色根据游戏策略在虚拟场景中做出的动作为用户提供沉浸感和真实性,而这种沉浸感和真实性来源于虚拟角色在虚拟场景中所采取动作的合理性,对于角色是人的虚拟角色而言,人们希望虚拟角色的行为动作都与真实的人尽可能地相似。当面对复杂的游戏场景或者复杂的游戏规则时,比如障碍物判断,游戏模型难以做出有效的局面分析,自然也很难给准确地障碍物判断结果,可能会误导虚拟角色朝着存在障碍物的移动方向移动,导致AI模型使输出的虚拟角色行为与真实人类行为相差甚远,进而导致用户无法很好的融入到游戏环境中,影响用户的游戏体验。

技术实现思路

[0003]本专利技术实施例的目的是提供一种FPS游戏的AI模型训练方法、装置、设备和存储介质,能够针对复杂的游戏场景能够进行有效的局面分析,使得训练后的AI模型输出的虚拟角色行为能够更好的模拟真实人类行为,提高用户的游戏体验。
[0004]为实现上述目的,本专利技术实施例提供了一种FPS游戏的AI模型训练方法,包括:
[0005]基于FPS游戏的AI模型获取虚拟角色在当前时间步的第一状态动作价值以及在下一时间步的第二状态动作价值;
[0006]计算所述第一状态动作价值和所述第二状态动作价值的价值差值作为预测奖励;
[0007]根据所述预测奖励和实际奖励计算所述FPS游戏的AI模型的损失函数;其中,所述实际奖励通过预设的奖励机制计算得到;所述奖励机制包括:确定所述虚拟角色在预设的移动方向上的路况类型,根据所述路况类型以及所述虚拟角色的实际移动方向计算实际奖励;
[0008]根据所述损失函数对所述FPS游戏的AI模型进行优化,直至所述损失函数收敛。
[0009]作为上述方案的改进,确定所述虚拟角色在预设的移动方向上的路况类型,包括:
[0010]以所述虚拟角色当前所处位置向所述移动方向发射两条平行射线;其中,所述两条平行射线的高度差满足预设的高度差阈值;
[0011]在当前时间步的当前帧检测所述两条平行射线的射线探测情况;
[0012]根据所述射线探测情况确定在所述移动方向上的障碍物检测情况;
[0013]根据所述障碍物检测情况确定所述虚拟角色在所述移动方向上的路况类型。
[0014]作为上述方案的改进,根据所述射线探测情况确定在所述移动方向上的障碍物检测情况,包括:
[0015]当所述射线探测情况为在所述当前时间步的当前帧未检测到有射线返回距离值时,确定该射线在所述移动方向上未检测到障碍物;
[0016]当所述射线探测情况为在所述当前时间步的当前帧检测到有射线返回距离值时,确定该射线在所述移动方向上检测到障碍物。
[0017]作为上述方案的改进,所述路况类型包括无障碍可通行路况、斜坡可通行路况、有障碍可通行路况和有障碍不可通行路况中的至少一种。
[0018]作为上述方案的改进,根据所述路况类型以及所述虚拟角色的实际移动方向计算实际奖励,包括:
[0019]当所述虚拟角色的实际移动方向为朝着无障碍可通行路况或斜坡可通行路况移动时,给予正向奖励;
[0020]当所述虚拟角色的实际移动方向为朝着有障碍不可通行路况移动时,给予负向奖励;
[0021]当所述虚拟角色的实际移动方向为朝着有障碍可通行路况移动,且检测到所述虚拟角色采取跳跃动作时,给予正向奖励;
[0022]当所述虚拟角色的实际移动方向为朝着有障碍可通行路况移动,且检测到所述虚拟角色未采取跳跃动作时,给予负向奖励。
[0023]作为上述方案的改进,所述FPS游戏的AI模型包括第一网络和第二网络;则,基于FPS游戏的AI模型获取虚拟角色在当前时间步的第一状态动作价值以及在下一时间步的第二状态动作价值,包括:
[0024]获取所述虚拟角色在当前时间步的第一状态信息和第一动作信息;
[0025]将所述第一状态信息和所述第一动作信息输入到所述第一网络中,得到所述虚拟角色在当前时间步的第一状态动作价值;
[0026]获取所述虚拟角色在下一时间步的第二状态信息;
[0027]将所述第二状态信息输入到所述第二网络中,得到第二动作信息;
[0028]将所述第二状态信息和所述第二动作信息输入到所述第一网络中,得到所述虚拟角色在下一时间步的第二状态动作价值。
[0029]为实现上述目的,本专利技术实施例还提供了一种FPS游戏的AI模型训练装置,包括:
[0030]数据获取单元,用于基于FPS游戏的AI模型获取虚拟角色在当前时间步的第一状态动作价值以及在下一时间步的第二状态动作价值;
[0031]训练单元,用于:
[0032]计算所述第一状态动作价值和所述第二状态动作价值的价值差值作为预测奖励;
[0033]根据所述预测奖励和实际奖励计算所述FPS游戏的AI模型的损失函数;其中,所述实际奖励通过预设的奖励机制计算得到;所述奖励机制包括:确定所述虚拟角色在预设的移动方向上的路况类型,根据所述路况类型以及所述虚拟角色的实际移动方向计算实际奖励;
[0034]根据所述损失函数对所述FPS游戏的AI模型进行优化,直至所述损失函数收敛。
[0035]作为上述方案的改进,确定所述虚拟角色在预设的移动方向上的路况类型,包括:
[0036]以所述虚拟角色当前所处位置向所述移动方向发射两条平行射线;其中,所述两条平行射线的高度差满足预设的高度差阈值;
[0037]在当前时间步的当前帧检测所述两条平行射线的射线探测情况;
[0038]根据所述射线探测情况确定在所述移动方向上的障碍物检测情况;
[0039]根据所述障碍物检测情况确定所述虚拟角色在所述移动方向上的路况类型。
[0040]为实现上述目的,本专利技术实施例还提供了一种FPS游戏的AI模型训练设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一实施例所述的FPS游戏的AI模型训练方法。
[0041]为实现上述目的,本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一实施例所述的FPS游戏的AI模型训练方法。
[0042]相比于现有技术,本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种FPS游戏的AI模型训练方法,其特征在于,包括:基于FPS游戏的AI模型获取虚拟角色在当前时间步的第一状态动作价值以及在下一时间步的第二状态动作价值;计算所述第一状态动作价值和所述第二状态动作价值的价值差值作为预测奖励;根据所述预测奖励和实际奖励计算所述FPS游戏的AI模型的损失函数;其中,所述实际奖励通过预设的奖励机制计算得到;所述奖励机制包括:确定所述虚拟角色在预设的移动方向上的路况类型,根据所述路况类型以及所述虚拟角色的实际移动方向计算实际奖励;根据所述损失函数对所述FPS游戏的AI模型进行优化,直至所述损失函数收敛。2.如权利要求1所述的FPS游戏的AI模型训练方法,其特征在于,确定所述虚拟角色在预设的移动方向上的路况类型,包括:以所述虚拟角色当前所处位置向所述移动方向发射两条平行射线;其中,所述两条平行射线的高度差满足预设的高度差阈值;在当前时间步的当前帧检测所述两条平行射线的射线探测情况;根据所述射线探测情况确定在所述移动方向上的障碍物检测情况;根据所述障碍物检测情况确定所述虚拟角色在所述移动方向上的路况类型。3.如权利要求2所述的FPS游戏的AI模型训练方法,其特征在于,根据所述射线探测情况确定在所述移动方向上的障碍物检测情况,包括:当所述射线探测情况为在所述当前时间步的当前帧未检测到有射线返回距离值时,确定该射线在所述移动方向上未检测到障碍物;当所述射线探测情况为在所述当前时间步的当前帧检测到有射线返回距离值时,确定该射线在所述移动方向上检测到障碍物。4.如权利要求1所述的FPS游戏的AI模型训练方法,其特征在于,所述路况类型包括无障碍可通行路况、斜坡可通行路况、有障碍可通行路况和有障碍不可通行路况中的至少一种。5.如权利要求4所述的FPS游戏的AI模型训练方法,其特征在于,根据所述路况类型以及所述虚拟角色的实际移动方向计算实际奖励,包括:当所述虚拟角色的实际移动方向为朝着无障碍可通行路况或斜坡可通行路况移动时,给予正向奖励;当所述虚拟角色的实际移动方向为朝着有障碍不可通行路况移动时,给予负向奖励;当所述虚拟角色的实际移动方向为朝着有障碍可通行路况移动,且检测到所述虚拟角色采取跳跃动作时,给予正向奖励;当所述虚拟角色的实际移动方向为朝着有障碍可通行路况移动,且检测到所述虚拟角色未采取跳跃动作时,给予负向奖励。6.如权利要求1所述的FPS游戏的AI...

【专利技术属性】
技术研发人员:刘舟徐键滨吴梓辉徐雅王理平
申请(专利权)人:广州三七极耀网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1